Aitor Álvarez defiende su tesis doctoral: Tecnologías del Habla aplicadas al entorno Audiovisual y de Interacción Multimedia

05.08.2016

El progreso de la tecnología, la disponibilidad y fácil acceso a potentes máquinas y dispositivos electrónicos, las redes sociales, el espacio ilimitado que ofrece Internet para almacenar contenidos y, en definitiva, todo lo que engloba la nueva era digital, ha provocado un incremento ingente de los contenidos multimedia que se generan cada día y que son compartidos públicamente para su consumo. Estos contenidos multimedia pueden contener texto, imágenes, videos y/o audio.  

La creación de estas enormes cantidades de contenidos ha provocado la necesidad de avanzar en nuevos mecanismos de almacenaje, en la gestión e indexación de estos contenidos y en la extracción de información semántica a través de análisis automáticos para diferentes aplicaciones y dominios, como el de seguridad, vigilancia, consulta y recuperación, el sector audiovisual o el ámbito forense, entre otros. En lo referente al análisis del audio, su campo de aplicación es muy amplio, así como la cantidad y tipo de información que puede extraerse de un sólo contenido. Dependiendo del tipo de aplicación, el análisis del audio puede englobar la extracción de información a nivel lingüístico (transcripción del habla), idiomático, paralingüistico (emociones, estados de ánimo), de hablantes (número, género, segmentación, identificación), acústico (entorno, ruidos de fondo, ruidos específicos o aislados), clasificación de audio (por tipo de segmentos) o de análisis musical. El análisis del audio debe lidiar continuamente con la amplia variabilidad originada por la diversidad en las fuentes del sonido a nivel de hablantes, entornos acústicos, volúmenes, acentos, tipos de habla, solapamientos, etc. Muchos de estos aspectos representan todavía un reto científico en la comunidad. La naturaleza estadística de las tecnologías desarrolladas para el análisis del audio hace además que la necesidad de adaptación de la tecnología sea todavía una necesidad cuando ha de aplicarse en dominios dispares al de los datos de entrenamiento.  

En esta memoria de tesis, se analiza el estado actual de algunas tecnologías de análisis del audio y procesamiento del habla aplicadas a sectores como el audiovisual y el de interacción persona-máquina, y se describen tanto su aportación a las mismas como las nuevas contribuciones realizadas al estado del arte. Finalmente, se describen soluciones tecnológicas desarrolladas y su transferencia a diferentes entidades para su uso en la Industria.

Este trabajo ha sido dirigido por Prof. Antonio Arruti Illarramendi, de la Universidad del País Vasco (UPV/EHU) y Dra. María Arantzazu del Pozo Echezarreta, Directora del Departamento de Tecnologías del Habla y del Lenguaje Natural de Vicomtech-IK4. Prof. Basilio Sierra Araujo (UPV/EHU), Prof. Mari Carmen García Mateo (Universidad de Vigo) y Dra. Anna María Matamala Ripoll (Universidad Autónoma de Barcelona) han formado el tribunal de esta tesis doctoral que se ha defendido en la Facultad de Informática de la UPV/EHU, en San Sebastián, con fecha 22 de julio de 2016.

Vicomtech

Parque Científico y Tecnológico de Gipuzkoa,
Paseo Mikeletegi 57,
20009 Donostia / San Sebastián (España)

+(34) 943 309 230

close overlay