Speech Technologies for the Audiovisual and Multimedia Interaction Environments

El progreso de la tecnología, la disponibilidad y fácil acceso a potentes máquinas y dispositivos electrónicos, las redes sociales, el espacio ilimitado que ofrece Internet para almacenar contenidos y, en definitiva, todo lo que engloba la nueva era digital, ha provocado un incremento ingente de los contenidos multimedia que se generan cada día y que son compartidos públicamente para su consumo. Estos contenidos multimedia pueden contener texto, imágenes, videos y/o audio.   La creación de estas enormes cantidades de contenidos ha provocado la necesidad de avanzar en nuevos mecanismos de almacenaje, en la gestión e indexación de estos contenidos y en la extracción de información semántica a través de análisis automáticos para diferentes aplicaciones y dominios, como el de seguridad, vigilancia, consulta y recuperación, el sector audiovisual o el ámbito forense, entre otros. En lo referente al análisis del audio, su campo de aplicación es muy amplio, así como la cantidad y tipo de información que puede extraerse de un sólo contenido. Dependiendo del tipo de aplicación, el análisis del audio puede englobar la extracción de información a nivel lingüístico (transcripción del habla), idiomático, paralingüistico (emociones, estados de ánimo), de hablantes (número, género, segmentación, identificación), acústico (entorno, ruidos de fondo, ruidos específicos o aislados), clasificación de audio (por tipo de segmentos) o de análisis musical. El análisis del audio debe lidiar continuamente con la amplia variabilidad originada por la diversidad en las fuentes del sonido a nivel de hablantes, entornos acústicos, volúmenes, acentos, tipos de habla, solapamientos, etc. Muchos de estos aspectos representan todavía un reto científico en la comunidad. La naturaleza estadística de las tecnologías desarrolladas para el análisis del audio hace además que la necesidad de adaptación de la tecnología sea todavía una necesidad cuando ha de aplicarse en dominios dispares al de los datos de entrenamiento.   En esta memoria de tesis, se analiza el estado actual de algunas tecnologías de análisis del audio y procesamiento del habla aplicadas a sectores como el audiovisual y el de interacción persona-máquina, y se describen tanto su aportación a las mismas como las nuevas contribuciones realizadas al estado del arte. Finalmente, se describen soluciones tecnológicas desarrolladas y su transferencia a diferentes entidades para su uso en la Industria.

Fecha

2016-07-22

Lugar

Facultad Informática, Donostia-San Sebastián

Abstract

The progress of technology, the easy access to powerful machines and electronic devices, social networks, the unlimited storing space on the Internet and ultimately, all that encompasses the new Digital Era, have driven a huge increase of the amount of contents that are created and publicly shared on a daily basis. These contents may include text, images, video and/or audio.   The generation of such vast amount of contents has led to the advancement of new methodologies for their optimal indexing and mining and for the automatic extraction of semantic information in different applications and domains, such as the security, surveillance, information access and retrieval, audiovisual or forensics sectors, among others.   Concerning audio analysis, it can be used in a wide range of applications considering the large amount of information that can be extracted from each audio content. Depending on the type of application, audio analysis can encompass information extraction at different levels, such as the linguistic level (speech transcription), language identification, the paralinguistic level (e.g. emotions), the speaker level (number, genre, segmentation, identification), the acoustic level (background or isolated noises, etc.), classification of audio segments (e.g. music, noise, speech) or music analysis. Audio analysis has to continually deal with the variability created by the particularities of each speaker, the acoustic environment, volume changes, accents, types of speech, overlappings, etc. Most of these aspects still pose a great challenge for the speech community. Besides, given their statistical nature, most of the solutions implemented for audio analysis are still highly domain-dependent and require adaptation when the application domain notably differs from the training data conditions. This dissertation work involves several advanced audio and speech processing technologies that can be applied to the audiovisual and human-computer interaction environments. It includes an analysis of their applicability, their current state and details of the main contributions made to the fields. Finally, various of the developed technological solutions are described, as well as their transfer to several companies for use in Industry.

Autor

Aitor Álvarez Muniain

Universidad

UPV/EHU