Savas

Intercambio de recursos lingüísticos audiovisuales para el subtitulado automático

Debido a las directivas y leyes europeas y nacionales recientemente adoptadas, la demanda del subtitulado ha aumentado con rapidez en toda Europa en los últimos años. El subtitulado manual ha dejado de ser viable debido al volumen de la demanda y al coste del proceso, tanto en términos de tiempo como de personal. Como resultado de ello, los emisores y las compañías de subtitulado buscan alternativas que ofrezcan una mayor productividad que el proceso manual tradicional. El reconocimiento del habla continua de un vocabulario extenso (LVCSR, por sus siglas en inglés) está demostrando ser una tecnología muy útil para este propósito. La repetición oral – técnica que consiste en que un profesional escucha el sonido de origen y lo repite a un motor de reconocimiento del habla, que se encarga de transcribir el contenido – se está consolidando como la principal técnica de subtitulado empleada en emisiones en vivo y pregrabadas. Otra tendencia que se usa actualmente es la aplicación del reconocimiento del habla para generar automáticamente una transcripción de la banda sonora de un programa sin necesidad de que intervenga un repetidor oral, y utilizar dicha transcripción como base para el subtitulado.

Por desgracia, el elevado coste asociado a la recopilación y anotación de los corpus de texto y de habla requeridos para enseñar a cada sistema de LVCSR a repetir y/o realizar transcripciones automáticas ha dificultado el desarrollo de nuevos idiomas y ámbitos de aplicación. Sin embargo, con objeto de cumplir con el nuevo marco jurídico audiovisual, los emisores y las compañías de subtitulado europeos generan a diario corpus de texto y habla aptos para el desarrollo de los LVCSR. El proyecto SAVAS pretende adquirir, compartir y reutilizar los recursos audiovisuales de los emisores y compañías de subtitulado para que las empresas europeas de ASR de alta tecnología puedan utilizar dichos datos compartidos con el fin de desarrollar LVCSR en ámbitos específicos y/o en nuevas lenguas para dar respuesta a las necesidades de subtitulado automático del sector de los medios de comunicación. El proyecto prevé recabar, compartir y desarrollar datos y tecnología LVCSR para el subtitulado automático en las seis lenguas siguientes: euskera, español, italiano, francés, alemán y portugués.


http://www.fp7-savas.eu/

Duración del proyecto

01/04/2012 - 31/12/2014

Soluciones tecnológicas