Métodos y Sistemas de Traducción Automática Neuronal Coherente

TANDO

Métodos y Sistemas de Traducción Automática Neuronal Coherente

Duración:

01.04.2020 - 31.12.2021

Tecnologías:

Language Processing

Soluciones relacionadas:

Tecnologías de lenguaje y voz

TANDO es un proyecto de investigación cuyo principal objetivo es la investigación, el desarrollo y la validación de sistemas de traducción automática neuronal coherente en contexto.

La traducción automática ha logrado éxitos importantes en los últimos años, logrando aumentos significativos de la calidad de las traducciones mediante sistemas basados en redes neuronales artificiales y aprendizaje profundo. Pese a estos avances, los sistemas actuales suelen basarse en procesos de traducción automática a nivel de frase, i.e. traduciendo cada frase de forma independiente, sin acceso al contexto global en el que aparecen las frases. Esta limitación resulta en errores sistemáticos, al no poder modelarse fenómenos lingüísticos que requieren un acceso al contexto de las oraciones.

El proyecto se centra en elaborar métodos óptimos para reducir errores de traducción debidos a la falta de coherencia contextual, aumentando la calidad de las traducciones mediante representaciones del contexto y adaptaciones de los procesos de traducción automática neuronal. Para ello, el proyecto abarca los siguientes aspectos principales:

  • Investigación y desarrollo de arquitecturas y algoritmos de traducción neuronal para la mejora significativa de la coherencia y de la calidad global de traducción.
  • Creación de sistemas de traducción automática neuronal avanzados de alta calidad que incluyan el procesamiento de la información contextual.
  • Creación y preparación de conjuntos de datos para el desarrollo y la validación de traducción genérica coherente en euskera-castellano y euskera-francés.     
  • Evaluación automática y humana de los sistemas desarrollados.

TANDO es un proyecto subvencionado por el Gobierno Vasco y fondos FEDER a través de la convocatoria de ayudas ELKARTEK 2020 de SPRI. Está llevado a cabo por el siguiente consorcio: Ametzagaña (Coordinador), Vicomtech (Coordinación científica), el grupo IXA de la Universidad del País Vasco (EHU), Elhuyar e ISEA.

Además de la coordinación científica, en este proyecto Vicomtech colabora en todos los aspectos relacionados con la investigación, el desarrollo y la evaluación de métodos para la mejora del tratamiento de la coherencia contextual en traducción automática neuronal. Para ello, Vicomtech participa en el diseño y la integración de métodos avanzados basados en modelado neuronal de la información contextual, así como la preparación de recursos adecuados para entrenar y validar modelos de traducción automática neuronal coherentes a nivel de contexto. Los métodos que se exploran en el marco de TANDO cubren los principales enfoques, como la extensión del contexto en el entrenamiento de modelos neuronales, el uso de codificadores dedicados a la gestión del contexto, o métodos dedicados a la corrección contextual. Estas actividades permitirán, por una parte, avanzar el estado del arte en traducción automática, y, por otra parte, determinar la eficiencia de los distintos métodos de traducción contextual para uso en entornos reales, con el objetivo de aumentar la calidad y la usabilidad de los sistemas actuales de traducción automática.

Vicomtech

Parque Científico y Tecnológico de Gipuzkoa,
Paseo Mikeletegi 57,
20009 Donostia / San Sebastián (España)

+(34) 943 309 230

close overlay