Herramienta de Optimización de Datos Lingüísticos.
LIDO
Duración:
01.04.2022 - 31.12.2024
Los procesos de traducción son fundamentales para superar las barreras lingüísticas que dificultan de forma significativa las actividades socioeconómicas, especialmente en comunidades multilingües como la Unión Europea o la Comunidad Autónoma Vasca. Ante el crecimiento exponencial de los contenidos generados en el entorno digital actual, la traducción depende cada vez más de tecnologías especializadas, como las herramientas de apoyo a la traducción (CAT), basadas en memorias de traducción (TM), y la traducción automática (TA).
En el ámbito de la TA, los avances recientes en Inteligencia Artificial (IA), especialmente en redes neuronales y aprendizaje profundo (Deep Learning), han impulsado de forma notable el desarrollo de la traducción automática neuronal (TAN). Este enfoque se ha consolidado como un nuevo paradigma tanto científico como comercial, integrándose cada vez más en la generación de contenidos multilingües, particularmente en la producción de traducciones profesionales mediante posedición.
Para ofrecer traducciones automáticas de alta calidad, la TAN requiere grandes volúmenes de datos lingüísticos paralelos —frases alineadas entre dos idiomas— que permitan modelar el conocimiento de traducción entre pares lingüísticos. Estos recursos deben ser de alta calidad, ya que la presencia de datos ruidosos, como alineamientos erróneos, caracteres corruptos o codificaciones incorrectas, afecta de manera directa al rendimiento de los sistemas. Del mismo modo, los errores en las memorias de traducción reducen la productividad de los traductores humanos. En la práctica, el ruido significativo en los corpus lingüísticos y memorias de traducción es habitual y perjudica tanto la eficiencia como la calidad de los procesos de traducción.
El proyecto LIDO tiene como objetivo principal investigar y desarrollar un sistema de optimización de datos lingüísticos multilingües mediante tecnologías de Inteligencia Artificial. La optimización se abordará desde tres ejes principales, explotando modelos de IA especializados, entre ellos modelos de lenguaje neuronales, modelos multilingües de representación semántica vectorial y modelos estadísticos de alta portabilidad.
¿Buscas apoyo para tu próximo proyecto? Escríbenos, estamos deseando ayudarte.


