Vicomtech-IK4, Euskal Irrati Telebista y MondragonLingua avanzan en la traducción automática del euskera

09.01.2017

Han compartido un corpus de más de medio millón de frases

Con este desarrollo, las tres organizaciones generan el primer corpus bilingüe de noticias en euskera y castellano. Este será un recurso esencial para el desarrollo de sistemas de traducción automática entre los dos idiomas.

La diversidad de los temas que componen el corpus de noticias, y su propio volumen, permitirán un aumento significativo de la calidad de la traducción automática del euskera. Consta de más de medio millón de pares de frases en los dos idiomas, cubriendo temas de política nacional e internacional, cultura y deportes, entre otros.

El recurso ha sido creado con métodos innovadores de búsqueda automática de frases similares en las noticias de los dos idiomas y ha sido desarrollado en el marco de proyectos de I+D financiados por el  Departamento de Competitividad y Desarrollo del Gobierno Vasco (Programas GAITEK y HAZITEK). Asimismo, cabe destacar que el corpus generado se ha compartido en la red europea de recursos lingüísticos META-SHARE.

MondragonLingua, EiTB y Vicomtech-IK4 tienen particular interés en compartir este resultado con la comunidad para impulsar la investigación y el desarrollo relativos a la traducción automática del euskera.

Vicomtech

Parque Científico y Tecnológico de Gipuzkoa,
Paseo Mikeletegi 57,
20009 Donostia / San Sebastián (España)

+(34) 943 309 230

Zorrotzaurreko Erribera 2, Deusto,
48014 Bilbao (España)

close overlay

Las cookies de publicidad comportamental son necesarias para cargar el contenido

Aceptar cookies de publicidad comportamental