Kalitate handiko itzulpen automatikorako modelatze estatistikoa eta deep learninga
Modela
Iraupena:
01.04.2016 - 31.12.2017
MODELAren helburu nagusia da Deep Learningen eta NUPen oinarritutako hizkuntza ingeniaritzako teknika aurreratuak ikertzea, garatzea eta baliozkotzea.
berriak sortzeko esparruan kalitate handiko itzulpen automatikoko sistemak konfiguratzeko modelatze estatistikoa.
Helburu hori hainbat helburu zientifiko-teknologikotan eta irismen eta inpaktu helburutan banatzen da. 2016ko ekitaldirako helburuak proiektuaren kontzeptualizaziora eta eskakizunak zehaztera bideratuta egon dira, hasieran zehaztutako helburuak lortze aldera. Ildo horretan, jarraian deskribatzen diren helburuak 2016an lortutako helburu partzial batzuk dira, eta horien garapena 2017an osatuko da. Hurrengo puntuek hasierako helburua eta haren barruan 2016rako zehaztutako helburu partziala erakusten dituzte.
Helburu zientifiko-teknologikoak
1. Hizkuntza-baliabideak iturri heterogeneoetatik biltzeko teknikak eta tresnak garatzea.
a. Hizkuntza-baliabideen iturriak identifikatzea: Argia, EiTB eta Consumer webguneak aztertuko dira albisteen eremurako.
b. Baliabideak sortzeko teknikak eta tresnak garatzea.
2. Estatistikako itzulpen automatikoko sistema bat konfiguratzea euskararako, ingeleserako eta gaztelaniarako.
a. Aplikazio eremuak eta hizkuntza pareak definitzea: albisteen domeinuak eta administrazio juridikoa landuko dira; lehenerako, espainiera euskara hizkuntza bikoitia landuko da, eta, bigarrenerako, espainiera pare ingelesa.
b. Estatistikako oinarrizko itzulpen automatikoko sistema bat garatzea
3. Deep Learningen oinarritutako teknikak eta tresnak ikertzea eta garatzea, itzulpen automatiko estatistikoko sistemekin integratzeko.
a. Teknologiaren egoeraren azterketa itzulpen automatikoko sistema neuronalak garatzeko
Deep Learningen.
b. Itzulpen neuronaleko sistemetarako eskakizunak definitzea: sistema horiek garatzeko hardware eta software egokiaren eskakizunak definitu dira.
4. Euskara, ingelesa eta gaztelania automatikoki itzultzeko sistemaren prototipoa garatzea, Deep Learning teknikak integratuz.
a. Prototipoaren irismenaren definizioa: 4. lan-paketea SMT++ izeneko sistema estatistiko eta neuronalen arteko prototipo hibrido bat garatzera bideratzea erabaki da, eta 5. lan-paketea PNMT izeneko sistema neuronal puru bat garatzera bideratzea.
Zure hurrengo proiekturako kide bila zabiltza? Idatz iezaguzu, laguntzeko irrikan gaude.


