Aitor Álvarez-ek bere doktore tesia defendatu du: Ikus-entzunezko eta Multimedia Interakzio ingurura aplikatutako Ahotsaren Teknologiak

05.08.2016

Teknologiaren aurrerabideak, potentzia handiko makina eta gailu elektronikoen eskuragarritasunak, sare sozialek, Internetek edukiak gordetzeko eskaintzen duen biltegiratze-esparru mugagabeak eta, azken finean, era digital berriak barne hartzen duen guztiak, egunero sortu eta kontsumorako publikoki partekatzen diren multimedia edukien gehikuntza ikaragarria ekarri du. Multimedia eduki hauek testua, irudiak, bideoak edota audioa izan dezakete.

Edukien kantitate handi hauen sorkuntzak biltegiratze mekanismo berri, eduki hauen kudeaketa eta indexazioa eta informazio semantikoaren erauzketan aurrera egiteko beharra sortu du. Hau dena analisi automatikoaren bitartez lortu da segurtasuna, zaintza, kontsulta eta errekuperatze, ikus-entzunezko sektore edota auzitegi eremua, besteak beste, bezalako aplikazio eta domeinuentzat. Audioaren analisiari dagokionean, aplikazio eremu zabala dauka, baita eduki bakarretik atera daitekeen informazio kantitate eta mota ere. Aplikazio motaren arabera audioaren analisiak maila linguistikoan (hizketaren transkripzioa), idiomatikoan, paralinguistikoan (emozioak, arima-egoerak),  hizlarien mailan (kopurua, generoa, segmentazioa, identifikazioa), maila akustikoan (ingurua, inguru-zaratak, zarata berezi edo isolatuak), audioaren klasifikazioan (segmentu motaren arabera) edo musika-analisi mailan informazio erauzketa barne har ditzake. Audioaren analisia etengabean lehiatu behar da aldakortasun handia sortzen duten soinuen iturrien aniztasunekin: hizlariak, inguru akustikoak, bolumena, azentuak, hizkerak, teilakapenak, etab. Aspektu hauetako asko erronka zientifikoa dira oraindik komunitatean. Audioaren analisirako garatu den teknologia estatistikoa izateak, gainera, teknologiaren adaptazioaren beharra dakar domeinu ezberdinetara aplikatu behar denean.

Tesi lan honetan audioaren analisirako eta ahotsaren prozesamendurako zenbait teknologien egungo egoera aztertzen da ikus-entzunezko eta pertsona-makina interakzio sektoreetara aplikatuta eta artearen egoerara egindako ekarpen berriak deskribatzen dira. Azkenik Industrian erabiltzeko garatu diren ebazpen teknologikoak eta hauen transferentzia erakunde desberdinetara deskribatzen dira.

Lan hau Antonio Arruti Illarramendi irakasleak, Euskal Herriko Unibertsitatetik (UPV/EHU), eta María Arantzazu del Pozo Echezarreta doktoreak, Vicomtech-IK4ko Ahotsaren eta Lengoaia Naturalaren Teknologiak saileko zuzendariak, zuzendu dute. Basilio Sierra Araujo katedradunak (UPV/EHU), Mari Carmen García Mateo katedradunak (Vigoko Unibertsitatea) eta Anna María Matamala Ripoll doktoreak (Bartzelonako Unibertsitate Autonomoa) doktore-tesi honen epaimahaia osatu dute. Doktore-tesia Donostiako UPV/EHUko Informatika Fakultatean defendatu da 2016ko uztailaren 22an.

Vicomtech

Gipuzkoako Zientzia eta Teknologia Parkea,
Mikeletegi Pasealekua 57,
20009 Donostia / San Sebastián (Espainia)

+(34) 943 309 230

close overlay