Teknologiak ere euskaraz egiten du

Euskara. Kultura. Mundura.

2023-09-21

Boise State Unibersity-ko Eloise Garmendia Bieter katedrak Igor Leturia Azkarate informatikoa eta ikerlaria gonbidatu du ikerketa egonaldia egiteko. Etxepare Euskal Institutuak sustatzen duen Eloise Garmendia Bieter katedrak euskara eta euskal kulturarekin harremana duten gaien irakaskuntza eta ikerkuntza bultzatzen du.

Leturia informatikan doktorea da, eta software garatzaile eta ikertzaile gisa diharu Orai eta Elhuyarren. Azken urteotan euskararentzat hizkuntza – eta hizketa – teknologien garapenean egin du lan, Elia, Aditu eta TTS zerbitzuak bezalako teknologiak sortu dituzte bi erakundeek. Katedran adimen artifiziala baliatuz, eta  hizkuntza eta itzulpengintza alorreko goi-mailako ikerketa eta soluzio teknologiko adimenduak jorratu ditu bertako ikasle eta euskal komunitateko kideekin, hainbat eskola eta hitzaldietan.

Bere ikerketaren inguruan hitz egin dugu Leturiarekin, eta bere egonaldiaren nondik norakoak ere azaldu dizkigu.

Zer dira hizkuntza- eta hizketa- teknologiak?

Hizkuntza- eta hizketa-teknologiak Adimen Artifizialaren arlo bat dira, preseski hizkuntza kontuez arduratzen dena. NLP edo Lengoaia Naturalaren Prozesamendua izenez ere ezagutzan da. Bere barne hartzen ditu itzulpen automatikoa, hizketaren ezagutza, hizketaren sintesia, testuen sailkapena, laguntzaile birtualak, testuen laburpena, galderen erantzute automatikoa, testuen sorkuntza... eta horien moduko beste hainbat teknologia.

Zergatik dira garrantzitsuak?

Gaur egun, eta gero eta gehiago, makina gero eta aurreratuagoetaz inguratuta gaude, gero eta gehiago erabiltzen ditugu: ordenagailuak, telefono mugikorrak, robotak, laguntzaile birtualak, etxetresna adimendunak... Hauekiko interakzioa botoi, menu eta abarren bidez egin beharrean guretzat naturalena den moduan, hau da, hizkuntza eta hizketaren bidez, egitea ahalbidetzen dute teknologiok. Horrez gain, eguneroko lanak errazteko edo azkartzeko edo bestela egin ezingo genituzkeen gauzak egitea ahalbidetu dezakete: testuak sortzea, ulertzea, itzultzea, sailkatzea edo laburtzea, ikus-entzunezkoak azpititulatzea, bikoiztea... Eta irisgarritasunerako ere oso baliagarriak dira.

Zer nolako ibilbidea izan dute teknologia hauen garapenaren eta erabileraren estrategia?

Teknologia hauen garapenean baliatutako estrategiak normalean garaian garaiko teknologien ahalmenak zehaztu edo mugatu dituzte.

Ordenagailuen hasieratik mende honen hasieraraino batez ere erregeletan oinarritutako metodoak erabili izan dira. Hiztegiak, arauak eta abarrak zerrendetan eta programazio-lengoaien bidez adierazi behar ziren. Informatikaz gain, hizkuntzalari-lan handia eskatzen zuen. Baina egin zitezkeen atazak mugatuta zeuden: etiketatzea egin zitekeen, zuzenketa ortografikoa... baina itzulpen automatikoa eta horrelako gauza konplexuagoak ez.

Geroago, ikasketa automatikoko metodoak etorri ziren, datu multzo handietatik ikasten dutenak. Eta azken bospasei urteotan sare neuronal sakonen edo ikasketa sakonaren teknikak dira erabiltzen direnak edozein atazatarako. Hauek ikasketa sakonaren kasu partikular bat dira, datu multzo handietatik ikasten dute, baina sare neuronal sakonak baliatzen dira, nolabait giza burmuinaren funtzionamendua imitatu nahi duten egitura konputazionalak. Sare konplexu hauek, ordenagailuen garapenak eta ikasteko datu kopurua asko handitzeak ekarri dute gaur egun itzulpen automatikoa, hizketaren ezagutza, testuen sorkuntza edo hizketaren sorkuntza bezalako ataza konplexuak ere oso kalitate onarekin egin ahal izatea.

Zer abantaila ditu euskarak, hizkuntza gutxitua den heinean, horrelako teknologiak baliatzeko aukera izanda?

Euskara baliabide urriko hizkuntza da, baina ezaugarri hori ez da bai/ez motako ezaugarri bitarra. Zorionez, azken urteotan euskarak izan duen bilakaera dela-eta, hizkuntza- eta hizketa-teknologiek ikasteko behar duten moduko datu asko sortu dituzte erakunde publikoek, hezkuntza eragileek, komunikabideek, kultura agenteek... Hala, testu digitalizatuen corpusa handi samarra badugu, itzulpenena ere bai, audio transkripzioak ere bai... Eta horiei esker, itzulpen automatiko, transkripzio automatiko, hizketa sorkuntza eta beste teknologia aurreratu kalitatezkoak garatu ahal izan ditugu. Horren emaitzak begi-bistakoak dira, gizarteak gero eta gehiago erabiltzen ditu tresna horiek, eta hizkuntzaren etorkizuna bermatzeko faktore garrantzitsua izango dira etorkizunean ere.

Zeintzuk izan Oraik eta Elhuyarrek garatutako hizkuntza- eta hizketa- teknologien mugarriak? (Elia, Aditu, beste batzuk…).

Baliabide, teknologia eta tresna garrantzitsu asko garatu ditugu azken 20 urteotan: corpusak, bilatzaileak, IXArekin batera garatutako edo merkaturatutako Matxin itzultzailea eta Xuxen zuzentzailea... Baina beharbada azken urteotan sare neuronal sakonen teknologia baliatuz garatu eta gizartearen eskura jarri ditugun hiru tresna edo zerbitzu dira aipagarrienak:

  • 6 hizkuntzen artean (euskara, gaztelania, frantsesa, ingelesa, katalana eta galegoa) itzultzen duen Elia itzulpen automatikoko zerbitzua. Dokumentu osoak ere itzul ditzake formatua mantenduta, APIa ere badu webguneetan eta bestelakoetan integratzeko, eta funtzionalitate aurreratu gehiago.
  • Euskaraz, gaztelaniaz edota elebitan dauden audio edo bideoak transkribatu edo azpititulatzen dituen Aditu zerbitzua. Eskuzko zuzenketak egiteko interfazea du, Eliaren 6 hizkuntzetako edozeinetara itzultzea ere ahalbidetzen, APIa ere badu, eta zuzenan ere egin dezake.
  • TTS neuronala: Hizketa-sorkuntza neuronaleko zerbitzua. Sei hizkuntzatan (euskara, gaztelania, frantsesa, ingelesa, katalana eta galegoa) eta bakoitzean hainbat ahotsekin erabili daiteke, eta grabaketa gutxi batzuekin norberaren ahots sintetiko pertsonalizatua sor daiteke erabilera esklusiborako. APIA ere badu webguneetan integratzeko.

Zer erronka dituzue alor honetan etorkizunari begira?

Azken urtean-edo aldaketa handi bat eman da Adimen Artifizialaren munduan, denok entzun ditugu AA sortzailea edo ChatGPT moduko terminoak, eta ikusi ditugu edozein galderari erantzuten dioten laguntzaileak edo bideoak bikoizten dituzten app-ak. Hauek guztiak hizkuntza- eta hizketa-teknologiak dira, paradigma berri baten oinarrituta daude (lengoaia-eredu handiak). Sare erraldoiak dira, datu kopuru handiekin entrenatuta daude eta hizkuntza askotan funtzionatzen dute. Horietako batzuk euskaraz ere badaude (nahiz eta ez hain ongi ibili). Orain erronka da paradigma horri jarraituz gai izatea gauza berri horiek egingo dituzten teknologia propioak garatzea, euskaraz ere ibiliko direnak edo hobeto ibiliko direnak, burujabetza teknologikoa eta pribatutasuna bermatuz modu jasangarri baten.

Zer nolako esperientzia izan duzu Eloise Garmendia Bieter katedran?

Esperientzia oso ona izan da Eloise Garmendia katedran irakasle gonbidatua izatea. Euskal Ikasketen departamenduan klaseak eman ditut, Informatika departamentuan ere bai, itzulpenen inguruko kongresuko hitzaldi nagusia, Euskal Etxean hitzaldia hango euskal komunitateari... Horrelako egonaldi bat eta oso publiko ezberdinentzat klaseak eta hitzaldiak prestatu beharra erronka bat da akademikoki eta profesionalki, ideiak argitu eta antolatzea eta dibulgaziorako eta hezkuntzarako prestatzea eskatzen duelako, baina oso erronka polita da.

Bestalde, Boiseko euskal komunitatea bertatik bertara ezagutzeko aukera eman dit, eta benetan esperientzia bikaina izan da.

Zer nolako harrera izan du zure ikerketa gaiak eta zure lan ildoak? Zer nabarmenduko zenuke?

Nik uste dut harrera ona izan duela. Euskal ikasketetakoek eta euskal komunitateak ikusi dute teknologiak euskaraz ere egiten duela eta beraiek ere balia dezaketela, izan euskara ikasteko, izan makinekin elkarreragiteko edo izan beraien ondarearen zabalkunderako. Horren adibide da Boiseko Euskal Museoak, Boiseko Unibertsitateko euskal ikasketetako Nere Leteren laguntzarekin, Aditu baliatu duela euskal diasporari buruzko dokumental sorta bat azpititulatu eta itzultzeko.

Bestalde, informatika sailean emandako klaseetako ikasleek egiten dute lan hizkuntza- eta hizketa-teknologiekin, baina beti ingelesarekin, eta hori oso erraza da, ingelesarentzat baliabide ugari baitago. Eta uste dut lortu dudala ikusaraztea hizkuntza guztiek ez dutela zorte hori, hizkuntza askok baliabide askoz gutxiagorekin moldatu behar dutela, eta egoera horietan baliatu daitezkeen estrategiak ere azaldu ditut.

Harpidetu gure Newsletterrera informazio gehiago jasotzeko.

Harpidetu