Categorías: albisteak-berriak

UPV/EHUko HiTZ Zentroak euskararentzako hizkuntza eredurik handiena garatu du: Latxa

Hizkuntza-eredu handi bat, edo LLM ingelesez, adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituena, datu-multzo masiboetatik sortutako ezagutzan oinarrituta. Euskarak ere badu bere hizkuntza-eredu handia: Latxa. Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70 mila miloi parametro arteko ereduak biltzen ditu. Gaur egungo LLMek errendimendu harrigarria dute baliabide ugariko hizkuntzetan, adibidez ingelesarako ChatGPT edo Bard-ek dituztenak. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, haien errendimendua ausazko asmatzetik hurbil dago. Honek baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa handitu egiten du, tresna digitalei dagokionez behinik behin. UPV/EHUko Hizkuntza Teknologiako HiTZ Zentroak Latxa garatu du, muga horiek gainditzeko eta LLMetan oinarritutako euskarazko produktu, berrikuntza eta produktuen garapena sustatzeko. Lan hau Eusko Jaurlaritzak lagundu du (IKER-GAITU proiektuaren barruan).

Latxaren ereduak aldez aurretik trebatutako oinarrizko ereduak dira, erabiltzaileari zuzendutako jarraibide edo hobespenetan findu ez direnak. Eredu hauek ez dira, beraz, publiko orokorrak zuzenean erabiltzeko. Alabaina, eredu hauek funtsezkoak dira euskararako hizkuntza-teknologia darabilten tresna arrakastatsuak eraikitzeko. “Eredu ireki hauek kaleratzen ditugu teknikari adituek produktuak garatzeko erabil ditzaten edo eredua bera aplikazio jakinetara doitu dezaten. Dagoeneko erabiltzaileen jarraibideak segitzeko gai diren ereduak lantzen ari gara, baina oraindik ez dago garbi publiko orokorrak GPTrekin gazteleraz edo ingelesez lortzen den adinako kalitatea duten ereduak eraiki daitezkeenik euskararentzat. Hori da, hain zuzen, gure ikerketen jomuga eta hortaz oraingo hau lehen bertsio bat bezala hartu daiteke, ikerketaren ondorioz eredu hobeak sortu nahi ditugu eta”, azaldu du Eneko Agirrek, HiTZ Zentroko zuzendariak. Ereduak garatzeko GPU motako zerbitzariak erabili dituzte, eta azken ereduak CINECAko Leonardo superordenagailuan entrenatu dituzte EuroHPC Joint Undertaking barruan (EHPC-EXT-2023E01-013 proiektua).

Eredua eraikitzeko testu multzoari dagokionez, EusCrawl erabili dute, euskarazko testuez osatutako testu multzoa, 1,72 milloi dokumentu eta 288 miloi hitz dituena. EusCrawl kalitatezko edukia duten 33 webguneetatik erauzi zen, internetetik corpusak osatzeko beste teknikak baino kalitate hobea eskainiaz.

Ereduen kalitatea ebaluatzeko, hainbat gaitasun linguistikotan ereduek duten gaitasuna neurtzen dute, hala nola, irakurketen ulermena, sen ona eta arrazoibidea, sentimenduen analisia, jarreren hautematea, gaien sailkapena, korreferentzia, inferentzia eta hitzen adierak.

Irudiak eredu ezberdinen errendimendua erakusten dute atazaz ataza, eta emaitzen batez bestekoa eskuineko aldean. “Ingelesezko LLaMA ereduak eta orain arteko euskara biltzen duten hizkuntza eredu onenetariko batzuk probatu ditugu, gure ereduekin buruz buruko alderaketa ahalbidetzen dutenak (hiru barra moreak). Bertan argi ikusten da gure hiru ereduak direla hoberenak, eta tamaina handitu ahala emaitzak ere hobetzen doazela”, azaldu du Agirrek.

Latxa ereduek LLaMA-2 License delakoa heredatzen dute, ikerkuntzarako eta jarduera komertziala baimentzen duena. “Nahiz eta ingelesezko ereduetan egon oinarrituta, gure ereduak euskaraz erabiltzeko pentsatu dira, eta hortaz, beste hizkuntzatan duten kalitatea ez dugu bermatzen”, esan du HiTZeko zuzendariak.

Ereduak HuggingFace daude eskuragarri.

albisteak

Compartir
Publicado por
albisteak

Entradas recientes

Joseba Goikoetxea Asla, ETAk 1993an hildako sarjentu nagusia, omendu du Ertzaintzak

Ertzaintzak beste ekitaldi bat egin du gaur eguerdian Erandioko zentralean, duela 31 urte ETAk hildako…

15 horas hace

Biribil Ecolabek erabilitako materialei bigarren bizitza bat ematen laguntzen du

PRUEBA Biribil Ecolab empresak aholkularitza-zerbitzuak eskaintzen ditu ekonomia zirkularrean eta produktuaren ekodiseinuan; zirkulartasun-diagnostikoak egiten…

15 horas hace

2024-2029 Soinu Giroa Hobetzeko Ekintza Planak hasierako onarpena jaso du

binary comment PRUEBA Tokiko Gobernu Batzarrak onartutako beste gai batzuk: Bide-segurtasuneko eta hiri-mugikortasuneko elementuak,…

15 horas hace

Mikel Jauregi sailburuak jaso du Japoniako Enbaxadoreak emandako distinzioa, Basque Trade & Investment nazioartekotzeko euskal agentziak Euskadi eta Japoniaren arteko harremanak sendotzeko egindako ahaleginari errekonozimendua

PRUEBA Mikel Jauregi Eusko Jaurlaritzako Industria, Trantsizio Energetiko eta Jasangarritasuneko sailburuak Takahiro Nakamae Japoniako Enbaxadorearen distinzioa jaso…

15 horas hace

Maialen Chourraut y Martín Berasategui, Premio Distira y Empresa de la Kirolgala 2024

PRUEBA Organizada por el Departamento de Cultura y Deportes de la Diputación Foral de…

15 horas hace

La cuarta equipación del Athletic Club brinda tributo a Euskal Herria y su cultura

PRUEBA El Athletic Club ha reafirmado su compromiso con Euskadi lanzando una cuarta indumentaria…

15 horas hace