Categorías: albisteak-berriak

UPV/EHUko HiTZ Zentroak euskararentzako hizkuntza eredurik handiena garatu du: Latxa

Hizkuntza-eredu handi bat, edo LLM ingelesez, adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituena, datu-multzo masiboetatik sortutako ezagutzan oinarrituta. Euskarak ere badu bere hizkuntza-eredu handia: Latxa. Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70 mila miloi parametro arteko ereduak biltzen ditu. Gaur egungo LLMek errendimendu harrigarria dute baliabide ugariko hizkuntzetan, adibidez ingelesarako ChatGPT edo Bard-ek dituztenak. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, haien errendimendua ausazko asmatzetik hurbil dago. Honek baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa handitu egiten du, tresna digitalei dagokionez behinik behin. UPV/EHUko Hizkuntza Teknologiako HiTZ Zentroak Latxa garatu du, muga horiek gainditzeko eta LLMetan oinarritutako euskarazko produktu, berrikuntza eta produktuen garapena sustatzeko. Lan hau Eusko Jaurlaritzak lagundu du (IKER-GAITU proiektuaren barruan).

Latxaren ereduak aldez aurretik trebatutako oinarrizko ereduak dira, erabiltzaileari zuzendutako jarraibide edo hobespenetan findu ez direnak. Eredu hauek ez dira, beraz, publiko orokorrak zuzenean erabiltzeko. Alabaina, eredu hauek funtsezkoak dira euskararako hizkuntza-teknologia darabilten tresna arrakastatsuak eraikitzeko. “Eredu ireki hauek kaleratzen ditugu teknikari adituek produktuak garatzeko erabil ditzaten edo eredua bera aplikazio jakinetara doitu dezaten. Dagoeneko erabiltzaileen jarraibideak segitzeko gai diren ereduak lantzen ari gara, baina oraindik ez dago garbi publiko orokorrak GPTrekin gazteleraz edo ingelesez lortzen den adinako kalitatea duten ereduak eraiki daitezkeenik euskararentzat. Hori da, hain zuzen, gure ikerketen jomuga eta hortaz oraingo hau lehen bertsio bat bezala hartu daiteke, ikerketaren ondorioz eredu hobeak sortu nahi ditugu eta”, azaldu du Eneko Agirrek, HiTZ Zentroko zuzendariak. Ereduak garatzeko GPU motako zerbitzariak erabili dituzte, eta azken ereduak CINECAko Leonardo superordenagailuan entrenatu dituzte EuroHPC Joint Undertaking barruan (EHPC-EXT-2023E01-013 proiektua).

Eredua eraikitzeko testu multzoari dagokionez, EusCrawl erabili dute, euskarazko testuez osatutako testu multzoa, 1,72 milloi dokumentu eta 288 miloi hitz dituena. EusCrawl kalitatezko edukia duten 33 webguneetatik erauzi zen, internetetik corpusak osatzeko beste teknikak baino kalitate hobea eskainiaz.

Ereduen kalitatea ebaluatzeko, hainbat gaitasun linguistikotan ereduek duten gaitasuna neurtzen dute, hala nola, irakurketen ulermena, sen ona eta arrazoibidea, sentimenduen analisia, jarreren hautematea, gaien sailkapena, korreferentzia, inferentzia eta hitzen adierak.

Irudiak eredu ezberdinen errendimendua erakusten dute atazaz ataza, eta emaitzen batez bestekoa eskuineko aldean. “Ingelesezko LLaMA ereduak eta orain arteko euskara biltzen duten hizkuntza eredu onenetariko batzuk probatu ditugu, gure ereduekin buruz buruko alderaketa ahalbidetzen dutenak (hiru barra moreak). Bertan argi ikusten da gure hiru ereduak direla hoberenak, eta tamaina handitu ahala emaitzak ere hobetzen doazela”, azaldu du Agirrek.

Latxa ereduek LLaMA-2 License delakoa heredatzen dute, ikerkuntzarako eta jarduera komertziala baimentzen duena. “Nahiz eta ingelesezko ereduetan egon oinarrituta, gure ereduak euskaraz erabiltzeko pentsatu dira, eta hortaz, beste hizkuntzatan duten kalitatea ez dugu bermatzen”, esan du HiTZeko zuzendariak.

Ereduak HuggingFace daude eskuragarri.

albisteak

Compartir
Publicado por
albisteak

Entradas recientes

Oyón-Oion-en atxilotua ibilgailu bat nahita erretzeagatik

24_0501 Oyón-Oion-en atxilotua ibilgailu bat nahita erretzeagatik Oyón-Oion-en atxilotua ibilgailu bat nahita erretzeagatik Servicio de…

10 horas hace

Ingresa en prisión el hombre detenido ayer en Gasteiz por intento de homicidio a su pareja

24_0502 Ingresa en prisión el hombre detenido ayer en Vitoria-Gasteiz por intento de homicidio a…

10 horas hace

Andoain: bost pertsona atxilotu dituzte talde-eraso batengatik

Ertzaintzak 20 eta 25 urte bitarteko bost gizon atxilotu ditu azken orduetan, lesio-delitu bat egotzita,…

10 horas hace

Barakaldoko Foruen pasealekua oinezkoentzat jartzeko lanak hasi dira

Foruen Pasealekua berritzen hasi da. Udalak gaur goizean iragarri du Barakaldoko kale nagusia oinezkoentzako kale…

2 días hace

Donostiako Udalaren adierazpen instituzionala

Azken orduetan Donostian izan den sexu erasoaren aurrean Udalak honako hau adierazten du: 1.- Udalak…

2 días hace

Automobilgintzako berrikuntza teknologikoak euskal enpresetara hurbiltzen ditu Basque Trade-k

Basque Trade & Investment-ek (BasqueTrade), SPRI Taldean sartuta dagoen euskal enpresak nazioartekotzeko agentziak, automobilgintzaren industriako…

2 días hace