Informatičari uvode novu metodu za smanjenje veličine višejezičnih modela jezika

Informatičari uvode novu metodu za smanjenje veličine višejezičnih modela jezika

Višejezični modeli jezika, ili MLM, su modeli mašinskog učenja koji mogu predvideti, generisati i izdvojiti tekst iz više od jednog jezika. Korisni su za međujezičku komunikaciju, prevođenje i još mnogo toga—ali obično najbolje funkcionišu kada su fokusirani samo na nekoliko jezika.

Kako se jezički modeli povećavaju, njihove performanse se poboljšavaju – sve dok rade samo na jednom jeziku. Uprkos povećanju veličine modela, dodavanje više jezika može ugroziti njegove performanse zbog „interferencije jezika“, gde parametri (ili varijable) modela koji kontrolišu njegovo ponašanje na jednom jeziku negativno utiču na njegov učinak u drugom.

Međutim, tim kompjuterskih naučnika Džons Hopkins razvio je novi pristup optimizaciji MLM-a za više jezika. Nazvana matrična sinteza specifične za jezik, njihov metod smanjuje broj parametara potrebnih da bi model funkcionisao u svakom novom jeziku.

Istraživači predstavljaju svoj rad ove nedelje na Konferenciji empirijskih metoda u obradi prirodnog jezika 2023. u Singapuru.

„Naš fokus je bio na postizanju uporedivih performansi uz korišćenje manje parametara“, objašnjava član tima Haoran Ksu, doktorski kandidat na odseku za računarske nauke Vhiting School of Engineering, koga savetuju koautori Philipp Koehn, profesor računarskih nauka povezan sa Centar za jezik i obradu govora i Kenton Marej, naučnik istraživač u Centru izvrsnosti za tehnologiju ljudskog jezika i član CLSP-a.

Za razliku od tradicionalnog pristupa dizajniranja odvojenih gustih neuronskih mreža — računarskih sistema koji labavo oponašaju rad ljudskog mozga — za svaki dodatni jezik u MLM-u, tim je odlučio da koristi matrice niskog ranga, koje organizuju informacije komprimovanjem podataka na smanjiti broj parametara potrebnih za prilagođavanje novog jezika.

Ovo je omogućilo timu da dodaje nove jezike bez potrebe za toliko parametara, izbegavajući ono što Ksu naziva „eksplozijom parametara“ na nivou.

„Zamislite učionicu sa 100 dece, od kojih svako predstavlja drugačiji jezik“, objašnjava Ksu.

„Da biste svakom detetu dali kompletan set boja da se izrazi — ili da obavlja zadatke na svom jeziku — zahtevalo bi ogromne količine pigmenta ili parametara modela. Umesto toga, ako ih imate da dele samo crvenu, žutu i ​​plavu, deca i dalje mogu da stvaraju spektar punog boja uz korišćenje daleko manje pigmenta i mnogo manje parametara. A pošto samo jedno dete može da slika istovremeno, svih 100 dece može da deli tu jednu paletu od tri boje, drastično smanjujući potrebe za parametrima.“

Tim je na testovima sa modelom koji može da razume do 95 različitih jezika dokazao da njihov metod postiže superiorne performanse u višejezičnim podešavanjima, uz korišćenje manje parametara. Ono što je najvažnije, ovo omogućava značajno smanjenje veličine jezičkog modela bez ugrožavanja njegovih performansi.

Zbog smanjenih hardverskih zahteva potrebnih za primenu manjeg jezičkog modela, jedna, prenosiva AI aplikacija koja koristi metodu matrične sinteze specifične za jezik bi uskoro mogla biti sposobna da rukuje stotinama jezika umesto samo nekoliko, predviđa tim.

„Naši nalazi ukazuju na izvodljivost primene zaista višejezičnih AI modela u uređajima svih veličina“, dodaje Ksu.

Istraživači kažu da je njihov cilj da primene svoj metod na nezgrapne MLM-ove i razviju robusne sisteme veštačke inteligencije koji mogu da razumeju više jezika, dok rade podjednako efikasno kao i na engleskom.