Džared Koleman, koji je nedavno stekao doktorat. u računarstvu, i njegovog supervizora, Bhaskara Krišnamačarija, vezuje zajednička ljubav prema jezicima — i ljudskim i kompjuterskim.
Krišnamachari je odrastao u Indiji govoreći tamilski, hindi i engleski, a počeo je da uči francuski i mandarinski kineski na koledžu. Kolman, koji je odrastao u anglofonu, voleo je španski u srednjoj školi i naučio portugalski od svoje sadašnje žene i prijatelja na koledžu.
Tokom pandemije, Koleman je počeo da pohađa onlajn časove na manje poznatom jeziku: Ovens Vallei Paiute. Kolman je član plemena Big Pine Paiute iz doline Ovens — njegov otac, David, odrastao je u plemenskom rezervatu u Big Pineu, Kalifornija, a Paiute je jezik njegovih predaka.
ChatGPT i drugi modeli velikih jezika (LLM) pokazuju performanse na nivou čoveka na mnogim zadacima na prirodnom jeziku na engleskom jer jedna petina sveta govori engleski. Isto važi i za druge široko korišćene jezike. Ali Paiute se smatra „jezikom bez resursa“, što znači da ne postoje javno dostupne Paiute rečenice prevedene na engleski na kojima bi se trenirao model mašinskog učenja.
U novom radu, „Mašinsko prevođenje zasnovano na LLM-u za jezike sa malim brojem resursa/jezicima bez resursa“, koji se pojavljuje na serveru za preštampanje arXiv, Koleman i Krišnamachari predlažu pristup mašinskog prevođenja pod nazivom LLM-RBMT (Mašinsko prevođenje zasnovano na pravilima ) da pomogne ljudima da nauče jezike bez resursa. Koautori rada su Khalil Iskarous, vanredni profesor lingvistike USC Dornsife i Ruben Rosales, nezavisni istraživač.
Njihov pristup se sastoji od alata za prevođenje zasnovanih na pravilima „stare škole“ i naprednijeg LLM zasnovanog na prirodnom jeziku. U metodi istraživača, LLM se ne prevodi u ili sa Ovens Vallei Paiute. Umesto toga, pomaže da se usmeravaju prevodioci zasnovani na pravilima, koji se oslanjaju na gramatička pravila i pravila rečnika za prevod sa jednog jezika na drugi.
„U suštini, LLM deluje kao sofisticirani posrednik, koristeći svoje napredno razumevanje jezika kako bi se uverio da sistem zasnovan na pravilima proizvodi tačne prevode“, rekao je Kolman.
Alat za prevođenje pojednostavljuje složene rečenice i koristi čuvare mesta (u ovom slučaju engleske reči) za nepoznate reči. Iako ovaj proces gubi određeno značenje, on i dalje proizvodi razumljive i gramatički ispravne prevode.
Ovaj metod, rekao je Kolman, odražava kako učenici jezika prirodno govore mešanjem poznatih i nepoznatih reči, što ga čini praktičnim alatom za upotrebu u stvarnom svetu.
„Alatka je dovoljno pametna, s obzirom na nekoliko nagoveštaja, da može samostalno da uradi veliki deo prevoda“, dodaje Krišnamačari.
Kolman je takođe napravio i održava skup digitalnih alata koji se odnose na revitalizaciju jezika, nazvanih Kubishi ili ‘mozak’ u Paiuteu, uključujući onlajn rečnik i sistem za pravljenje rečenica i prevod koji je omogućeno ovim istraživanjem.
Sve u svemu, rad, koji će biti predstavljen na NAACL-ovoj radionici AmericasNLP, otkrio je da LLM-ove izuzetne jezičke veštine opšte namene čine ih obećavajućim alatom za pomoć u revitalizaciji kritično ugroženih jezika.
Sa svoje strane, Kolman pripisuje zasluge članovima svog plemena, prošlim i sadašnjim, što su utrli put. „Mnogi ljudi u mom plemenu već dugo rade na različitim naporima za revitalizaciju jezika, uključujući časove, rečnike, snimke“, rekao je Kolman. „Tako da koliko i ja uzbuđen zbog ovog istraživanja, znam da je to jedan deo mnogo veće slagalice.“
Zaista, rad ukazuje na mnoge pravce za budući rad, uključujući dodavanje složenijih rečeničnih struktura kako bi se testirale granice metodologije navedene u njegovom radu. Osim toga, to je i lično i akademsko dostignuće za Kolmana, koji će se ove jeseni pridružiti Univerzitetu Lojola Merimaunt kao docent za računarstvo.
„Moj tata nije odrastao govoreći jezik — kao i mnoge porodice, internati su ga izbacili iz upotrebe u kojima je govor jezika zabranjen“, rekao je Kolman.
„Imam sreću da su moji pradeda i pradeda seli sa lingvistima da dokumentuju jezik i da naprave snimke kako bih čuo njihove glasove i reči. A sada, da slušam svog pradedu i znam šta priča, postoji nešto veoma lično zadovoljavajući zbog toga.“