Veliki jezički modeli kao što je OpenAI GPT-3 su masivne neuronske mreže koje mogu da generišu tekst sličan čoveku, od poezije do programskog koda. Obučeni koristeći mnoštvo internet podataka, ovi modeli mašinskog učenja uzimaju mali deo ulaznog teksta, a zatim predviđaju tekst koji će verovatno doći sledeći.
Ali to nije sve što ovi modeli mogu. Istraživači istražuju neobičan fenomen poznat kao učenje u kontekstu, u kojem veliki jezički model uči da izvrši zadatak nakon što vidi samo nekoliko primera – uprkos činjenici da nije bio obučen za taj zadatak. Na primer, neko bi mogao da unese modelu nekoliko primera rečenica i njihovih osećanja (pozitivnih ili negativnih), a zatim ga podstakne novom rečenicom i model može dati ispravan sentiment.
Tipično, model mašinskog učenja kao što je GPT-3 bi trebalo da bude ponovo obučen sa novim podacima za ovaj novi zadatak. Tokom ovog procesa obuke, model ažurira svoje parametre dok obrađuje nove informacije da bi naučio zadatak. Ali sa učenjem u kontekstu, parametri modela se ne ažuriraju, tako da izgleda kao da model uči novi zadatak, a da ništa ne nauči.
Naučnici sa MIT-a, Google istraživanja i Univerziteta Stanford nastoje da razotkriju ovu misteriju. Proučavali su modele koji su veoma slični velikim jezičkim modelima da bi videli kako mogu da uče bez ažuriranja parametara.
Teorijski rezultati istraživača pokazuju da su ovi masivni modeli neuronske mreže sposobni da sadrže manje, jednostavnije linearne modele zakopane unutar njih. Veliki model bi tada mogao da implementira jednostavan algoritam učenja da obuči ovaj manji, linearni model da završi novi zadatak, koristeći samo informacije koje su već sadržane u okviru većeg modela. Njegovi parametri ostaju fiksni.
Važan korak ka razumevanju mehanizama koji stoje iza učenja u kontekstu, ovo istraživanje otvara vrata za više istraživanja oko algoritama učenja koje ovi veliki modeli mogu primeniti, kaže Ekin Akjurek, diplomirani student računarstva i vodeći autor rada koji istražuje ovaj fenomen. Uz bolje razumevanje učenja u kontekstu, istraživači bi mogli da omoguće modelima da završe nove zadatke bez potrebe za skupom prekvalifikacijom.
„Obično, ako želite da fino podesite ove modele, morate da prikupite podatke specifične za domen i uradite neki složeni inženjering. Ali sada možemo samo da mu damo unos, pet primera, i on postiže ono što želimo. Dakle, u- učenje konteksta je prilično uzbudljiv fenomen“, kaže Akjurek.
Rad je objavljen na arKsiv preprint serveru.
Akjureku se pridružuju Dale Schuurmans, naučnik u Google Brain-u i profesor računarskih nauka na Univerzitetu Alberta; kao i stariji autori Jacob Andreas, docent Ks konzorcijuma na MIT odeljenju za elektrotehniku i računarstvo i član Laboratorije za računarske nauke i veštačku inteligenciju MIT (CSAIL); Tengiu Ma, docent informatike i statistike na Stanfordu; i Danni Zhou, glavni naučnik i direktor istraživanja u Google Brain-u. Istraživanje će biti predstavljeno na Međunarodnoj konferenciji o reprezentacijama učenja.
U istraživačkoj zajednici mašinskog učenja, mnogi naučnici su verovali da veliki jezički modeli mogu da izvode učenje u kontekstu zbog načina na koji su obučeni, kaže Akjurek.
Na primer, GPT-3 ima stotine milijardi parametara i obučen je čitanjem ogromnih delova teksta na internetu, od članaka na Vikipediji do postova na Redditu. Dakle, kada neko pokaže primere modela novog zadatka, verovatno je već video nešto veoma slično jer je njegov skup podataka za obuku uključivao tekst sa milijardi veb lokacija. Ponavlja obrasce koje je video tokom treninga, umesto da uči da obavlja nove zadatke.
Akjurek je pretpostavio da učenici u kontekstu ne samo da se poklapaju sa prethodno viđenim obrascima, već zapravo uče da obavljaju nove zadatke. On i drugi su eksperimentisali dajući ovim modelima uputstva koristeći sintetičke podatke, koje ranije nigde nisu mogli da vide, i otkrili su da modeli još uvek mogu da uče iz samo nekoliko primera. Akjurek i njegove kolege su mislili da možda ovi modeli neuronske mreže unutar sebe imaju manje modele mašinskog učenja koje modeli mogu da obuče da završe novi zadatak.
„To bi moglo objasniti skoro sve fenomene učenja koje smo videli sa ovim velikim modelima“, kaže on.
Da bi testirali ovu hipotezu, istraživači su koristili model neuronske mreže nazvan transformator, koji ima istu arhitekturu kao GPT-3, ali je bio posebno obučen za učenje u kontekstu.
Istražujući arhitekturu ovog transformatora, teoretski su dokazali da on može napisati linearni model unutar svojih skrivenih stanja. Neuronska mreža se sastoji od mnogo slojeva međusobno povezanih čvorova koji obrađuju podatke. Skrivena stanja su slojevi između ulaznog i izlaznog sloja.
Njihove matematičke procene pokazuju da je ovaj linearni model zapisan negde u najranijim slojevima transformatora. Transformator zatim može da ažurira linearni model primenom jednostavnih algoritama učenja.
U suštini, model simulira i trenira manju verziju sebe.
Istraživači su istraživali ovu hipotezu koristeći eksperimente sondiranja, gde su gledali u skrivene slojeve transformatora kako bi pokušali da povrate određenu količinu.
„U ovom slučaju, pokušali smo da povratimo stvarno rešenje za linearni model i mogli bismo da pokažemo da je parametar napisan u skrivenim stanjima. To znači da je linearni model tamo negde“, kaže on.
Nadovezujući se na ovaj teorijski rad, istraživači će možda moći da omoguće transformatoru da izvodi učenje u kontekstu dodavanjem samo dva sloja neuronskoj mreži. Još uvek ima mnogo tehničkih detalja koje treba razraditi pre nego što to bude moguće, upozorava Akjurek, ali bi to moglo pomoći inženjerima da kreiraju modele koji mogu da završe nove zadatke bez potrebe za preobukom sa novim podacima.
„Rad baca svetlo na jedno od najznačajnijih svojstava modernih velikih jezičkih modela — njihovu sposobnost da uče iz podataka datih u njihovim ulazima, bez eksplicitne obuke. Koristeći pojednostavljeni slučaj linearne regresije, autori pokazuju teorijski kako modeli mogu da implementiraju standardne učenja algoritama dok čitaju njihov unos i empirijski koji algoritmi učenja najbolje odgovaraju njihovom posmatranom ponašanju“, kaže Mike Levis, naučnik istraživač u Facebook AI Research-u koji nije bio uključen u ovaj rad. „Ovi rezultati su odskočna daska za razumevanje kako modeli mogu naučiti složenije zadatke i pomoći će istraživačima da osmisle bolje metode obuke za jezičke modele kako bi dodatno poboljšali svoje performanse.“
Idući dalje, Akjurek planira da nastavi da istražuje učenje u kontekstu sa funkcijama koje su složenije od linearnih modela koje su proučavali u ovom radu. Oni bi takođe mogli da primene ove eksperimente na velike jezičke modele da vide da li je njihovo ponašanje takođe opisano jednostavnim algoritmima učenja. Pored toga, želi da kopa dublje u vrste podataka pre obuke koji mogu omogućiti učenje u kontekstu.
„Sa ovim radom ljudi sada mogu da zamisle kako ovi modeli mogu da uče od primera. Dakle, nadam se da će promeniti stavove nekih ljudi o učenju u kontekstu“, kaže Akjurek. „Ovi modeli nisu toliko glupi kao što ljudi misle. Oni ne pamte samo ove zadatke. Oni mogu da nauče nove zadatke, a mi smo pokazali kako se to može uraditi.“