Veliki jezički modeli (LLM), od kojih je najpoznatiji ChatGPT, postali su sve bolji u obradi i generisanju ljudskog jezika u poslednjih nekoliko godina. Međutim, u kojoj meri ovi modeli oponašaju neuronske procese koji podržavaju procesiranje jezika u ljudskom mozgu, tek treba da bude u potpunosti razjašnjeno.
Istraživači sa Univerziteta Kolumbija i Feinstein instituta za medicinska istraživanja Northvell Health nedavno su sproveli studiju koja istražuje sličnosti između LLM reprezentacija na neuronske odgovore. Njihovi nalazi, objavljeni u časopisu Inteligencija mašina prirode, sugerišu da kako LLM postaju napredniji, oni ne samo da rade bolje, već postaju i sličniji mozgu.
„Naša originalna inspiracija za ovaj rad došla je od nedavne eksplozije u oblasti LLM-a i istraživanja neuro-AI“, rekao je Gavin Mišler, prvi autor rada, za Tech Ksplore.
„Nekoliko radova u proteklih nekoliko godina pokazalo je da je ugrađivanje reči iz GPT-2 pokazalo neku sličnost sa odgovorima reči snimljenim iz ljudskog mozga, ali u domenu veštačke inteligencije koji se brzo razvija, GPT-2 se sada smatra starim i ne veoma moćan.
„Od kada je ChatGPT objavljen, pojavilo se toliko drugih moćnih modela, ali nije bilo mnogo istraživanja o tome da li ovi noviji, veći, bolji modeli i dalje pokazuju te iste sličnosti sa mozgom.“
Glavni cilj nedavne studije Mišlera i njegovih kolega bio je da se utvrdi da li najnoviji LLM takođe pokazuju sličnosti sa ljudskim mozgom. Ovo bi moglo poboljšati razumevanje i veštačke inteligencije (AI) i mozga, posebno u smislu načina na koji analiziraju i proizvode jezik.
Istraživači su ispitali 12 različitih modela otvorenog koda razvijenih u poslednjih nekoliko godina, koji imaju skoro identičnu arhitekturu i sličan broj parametara. Istovremeno, oni su takođe snimili neuronske odgovore u mozgovima neurohirurških pacijenata dok su slušali govor, koristeći elektrode koje su im implantirane u mozak kao deo njihovog lečenja.
„Takođe smo dali tekst istog govora LLM-ima i izvukli njihove ugradnje, koje su u suštini interne reprezentacije koje različiti slojevi LLM-a koriste za kodiranje i obradu teksta“, objasnio je Mišler.
„Da bismo procenili sličnost između ovih modela i mozga, pokušali smo da predvidimo snimljene neuronske odgovore na reči iz reči ugradnje. Sposobnost da predvidimo odgovore mozga iz reči embeddings daje nam osećaj koliko su te dve slične.“
Nakon što su prikupili svoje podatke, istraživači su koristili računarske alate da odrede u kojoj meri su LLM i mozak usklađeni. Oni su posebno pogledali koji slojevi svakog LLM-a pokazuju najveću korespondenciju sa regionima mozga uključenim u obradu jezika, u kojima se zna da neuronski odgovori na govor postepeno „izgrađuju“ jezičke reprezentacije ispitivanjem akustičnih, fonetskih i na kraju apstraktnijih komponenti govora.
„Prvo, otkrili smo da kako LLM postaju moćniji (na primer, kako postaju bolji u odgovaranju na pitanja kao što je ChatGPT), njihova ugradnja postaje sličnija neuronskim odgovorima mozga na jezik“, rekao je Mišler.
„Što je još iznenađujuće, kako se LLM performanse povećavaju, njihovo usklađivanje sa hijerarhijom mozga takođe se povećava. To znači da se količina i vrsta informacija ekstrahovanih u uzastopnim regionima mozga tokom obrade jezika bolje slažu sa informacijama koje izdvajaju uzastopni slojevi LLM-a sa najvišim performansama nego kod LLM sa niskim učinkom.“
Rezultati koje je prikupio ovaj tim istraživača sugerišu da najbolji LLM-ovi bolje odražavaju reakcije mozga povezane sa obradom jezika. Štaviše, čini se da su njihove bolje performanse posledica veće efikasnosti njihovih ranijih slojeva.
„Ovi nalazi imaju različite implikacije, od kojih je jedna da savremeni pristup arhitekturi i obuci LLM-a vodi ove modele ka istim principima koje koristi ljudski mozak, koji je neverovatno specijalizovan za obradu jezika“, rekao je Mišler.
„Bilo da je to zato što postoje neki fundamentalni principi koji su u osnovi najefikasnijeg načina razumevanja jezika, ili jednostavno slučajno, čini se da se i prirodni i veštački sistemi približavaju sličnom metodu za obradu jezika.
Nedavni rad Mischlera i njegovih kolega mogao bi utrti put za dalje studije upoređujući LLM reprezentacije i neuronske odgovore povezane sa obradom jezika. Zajedno, ovi istraživački napori bi mogli da informišu razvoj budućih LLM, osiguravajući da se bolje usklade sa ljudskim mentalnim procesima.
„Mislim da je mozak toliko interesantan jer još uvek ne razumemo u potpunosti kako radi ono što radi, a njegova sposobnost obrade jezika je jedinstvena ljudska“, dodao je Mišler. „U isto vreme, LLM su na neki način još uvek crna kutija uprkos tome što su sposobni za neke neverovatne stvari, tako da želimo da pokušamo da koristimo LLM da bismo razumeli mozak i obrnuto.
„Sada imamo nove hipoteze o važnosti ranih slojeva u visokoučinkovitim LLM-ovima, a ekstrapolacijom trenda boljih LLM-ova koji pokazuju bolju korespondenciju u mozgu, možda ovi rezultati mogu pružiti neke potencijalne načine da LLM-ove učinimo moćnijim tako što će ih eksplicitno učiniti više nalik na mozak“.
