Čak i najbolji AI modeli velikih jezika (LLM) dramatično ne uspevaju kada su u pitanju jednostavna logička pitanja. Ovo je zaključak istraživača iz Superkompjuterskog centra Julich (JSC), Fakulteta za elektrotehniku i elektroniku Univerziteta u Bristolu i laboratorije LAION AI.
U svom radu objavljenom na arXiv serveru za preprint, pod naslovom „Alisa u zemlji čuda: Jednostavni zadaci koji pokazuju potpunu raspad rasuđivanja u najsavremenijim modelima velikih jezika“, naučnici potvrđuju „dramatičan slom funkcija i sposobnosti zaključivanja“ u testirane najsavremenije LLM-ove i sugerišu da iako jezički modeli imaju latentnu sposobnost da izvode osnovno rezonovanje, ne mogu mu pristupiti robusno i dosledno.
Autori studije—Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti i Jenia Jitsev—pozivaju „naučnu i tehnološku zajednicu da stimuliše hitnu ponovnu procenu sposobnosti trenutne generacije LLM-a“. Oni takođe pozivaju na razvoj standardizovanih merila da bi se otkrile slabosti u jezičkim modelima u vezi sa osnovnim sposobnostima zaključivanja, pošto sadašnji testovi očigledno nisu uspeli da otkriju ovaj ozbiljan neuspeh.
„Zadatak zdravog razuma“, nazvan „problem AIV“ u radu, zapravo je jednostavan: „Alisa ima N braće i takođe ima M sestara. Koliko sestara ima Alisin brat?“ Vrednosti za N i M (prirodni brojevi uvek) i redosled braće i sestara variraju. Stoga su istraživači koristili različite kombinacije brojeva i tipova uputstava kako bi dobili precizan pregled kako se različiti modeli ponašaju pod sistematskim varijacijama AIV problema.
Bez obzira na varijacije, struktura problema ostaje ista i tačan odgovor uvek proizlazi iz dodavanja Alice i njenih sestara (M + 1). Logika koju većina osnovnoškolaca već može da sledi. Jezički modeli su, s druge strane, mogli samo sporadično da reše problem AIV-a, ako su uopšte i mogli. Evo primera doktora nauka koji se suočio sa najjednostavnijom verzijom pitanja:
„Alisa ima četiri brata i jednu sestru. Koliko sestara ima Alisin brat?“—„Klasična slagalica bočnog razmišljanja—Hajde da pogledamo bliže: Alisa ima četiri brata. Alisa takođe ima sestru (se). Dakle, svaki od Alisin braća imaju… (bubanj) …sestru, a to je sama Alisa, tako da je odgovor: svaki od Alisine braće ima sestru.
Ovo možda zvuči uverljivo, ali je i dalje pogrešno (naravno da Alisina braća imaju dve sestre). Drugi testirani jezički AI takođe upadaju u nevolje – velike nevolje, u zavisnosti od pitanja. Ponekad se zapetljaju u apsurdne linije rasuđivanja, stalno dolaze do netačnih rezultata i proglašavaju ih „tačnim“.
Stoga nisu samo lažni rezultati problematični, već i činjenica da AI koriste pseudo-razumne argumente da ih podrže. Čak ni intervencije istraživača da ih podstaknu da kritički preispitaju svoje odgovore ne pomažu.
Shodno tome, istraživači procenjuju, „Modeli takođe izražavaju snažno preterano samopouzdanje u svoja pogrešna rešenja, dok daju često besmislena objašnjenja nalik na ‘rezonovanje’… da bi opravdali i podržali validnost svojih očigledno neuspešnih odgovora, čineći ih uverljivim.
Sve u svemu, LLM-ovi su imali prosečnu tačnu stopu odgovora znatno ispod 50%, pri čemu su veći modeli generalno radili znatno bolje od manjih (na primer, GPT-4o pokazuje tačnu stopu odgovora nešto iznad 60%), što opet potkrepljuje prednosti veće razmere—ali i modeli najveće veličine ne rade dovoljno dobro za model sa čvrstim osnovnim rezonovanjem.
Konkretno, veoma jake fluktuacije uočene čak i kod malih varijacija AIV problema su jasan pokazatelj da modeli nisu sposobni za robusno osnovno rezonovanje, pa se zbunjuju čak i kada se suočavaju sa manjim promenama problema koje ne bi trebalo da budu bitne u pružanju tačnog rešenja.
Teža verzija pitanja („AIV+ problem“) na kraju je gurnula sve modele na ivicu njihovih sposobnosti rasuđivanja. Prema istraživačima, mnogi od testiranih modela takođe postižu veoma visoke rezultate u različitim standardizovanim benčmarkovima dizajniranim da testiraju različite mogućnosti, uključujući rezonovanje, dok ne uspevaju u veoma jednostavnom AIV problemu.
U svom radu, naučnici stoga sugerišu da ova merila ne odražavaju ispravno nedostatke u osnovnom rezonovanju ovih modela, dovodeći u pitanje i upotrebu trenutnih standardizovanih merila za poređenje modela.
Iako rad još nije recenziran, njegovi nalazi već izazivaju talase. Koliko su zaista sposobni LLM? Šta znači za korišćenje LLM ako ne uspeju u zadacima na nivou osnovne škole? Koautor Jitsev (JSC) kaže: „Preplavljeni smo diskusijama i upitima kao rezultat našeg rada.“ Nalazi naučnika dovode u pitanje mnoge stvari — i čine dalja istraživanja o kompetenciji jezičkih modela apsolutno neophodna.
Jitsev kaže: „Naš rad pruža izuzetno važne nove uvide u stvarne sposobnosti jezičkih modela da izvuku ispravne zaključke prateći pravilno osnovno rezonovanje – ovde su potrebna dalja istraživanja kako bi se razumelo kako i zašto se osnovno rezonovanje u trenutnim modelima prekida. tako laki problemi.“