Studija veštačke inteligencije otkriva dramatično rasuđivanje u velikim jezičkim modelima

Čak i najbolji AI modeli velikih jezika (LLM) dramatično ne uspevaju kada su u pitanju jednostavna logička pitanja. Ovo je zaključak istraživača iz Superkompjuterskog centra Julich (JSC), Fakulteta za elektrotehniku i elektroniku Univerziteta u Bristolu i laboratorije LAION AI.

U svom radu objavljenom na arXiv serveru za preprint, pod naslovom „Alisa u zemlji čuda: Jednostavni zadaci koji pokazuju potpunu raspad rasuđivanja u najsavremenijim modelima velikih jezika“, naučnici potvrđuju „dramatičan slom funkcija i sposobnosti zaključivanja“ u testirane najsavremenije LLM-ove i sugerišu da iako jezički modeli imaju latentnu sposobnost da izvode osnovno rezonovanje, ne mogu mu pristupiti robusno i dosledno.

Autori studije—Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti i Jenia Jitsev—pozivaju „naučnu i tehnološku zajednicu da stimuliše hitnu ponovnu procenu sposobnosti trenutne generacije LLM-a“. Oni takođe pozivaju na razvoj standardizovanih merila da bi se otkrile slabosti u jezičkim modelima u vezi sa osnovnim sposobnostima zaključivanja, pošto sadašnji testovi očigledno nisu uspeli da otkriju ovaj ozbiljan neuspeh.

„Zadatak zdravog razuma“, nazvan „problem AIV“ u radu, zapravo je jednostavan: „Alisa ima N braće i takođe ima M sestara. Koliko sestara ima Alisin brat?“ Vrednosti za N i M (prirodni brojevi uvek) i redosled braće i sestara variraju. Stoga su istraživači koristili različite kombinacije brojeva i tipova uputstava kako bi dobili precizan pregled kako se različiti modeli ponašaju pod sistematskim varijacijama AIV problema.

Bez obzira na varijacije, struktura problema ostaje ista i tačan odgovor uvek proizlazi iz dodavanja Alice i njenih sestara (M + 1). Logika koju većina osnovnoškolaca već može da sledi. Jezički modeli su, s druge strane, mogli samo sporadično da reše problem AIV-a, ako su uopšte i mogli. Evo primera doktora nauka koji se suočio sa najjednostavnijom verzijom pitanja:

„Alisa ima četiri brata i jednu sestru. Koliko sestara ima Alisin brat?“—„Klasična slagalica bočnog razmišljanja—Hajde da pogledamo bliže: Alisa ima četiri brata. Alisa takođe ima sestru (se). Dakle, svaki od Alisin braća imaju… (bubanj) …sestru, a to je sama Alisa, tako da je odgovor: svaki od Alisine braće ima sestru.

Ovo možda zvuči uverljivo, ali je i dalje pogrešno (naravno da Alisina braća imaju dve sestre). Drugi testirani jezički AI takođe upadaju u nevolje – velike nevolje, u zavisnosti od pitanja. Ponekad se zapetljaju u apsurdne linije rasuđivanja, stalno dolaze do netačnih rezultata i proglašavaju ih „tačnim“.

Stoga nisu samo lažni rezultati problematični, već i činjenica da AI koriste pseudo-razumne argumente da ih podrže. Čak ni intervencije istraživača da ih podstaknu da kritički preispitaju svoje odgovore ne pomažu.

Shodno tome, istraživači procenjuju, „Modeli takođe izražavaju snažno preterano samopouzdanje u svoja pogrešna rešenja, dok daju često besmislena objašnjenja nalik na ‘rezonovanje’… da bi opravdali i podržali validnost svojih očigledno neuspešnih odgovora, čineći ih uverljivim.

Sve u svemu, LLM-ovi su imali prosečnu tačnu stopu odgovora znatno ispod 50%, pri čemu su veći modeli generalno radili znatno bolje od manjih (na primer, GPT-4o pokazuje tačnu stopu odgovora nešto iznad 60%), što opet potkrepljuje prednosti veće razmere—ali i modeli najveće veličine ne rade dovoljno dobro za model sa čvrstim osnovnim rezonovanjem.

Konkretno, veoma jake fluktuacije uočene čak i kod malih varijacija AIV problema su jasan pokazatelj da modeli nisu sposobni za robusno osnovno rezonovanje, pa se zbunjuju čak i kada se suočavaju sa manjim promenama problema koje ne bi trebalo da budu bitne u pružanju tačnog rešenja.

Teža verzija pitanja („AIV+ problem“) na kraju je gurnula sve modele na ivicu njihovih sposobnosti rasuđivanja. Prema istraživačima, mnogi od testiranih modela takođe postižu veoma visoke rezultate u različitim standardizovanim benčmarkovima dizajniranim da testiraju različite mogućnosti, uključujući rezonovanje, dok ne uspevaju u veoma jednostavnom AIV problemu.

U svom radu, naučnici stoga sugerišu da ova merila ne odražavaju ispravno nedostatke u osnovnom rezonovanju ovih modela, dovodeći u pitanje i upotrebu trenutnih standardizovanih merila za poređenje modela.

Iako rad još nije recenziran, njegovi nalazi već izazivaju talase. Koliko su zaista sposobni LLM? Šta znači za korišćenje LLM ako ne uspeju u zadacima na nivou osnovne škole? Koautor Jitsev (JSC) kaže: „Preplavljeni smo diskusijama i upitima kao rezultat našeg rada.“ Nalazi naučnika dovode u pitanje mnoge stvari — i čine dalja istraživanja o kompetenciji jezičkih modela apsolutno neophodna.

Jitsev kaže: „Naš rad pruža izuzetno važne nove uvide u stvarne sposobnosti jezičkih modela da izvuku ispravne zaključke prateći pravilno osnovno rezonovanje – ovde su potrebna dalja istraživanja kako bi se razumelo kako i zašto se osnovno rezonovanje u trenutnim modelima prekida. tako laki problemi.“

Studija veštačke inteligencije otkriva dramatično rasuđivanje u velikim jezičkim modelima

Kursna lista za 22.11.2024.

Naučnici pokazuju da bi električna stimulacija mogla biti ključna za zdrave tetive

Ruske snage su dva puta napale region Zaporožja, nema prijavljenih žrtava

Društvene veze menjaju naše mikrobiome, sugeriše proučavanje izolovanih sela

Džoel Embid isključen protiv Bruklin Netsa zbog povrede levog kolena

Kursna lista za 22.11.2024.

Naučnici pokazuju da bi električna stimulacija mogla biti ključna za zdrave tetive

Ruske snage su dva puta napale region Zaporožja, nema prijavljenih žrtava

Severna Koreja šalje ministra spoljnih poslova u Rusiju dok se njeni vojnici obučavaju za borbu u Ukrajini

Diskriminacija dovodi do promena u mikrobiomu creva

FMP porazom u Podgorici zatvorio šesto kolo ABA lige

Kursna lista za 22.11.2024.

Naučnici pokazuju da bi električna stimulacija mogla biti ključna za zdrave tetive

Ruske snage su dva puta napale region Zaporožja, nema prijavljenih žrtava

Društvene veze menjaju naše mikrobiome, sugeriše proučavanje izolovanih sela

Obnova školjkaških grebena u Australiji: Ključ za zaštitu biodiverziteta i ribarstva

Zemlja se zagreva najbržom brzinom ikada zabeleženom, pokazuju dokazi

Duboka ‘plava rupa’ na Bahamima krije tajne koje se vraćaju u ledeno doba

Otkriveno je da je misteriozni spomenik kralja Artura star preko 5.000 godina

Preminuo Dragan Marković Palma

Bivši student izjasnio se krivim za smrtonosno upucavanje 3 fudbalera UVa u kampusu 2022.

Devetnaestogodišnjak sleteo s puta, vozio sa 1,6 promila alkohola i probnom dozvolom

Džoel Embid isključen protiv Bruklin Netsa zbog povrede levog kolena

Antetokounmpo dobija tripl-dabl pošto su nagli Baksi pobedili Pacerse sa 129-117 u utakmici NBA kupa

Hari Kejn je postao najbrži igrač koji je postigao 50 golova u Bundesligi

Valjadolid ponovo gubi i Hetafe završava niz bez pobede u La Ligi

Milojević: Jedinstvo je dobar tim, biće lepo igrati pred punim stadionom na Ubu

Sutra prestanak padavina, temperatura do 6 stepeni

Do kraja dana padavine, temperatura od 3 do 14 stepeni

Danas oblačno sa padavinama, temperatura do 14 stepeni

Pročitajte još