Ljudi lako rešavaju nove probleme bez posebne obuke ili prakse upoređujući ih sa poznatim problemima i proširujući rešenje na novi problem. Dugo se smatralo da je taj proces, poznat kao analogno rasuđivanje, jedinstvena ljudska sposobnost.
Ali sada će ljudi možda morati da naprave mesta za novog klinca u bloku.
Istraživanje psihologa sa UCLA pokazuje da, zapanjujuće, jezički model veštačke inteligencije GPT-3 ima performanse jednako dobro kao i studenti fakulteta kada se od njih traži da reše onu vrstu problema rezonovanja koji se obično pojavljuju na testovima inteligencije i standardizovanim testovima kao što je SAT. Studija je objavljena u časopisu Nature Human Behavior.
Ali autori rada pišu da studija postavlja pitanje: da li GPT-3 oponaša ljudsko rasuđivanje kao nusproizvod svog ogromnog skupa podataka za obuku jezika ili koristi fundamentalno novu vrstu kognitivnog procesa?
Bez pristupa unutrašnjem radu GPT-3 – koje čuva OpenAI, kompanija koja ga je stvorila – naučnici UCLA ne mogu sa sigurnošću reći kako funkcionišu njegove sposobnosti rasuđivanja. Oni takođe pišu da iako GPT-3 radi mnogo bolje nego što su očekivali u nekim zadacima rasuđivanja, popularna AI alatka i dalje spektakularno ne uspeva u drugim.
„Bez obzira koliko impresivni naši rezultati, važno je naglasiti da ovaj sistem ima velika ograničenja“, rekao je Tejlor Veb, postdoktorski istraživač psihologije sa UCLA i prvi autor studije. „Može da radi analogno rezonovanje, ali ne može da radi stvari koje su ljudima veoma lake, kao što je korišćenje alata za rešavanje fizičkog zadatka. Kada smo mu dali te vrste problema – od kojih deca mogu brzo da reše – stvari sugeriše da su besmislene.“
Veb i njegove kolege testirali su sposobnost GPT-3 da reši skup problema inspirisanih testom poznatim kao Ravenove progresivne matrice, koje od subjekta traže da predvidi sledeću sliku u komplikovanom rasporedu oblika. Da bi omogućio GPT-3 da „vidi“ oblike, Veb je konvertovao slike u tekstualni format koji je GPT-3 mogao da obradi; taj pristup je takođe garantovao da AI nikada ranije ne bi naišao na pitanja.
Istraživači su zatražili od 40 studenata UCLA da reše iste probleme.
„Iznenađujuće, ne samo da je GPT-3 radio isto tako dobro kao i ljudi, već je napravio i slične greške“, rekao je profesor psihologije sa UCLA Hongjing Lu, viši autor studije.
GPT-3 je tačno rešio 80% problema—znatno iznad prosečnog rezultata ljudskih subjekata od nešto ispod 60%, ali dobro unutar raspona najviših ljudskih rezultata.
Istraživači su takođe podstakli GPT-3 da reši skup pitanja analogije SAT-a za koja veruju da nikada nisu objavljena na internetu – što znači da je malo verovatno da su pitanja bila deo podataka o obuci GPT-3. Pitanja traže od korisnika da izaberu parove reči koje dele istu vrstu odnosa. (Na primer, u problemu „’Ljubav’ je ‘mrziti’ kao što je ‘bogat’ za koju reč?,“ rešenje bi bilo „siromašan.“)
Oni su uporedili rezultate GPT-3 sa objavljenim rezultatima SAT rezultata kandidata za koledž i otkrili da je AI radila bolje od prosečnog rezultata za ljude.
Istraživači su zatim zamolili GPT-3 i studente dobrovoljce da reše analogije zasnovane na kratkim pričama – podstičući ih da pročitaju jedan odlomak, a zatim identifikuju drugu priču koja prenosi isto značenje. Tehnologija je postigla manje rezultate od učenika na tim problemima, iako je GPT-4, najnovija iteracija OpenAI-ove tehnologije, imao bolji učinak od GPT-3.
Istraživači sa UCLA su razvili sopstveni kompjuterski model, koji je inspirisan ljudskom spoznajom, i upoređivali su njegove sposobnosti sa sposobnostima komercijalne veštačke inteligencije.
„AI je postajao sve bolji, ali naš psihološki AI model je i dalje bio najbolji u rešavanju problema analogije sve do prošlog decembra kada je Tejlor dobio najnoviju nadogradnju GPT-3, i bio je podjednako dobar ili bolji“, rekao je profesor psihologije UCLA Keith Holioak, koautor studije.
Istraživači su rekli da GPT-3 do sada nije bio u stanju da reši probleme koji zahtevaju razumevanje fizičkog prostora. Na primer, ako je opremljen sa opisima seta alata — recimo, kartonske cevi, makaza i trake — koje bi mogao da koristi za prenošenje loptica od jedne činije u drugu, GPT-3 je predložio bizarna rešenja.
„Modeli učenja jezika samo pokušavaju da predvide reči pa smo iznenađeni da mogu da obrazuju“, rekao je Lu. „Tokom protekle dve godine, tehnologija je napravila veliki skok u odnosu na svoje prethodne inkarnacije.“
Naučnici sa UCLA se nadaju da će istražiti da li modeli učenja jezika zapravo počinju da „razmišljaju“ kao ljudi ili rade nešto sasvim drugačije što samo oponaša ljudsku misao.
„GPT-3 možda razmišlja kao čovek“, rekao je Holioak. „Ali, s druge strane, ljudi nisu učili tako što su progutali ceo internet, tako da je metod obuke potpuno drugačiji. Želeli bismo da znamo da li se zaista radi na način na koji ljudi rade, ili je to nešto sasvim novo — pravi veštačka inteligencija — što bi samo po sebi bilo neverovatno.“
Da bi saznali, trebalo bi da utvrde osnovne kognitivne procese koje koriste AI modeli, što bi zahtevalo pristup softveru i podacima koji se koriste za obuku softvera – a zatim da sprovedu testove za koje su sigurni da softver već nije bio dato. To bi, kako su rekli, bio sledeći korak u odlučivanju šta bi AI trebalo da postane.
„Bilo bi veoma korisno za AI i kognitivne istraživače da imaju pozadinu GPT modela“, rekao je Veb. „Mi samo radimo inpute i dobijamo rezultate i to nije toliko odlučujuće koliko bismo želeli da bude.“