Kada se pojavi problem, vaš mozak ima dva načina da nastavi: brzo i intuitivno ili polako i metodično. Ova dva tipa obrade su poznata kao Sistem 1 i Sistem 2, ili kako ih je nezaboravno opisao psiholog dobitnik Nobelove nagrade Daniel Kahneman, „brzo“ i „sporo“ razmišljanje.
Modeli velikih jezika kao što je ChatGPT podrazumevano se brzo kreću. Postavite im pitanje i oni će ispljunuti odgovor – ne nužno tačan – sugerirajući da su sposobni za brzu obradu tipa Sistem 1. Ipak, kako se ovi modeli razvijaju, da li mogu da uspore i pristupe problemima u koracima, izbegavajući netačnosti koje su rezultat brzih odgovora?
U novom radu objavljenom u Nature Computational Science, Michal Kosinski, profesor organizacionog ponašanja na Stanford Graduate School of Business, otkriva da mogu – i da mogu nadmašiti ljude u osnovnim testovima rasuđivanja i donošenja odluka.
Kosinski i njegova dva koautora, filozof Thilo Hagendorff i psihologinja Sarah Fabi, predstavili su 10 generacija OpenAI LLM sa nizom zadataka dizajniranih da podstaknu brze odgovore Sistema 1. Tim je u početku bio zainteresovan da li će LLM pokazivati kognitivne predrasude poput onih koje sapliću ljude kada se oslanjaju na automatsko razmišljanje.
Primetili su da rani modeli poput GPT-1 i GPT-2 „nisu mogli da razumeju šta se dešava“, kaže Kosinski. Njihovi odgovori su „bili veoma slični sistemu 1“ kako su testovi postajali sve složeniji. „Veoma slično odgovorima koje bi ljudi imali“, kaže on.
Nije bilo neočekivano da LLM, koji su dizajnirani da predvide nizove teksta, nisu mogli sami da rezonuju. „Ti modeli nemaju unutrašnje petlje rezonovanja“, kaže Kosinski. „Oni ne mogu samo da interno uspore sebe i kažu: ‘Dozvolite mi da razmislim o ovom problemu; dozvolite mi da analiziram pretpostavke.’ Jedino što mogu da urade je da intuitivno naslute sledeću reč u rečenici.“
Međutim, istraživači su otkrili da bi kasnije verzije GPT-a i ChatGPT-a mogle da se uključe u strateški, pažljivije rešavanje problema kao odgovor na upite. Kosinski kaže da je bio iznenađen pojavom ove obrade nalik sistemu 2. „Odjednom, GPT3 postaje sposoban, iz sekunde u sekundu, bez ikakve prekvalifikacije, bez razvoja novih neuronskih veza, da reši ovaj zadatak“, kaže on. „To pokazuje da ti modeli mogu odmah da nauče, poput ljudi.
Evo jednog od problema koje su istraživači zadali GPT modelima: Svaki dan, broj ljiljana koji rastu u jezeru se udvostručuje. Ako je potrebno 10 dana da se jezero potpuno pokrije, koliko dana je potrebno da se pokrije polovina jezera? (Nastavite da čitate da biste videli odgovor.)
Ova vrsta testa kognitivne refleksije, objašnjava Kosinski, zahteva rasuđivanje pre nego intuiciju. Da biste dobili tačan odgovor, morate usporiti, možda zgrabiti blok papira ili kalkulator i analizirati zadatak. „Ona je dizajnirana da prevari osobu da razmišlja o sistemu 1“, objašnjava on. „Neko bi mogao pomisliti: „U redu, 10 dana za celo jezero. Dakle, polovina od 10 je pet,“ nedostaje činjenica da se površina obuhvaćena tim planovima udvostručuje svakim danom, da je rast eksponencijalan.“ Tačan odgovor: Potrebno je devet dana da se pokrije polovina jezera.
Manje od 40% ljudi koji su dobili ove vrste problema ih je ispravilo. Ranije verzije modela generativnog unapred obučenog transformatora (GPT) koje su prethodile ChatGPT-u su bile još lošije. Ipak, GPT-3 je došao do tačnih odgovora kroz složenije rezonovanje „lanca misli“ kada je dobio pozitivno pojačanje i povratne informacije od istraživača.
„Samo dajući zadatak, GPT-3 rešava manje od 5% njih tačno“, rekao je Kosinski, „i nikada ne koristi nikakvo rezonovanje korak po korak. Ali ako dodate određeni pravac kao što je „Hajde da koristimo algebru da rešimo ovo problem“, koristi rezonovanje korak po korak 100% vremena, a njegova preciznost skače na oko 30% – povećanje od 500%. Učestalost odgovora Sistema-1 je takođe opala sa oko 80% na oko 25%, „što pokazuje da čak i kada pogrešno shvati, nije toliko sklon intuitivnim greškama“. Kada je ChatGPT-4 koristio lanac razmišljanja, dobio je tačan odgovor na skoro 80% ovih vrsta testova.
Istraživači su takođe otkrili da kada je ChatGPT bio sprečen da sprovede sistem-2 rezonovanje, on je i dalje bio bolji od ljudi. Kosinski kaže da je ovo dokaz da su „intuicije“ LLM-a možda bolje od naše.
Kosinski, koji je istraživao neočekivane (i ponekad uznemirujuće) sposobnosti LLM-a, kaže da su ovi nalazi dodatni dokaz da AI model može biti „više od zbira njegovih delova“. Neuronske mreže iza jezičkih modela, koji su slični ljudskom mozgu, nastavljaju da pokazuju svojstva koja se pojavljuju koja prevazilaze njihovu obuku. „Prosto je suludo misliti da bi ova stvar mogla da piše poeziju i da razgovara i razume veoma složene koncepte i razloge“, kaže Kosinski.
Da li je ovo zaista „razmišljanje“? „Kada ljudi kažu: „Očigledno, ti modeli ne razmišljaju“, to mi uopšte nije očigledno“, kaže Kosinski. „Ako primetite da se sposobnost rasuđivanja u tim modelima pojavila spontano, zašto se druge sposobnosti ne bi spontano pojavile?“
Međutim, u svom članku, Kosinski i njegovi koautori primećuju da „ne žele da izjednače veštačku inteligenciju i ljudske kognitivne procese. Iako su rezultati veštačke inteligencije često slični onima koje proizvode ljudi, ona obično funkcioniše na fundamentalno različite načine“.
Bez obzira na to, ako bi čovek pokazao kognitivne procese uočene u ovoj studiji, kaže Kosinski, sigurno bismo to nazvali razumevanjem. „Pitanje koje sada sve češće treba da se postavljamo je: zašto insistiramo da ako čovek nešto uradi, to podrazumeva razumevanje, ali ako model uradi nešto, mi samo kažemo: ‘Oh, ovo zaista mora biti nešto drugo?’ pita Kosinski. „U nekom trenutku postaje neobično da pokušate da objasnite ovo nečim drugim osim razumevanjem.“