Modeli velikih jezika (LLM), kao što je GPT-4 model koji podržava široko korišćenu konverzacionu platformu ChatGPT, iznenadili su korisnike svojom sposobnošću da razumeju pisane upite i generišu odgovarajuće odgovore na različitim jezicima. Neki od nas se stoga mogu zapitati: da li su tekstovi i odgovori koje generišu ovi modeli toliko realistični da bi se mogli pomešati sa onima koje su napisali ljudi?
Istraživači sa UC San Diego nedavno su pokušali da odgovore na ovo pitanje, tako što su pokrenuli Tjuringov test, poznatu metodu nazvanu po kompjuterskom naučniku Alanu Tjuringu, dizajniranom da proceni u kojoj meri mašina pokazuje inteligenciju nalik čoveku.
Nalazi ovog testa, navedeni u radu koji je prethodno objavljen na serveru arKsiv, sugerišu da je ljudima teško da razlikuju GPT-4 model i ljudskog agenta kada komuniciraju sa njima u okviru razgovora sa 2 osobe.
„Ideja za ovaj rad je zapravo potekla iz klase koju je Ben vodio na LLM-ima“, rekao je Cameron Jones, koautor rada, za Tech Ksplore.
„Prve nedelje smo pročitali neke klasične radove o Tjuringovom testu i razgovarali smo o tome da li LLM može da ga položi i da li bi bilo važno da može. Koliko sam mogao da procenim, niko nije pokušao u tom trenutku, pa sam odlučio da napravim eksperiment da testiram ovo kao moj razredni projekat, a onda smo nastavili da izvodimo prvi javni istraživački eksperiment.“
Prva studija koju je sproveo Džons i koju je nadgledao Bergen, profesor kognitivnih nauka na UC San Diego, dala je neke zanimljive rezultate, sugerišući da bi GPT-4 mogao da prođe kao čovek u približno 50% interakcija. Bez obzira na to, njihov istraživački eksperiment nije dobro kontrolisao neke varijable koje bi mogle uticati na nalaze, pa su odlučili da sprovedu drugi eksperiment, dajući rezultate predstavljene u njihovom nedavnom radu.
„Dok smo prolazili kroz proces vođenja studija, otkrili smo da i drugi ljudi odlično rade u ovoj oblasti, uključujući Jannai et al ‘human or not’ igru“, rekao je Džons. „Napravili smo onlajn verziju igre za 2 igrača gde bi se ljudski učesnici ili uporedili sa drugim čovekom ili modelom veštačke inteligencije.
Tokom svakog suđenja igre za dva igrača koju koriste Džons i njegove kolege, ljudski ispitivač stupa u interakciju sa „svedokom“, koji može biti ili čovek ili AI agent. Islednik postavlja svedoku niz pitanja kako bi pokušao da utvrdi da li je čovek ili ne.
„Razgovori su trajali do pet minuta, a na kraju je ispitivač doneo sud o tome da li misle da je svedok čovek ili veštačka inteligencija“, objasnio je Džons. „U roku od pet minuta, učesnici su mogli da pričaju o svemu što žele (osim da govore uvredljive stvari, koje smo koristili filterom da sprečimo).“
U ovoj kompjuterskoj igri za dva igrača, istraživači su primenili tri različita LLM kao potencijalne svedoke, naime GPT-4, GPT 3.5 i ELIZA modele. Otkrili su da, iako su korisnici često mogli da utvrde da su modeli ELIZA i GPT-3.5 mašine, njihova sposobnost da shvate da li je GPT-4 čovek ili mašina nije bila ništa bolja od verovatnoće da će to ispravno dobiti ako biraju nasumično (tj. slučajno).
„Iako su pravi ljudi zapravo bili uspešniji, ubeđujući ispitivače da su ljudi dve trećine vremena, naši rezultati sugerišu da u stvarnom svetu ljudi možda neće moći pouzdano da kažu da li razgovaraju sa čovekom ili AI sistemom“, rekao je Džons.