Naučna fantastika je prožeta veštačkom inteligencijom koja se okreće protiv svojih ljudskih tvoraca. HAL-9000. Matriks. Skajnet. GLaDOS. Sajlonci. Čovečanstvo, izgleda, ima dubok strah od pobune mašine.
Sa porastom sve sofisticiranijih modela velikih jezika (LLM), kao što je Chat GPT, pitanje kakve opasnosti može predstavljati AI postalo je još važnije.
A sada, imamo dobre vesti. Prema novoj studiji koju su vodili kompjuterski naučnici Irina Gurevič sa Tehničkog univerziteta u Darmštatu u Nemačkoj i Hariš Tajar Madabuši sa Univerziteta Bat u Velikoj Britaniji, ovi modeli nisu u stanju da pokvare.
Oni su, u stvari, previše ograničeni svojim programiranjem, nesposobni da steknu nove veštine bez instrukcija, i tako ostaju pod ljudskom kontrolom.
To znači da, iako nam ostaje moguće da koristimo modele u zle svrhe, sami po sebi LLM je bezbedno razvijati bez brige.
„Strah je bio da će, kako modeli budu sve veći i veći, moći da reše nove probleme koje trenutno ne možemo da predvidimo, što predstavlja pretnju da bi ovi veći modeli mogli da steknu opasne sposobnosti uključujući rasuđivanje i planiranje“, kaže Tajar Madabuši.
„Naša studija pokazuje da strah da će model otići i učiniti nešto potpuno neočekivano, inovativno i potencijalno opasno nije validan.
U poslednjih nekoliko godina, sofisticiranost LLM-a je porasla do zapanjujuće mere. Sada su u stanju da vode relativno koherentan razgovor putem teksta, na način koji izgleda kao prirodan i ljudski.
Oni nisu savršeni – pošto zapravo nisu neki oblik inteligencije, u mnogim slučajevima im nedostaju kritičke veštine potrebne za raščlanjivanje dobrih informacija od loših. Ali oni i dalje mogu da prenesu loše informacije na ubedljiv način.
Nedavno su neki istraživači istraživali mogućnost da LLM razvijaju ono što je poznato kao emergentne sposobnosti, umesto da se namerno kodira u svom programiranju. Jedan poseban primer je LLM koji je bio u stanju da odgovori na pitanja o društvenim situacijama bez eksplicitne obuke o tim situacijama.
Zapažanje je bilo da kako se LLM povećavaju, oni postaju moćniji i mogu da obavljaju više zadataka. Nije bilo jasno da li ovo skaliranje podrazumeva i rizik ponašanja sa kojim možda nismo spremni da se nosimo. Stoga su istraživači sproveli istragu da vide da li su se takvi slučajevi zaista pojavili ili je program jednostavno delovao na složene načine unutar granica svog koda.
Eksperimentisali su sa četiri različita LLM modela, dodeljujući im zadatke koji su prethodno identifikovani kao hitni. I nisu našli nikakve dokaze za razvoj diferenciranog mišljenja, ili da je bilo koji od modela sposoban da deluje izvan njihovog programiranja.
Za sva četiri modela, sposobnost praćenja uputstava, pamćenje i lingvističko znanje su bili u stanju da uračunaju sve sposobnosti koje su pokazali LLM. Nije bilo odlaska van staze. Nemamo čega da se plašimo od LLM-a sami.
Ljudi su, s druge strane, manje verni. Naša eksplodirajuća upotreba veštačke inteligencije, koja zahteva više energije i izaziva sve, od autorskih prava do poverenja do toga kako da izbegnemo sopstveno digitalno zagađenje, to prerasta u pravi problem.
„Naši rezultati ne znače da veštačka inteligencija uopšte nije pretnja“, kaže Gurevič.
„Radije, pokazujemo da navodna pojava složenih veština razmišljanja povezanih sa specifičnim pretnjama nije podržana dokazima i da ipak možemo veoma dobro da kontrolišemo proces učenja LLM. Buduća istraživanja bi se stoga trebalo fokusirati na druge rizike koje predstavljaju modeli, kao što je njihov potencijal da se iskoristi za generisanje lažnih vesti“.
Istraživanje je objavljeno u okviru zbornika radova 62. godišnjeg sastanka Udruženja za računarsku lingvistiku.