Veštačka inteligencija je naučila da savlada jezik, stvara umetnost, pa čak i da pobedi velemajstore u šahu. Ali da li može da razbije kod apstraktnog rasuđivanja — te lukave vizuelne zagonetke zbog kojih se ljudi češu po glavi?
Istraživači sa USC Viterbi School of Engineering Information Science Institute (ISI) stavljaju na test kognitivne sposobnosti AI, gurajući multimodalne modele velikih jezika (MLLM) da rešavaju vizuelne probleme koji su nekada bili rezervisani za testove IK kod ljudi. Rezultat? Uvid u to dokle je veštačka inteligencija stigla — i gde se još uvek spotiče.
Istraživački asistenti USC Viterbi ISI Kian Ahrabian i Zhivar Sourati nedavno su istraživali da li MLLM mogu da obavljaju neverbalno apstraktno rezonovanje, zadatke koji zahtevaju i vizuelnu percepciju i logičko rezonovanje, i predstavili su svoje nalaze na Konferenciji o jezičkom modeliranju (COLM 2024) u Filadelfiji, Pensilvanija 7. oktobra –9, 2024. Rad je dostupan i na arXiv preprint serveru.
Jai Pujara, istraživač-saradnik profesor računarstva na USC Viterbi School of Engineering i autor u radu je rekao: „Svakog dana smo bombardovani novim naslovima o tome šta AI može (i ne može) da uradi, koji su često veoma iznenađujuće. Još uvek imamo tako ograničeno razumevanje šta novi modeli veštačke inteligencije mogu da urade, i dok ne razumemo ova ograničenja, ne možemo da učinimo AI boljim, sigurnijim i korisnijim AI se bori.“
„Želeli smo da vidimo da li ova nova generacija velikih modela, koji su u stanju da obrađuju slike, može samostalno da rasuđuje“, objasnio je Ahrabjan. „Na primer, ako vidite žuti krug koji se pretvara u plavi trougao, može li model primeniti isti obrazac u drugom scenariju?“
Da bi odgovorio na ovo pitanje, tim je testirao 24 različita MLLM-a na slagalicama zasnovanim na Ravenovim progresivnim matricama, dobro poznatom testu apstraktnog zaključivanja. Otkrili su da su modeli otvorenog koda imali značajne probleme. „Bili su stvarno loši. Nisu mogli ništa da izvuku iz toga“, jasno je rekao Ahrabjan.
Nasuprot tome, modeli sa zatvorenim izvorom, kao što je GPT-4V — modeli koje su razvile privatne kompanije i nisu javno dostupni za modifikovanje — imali su bolji učinak. Ovi modeli se obično obučavaju sa naprednijim resursima, uključujući veće skupove podataka i moćnije računarske sisteme, što im daje primetnu prednost. „Videli smo neke netrivijalne rezultate sa modelima zatvorenog koda“, dodao je Ahrabjan, „Konkretno, GPT-4V je bio relativno dobar u rasuđivanju, ali je daleko od savršenog.“
Kritični deo studije uključivao je seciranje gde su ovi modeli bili neuspešni. Jedno od ključnih pitanja bila je sposobnost veštačke inteligencije da precizno obrađuje vizuelne informacije. „Želeli smo da znamo da li modeli mogu da vide detalje — poput boja ili linija koje se sudaraju — i da li su tu pogrešili“, rekao je Ahrabjan.
Da bi izolovali problem, istraživači su dali detaljne tekstualne opise slika, osiguravajući da modeli imaju sve potrebne informacije u drugom formatu „Čak i kada smo uklonili vizuelni element i samo im dali tekst, mnogi modeli i dalje nisu mogli efikasno da rezonuju, “ objasnio je Sourati.
Ovo je otkrilo ključni uvid: problem nije bio samo sa vizuelnom obradom – već i sa samim obrazloženjem. Sada je tim imao jasniju sliku o tome šta nije funkcionisalo, što im je omogućilo da preciziraju fokus i usmere buduća poboljšanja.
Jedna obećavajuća metoda koju su istraživači istražili bila je „Lanac podsticanja misli“, gde se AI podstiče da razmišlja korak po korak kroz zadatke rasuđivanja. Ovaj pristup je u nekim slučajevima doveo do značajnih poboljšanja. „Uvodeći modele nagoveštajima, mogli smo da vidimo do 100% poboljšanja u performansama“, primetio je Ahrabjan.
Uprkos preostalim izazovima, istraživači su optimistični. Nalazi studije ističu kako trenutna ograničenja AI tako i uzbudljive mogućnosti za budući napredak. Kako ovi modeli nastavljaju da se razvijaju, istraživanje USC-a moglo bi utrti put AI koja ne samo da razume već i daje razloge – zamagljujući liniju između mašinske inteligencije i ljudske spoznaje.