Istraživanje otkriva ograničenja vizuelnih sposobnosti velikih jezičkih modela

Istraživanje otkriva ograničenja vizuelnih sposobnosti velikih jezičkih modela

Tim kompjuterskih naučnika sa Univerziteta Auburn u SAD-u, u saradnji sa kolegom sa Univerziteta Alberta u Kanadi, istraživao je vizuelne sposobnosti četiri najpopularnija velika jezička modela (LLM) sa sposobnostima vida (VLM). Pooian Rahmanzadehgervi, Logan Bolton, Anh Totti Nguien i Mohammad Reza Taesiri su testirali modele poput GPT-4o, Gemini-1.5 Pro, Claude-3 Sonet i Claude-3.5 Sonet na njihovu sposobnost obrade vizuelnih informacija.

Studija, objavljena na arXiv preprint serveru, istražuje kako su veliki jezički modeli evoluirali dodavanjem vizuelnih sposobnosti, ali istovremeno ističe ograničenja u njihovoj sposobnosti da dubinski obrade vizuelne podatke. Istraživači su otkrili da iako je tehnologija kamere za vizuelizaciju napredovala, obrada podataka koju ti modeli pružaju je još uvek u ranoj fazi.

„Jedno je tražiti od jezičkog modela da identifikuje poznate objekte poput Tadž Mahala, a sasvim drugo tražiti od njega da izvrši zadatke poput brojanja dece koja se drže za ruke ispred njega“, objašnjava Rahmanzadehgervi. Modeli su pokazali poteškoće u zadacima koji zahtevaju viši nivo apstrakcije ili logičko zaključivanje, kao što je brojanje ili prepoznavanje kompleksnih obrazaca.

Studija naglašava da će veliki jezički modeli morati napredovati u obuci sa širim spektrom vizuelnih podataka pre nego što mogu da pruže tačne odgovore u zadacima koji zahtevaju složeniju vizuelnu analizu, poput prepoznavanja interakcija između objekata na slici.

Zaključak: Ovo istraživanje ukazuje na važnost daljeg razvoja velikih jezičkih modela u oblasti vizuelne percepcije kako bi se postigao nivo sposobnosti koji bi bio uporediv sa ljudskim.