Veliki jezički modeli (LLM) mogu da završe zadatke apstraktnog rezonovanja, ali su podložni mnogim istim vrstama grešaka koje prave ljudi. Andrev Lampinen, Ishita Dasgupta i kolege su testirali najsavremenije LLM i ljude na tri vrste zadataka rezonovanja: zaključivanje prirodnog jezika, procjenjivanje logičke valjanosti silogizama i zadatak odabira Vason.
Nalazi su objavljeni u PNAS Neksus-u.
Autori su otkrili da su LLM skloni sličnim efektima sadržaja kao i ljudi. I ljudi i LLM će verovatnije pogrešno označiti nevažeći argument kao validan kada je semantički sadržaj razuman i uverljiv.
LLM su isto tako loši kao ljudi u Vasonovom zadatku selekcije, u kojem se učesniku prikazuju četiri kartice sa slovima ili brojevima ispisanim na njima (npr. „D“, „F“, „3“ i „7“) i pitali koje karte bi trebalo da preokrenu da bi proverili tačnost pravila kao što je „ako karta ima ‘D’ na jednoj strani, onda ima ‘3’ na drugoj strani.“
Ljudi se često odlučuju da preokrenu karte koje ne nude nikakve informacije o validnosti pravila, ali koje testiraju kontrapozitivno pravilo. U ovom primeru, ljudi bi imali tendenciju da izaberu karticu sa oznakom „3“, iako pravilo ne podrazumeva da bi kartica sa „3“ imala „D“ na poleđini. LLM prave ovu i druge greške, ali pokazuju sličnu ukupnu stopu grešaka kao i ljudi.
Učinak ljudi i LLM-a na zadatku odabira Vason-a se poboljšava ako se pravila o proizvoljnim slovima i brojevima zamijene društveno relevantnim odnosima, kao što su starost ljudi i da li osoba pije alkohol ili gaziranu vodu. Prema autorima, čini se da LLM obučeni na ljudskim podacima pokazuju neke ljudske mane u smislu rasuđivanja — i, kao i ljudima, može biti potrebna formalna obuka da bi poboljšali svoje performanse logičkog zaključivanja.