Mogu li veliki jezički modeli identifikovati manipulativni jezik?

Mogu li veliki jezički modeli identifikovati manipulativni jezik?

Kao i većina stvari u našim životima danas, međuljudski razgovori su takođe postali digitalni.

„Sa privatnim razgovorima koji se prebacuju na aplikacije za razmenu poruka i društvene medije, sve je više slučajeva da ljudi trpe mentalnu i emocionalnu manipulaciju na mreži“, kaže Iukin Vang, doktor nauka na drugoj godini računarstva. student, koji radi sa Sorushom Vosoughijem, docentom računarskih nauka i Saeedom Hassanpourom, profesorom biomedicinske nauke i epidemiologije i direktorom Centra za precizno zdravlje i veštačku inteligenciju.

Vang definiše mentalnu manipulaciju, kao što je gaslighting, kao oblik verbalnog zlostavljanja koji namerno ima za cilj da kontroliše ili utiče na nečije misli radi lične koristi. Pretnje sabotažom u karijeri od strane poslodavca ili supervizora, ili emocionalne ucene u toksičnim vezama, uobičajeni su primeri.

Pošto je takav jezik implicitan i zavisan od konteksta, prepoznavanje manipulativnog jezika može biti veoma izazovno za velike jezičke modele, kaže Vang. Ovi modeli pokreću sve veći broj aplikacija koje svakodnevno koristimo za komunikaciju, kao i za korišćenje i kreiranje sadržaja.

Da bi rešili ovaj jaz, Vang i njeni saradnici su sastavili novi skup podataka razgovora koji prikazuju ili ističu manipulaciju u razgovorima i koristili skup podataka da analiziraju koliko su najsavremeniji modeli veštačke inteligencije efikasni u identifikaciji manipulativnog sadržaja.

Rezultati njihovog istraživanja predstavljeni su na godišnjem sastanku Udruženja za računarsku lingvistiku u avgustu.

Skup podataka MentalManip sadrži 4.000 setova izmišljenih dijaloga između para likova ekstrahovanih iz filmskih scenarija iz Cornell Movie Dialogs Corpusa. Istraživači su koristili dve strategije za filtriranje izvora podataka i pronalaženje dijaloga sa elementima manipulacije.

Prvi je bio da se ručno sastavi lista od 175 ključnih fraza koje se često javljaju u jeziku mentalne manipulacije, kao što su „Previše ste osetljivi“ ili „Znam vašeg menadžera“. Dijalozi u izvornim podacima su pročešljani u potrazi za podudaranjem sa ovim frazama. Drugi metod je bio da se obuči model da razlikuje dijaloge koji su potencijalno manipulativni kroz nadgledano učenje.

Istraživači su zatim testirali neke dobro poznate LLM-ove, uključujući OpenAI-jev GPT-4 i Meta-ov Llama-2. Modeli su imali zadatak da identifikuju da li dijalog koji su istraživači predstavili sadrži elemente manipulacije.

Drugi eksperiment je izazvao modele da identifikuju koji od tri razgovora sadrži manipulativni jezik nakon što su im prikazani neki primeri. Konačno, modeli su fino podešeni korišćenjem označenih primera manipulativnog jezika iz novog skupa podataka pre testiranja njihove sposobnosti da identifikuju manipulaciju.

Istraživači su otkrili da modeli nisu bili jednaki zadatku kategorizacije manipulativnog sadržaja u sva tri slučaja.

Modeli, posebno manji LLM, imaju tendenciju da identifikuju opštu toksičnost i nepristojan jezik kao manipulaciju, znak njihove preterane preosetljivosti. Njihov ukupni učinak u otkrivanju mentalne manipulacije bio je nezadovoljavajući i nije se poboljšao finim podešavanjem modela na postojećim relevantnim skupovima podataka o mentalnom zdravlju ili otkrivanju toksičnosti. Analiza rečenica u razgovorima pokazala je da se one semantički ne razlikuju, što je verovatno faktor koji ometa performanse modela.

Vang se nada da će njihov skup podataka i preliminarni rezultati inspirisati više istraživanja na ovu temu. LLM modeli obučeni da pouzdano prepoznaju manipulaciju mogu biti dragoceno sredstvo za ranu intervenciju, upozoravajući žrtve da druga strana pokušava da manipuliše njima, kaže Vang.

Prepoznavanje manipulativne namere, posebno kada je ona implicitna, zahteva nivo društvene inteligencije koji sadašnjim sistemima veštačke inteligencije nedostaje, kaže Vosoughi.

„Naš rad pokazuje da iako veliki jezički modeli postaju sve sofisticiraniji, oni se i dalje bore da shvate suptilnosti manipulacije u ljudskom dijalogu“, kaže Vosoughi. „Ovo naglašava potrebu za ciljanijim skupovima podataka i metodama za efikasno otkrivanje ovih nijansiranih oblika zloupotrebe.“