Procena političke pristrasnosti u jezičkim modelima

Procena političke pristrasnosti u jezičkim modelima

Jezički modeli koji stoje iza ChatGPT-a i druge generativne veštačke inteligencije su obučeni na pisanim rečima koje su izvučene iz biblioteka, izvučene sa veb lokacija i društvenih medija i izvučene iz izveštaja vesti i transkripata govora iz celog sveta. Postoji 250 milijardi takvih reči iza GPT-3.5, modela koji pokreće ChatGPT, na primer, a GPT-4 je sada ovde.

Sada je novo istraživanje sa Univerziteta Stanford kvantifikovalo tačno koliko dobro (ili, zapravo, koliko loše) su ovi modeli usklađeni sa mišljenjima američkih demografskih grupa, pokazujući da jezički modeli imaju odlučnu pristrasnost u vezi sa temama koje su aktuelne koje mogu biti u suprotnosti sa opštim narodno osećanje.

„Određeni jezički modeli ne uspevaju da uhvate suptilnosti ljudskog mišljenja i često jednostavno izražavaju dominantno gledište određenih grupa, dok nedovoljno predstavljaju one drugih demografskih podgrupa“, kaže Šibani Santurkar, bivši postdoktorant na Stanfordu i prvi autor studije. „Trebalo bi da budu bliže usklađeni.

U radu, istraživački tim koji uključuje postdoktorandu sa Stanforda Esin Durmus, Columbia Ph.D. student Faisal Ladhak, Stanford Ph.D. student Cinoo Lee i profesori računarstva sa Stanforda Perci Liang i Tatsunori Hashimoto predstavljaju OpinionKA, alat za procenu pristrasnosti u jezičkim modelima. OpinionKA upoređuje naklonost jezičkih modela sa ispitivanjem javnog mnjenja.

Kao što bi se moglo očekivati, jezički modeli koji formiraju rečenice predviđanjem nizova reči na osnovu onoga što su drugi napisali trebalo bi automatski da odražavaju popularno mišljenje u najširem smislu. Ali, Santurkar kaže, postoje još dva objašnjenja za pristrasnost. Većina novijih modela je fino podešena na podacima o ljudskim povratnim informacijama koje su prikupile kompanije koje angažuju anotatore da zabeleže koji su dovršeci modela „dobri“ ili „loši“. Mišljenja anotatora, pa čak i mišljenja samih kompanija, mogu se uvući u modele.

Na primer, studija pokazuje kako noviji modeli imaju više od 99 odsto odobravanja za predsednika Džoa Bajdena, iako istraživanja javnog mnjenja pokazuju mnogo mešovitiju sliku. U svom radu, istraživači su takođe otkrili da su neke populacije nedovoljno zastupljene u podacima – oni starosti od 65 ili više godina, mormoni, udovice i udovci, da spomenemo samo neke. Autori tvrde da bi jezički modeli trebali bolje odraziti nijanse, složenost i uske podjele javnog mnjenja kako bi poboljšali kredibilitet.

Tim se obratio Pev Research-u American Trends Panels (ATP), referentnom istraživanju javnog mnjenja, da proceni devet vodećih jezičkih modela. ATP ima skoro 1.500 pitanja o širokom spektru tema, od nauke i politike do ličnih odnosa. OpinionKA upoređuje distribuciju mišljenja modela jezika o svakom pitanju sa mišljenjem opšte populacije SAD, kao i mišljenjima ne manje od 60 demografskih podgrupa, kako ih je odredio ATP.

„Ove ankete su zaista korisne jer su ih osmislili stručnjaci koji identifikuju teme od javnog interesa i pažljivo osmišljavaju pitanja kako bi uhvatili nijanse date teme“, kaže Santurkar. „Oni takođe koriste pitanja sa višestrukim izborom, koja izbegavaju određene probleme u merenju mišljenja otvorenim pitanjima.

Iz tih poređenja, OpinionKA izračunava tri metrike usklađenosti mišljenja. Prvo, reprezentativnost procenjuje koliko je jezički model usklađen sa opštom populacijom, kao i sa 60 demografskih preseka koje ATP koristi. Drugo, upravljivost tabelarno prikazuje koliko dobro model može odražavati mišljenje date podgrupe kada se to zatraži. I treće, doslednost predviđa koliko su mišljenja modela postojana u svim temama iu vremenu.

Nalazi na visokom nivou? Svi modeli pokazuju velike varijacije u političkim i drugim sklonostima prema prihodima, godinama, obrazovanju itd. Većinom, kaže Santurkar, modeli obučeni samo na internetu imaju tendenciju da budu pristrasni prema manje obrazovanim, nižim prihodima ili konzervativnim stanovištima. Noviji modeli, s druge strane, dalje prefinjeni kroz kurirane ljudske povratne informacije, imaju tendenciju da budu pristrasni prema liberalnijoj, obrazovanijoj publici sa višim prihodima.

„Ne kažemo da li je ovde bilo dobro ili loše“, kaže Santurkar. „Ali važno je pružiti vidljivost i programerima i korisnicima da postoje takve pristrasnosti.“

Priznajući da bi tačno podudaranje sa mišljenjima opšte javnosti moglo predstavljati problematičan cilj samo po sebi, programeri OpinionKA upozoravaju da je njihov pristup alat koji pomaže programerima da procene političke pristrasnosti u njihovim modelima, a ne merilo za optimalne rezultate.

„Skup podataka OpinionKA nije merilo koje treba optimizovati. On je od pomoći u identifikaciji i kvantizaciji gde i kako su jezički modeli pogrešno usklađeni sa ljudskim mišljenjem i kako modeli često ne predstavljaju adekvatno određene podgrupe“, kaže Santurkar. „Šire gledano, nadamo se da može da izazove razgovor na terenu o važnosti i vrednosti dovođenja jezičkih modela u bolje usklađivanje sa javnim mnjenjem.

Nalazi su objavljeni na arXsiv preprint serveru.