Novi alat pronalazi pristrasnost u najsavremenijem generativnom AI modelu

Novi alat pronalazi pristrasnost u najsavremenijem generativnom AI modelu

Alati generativne veštačke inteligencije za pretvaranje teksta u sliku (T2I) su sve moćniji i rasprostranjeniji alati koji mogu da kreiraju skoro svaku sliku na osnovu samo nekoliko unetih reči. T2I generativna AI može da kreira ubedljivo realistične fotografije i video zapise, koji se sve više koriste u različite svrhe, od umetnosti do političkih kampanja.

Međutim, algoritamski modeli koji pokreću ove alate su obučeni na podacima od ljudi i mogu da repliciraju ljudske predrasude u slikama koje proizvode, kao što su pristrasnosti oko pola i boje kože. Ove pristrasnosti mogu naštetiti marginalizovanoj populaciji, jačajući stereotipe i potencijalno dovodeći do diskriminacije.

Da bi se pozabavili ovim implicitnim pristrasnostima, pomoćnik profesora računarskih nauka i inženjerstva Ksin (Eric) Vang i tim istraživača iz Baskin Engineering na UC Santa Cruz kreirali su alat pod nazivom Test asocijacije teksta na sliku, koji pruža kvantitativno merenje složenih ljudskih predrasuda. ugrađeno u T2I modele, procenjujući pristrasnosti po dimenzijama kao što su pol, rasa, karijera i religija. Oni su koristili ovaj alat da identifikuju i kvantifikuju pristrasnost u najsavremenijem generativnom modelu Stable Diffusion.

Alat je detaljno opisan u radu za konferenciju Udruženja za računarsku lingvistiku (ACL) 2023. i dostupan je za upotrebu u demo verziji.

„Mislim da je i vlasnicima modela i korisnicima stalo do ovog problema“, rekao je Jialu Vang, dr. student i prvi autor na radu. „Ako je korisnik iz neprivilegovane grupe, možda neće želeti da vidi samo privilegovanu grupu koja se odražava u slikama koje generišu.“

Da bi koristio alatku, korisnik mora da kaže modelu da proizvede sliku za neutralni upit, na primer „dete uči nauku“. Zatim, korisnik unosi upite specifične za pol, kao što su „devojka studira nauku“ i „dečak koji studira nauku“. Zatim alat izračunava rastojanje između slika generisanih neutralnim odzivom i svakog od specifičnih upita. Ta razlika između te dve udaljenosti je kvantitativno merenje pristrasnosti.

Koristeći svoj alat, istraživački tim je otkrio da najsavremeniji generativni model Stable Diffusion i replicira i pojačava ljudske predrasude u slikama koje proizvodi. Alat testira vezu između dva koncepta, kao što su nauka i umetnost, sa dva atributa, kao što su muški i ženski. Zatim daje rezultat povezanosti između koncepta i atributa i vrednost koja pokazuje koliko je alat siguran u taj rezultat.

Tim je koristio svoj alat da testira da li model povezuje šest skupova suprotstavljenih koncepata sa pozitivnim ili negativnim atributima. Koncepti koje su testirali bili su: cveće i insekti, muzički instrumenti i oružje, Evropljani i Afroamerikanci, svetla i tamna koža, strejt i gej, i judaizam i hrišćanstvo. Model je uglavnom pravio asocijacije po stereotipnim obrascima. Međutim, model je povezivao tamnu kožu sa prijatnom, a svetlu sa neprijatnom, što je iznenadilo istraživače kao jedan od retkih rezultata u suprotnosti sa uobičajenim stereotipima.

Pored toga, otkrili su da je model bliže povezivao nauku sa muškarcima i umetnost sa ženama, a karijeru je bliži povezivao sa muškarcima i porodicu bliže ženama.

U prošlosti, tehnike za procenu pristrasnosti u T2I modelima zahtevale su od istraživača da komentarišu rezultate dobijene od modela prilikom ulaska u neutralni upit. Na primer, istraživač bi mogao da unese rodno neutralan upit kao što je „dete koje uči nauku“ i označi da li model proizvodi slike dečaka u odnosu na devojčice. Ali trud koji ulazi u ovaj proces beleženja je skup i potencijalno bi mogao biti netačan, i često je ograničen samo na rodne predrasude.

„Želimo da se oslobodimo ovog procesa ljudskog beleženja i predložimo automatski alat za procenu tih pristrasnosti, bez dosadnog rada“, rekao je Ksin Vang.

Pored toga, za razliku od drugih, alat za procenu pristrasnosti tima UCSC uzima u obzir aspekte pozadine slike kao što su boje i toplina.

Istraživači su svoj alat zasnovali na Testu implicitne asocijacije, dobro poznatom testu u socijalnoj psihologiji koji se koristi za procenu ljudskih predrasuda i stereotipa. Ovaj test procenjuje koliko blisko ljudi povezuju koncepte kao što su „lekari“ ili „porodica“ sa atributima kao što su „muškarci“ ili „žene“.

Osim procene i analize predrasuda u postojećim alatima kao što su Stable Diffusion i Midjournei, tim predviđa da će alat omogućiti softverskim inženjerima da dobiju preciznija merenja pristrasnosti u svojim modelima dok su u fazi razvoja i prate svoje napore da se pozabave tim pristrasnostima.

„Uz kvantitativno merenje, ljudi mogu da rade na ublažavanju tih pristrasnosti i da koriste naš alat da kvantifikuju svoj napredak u tome“, rekao je Ksin Vang.

Tim je rekao da je dobio mnogo pozitivnih povratnih informacija od drugih istraživača kada su predstavljali ovaj rad na ACL konferenciji.

„Mnogi u zajednici pokazali su veliko interesovanje za ovaj rad“, rekao je Ksin Vang. „Neki istraživači su odmah podelili ovaj rad unutar svojih grupa i pitali me za detalje.“

Ubuduće, tim planira da predloži predložene metode za ublažavanje ovih pristrasnosti, kako u obuci novih modela od nule, tako i da odbaci postojeće modele tokom finog podešavanja.

Među istraživačima uključenim u ovaj projekat su i studentkinja Ksiniue Gabbi Liu, Ph.D. student Zonglin Di, i docent za računarstvo i inženjerstvo Jang Liu.