Novi alati za kloniranje glasa sa veštačkom inteligencijom „dodaju gorivo“ vatri dezinformacija

Novi alati za kloniranje glasa sa veštačkom inteligencijom „dodaju gorivo“ vatri dezinformacija

U video snimku iz novinskog izveštaja od 25. januara, predsednik Džo Bajden govori o tenkovima. Ali prepravljena verzija snimka je ove nedelje prikupila stotine hiljada pregleda na društvenim mrežama, čineći da se čini da je održao govor koji napada transrodne osobe, piše AP.

Stručnjaci za digitalnu forenziku kažu da je video napravljen korišćenjem nove generacije alata za veštačku inteligenciju, koji omogućavaju svakome da brzo generiše audio simulirajući nečiji glas sa nekoliko klikova na dugme. I dok Bajdenov snimak na društvenim mrežama ovog puta možda nije uspeo da prevari većinu korisnika, snimak pokazuje koliko je ljudima sada lako da generišu „duboke“ video snimke pune mržnje i dezinformacije koji bi mogli da nanesu štetu stvarnom svetu.

„Ovakvi alati će u osnovi dodati još ulja na vatru“, rekao je Hafiz Malik, profesor elektrotehnike i računarstva na Univerzitetu Mičigen koji se fokusira na multimedijalnu forenziku. „Čudovište je već na slobodi.“

Stigao je prošlog meseca sa beta fazom ElevenLabs-ove platforme za sintezu glasa, koja je omogućila korisnicima da generišu realističan zvuk glasa bilo koje osobe tako što će učitati nekoliko minuta audio uzoraka i ukucati bilo koji tekst da ga izgovore.

Startup kaže da je tehnologija razvijena za presnimavanje zvuka na različite jezike za filmove, audio knjige i igre kako bi se sačuvao glas i emocije govornika.

Korisnici društvenih medija brzo su počeli da dele audio uzorak Hilari Klinton koji je generisan od veštačke inteligencije čita isti transfobični tekst prikazan u Bajdenovom snimku, zajedno sa lažnim audio snimcima Bila Gejtsa koji navodno kaže da vakcina protiv COVID-19 izaziva SIDU, a glumica Ema Votson navodno čita Hitlerov manifest „Majn kampf“.

Ubrzo nakon toga, ElevenLabs je tvitovao da vidi „sve veći broj slučajeva zloupotrebe kloniranja glasa“ i najavio da sada istražuje mere zaštite za suzbijanje zloupotrebe. Jedan od prvih koraka bio je da se funkcija učini dostupnom samo onima koji daju informacije o plaćanju. U početku su anonimni korisnici mogli besplatno da pristupe alatu za kloniranje glasa. Kompanija takođe tvrdi da ako postoje problemi, može pratiti bilo koji generisani zvuk do kreatora.

Ali čak ni mogućnost praćenja kreatora neće ublažiti štetu alata, rekao je Hani Farid, profesor na Kalifornijskom univerzitetu u Berkliju, koji se fokusira na digitalnu forenziku i dezinformacije.

„Šteta je učinjena“, rekao je on.

Kao primer, Farid je rekao da bi loši akteri mogli da pokrenu berzu lažnim zvukom visokog izvršnog direktora koji kaže da je profit opao. A već postoji snimak na Jutjubu koji je koristio alatku da izmeni video kako bi izgledalo da je Bajden rekao da SAD pokreću nuklearni napad na Rusiju.

Besplatni softver otvorenog koda sa istim mogućnostima takođe se pojavio na mreži, što znači da paivall na komercijalnim alatima nisu prepreka. Koristeći jedan besplatni onlajn model, AP je generisao audio uzorke koji će zvučati kao glumci Daniel Craig i Jennifer Lavrence za samo nekoliko minuta.

„Pitanje je gde uperiti prst i kako vratiti duha u bocu?“ rekao je Malik. „Ne možemo to učiniti.“

Kada su deepfakes prvi put dospeli na naslove pre oko pet godina, bilo ih je dovoljno lako otkriti pošto subjekt nije treptao, a zvuk je zvučao robotski. To više nije slučaj jer alati postaju sofisticiraniji.

Izmenjeni video Bajdena koji daje pogrdne komentare o transrodnim osobama, na primer, kombinuje audio generisan AI sa pravim snimkom predsednika, preuzetom iz CNN-ovog prenosa uživo od 25. januara u kojem je najavljeno slanje tenkova SAD u Ukrajinu. Bajdenovim ustima se manipulisalo na video snimku kako bi se poklopilo sa zvukom. Iako je većina korisnika Tvitera prepoznala da sadržaj nije nešto što bi Bajden verovatno rekao, ipak su bili šokirani koliko je to realno izgledalo. Činilo se da su drugi verovali da je to stvarno – ili barem nisu znali u šta da veruju.

Holivudski studiji odavno mogu da iskrive stvarnost, ali pristup toj tehnologiji je demokratizovan bez razmatranja implikacija, rekao je Farid.

„To je kombinacija veoma, veoma moćne tehnologije zasnovane na veštačkoj inteligenciji, jednostavnosti korišćenja, a zatim i činjenice da model izgleda kao: hajde da ga stavimo na internet i vidimo šta će se sledeće desiti“, rekao je Farid.

Audio je samo jedna oblast u kojoj dezinformacije generisane veštačkom inteligencijom predstavljaju pretnju.

Besplatni onlajn generatori AI slika kao što su Midjournei i DALL-E mogu da kreiraju fotorealistične slike rata i prirodnih katastrofa u stilu zastarelih medijskih kuća sa jednostavnim tekstualnim upitom. Prošlog meseca, neki školski okrugi u SAD-u počeli su da blokiraju ChatGPT, koji može da proizvede čitljiv tekst – poput studentskih seminarskih radova – na zahtev.

ElevenLabs nije odgovorio na zahtev za komentar.