Ranije ove godine, zaposleni u multinacionalnoj korporaciji poslao je prevarantima 25 miliona dolara. Uputstva za transfer novca stigla su – pomislio je zaposleni – direktno od finansijskog direktora kompanije. U stvarnosti, kriminalci su koristili AI program da bi napravili realistične video snimke finansijskog direktora i nekoliko drugih kolega u razrađenoj šemi.
Video snimci koje je kreirala veštačka inteligencija postali su toliko realistični da se ljudi (i postojeći sistemi za detekciju) bore da razlikuju prave i lažne video snimke. Da bi se pozabavili ovim problemom, istraživači iz Columbia Engineeringa, predvođeni profesorom računarskih nauka Junfeng Jangom, razvili su novi alat za otkrivanje videa generisanog veštačkom inteligencijom pod nazivom DIVID, skraćeno od DIffusion generisan video detektor. DIVID proširuje rad koji je tim objavio ranije ove godine – Raidar, koji detektuje tekst generisan AI analizom samog teksta, bez potrebe za pristupom unutrašnjem radu velikih jezičkih modela.
Rad o novom alatu se pojavljuje na arXsiv serveru za preprint.
DIVID poboljšava ranije postojeće metode koje otkrivaju generativne video zapise koji efikasno identifikuju video zapise generisane starijim AI modelima kao što su generativne adversarilne mreže (GAN). GAN je AI sistem sa dve neuronske mreže: jedna stvara lažne podatke, a druga ih procenjuje da bi razlikovala lažne od stvarnih. Kroz kontinuirane povratne informacije, obe mreže se poboljšavaju, što rezultira veoma realističnim sintetičkim videom. Trenutni alati za otkrivanje veštačke inteligencije traže znakove kao što su neobični rasporedi piksela, neprirodni pokreti ili nedoslednosti između kadrova koji se obično ne javljaju u stvarnim video snimcima.
Nova generacija generativnih AI video alata, kao što su Sora od OpenAI, Runvai Gen-2 i Pika, koristi model difuzije za kreiranje video zapisa. Model difuzije je AI tehnika koja stvara slike i video zapise postepeno pretvarajući nasumični šum u jasnu, realističnu sliku. Za video zapise, prerađuje svaki kadar pojedinačno, istovremeno osiguravajući glatke prelaze, proizvodeći visokokvalitetne, realistične rezultate. Ova sve veća sofisticiranost video snimaka generisanih veštačkom inteligencijom predstavlja značajan izazov u otkrivanju njihove autentičnosti.
Jangova grupa je koristila tehniku pod nazivom DIRE (Greška rekonstrukcije difuzije) da otkrije slike generisane difuzijom. DIRE je metoda koja meri razliku između ulazne slike i odgovarajuće izlazne slike rekonstruisane unapred obučenim modelom difuzije.
Jang, koji ko-upravlja laboratorijom softverskih sistema, istražuje kako da otkrije tekst i video zapise generisane veštačkom inteligencijom. Ranije ove godine, sa objavljivanjem Raidara, Jang i saradnici omogućavaju način da se detektuje tekst generisan AI analizom samog teksta, bez potrebe za pristupom unutrašnjem radu velikih jezičkih modela kao što su chatGPT-4, Gemini ili Llama. Raidar koristi model jezika da preformuliše ili izmeni dati tekst, a zatim meri koliko izmena sistem pravi na datom tekstu. Mnoge izmene znače da su ljudi verovatno napisali tekst, dok manje izmena znači da je tekst verovatno generisan mašinom.
„Raidar-ov uvid – da drugi AI često smatra visokokvalitetnim izlaz AI, tako da će napraviti manje izmena – zaista je moćan i prevazilazi samo tekst“, rekao je Jang. „S obzirom na to da video generisani AI postaje sve realističniji, želeli smo da uzmemo uvid Raidara i kreiramo alat koji može tačno da detektuje video snimke generisane veštačkom inteligencijom.“
Istraživači su koristili isti koncept za razvoj DIVID-a. Ova nova generativna metoda detekcije videa može da identifikuje video generisan difuzionim modelima. Istraživački rad, koji uključuje kod i skupove podataka otvorenog koda, predstavljen je na Konferenciji o kompjuterskom vidu i prepoznavanju uzoraka (CVPR) u Sijetlu 18. juna 2024.