Veliki jezički modeli (LLM) koriste tehnike dubokog učenja za obradu i generisanje teksta nalik čoveku. Modeli se obučavaju na ogromnim količinama podataka iz knjiga, članaka, veb lokacija i drugih izvora da bi generisali odgovore, preveli jezike, rezimirali tekst, odgovorili na pitanja i izvršili širok spektar zadataka obrade prirodnog jezika.
Ova tehnologija veštačke inteligencije koja se brzo razvija dovela je do stvaranja alata otvorenog i zatvorenog koda, kao što su ChatGPT, Claude i Google Bard, omogućavajući svima da pretražuju i pronađu odgovore na naizgled beskonačan opseg upita. Iako ovi alati nude značajne prednosti, postoji sve veća zabrinutost zbog njihove sposobnosti da generišu neprijatan sadržaj i posledice koje proizilaze.
Istraživači sa Škole računarskih nauka Univerziteta Carnegie Mellon (SCS), Instituta za bezbednost i privatnost CiLab i Centra za bezbednost veštačke inteligencije u San Francisku otkrili su novu ranjivost, predlažući jednostavan i efikasan metod napada koji dovodi do stvaranja nepoželjnih modela usklađenog jezika. ponašanja sa velikom stopom uspeha.
U svojoj najnovijoj studiji, „Univerzalni i prenosivi adversarialni napadi na modele usklađenog jezika“, vanredni profesori CMU Matt Fredrikson i Zico Kolter, dr. student Andi Zou i alumnus Zifan Vang pronašli su sufiks koji, kada je povezan sa širokim spektrom upita, značajno povećava verovatnoću da će LLM i otvorenog i zatvorenog koda proizvesti afirmativne odgovore na upite koje bi inače odbili. Umesto da se oslanjaju na manuelni inženjering, njihov pristup automatski proizvodi ove suprotstavljene sufikse kroz kombinaciju pohlepnih i tehnika pretraživanja zasnovanih na gradijentu.
„U ovom trenutku, direktna šteta za ljude koja bi mogla biti nanesena podsticanjem čet-bota da proizvede neprijatan ili toksičan sadržaj možda nije posebno ozbiljna“, rekao je Fredrikson. „Zabrinutost je da će ovi modeli igrati veću ulogu u autonomnim sistemima koji rade bez ljudskog nadzora. Kako autonomni sistemi postaju sve više stvarnost, biće veoma važno da osiguramo da imamo pouzdan način da sprečimo da ih otmu ovakvi napadi.“
2020. godine, Fredrikson i kolege istraživači iz CiLab-a i Instituta za softversko inženjerstvo otkrili su ranjivosti u klasifikatorima slika, modelima dubokog učenja zasnovanim na veštačkoj inteligenciji koji automatski identifikuju predmet fotografija. Praveći manje izmene na slikama, istraživači su mogli da promene način na koji ih klasifikatori gledaju i označavaju.
Koristeći slične metode, Fredrikson, Kolter, Zou i Vang su uspešno napali Metin čet bot otvorenog koda, prevarivši LLM da generiše neprijatan sadržaj. Dok je razgovarao o njihovom otkriću, Vang je odlučio da pokuša sa napadom na ChatGPT, mnogo veći i sofisticiraniji LLM. Na njihovo iznenađenje, uspelo je.
„Nismo imali nameru da napadnemo vlasničke modele velikih jezika i čet-botove“, rekao je Fredrikson. „Ali naše istraživanje pokazuje da čak i ako imate veliki trilion parametara zatvorenog koda, ljudi ga i dalje mogu napasti tako što će pogledati slobodno dostupne, manje i jednostavnije modele otvorenog koda i naučiti kako da ih napadaju.
Obučavajući sufiks napada na višestrukim upitima i modelima, istraživači su takođe izazvali neprijatan sadržaj u javnim interfejsima kao što su Google Bard i Claud i u LLM-ovima otvorenog koda kao što su Llama 2 Chat, Pithia, Falcon i drugi.
„Trenutno jednostavno nemamo ubedljiv način da sprečimo da se ovo desi, tako da je sledeći korak da shvatimo kako da popravimo ove modele“, rekao je Fredrikson.
Slični napadi postoje već deceniju na različite tipove klasifikatora mašinskog učenja, kao što je kompjuterski vid. Iako ovi napadi i dalje predstavljaju izazov, mnoge od predloženih odbrana se grade direktno na samim napadima.
„Razumevanje kako izvesti ove napade često je prvi korak u razvoju jake odbrane“, rekao je on.