Istraživači otkrivaju novu ranjivost u velikim jezičkim modelima

Veliki jezički modeli (LLM) koriste tehnike dubokog učenja za obradu i generisanje teksta nalik čoveku. Modeli se obučavaju na ogromnim količinama podataka iz knjiga, članaka, veb lokacija i drugih izvora da bi generisali odgovore, preveli jezike, rezimirali tekst, odgovorili na pitanja i izvršili širok spektar zadataka obrade prirodnog jezika.

Ova tehnologija veštačke inteligencije koja se brzo razvija dovela je do stvaranja alata otvorenog i zatvorenog koda, kao što su ChatGPT, Claude i Google Bard, omogućavajući svima da pretražuju i pronađu odgovore na naizgled beskonačan opseg upita. Iako ovi alati nude značajne prednosti, postoji sve veća zabrinutost zbog njihove sposobnosti da generišu neprijatan sadržaj i posledice koje proizilaze.

Istraživači sa Škole računarskih nauka Univerziteta Carnegie Mellon (SCS), Instituta za bezbednost i privatnost CiLab i Centra za bezbednost veštačke inteligencije u San Francisku otkrili su novu ranjivost, predlažući jednostavan i efikasan metod napada koji dovodi do stvaranja nepoželjnih modela usklađenog jezika. ponašanja sa velikom stopom uspeha.

U svojoj najnovijoj studiji, „Univerzalni i prenosivi adversarialni napadi na modele usklađenog jezika“, vanredni profesori CMU Matt Fredrikson i Zico Kolter, dr. student Andi Zou i alumnus Zifan Vang pronašli su sufiks koji, kada je povezan sa širokim spektrom upita, značajno povećava verovatnoću da će LLM i otvorenog i zatvorenog koda proizvesti afirmativne odgovore na upite koje bi inače odbili. Umesto da se oslanjaju na manuelni inženjering, njihov pristup automatski proizvodi ove suprotstavljene sufikse kroz kombinaciju pohlepnih i tehnika pretraživanja zasnovanih na gradijentu.

„U ovom trenutku, direktna šteta za ljude koja bi mogla biti nanesena podsticanjem čet-bota da proizvede neprijatan ili toksičan sadržaj možda nije posebno ozbiljna“, rekao je Fredrikson. „Zabrinutost je da će ovi modeli igrati veću ulogu u autonomnim sistemima koji rade bez ljudskog nadzora. Kako autonomni sistemi postaju sve više stvarnost, biće veoma važno da osiguramo da imamo pouzdan način da sprečimo da ih otmu ovakvi napadi.“

2020. godine, Fredrikson i kolege istraživači iz CiLab-a i Instituta za softversko inženjerstvo otkrili su ranjivosti u klasifikatorima slika, modelima dubokog učenja zasnovanim na veštačkoj inteligenciji koji automatski identifikuju predmet fotografija. Praveći manje izmene na slikama, istraživači su mogli da promene način na koji ih klasifikatori gledaju i označavaju.

Koristeći slične metode, Fredrikson, Kolter, Zou i Vang su uspešno napali Metin čet bot otvorenog koda, prevarivši LLM da generiše neprijatan sadržaj. Dok je razgovarao o njihovom otkriću, Vang je odlučio da pokuša sa napadom na ChatGPT, mnogo veći i sofisticiraniji LLM. Na njihovo iznenađenje, uspelo je.

„Nismo imali nameru da napadnemo vlasničke modele velikih jezika i čet-botove“, rekao je Fredrikson. „Ali naše istraživanje pokazuje da čak i ako imate veliki trilion parametara zatvorenog koda, ljudi ga i dalje mogu napasti tako što će pogledati slobodno dostupne, manje i jednostavnije modele otvorenog koda i naučiti kako da ih napadaju.

Obučavajući sufiks napada na višestrukim upitima i modelima, istraživači su takođe izazvali neprijatan sadržaj u javnim interfejsima kao što su Google Bard i Claud i u LLM-ovima otvorenog koda kao što su Llama 2 Chat, Pithia, Falcon i drugi.

„Trenutno jednostavno nemamo ubedljiv način da sprečimo da se ovo desi, tako da je sledeći korak da shvatimo kako da popravimo ove modele“, rekao je Fredrikson.

Slični napadi postoje već deceniju na različite tipove klasifikatora mašinskog učenja, kao što je kompjuterski vid. Iako ovi napadi i dalje predstavljaju izazov, mnoge od predloženih odbrana se grade direktno na samim napadima.

„Razumevanje kako izvesti ove napade često je prvi korak u razvoju jake odbrane“, rekao je on.

Istraživači otkrivaju novu ranjivost u velikim jezičkim modelima

AUTOPUT PAKOVRAĆE–POŽEGA: Tunel bez dozvole, deonica bez funkcije, građani bez odgovora

VUČIĆEV PAD: Šta stoji iza gubitka podrške predsedniku Srbije

Remi fudbalera Dinama i Hajduka u derbiju hrvatskog prvenstva

Vučević razgovarao sa polaznicima političke akademije Fondacije „Svetozar Miletić“

Dačić: Nedopustiva karikatura na naslovnoj strani „Hrvatskog tjednika“

Fidan: Nesprovođenje plana za Gazu u sledeću fazu bilo bi veliki nesupeh

Više od 255.000 pitanja građana Rusije stiglo za Putinovu „direktnu liniju“

Remi fudbalera Dinama i Hajduka u derbiju hrvatskog prvenstva

Vučević razgovarao sa polaznicima političke akademije Fondacije „Svetozar Miletić“

Dačić: Nedopustiva karikatura na naslovnoj strani „Hrvatskog tjednika“

Fajnenšel tajms: Nikolas Maduro pooštrava ličnu bezbednost zbog većih tenzija sa SAD

Teška nesreća kod Zlatibora

Gutereš: G20 da pokrene hitne globalne akcije

Remi fudbalera Dinama i Hajduka u derbiju hrvatskog prvenstva

Vučević razgovarao sa polaznicima političke akademije Fondacije „Svetozar Miletić“

Dačić: Nedopustiva karikatura na naslovnoj strani „Hrvatskog tjednika“

Dojče vele: Nemački naučnici otkrili antitelo protiv HIV-a

Istraživanje otkrilo izuzetno retku mutaciju u varijaciji krvi koja zbunjuje lekare

Rani znaci Alchajmerove bolesti mogu biti skriveni u načinu govora osobe

Mali „Ajnštajn“ iz Belgije završio doktorski rad iz kvantne fizike u rekordnom roku

Naučnici otkrili ključne delove ljudskog genoma gde se mutacije najčešće javljaju

Grčka: Brod sa migrantima potonuo, pronađena četiri tela, među kojima je jedno dete

Tragična nesreća: Pogibija ekstremnog sportiste Felixa Baumgartnera zbog ljudske greške

Zgrada u centru Madrida delimično se srušila, tri povređene osobe

Remi fudbalera Dinama i Hajduka u derbiju hrvatskog prvenstva

Milojević: Očekuje nas potpuna drugačija utakmica od one u Novom Sadu

Ferštapen osvojio pol poziciju za odlučujuću trku u šampionatu Formule 1

Stojaković: Radnički je kvalitetna ekipa, potreban nam je kontinuitet u igri

Ocokoljić: Kluž je izuzetno ambiciozan tim, moramo da imamo dobar pristup utakmici

Sutra oblačno sa kišom mestimično, temperatura do 9 stepeni

Do kraja dana oblačno sa kišom, temperatura do 12 stepeni

Danas oblačno sa kišom mestimično, temperatura do 12 stepeni

Pročitajte još