Istraživači sa Univerziteta u Ilinoisu istražuju ranjivosti velikih jezičkih modela. Njihov rad se fokusira na razvoj tehnika za zaobilaženje sigurnosnih protokola. Cilj im je učiniti ove sisteme sigurnijim i otpornijim na zlonamerne upite.
Veliki jezički modeli su veštačke inteligencije koje se obučavaju na ogromnim količinama podataka i koriste se za generisanje odgovora, kao što je ChatGPT. Istraživači, profesor Haohan Wang i doktorand Haibo Jin, rade na projektima koji se bave aspektima sigurnosti ovih modela. Njihove tehnike za zaobilaženje sigurnosnih mera pomažu u identifikaciji ranjivosti i jačanju zaštitnih mehanizama.
Wang ističe da se većina istraživanja o zaobilaženju fokusira na testiranje sistema na načine koje korisnici obično ne koriste. On smatra da je potrebno proširiti istraživanje bezbednosti veštačke inteligencije i usmeriti ga ka praktičnijim rešenjima koja će imati stvaran uticaj.
Jedan od standardnih primera sigurnosnog kršenja je zahtev za uputstvima o pravljenju bombe, ali Wang naglašava da to nije stvarni upit koji se postavlja. On želi da se fokusira na ozbiljnije pretnje, kao što su zlonamerni upiti vezani za samopovređivanje ili manipulaciju partnerom u romantičnim vezama.
Wang i Jin su razvili model pod nazivom JAMBench koji procenjuje zaštitne mere LLM-a. Ovaj model je stvorio metode za napad na zaštitne mehanizme u četiri kategorije rizika: mržnja, nasilje, seksualni akti i samopovređivanje. Njihovo istraživanje pokazuje da većina istraživanja o zaobilaženju procenjuje zaštitu samo na osnovu ulaza.
U drugim projektima, istraživači su razvili nove metode za testiranje sigurnosti LLM-a. Otkriće da korišćenje prekomerne jezičke složenosti i lažnih izvora omogućava zaobilaženje sigurnosnih mera, nazvali su „informaciono preopterećenje“.
Takođe su razvili metodu za testiranje usklađenosti LLM-a sa vladinim smernicama o bezbednosti veštačke inteligencije. Njihova metoda transformiše apstraktne smernice u konkretna pitanja koja koriste tehnike zaobilaženja kako bi procenili usklađenost LLM-a.
