Veliki jezički modeli (LLM), modeli zasnovani na dubokom učenju obučeni da generišu, sumiraju, prevode i obrađuju pisane tekstove, privukli su značajnu pažnju nakon objavljivanja konverzacijske platforme ChatGPT Open AI. Iako se ChatGPT i slične platforme sada široko koriste za širok spektar aplikacija, mogle bi biti ranjive na specifičnu vrstu sajber napada koji proizvode pristrasne, nepouzdane ili čak uvredljive odgovore.
Istraživači sa Univerziteta nauke i tehnologije u Hong Kongu, Univerziteta nauke i tehnologije Kine, Univerziteta Tsinghua i Microsoft Research Asia nedavno su sproveli studiju koja istražuje potencijalni uticaj ovih napada i tehnika koje bi mogle zaštititi modele od njih. Njihov rad, objavljen u Nature Machine Intelligence, predstavlja novu tehniku inspirisanu psihologijom koja bi mogla da pomogne u zaštiti ChatGPT-a i sličnih platformi za razgovor zasnovane na LLM-u od sajber napada.
„ChatGPT je alatka veštačke inteligencije koja ima uticaj na društvo sa milionima korisnika i integracijom u proizvode kao što je Bing“, pišu Iueki Ksie, Jingvei Ii i njihove kolege u svom radu. „Međutim, pojava napada zaobilazenjem bezbednosnih sistema naročito ugrožava njegovu odgovornu i bezbednu upotrebu. Napadi koriste suprotstavljene zahteve da bi zaobišli etičke mere zaštite ChatGPT-a i izazvali štetne odgovore.“
Primarni cilj nedavnog rada Ksie-a, Ii-a i njihovih kolega bio je da istaknu uticaj koji napadi mogu imati na ChatGPT i uvesti održive strategije odbrane protiv ovih napada. Jailbreak napadi u suštini iskorišćavaju ranjivosti LLM-ova da bi zaobišli ograničenja koja su postavili programeri i izazvali odgovore modela koji bi obično bili ograničeni.
„Ovaj rad istražuje ozbiljne, ali nedovoljno istražene probleme koje ovakve manipulacije stvaraju, kao i potencijalne odbrambene tehnike“, objašnjavaju Ksie, Ii i njihove kolege u svom radu. „Uvodimo skup podataka o napadima sa različitim tipovima obaveštenja o tehnikama i zlonamernim uputstvima.“
Istraživači su prvo sastavili skup podataka koji uključuje 580 primera upita dizajniranih da zaobiđu ograničenja koja sprečavaju ChatGPT da pruži odgovore koji se smatraju „nemoralnim“. Ovo uključuje nepouzdane tekstove koji bi mogli da podstaknu dezinformacije, kao i toksični ili uvredljivi sadržaj.
Kada su testirali ChatGPT na ovim upitima, otkrili su da je često upao u njihovu „zamku“, proizvodeći zlonamerni i neetički sadržaj koji su tražili. Ksie, Ii i njihove kolege su zatim krenuli da osmisle jednostavnu, a opet efikasnu tehniku koja bi mogla da zaštiti ChatGPT od pažljivo skrojenih napada.
Tehnika koju su kreirali crpi inspiraciju iz psihološkog koncepta samopodsetnika, guranja koji mogu pomoći ljudima da zapamte zadatke koje treba da završe, događaje kojima bi trebalo da prisustvuju, itd. Odbrambeni pristup istraživača, nazvan samopodsetnik u sistemskom režimu, je na sličan način dizajniran da podseti Chat-GPT da odgovori koje pruža treba da prate određene smernice.
„Ova tehnika inkapsulira upit korisnika u sistemsku liniju koja podseća ChatGPT da odgovori odgovorno“, pišu istraživači. „Eksperimentalni rezultati pokazuju da samopodsetnici značajno smanjuju stopu uspešnosti napada na ChatGPT sa 67,21% na 19,34%.“
Do sada su istraživači testirali efikasnost svoje tehnike koristeći skup podataka koji su kreirali i otkrili da je postigao obećavajuće rezultate, smanjujući stopu uspešnosti napada, iako ih nije sprečio sve. U budućnosti, ova nova tehnika bi mogla biti dodatno poboljšana kako bi se smanjila ranjivost LLM-a na ove napade, dok bi takođe potencijalno inspirisala razvoj drugih sličnih odbrambenih strategija.
„Naš rad sistematski dokumentuje pretnje koje predstavljaju napadi, uvodi i analizira skup podataka za procenu odbrambenih intervencija i predlaže psihološki inspirisanu tehniku samopodsetnika koja može efikasno i efektivno ublažiti stetu bez ponovne obuke“, rezimiraju istraživači u svom radu.