Jednostavna tehnika za odbranu ChatGPT-a od napada

Veliki jezički modeli (LLM), modeli zasnovani na dubokom učenju obučeni da generišu, sumiraju, prevode i obrađuju pisane tekstove, privukli su značajnu pažnju nakon objavljivanja konverzacijske platforme ChatGPT Open AI. Iako se ChatGPT i slične platforme sada široko koriste za širok spektar aplikacija, mogle bi biti ranjive na specifičnu vrstu sajber napada koji proizvode pristrasne, nepouzdane ili čak uvredljive odgovore.

Istraživači sa Univerziteta nauke i tehnologije u Hong Kongu, Univerziteta nauke i tehnologije Kine, Univerziteta Tsinghua i Microsoft Research Asia nedavno su sproveli studiju koja istražuje potencijalni uticaj ovih napada i tehnika koje bi mogle zaštititi modele od njih. Njihov rad, objavljen u Nature Machine Intelligence, predstavlja novu tehniku inspirisanu psihologijom koja bi mogla da pomogne u zaštiti ChatGPT-a i sličnih platformi za razgovor zasnovane na LLM-u od sajber napada.

„ChatGPT je alatka veštačke inteligencije koja ima uticaj na društvo sa milionima korisnika i integracijom u proizvode kao što je Bing“, pišu Iueki Ksie, Jingvei Ii i njihove kolege u svom radu. „Međutim, pojava napada zaobilazenjem bezbednosnih sistema naročito ugrožava njegovu odgovornu i bezbednu upotrebu. Napadi koriste suprotstavljene zahteve da bi zaobišli etičke mere zaštite ChatGPT-a i izazvali štetne odgovore.“

Primarni cilj nedavnog rada Ksie-a, Ii-a i njihovih kolega bio je da istaknu uticaj koji napadi mogu imati na ChatGPT i uvesti održive strategije odbrane protiv ovih napada. Jailbreak napadi u suštini iskorišćavaju ranjivosti LLM-ova da bi zaobišli ograničenja koja su postavili programeri i izazvali odgovore modela koji bi obično bili ograničeni.

„Ovaj rad istražuje ozbiljne, ali nedovoljno istražene probleme koje ovakve manipulacije stvaraju, kao i potencijalne odbrambene tehnike“, objašnjavaju Ksie, Ii i njihove kolege u svom radu. „Uvodimo skup podataka o napadima sa različitim tipovima obaveštenja o tehnikama i zlonamernim uputstvima.“

Istraživači su prvo sastavili skup podataka koji uključuje 580 primera upita dizajniranih da zaobiđu ograničenja koja sprečavaju ChatGPT da pruži odgovore koji se smatraju „nemoralnim“. Ovo uključuje nepouzdane tekstove koji bi mogli da podstaknu dezinformacije, kao i toksični ili uvredljivi sadržaj.

Kada su testirali ChatGPT na ovim upitima, otkrili su da je često upao u njihovu „zamku“, proizvodeći zlonamerni i neetički sadržaj koji su tražili. Ksie, Ii i njihove kolege su zatim krenuli da osmisle jednostavnu, a opet efikasnu tehniku koja bi mogla da zaštiti ChatGPT od pažljivo skrojenih napada.

Tehnika koju su kreirali crpi inspiraciju iz psihološkog koncepta samopodsetnika, guranja koji mogu pomoći ljudima da zapamte zadatke koje treba da završe, događaje kojima bi trebalo da prisustvuju, itd. Odbrambeni pristup istraživača, nazvan samopodsetnik u sistemskom režimu, je na sličan način dizajniran da podseti Chat-GPT da odgovori koje pruža treba da prate određene smernice.

„Ova tehnika inkapsulira upit korisnika u sistemsku liniju koja podseća ChatGPT da odgovori odgovorno“, pišu istraživači. „Eksperimentalni rezultati pokazuju da samopodsetnici značajno smanjuju stopu uspešnosti napada na ChatGPT sa 67,21% na 19,34%.“

Do sada su istraživači testirali efikasnost svoje tehnike koristeći skup podataka koji su kreirali i otkrili da je postigao obećavajuće rezultate, smanjujući stopu uspešnosti napada, iako ih nije sprečio sve. U budućnosti, ova nova tehnika bi mogla biti dodatno poboljšana kako bi se smanjila ranjivost LLM-a na ove napade, dok bi takođe potencijalno inspirisala razvoj drugih sličnih odbrambenih strategija.

„Naš rad sistematski dokumentuje pretnje koje predstavljaju napadi, uvodi i analizira skup podataka za procenu odbrambenih intervencija i predlaže psihološki inspirisanu tehniku samopodsetnika koja može efikasno i efektivno ublažiti stetu bez ponovne obuke“, rezimiraju istraživači u svom radu.

Jednostavna tehnika za odbranu ChatGPT-a od napada

AUTOPUT PAKOVRAĆE–POŽEGA: Tunel bez dozvole, deonica bez funkcije, građani bez odgovora

VUČIĆEV PAD: Šta stoji iza gubitka podrške predsedniku Srbije

Zelenski: Ukrajini nedostaju rakete za neke sisteme PVO

Lukašenko: Ruski raketni sistem „orešnik“ raspoređen u Belorusiji

Meloni: Italija spremna da podrži sporazum EU i Merkosura kada budu rešene nedoumice

Odbojkaši Radničkog pobedili Vojvodinu u prvoj utakmici polufinala Kupa Srbije

AMSS: Teretnjaci na graničnom prelazu Batrovci, na izlazu iz Srbije, čekaju 15 sati

Zelenski: Ukrajini nedostaju rakete za neke sisteme PVO

Lukašenko: Ruski raketni sistem „orešnik“ raspoređen u Belorusiji

Meloni: Italija spremna da podrži sporazum EU i Merkosura kada budu rešene nedoumice

Advokatska komora Vojvodone osudila prekomernu upotrebu sile od strane policije u Novom Sadu

Slobodan univerzitet: Politički revanšizam prema Jeleni Kleut

Predsednik Ukrajine dobio od SAD nacrt plana za okončanje rata s Rusijom

Zelenski: Ukrajini nedostaju rakete za neke sisteme PVO

Lukašenko: Ruski raketni sistem „orešnik“ raspoređen u Belorusiji

Meloni: Italija spremna da podrži sporazum EU i Merkosura kada budu rešene nedoumice

Zapanjujuće otkriće: Biljke koriste toplotu kao strategiju privlačenja oprašivača

Plaga koja je harala Evroazijom tokom 2.000 godina otkrivena u ostacima stoke

Istraživači razvili novu metodu za proučavanje sinapsi u ljudskom mozgu

Moguće je da jednostavan test krvi otkrije rizik od bolesti u budućnosti

Ozempic i semaglutid lekovi manje efikasni od operacija mršavljenja, pokazuje studija

Grčka: Brod sa migrantima potonuo, pronađena četiri tela, među kojima je jedno dete

Tragična nesreća: Pogibija ekstremnog sportiste Felixa Baumgartnera zbog ljudske greške

Zgrada u centru Madrida delimično se srušila, tri povređene osobe

Odbojkaši Radničkog pobedili Vojvodinu u prvoj utakmici polufinala Kupa Srbije

FK Crvena zvezda: „Super Zvezdaši“ i deca do 14 godina besplatno protiv Mladosti

Košarkaš Hapoela Elajdža Brajant MVP 16. kola Evrolige

F1: Maks Ferštapen će naredne sezone voziti bolid sa brojem tri

Obradović: Virtus vrlo zahtevan protivnik, odigrali su dominantno protiv Partizana

Sutra oblačno sa sunčanim intrevalima, temperatura do 14 stepeni

Do kraja dana oblačno sa sunčanim intrevalima, temperatura do 14 stepeni

Danas oblačno sa dužim sunčanim intervalima, temperatura do 14 stepeni

Pročitajte još