Da li započinjete svoje ChatGPT upite prijateljskim pozdravom? Da li ste tražili izlaz u određenom formatu? Da li biste trebali ponuditi novčanu napojnicu za njegovu uslugu? Istraživači komuniciraju sa velikim jezičkim modelima (LLM), kao što je ChatGPT, na mnogo načina, uključujući i označavanje svojih podataka za zadatke mašinskog učenja. Postoji nekoliko odgovora na to kako male promene u promptu mogu uticati na tačnost ovih oznaka.
Abel Salinas, istraživač na USC Institutu za informacione nauke (ISI) je rekao: „Mi se oslanjamo na ove modele za toliko stvari, tražeći izlaz u određenim formatima i pitajući se u potiljku, ‘koji efekat izazivaju varijacije ili izlazni formati zaista imaju?’ Tako da smo bili uzbuđeni što smo konačno saznali.“
Salinas, zajedno sa Fredom Morstatterom, docentom za računarstvo na USC Viterbi školi za inženjering i vođom istraživačkog tima u ISI, postavio je pitanje: Koliko su pouzdani odgovori LLM-a na varijacije u upitima? Njihovi nalazi, objavljeni na serveru za preprint arXiv, otkrivaju da suptilne varijacije u upitima mogu imati značajan uticaj na predviđanja LLM.
Istraživači su pogledali četiri kategorije brzih varijacija. Prvo, istražili su uticaj traženja odgovora u specifičnim izlaznim formatima koji se obično koriste u obradi podataka (liste, CSV, itd.).
Drugo, zadubili su se u manje perturbacije samog odzivnika, kao što je dodavanje dodatnih razmaka na početak ili kraj odzivnika, ili uključivanje ljubaznih fraza poput „Hvala“ ili „Zdravo!“
Treće, istražili su upotrebu „bejkova iz zatvora“, što su tehnike koje se koriste da se zaobiđu filteri sadržaja kada se bave osetljivim temama kao što je otkrivanje govora mržnje, na primer, tražeći od LLM-a da odgovori kao da je to zlo.
I na kraju, inspirisani popularnom idejom da nuđenje saveta daje bolje odgovore od LLM, ponudili su različite količine saveta za „savršen odgovor“.
Istraživači su testirali brze varijacije u 11 referentnih zadataka za klasifikaciju teksta — standardizovanih skupova podataka ili problema koji se koriste u istraživanju obrade prirodnog jezika (NLP) za procenu performansi modela. Ovi zadaci obično uključuju kategorizaciju ili dodeljivanje oznaka tekstualnim podacima na osnovu njihovog sadržaja ili značenja.
Istraživači su posmatrali zadatke uključujući klasifikaciju toksičnosti, gramatičku procenu, otkrivanje humora i sarkazma, matematičko znanje i još mnogo toga. Za svaku varijaciju upita, oni su merili koliko često je LLM menjao svoj odgovor i uticaj na tačnost LLM-a.
Nalazi studije otkrili su izuzetan fenomen: manje izmene u brzoj strukturi i prezentaciji mogu značajno uticati na predviđanja LLM. Bilo da se radi o dodavanju ili izostavljanju razmaka, znakova interpunkcije ili specificiranih izlaznih formata podataka, svaka varijacija igra ključnu ulogu u oblikovanju performansi modela.
Pored toga, određene strategije brzog pristupa, poput podsticaja ili specifičnih pozdrava, pokazale su marginalna poboljšanja u tačnosti, naglašavajući nijansirani odnos između brzog dizajna i ponašanja modela.
Nekoliko nalaza koje treba napomenuti:
U 11 zadataka, istraživači su primetili različite tačnosti za svaku brzu varijaciju i nisu otkrili da nijedan metod formatiranja ili perturbacije ne odgovara svim zadacima. I posebno, „No Specified Format“ je postigao najveću ukupnu tačnost, nadmašujući druge varijacije za čitav procentni poen.
Salinas je rekao: „Otkrili smo da postoje neki formati ili varijacije koje su dovele do lošije preciznosti, a za određene aplikacije je kritično imati veoma visoku tačnost, tako da bi ovo moglo biti od pomoći. Na primer, ako ste formatirali u starijem formatu koji se zove XML koji dovelo do nekoliko procentnih poena niže u tačnosti“.
Što se tiče napona, primećene su minimalne promene performansi. Istraživači su otkrili da je dodavanjem „usputno neću dati napojnicu“ ili „daću 1.000 dolara za savršen odgovor!“ (ili bilo šta između) nije bitno uticalo na tačnost odgovora. Međutim, eksperimentisanje sa bekstvom iz zatvora otkrilo je da čak i naizgled bezopasna bekstva iz zatvora mogu dovesti do značajnog gubitka tačnosti.
Razlog je nejasan, iako istraživači imaju neke ideje. Pretpostavili su da su slučajevi koji se najviše menjaju stvari koje su najviše „zbunjujuće“ za LLM. Da bi izmerili konfuziju, posmatrali su određeni podskup zadataka oko kojih se ljudski anotatori nisu slagali (što znači da su ljudski anotatori potencijalno smatrali da je zadatak zbunjujući, stoga je možda i model učinio).
Oni su otkrili korelaciju koja ukazuje da konfuzija instance pruža neku moć objašnjenja zašto se predviđanje menja, ali nije dovoljno snažno samo po sebi i priznaju da su u igri i drugi faktori.
Salinas smatra da bi faktor mogao biti odnos između inputa na kojima se LLM obučava i njegovog kasnijeg ponašanja. „Na nekim onlajn forumima ima smisla da neko doda pozdrav, kao što je Kuora, na primer. Tamo je uobičajeno da počne sa ‘zdravo’ ili dodavanjem ‘hvala’.“
Ovi elementi razgovora mogu oblikovati proces učenja modela. Ako se pozdravi često povezuju sa informacijama na platformama kao što je Kuora, model može naučiti da daje prioritet takvim izvorima, potencijalno izobličujući svoje odgovore na osnovu Kuora informacija o tom konkretnom zadatku. Ovo zapažanje ukazuje na složenost načina na koji model asimilira i tumači informacije iz različitih onlajn izvora.
Glavni sledeći korak za istraživačku zajednicu u celini bio bi stvaranje LLM-a koji su otporni na ove promene, nudeći konzistentne odgovore na promene formatiranja, perturbacije i bekstvo iz zatvora. U pravcu tog cilja, budući rad uključuje traženje čvršćeg razumevanja zašto se odgovori menjaju.
Salinas nudi savet za one koji podstiču ChatGPT: „Najjednostavniji nalaz je da držanje uputstava što jednostavnijim izgleda daje najbolje rezultate u celini.“