Kada razgovor između ljudi i veštačke inteligencije uključuje mnogo rundi kontinuiranog dijaloga, moćni veliki modeli mašinskog učenja jezika koji pokreću chat botove kao što je ChatGPT ponekad počnu da se urušavaju, što dovodi do brzog pogoršanja performansi botova.
Tim istraživača sa MIT-a i drugih mesta je utvrdio iznenađujući uzrok ovog problema i razvio jednostavno rešenje koje omogućava chatbotu da održava neprekidni razgovor bez pada ili usporavanja.
Njihov metod uključuje podešavanje keša ključ/vrednost (koji je poput memorije razgovora) u srži mnogih velikih jezičkih modela. U nekim metodama, kada ova keš memorija treba da sadrži više informacija nego što ima kapaciteta, prvi delovi podataka se izbacuju. Ovo može dovesti do kvara modela.
Osiguravajući da ovih prvih nekoliko tačaka podataka ostane u memoriji, metod istraživača omogućava chatbotu da nastavi da ćaska bez obzira koliko dugo razgovor traje.
Metoda, nazvana StreamingLLM, omogućava modelu da ostane efikasan čak i kada se razgovor proteže na više od 4 miliona reči. U poređenju sa drugom metodom koja izbegava pad sistema stalnim ponovnim izračunavanjem dela prošlih razgovora, StreamingLLM je radio više od 22 puta brže.
Ovo bi moglo da omogući čet-botu da vodi duge razgovore tokom radnog dana bez potrebe za stalnim ponovnim pokretanjem, omogućavajući efikasne AI pomoćnike za zadatke poput pisanja teksta, uređivanja ili generisanja koda.
„Sada, sa ovom metodom, možemo uporno da primenjujemo ove velike jezičke modele. Pravljenjem chat bota sa kojim uvek možemo da ćaskamo i koji uvek može da nam odgovori na osnovu naših nedavnih razgovora, mogli bismo da koristimo ove četbote u nekim novim aplikacijama, “ kaže Guangkuan Ksiao, diplomirani student elektrotehnike i računarstva (EECS) i vodeći autor rada o StreamingLLM-u koji je sada postavljen na arXiv server za preprint.
Sjaoovi koautori uključuju njegovog savetnika, Song Hana, vanrednog profesora u EECS, člana MIT-IBM Vatson AI Lab i istaknutog naučnika NVIDIA-e; kao i Iuandong Tian, naučnik istraživač u Meta AI; Beidi Chen, docent na Univerzitetu Carnegie Mellon; i stariji autor Mike Levis, istraživač u Meta AI. Rad će biti predstavljen na Međunarodnoj konferenciji o reprezentacijama učenja koja je održana od 7. do 11. maja u Beču.
Veliki jezički modeli kodiraju podatke, poput reči u korisničkom upitu, u reprezentacije koje se nazivaju tokeni. Mnogi modeli koriste ono što je poznato kao mehanizam pažnje koji koristi ove tokene za generisanje novog teksta.
Tipično, AI chatbot piše novi tekst na osnovu teksta koji je upravo video, tako da skladišti nedavne tokene u memoriju, nazvanu KV keš, da bi ih kasnije koristio. Mehanizam pažnje gradi mrežu koja uključuje sve tokene u kešu, „mapu pažnje“ koja prikazuje koliko je svaki token ili reč snažno povezan jedan sa drugim tokenom.
Razumevanje ovih odnosa je jedna karakteristika koja omogućava velikim jezičkim modelima da generišu tekst sličan čoveku.
Ali kada keš postane veoma veliki, mapa pažnje može postati još masivnija, što usporava izračunavanje.
Takođe, ako sadržaj kodiranja zahteva više tokena nego što keš može da zadrži, performanse modela opadaju. Na primer, jedan popularni model može da skladišti 4.096 tokena, a ipak postoji oko 10.000 tokena u akademskom radu.
Da bi zaobišli ove probleme, istraživači koriste „kliznu keš memoriju“ koja izbacuje najstarije tokene da bi dodala nove tokene. Međutim, performanse modela često opadaju čim se prvi token izbaci, brzo smanjujući kvalitet novogenerisanih reči.
U ovom novom radu, istraživači su shvatili da ako zadrže prvi token u kliznom kešu, model će zadržati svoje performanse čak i kada je veličina keša prekoračena.
Ali ovo nije imalo smisla. Prva reč u romanu verovatno nema nikakve veze sa poslednjom rečju, pa zašto bi onda prva reč bila toliko važna za model da generiše najnoviju reč?
U svom novom radu, istraživači su takođe otkrili uzrok ovog fenomena.