Tim sa Stanforda je razvio Sophia, novi način za optimizaciju pretreninga velikih jezičkih modela koji je dvostruko brži od trenutnih pristupa.
ChatGPT i druge aplikacije koje se oslanjaju na velike jezičke modele (LLM) dobijaju široku upotrebu i privlače veliku pažnju medija. Ali nekolicina velikih tehnoloških kompanija dominira prostorom za LLM jer je prethodna obuka ovih modela izuzetno skupa, sa procenama troškova koje počinju od 10 miliona dolara i potencijalno dostižu desetine ili stotine puta više.
„Veliki jezički modeli nisu baš dostupni manjim organizacijama ili akademskim grupama“, kaže Hong Liu, diplomirani student računarskih nauka na Univerzitetu Stanford.
Da bi to promenili, Liu i njegove kolege su krenuli da poboljšaju trenutne metode optimizacije LLM. Rezultat: pristup pod nazivom Sofija koji skraćuje vreme pre treninga na pola. Detalji ovog pristupa su objavljeni na arKsiv preprint serveru.
Da bi bolje optimizovali prethodnu obuku za LLM, Liu i njegove kolege, uključujući postdoktorskog saradnika sa Stanforda Džijuan Lija, istraživača sa Stanforda Dejvida Hola, docenta za računarske nauke Tengiu Ma i vanrednog profesora Persija Lianga, koristili su dva trika. Prva, poznata kao procena zakrivljenosti, nije nova, ali tim sa Stanforda je pronašao način da je učini efikasnijom.
Da biste razumeli njihov pristup, razmotrite fabričku montažnu liniju. Da bi efikasno funkcionisao, menadžer fabrike treba da optimizuje broj koraka koji su potrebni da bi se sirovine pretvorile u finalni proizvod i treba da razume i na odgovarajući način uposli radno opterećenje na svakom koraku duž linije.
Isto važi i za predobuku za LLM. Ovi modeli imaju milione ili čak milijarde parametara koje Liu upoređuje sa radnicima u fabrici koji teže istim ciljevima. Jedno svojstvo ovih parametara je njihova zakrivljenost, koju Liu smatra maksimalnom mogućom brzinom koju postižu dok napreduju ka konačnom cilju prethodno obučenog LLM. U fabričkoj metafori, zakrivljenost je slična opterećenju fabričkog radnika.
Ako program za optimizaciju može da proceni tu krivinu (opterećenje), to može učiniti LLM pretrening efikasnijim. Problem je sledeći: Procena zakrivljenosti postojećim metodama je izuzetno teška i skupa. „U stvari, to je skuplje od obavljanja stvarnog posla bez predviđanja zakrivljenosti“, kaže Liu. To je delimično razlog zašto trenutni najsavremeniji pristupi optimizaciji LLM pretreninga (Adam i njegove varijante) odbacuju korak procene zakrivljenosti.
Ipak, Liu i njegove kolege su primetili moguću neefikasnost u prethodnim metodama koje su koristile parametarsku procenu zakrivljenosti: Raniji istraživači su ažurirali svoje procene zakrivljenosti na svakom koraku optimizacije. Tim sa Stanforda se pitao da li bi mogli da učine proces efikasnijim smanjenjem broja ažuriranja.
Da bi testirao tu ideju, tim iz Stanforda je dizajnirao Sofiju da proceni zakrivljenost parametara samo na svakih 10 koraka. „To se pokazalo kao velika pobeda“, kaže Liu.
Drugi trik za optimizaciju tima, nazvan kliping, bavi se srodnim problemom: problemom netačne procene zakrivljenosti. „Ako je procena pogrešna, to je kao da ljudima sa teškim poslovima date još više posla. To čini stvari gorim nego da uopšte ne postoji procena.“
Odsecanje to sprečava postavljanjem praga ili procene maksimalne zakrivljenosti. „U našoj fabričkoj metafori, to je kao postavljanje ograničenja radnog opterećenja za sve zaposlene“, kaže Liu. Još jedna metafora koja se često primenjuje na optimizaciju je pejzaž brda i dolina gde je cilj da se završi u najnižoj dolini. Bez klipinga, kaže Liu, moguće je sleteti na sedlo između dve planine. „U optimizaciji to nije mesto gde želite da budete“, kaže on.
Liu i njegove kolege su koristili Sofiju da unapred obuče relativno mali LLM koristeći istu veličinu i konfiguraciju modela koji su korišćeni za kreiranje OpenAI GPT-2.
Sofijina kombinacija procene zakrivljenosti i klipinga omogućila je optimizaciji LLM pre treninga da glatko nastavi do najniže doline u pola broja koraka i pola vremena koje zahteva Adam.
„Sofijina prilagodljivost izdvaja je od Adama“, kaže Liu. Adamu je teže da rukuje parametrima sa heterogenim zakrivljenjima jer ih ne može unapred predvideti.
To je takođe prvi put u devet godina da je iko pokazao bilo kakav značajan napredak u odnosu na Adama na predobuci za jezički model, kaže Liu. „Ovo bi moglo značiti ogromno smanjenje troškova obuke velikih modela u stvarnom svetu.“ I kako se modeli povećavaju, Sofijine prednosti bi trebalo da se samo povećavaju, kaže on.
Zatim, Liu i njegove kolege se nadaju da će razviti veći LLM koristeći Sofiju. Takođe se nada da će Sophia primeniti na druge oblasti mašinskog učenja, kao što su modeli kompjuterskog vida ili multimodalni modeli. „Bilo bi potrebno neko vreme i resursi da se Sofija premesti na novi domen, ali pošto je ona otvorenog koda, zajednica bi to sigurno mogla da uradi.