Tim razvija brži i jeftiniji način za obuku velikih jezičkih modela

Tim sa Stanforda je razvio Sophia, novi način za optimizaciju pretreninga velikih jezičkih modela koji je dvostruko brži od trenutnih pristupa.

ChatGPT i druge aplikacije koje se oslanjaju na velike jezičke modele (LLM) dobijaju široku upotrebu i privlače veliku pažnju medija. Ali nekolicina velikih tehnoloških kompanija dominira prostorom za LLM jer je prethodna obuka ovih modela izuzetno skupa, sa procenama troškova koje počinju od 10 miliona dolara i potencijalno dostižu desetine ili stotine puta više.

„Veliki jezički modeli nisu baš dostupni manjim organizacijama ili akademskim grupama“, kaže Hong Liu, diplomirani student računarskih nauka na Univerzitetu Stanford.

Da bi to promenili, Liu i njegove kolege su krenuli da poboljšaju trenutne metode optimizacije LLM. Rezultat: pristup pod nazivom Sofija koji skraćuje vreme pre treninga na pola. Detalji ovog pristupa su objavljeni na arKsiv preprint serveru.

Da bi bolje optimizovali prethodnu obuku za LLM, Liu i njegove kolege, uključujući postdoktorskog saradnika sa Stanforda Džijuan Lija, istraživača sa Stanforda Dejvida Hola, docenta za računarske nauke Tengiu Ma i vanrednog profesora Persija Lianga, koristili su dva trika. Prva, poznata kao procena zakrivljenosti, nije nova, ali tim sa Stanforda je pronašao način da je učini efikasnijom.

Da biste razumeli njihov pristup, razmotrite fabričku montažnu liniju. Da bi efikasno funkcionisao, menadžer fabrike treba da optimizuje broj koraka koji su potrebni da bi se sirovine pretvorile u finalni proizvod i treba da razume i na odgovarajući način uposli radno opterećenje na svakom koraku duž linije.

Isto važi i za predobuku za LLM. Ovi modeli imaju milione ili čak milijarde parametara koje Liu upoređuje sa radnicima u fabrici koji teže istim ciljevima. Jedno svojstvo ovih parametara je njihova zakrivljenost, koju Liu smatra maksimalnom mogućom brzinom koju postižu dok napreduju ka konačnom cilju prethodno obučenog LLM. U fabričkoj metafori, zakrivljenost je slična opterećenju fabričkog radnika.

Ako program za optimizaciju može da proceni tu krivinu (opterećenje), to može učiniti LLM pretrening efikasnijim. Problem je sledeći: Procena zakrivljenosti postojećim metodama je izuzetno teška i skupa. „U stvari, to je skuplje od obavljanja stvarnog posla bez predviđanja zakrivljenosti“, kaže Liu. To je delimično razlog zašto trenutni najsavremeniji pristupi optimizaciji LLM pretreninga (Adam i njegove varijante) odbacuju korak procene zakrivljenosti.

Ipak, Liu i njegove kolege su primetili moguću neefikasnost u prethodnim metodama koje su koristile parametarsku procenu zakrivljenosti: Raniji istraživači su ažurirali svoje procene zakrivljenosti na svakom koraku optimizacije. Tim sa Stanforda se pitao da li bi mogli da učine proces efikasnijim smanjenjem broja ažuriranja.

Da bi testirao tu ideju, tim iz Stanforda je dizajnirao Sofiju da proceni zakrivljenost parametara samo na svakih 10 koraka. „To se pokazalo kao velika pobeda“, kaže Liu.

Drugi trik za optimizaciju tima, nazvan kliping, bavi se srodnim problemom: problemom netačne procene zakrivljenosti. „Ako je procena pogrešna, to je kao da ljudima sa teškim poslovima date još više posla. To čini stvari gorim nego da uopšte ne postoji procena.“

Odsecanje to sprečava postavljanjem praga ili procene maksimalne zakrivljenosti. „U našoj fabričkoj metafori, to je kao postavljanje ograničenja radnog opterećenja za sve zaposlene“, kaže Liu. Još jedna metafora koja se često primenjuje na optimizaciju je pejzaž brda i dolina gde je cilj da se završi u najnižoj dolini. Bez klipinga, kaže Liu, moguće je sleteti na sedlo između dve planine. „U optimizaciji to nije mesto gde želite da budete“, kaže on.

Liu i njegove kolege su koristili Sofiju da unapred obuče relativno mali LLM koristeći istu veličinu i konfiguraciju modela koji su korišćeni za kreiranje OpenAI GPT-2.

Sofijina kombinacija procene zakrivljenosti i klipinga omogućila je optimizaciji LLM pre treninga da glatko nastavi do najniže doline u pola broja koraka i pola vremena koje zahteva Adam.

„Sofijina prilagodljivost izdvaja je od Adama“, kaže Liu. Adamu je teže da rukuje parametrima sa heterogenim zakrivljenjima jer ih ne može unapred predvideti.

To je takođe prvi put u devet godina da je iko pokazao bilo kakav značajan napredak u odnosu na Adama na predobuci za jezički model, kaže Liu. „Ovo bi moglo značiti ogromno smanjenje troškova obuke velikih modela u stvarnom svetu.“ I kako se modeli povećavaju, Sofijine prednosti bi trebalo da se samo povećavaju, kaže on.

Zatim, Liu i njegove kolege se nadaju da će razviti veći LLM koristeći Sofiju. Takođe se nada da će Sophia primeniti na druge oblasti mašinskog učenja, kao što su modeli kompjuterskog vida ili multimodalni modeli. „Bilo bi potrebno neko vreme i resursi da se Sofija premesti na novi domen, ali pošto je ona otvorenog koda, zajednica bi to sigurno mogla da uradi.

Tim razvija brži i jeftiniji način za obuku velikih jezičkih modela

AUTOPUT PAKOVRAĆE–POŽEGA: Tunel bez dozvole, deonica bez funkcije, građani bez odgovora

VUČIĆEV PAD: Šta stoji iza gubitka podrške predsedniku Srbije

Dušan Lajović na startu kvalifikacija za Australijan open igra protiv Argentinca Akoste

Perić: Neistinite su informacije da se Univerzitet iz Kosovske Mitrovice premešta u Novi Pazar

Hiljade turista zaglavljeni u severnoj Finskoj: Letovi otkazani usled ekstremne hladnoće

Tramp razmatra različite opcije za intervenciju u Iranu zbog nasilja i protesta

Sećanje na bombardovanje NATO i posledice po Srbiju kao moralni kompas društva

Dušan Lajović na startu kvalifikacija za Australijan open igra protiv Argentinca Akoste

Perić: Neistinite su informacije da se Univerzitet iz Kosovske Mitrovice premešta u Novi Pazar

Hiljade turista zaglavljeni u severnoj Finskoj: Letovi otkazani usled ekstremne hladnoće

Skup podrške studentima u Kragujevcu u 19h

UN: Avganistanu potrebno 128,8 miliona dolara za oporavak od zemljotresa

Njujork tajms: Tramp dao „zeleno svetlo“ CIA za tajne operacije unutar Venecuele

Dušan Lajović na startu kvalifikacija za Australijan open igra protiv Argentinca Akoste

Perić: Neistinite su informacije da se Univerzitet iz Kosovske Mitrovice premešta u Novi Pazar

Hiljade turista zaglavljeni u severnoj Finskoj: Letovi otkazani usled ekstremne hladnoće

Bear Grylls i njegovi ekstremni saveti o preživljavanju: Da li je pijenje urina bezbedno?

Fosilizovani kičmeni stubovi otkriveni na Aljasci potiču od neočekivane životinje, a ne vunastih mamuta

Feomelanin u crvenoj kosi: tajna supermoć za sprečavanje oštećenja ćelija

Kako percepcija o opadanju moralnosti može biti netačna i obmanjujuća

Vežbanje na hladnom vremenu: Kako smanjiti rizik od povreda tokom zimskih aktivnosti

Grčka: Brod sa migrantima potonuo, pronađena četiri tela, među kojima je jedno dete

Tragična nesreća: Pogibija ekstremnog sportiste Felixa Baumgartnera zbog ljudske greške

Zgrada u centru Madrida delimično se srušila, tri povređene osobe

Dušan Lajović na startu kvalifikacija za Australijan open igra protiv Argentinca Akoste

Obradović pred meč sa Bosnom: Moramo da vratimo zajedništvo u igri

Vaterpolisti Rumunije ubedljivo pobedli Slovačku na EP u Beogradu

Fudbaleri Crvene zvezde bolji od Debrecina u trećem pripremnom meču u Antaliji

Vaterpolisti Italije deklasirali Tursku na EP u Beogradu

Sutra oblačno, na palninama sneg – temperatura od -5 do 1 stepen

Do kraja dana oblačno sa slabim snegom, temperatura od -4 do 0 stepeni

Danas oblačno sa slabim snegom, temperatura od -4 do 0

Pročitajte još