Neuronske mreže su pokretale napredak u veštačkoj inteligenciji, uključujući velike jezičke modele koji se sada koriste u širokom spektru aplikacija, od finansija, preko ljudskih resursa do zdravstvene zaštite. Ali ove mreže ostaju crna kutija čiji se unutrašnji rad inženjeri i naučnici bore da razumeju.
Sada, tim predvođen naučnicima za podatke i računarstvo na Univerzitetu Kalifornije u San Dijegu dao je neuronskim mrežama ekvivalent rendgenskom snimku da otkrije kako zapravo uče.
Istraživači su otkrili da formula koja se koristi u statističkoj analizi pruža pojednostavljen matematički opis kako neuronske mreže, kao što je GPT-2, preteča ChatGPT-a, uče relevantne obrasce u podacima, poznate kao karakteristike. Ova formula takođe objašnjava kako neuronske mreže koriste ove relevantne obrasce za predviđanje.
„Pokušavamo da razumemo neuronske mreže iz prvih principa“, rekao je Daniel Beaglehole, dr. student na Odseku za računarske nauke i inženjerstvo UC San Diego i koautor studije. „Sa našom formulom, može se jednostavno protumačiti koje karakteristike mreža koristi za predviđanje.“
Tim predstavlja svoje nalaze u časopisu Nauka.
Zašto je ovo važno? Alati sa veštačkom inteligencijom sada su sveprisutni u svakodnevnom životu. Banke ih koriste za odobravanje kredita. Bolnice ih koriste za analizu medicinskih podataka, kao što su rendgenski snimci i magnetna rezonanca. Kompanije ih koriste za proveru kandidata za posao. Ali trenutno je teško razumeti mehanizam koji neuronske mreže koriste za donošenje odluka i pristrasnosti u podacima o obuci koje bi mogle da utiču na ovo.
„Ako ne razumete kako neuronske mreže uče, veoma je teško utvrditi da li neuronske mreže daju pouzdane, tačne i odgovarajuće odgovore“, rekao je Mihail Belkin, dopisni autor rada i profesor na Institutu za nauku podataka UC San Dijego Halicioglu. . „Ovo je posebno značajno s obzirom na brzi nedavni rast mašinskog učenja i tehnologije neuronskih mreža.“
Studija je deo većeg napora Belkinove istraživačke grupe da razvije matematičku teoriju koja objašnjava kako funkcionišu neuronske mreže. „Tehnologija je nadmašila teoriju za ogromnu količinu“, rekao je on. „Moramo da stignemo.
Tim je takođe pokazao da se statistička formula koju su koristili da bi razumeli kako neuronske mreže uče, poznata kao spoljni proizvod prosečnog gradijenta (AGOP), može primeniti za poboljšanje performansi i efikasnosti u drugim tipovima arhitektura mašinskog učenja koje ne uključuju neuronske mreže.
„Ako razumemo osnovne mehanizme koji pokreću neuronske mreže, trebalo bi da budemo u mogućnosti da izgradimo modele mašinskog učenja koji su jednostavniji, efikasniji i razumljiviji“, rekao je Belkin. „Nadamo se da će ovo pomoći u demokratizaciji veštačke inteligencije.
Sistemima mašinskog učenja koje Belkin predviđa da bi trebalo manje računarske snage, a samim tim i manje energije iz mreže da bi funkcionisali. Ovi sistemi bi takođe bili manje složeni i tako lakši za razumevanje.
(Veštačke) neuronske mreže su računarski alati za učenje odnosa između karakteristika podataka (tj. identifikacija specifičnih objekata ili lica na slici). Jedan primer zadatka je određivanje da li na novoj slici osoba nosi naočare ili ne. Mašinsko učenje pristupa ovom problemu pružajući neuronskoj mreži mnogo primera (trening) slika označenih kao slike „osobe koja nosi naočare“ ili „osobe koja ne nosi naočare“.
Neuronska mreža uči odnos između slika i njihovih oznaka i izdvaja obrasce podataka ili karakteristike na koje treba da se fokusira da bi donela odluku. Jedan od razloga zašto se sistemi veštačke inteligencije smatraju crnom kutijom je zato što je često teško matematički opisati koje kriterijume sistemi zapravo koriste da bi napravili svoja predviđanja, uključujući potencijalne pristrasnosti. Novi rad pruža jednostavno matematičko objašnjenje kako sistemi uče ove karakteristike.
Karakteristike su relevantni obrasci u podacima. U gornjem primeru, postoji širok spektar funkcija koje neuronske mreže uče, a zatim koriste da bi utvrdile da li osoba na fotografiji zapravo nosi naočare ili ne.
Jedna karakteristika na koju bi trebalo obratiti pažnju za ovaj zadatak je gornji deo lica. Ostale karakteristike mogu biti područje oko ili nosa gde se naočare često odmaraju. Mreža selektivno obraća pažnju na karakteristike za koje sazna da su relevantne, a zatim odbacuje ostale delove slike, kao što su donji deo lica, kosa i tako dalje.
Učenje karakteristika je sposobnost prepoznavanja relevantnih obrazaca u podacima, a zatim korišćenje tih obrazaca za predviđanje. U primeru naočara, mreža uči da obrati pažnju na gornji deo lica. U novom naučnom radu, istraživači su identifikovali statističku formulu koja opisuje kako neuronske mreže uče karakteristike.
Alternativne arhitekture neuronskih mreža: Istraživači su nastavili da pokazuju da je umetanje ove formule u računarske sisteme koji se ne oslanjaju na neuronske mreže omogućilo ovim sistemima da uče brže i efikasnije.
„Kako da ignorišem ono što nije neophodno? Ljudi su dobri u tome“, rekao je Belkin. „Mašine rade istu stvar. Veliki jezički modeli, na primer, primenjuju ovo ‘selektivno obraćanje pažnje’ i mi nismo znali kako to rade. U našem naučnom radu predstavljamo mehanizam koji objašnjava bar neke od načina na koji neuronske mreže ‘selektivno obraćaju pažnju’.“