Studija istražuje skaliranje modela dubokog učenja za istraživanje hemije

Studija istražuje skaliranje modela dubokog učenja za istraživanje hemije

Duboke neuronske mreže (DNN) su se pokazale kao veoma obećavajući alat za analizu velikih količina podataka, što bi moglo da ubrza istraživanja u različitim naučnim oblastima. Na primer, u poslednjih nekoliko godina, neki kompjuterski naučnici su obučili modele zasnovane na ovim mrežama da analiziraju hemijske podatke i identifikuju hemikalije koje obećavaju za različite primene.

Istraživači sa Tehnološkog instituta u Masačusetsu (MIT) nedavno su sproveli studiju koja istražuje ponašanje neuronskog skaliranja velikih modela zasnovanih na DNN-u obučenih da generišu povoljne hemijske kompozicije i uče međuatomske potencijale. Njihov rad, objavljen u Nature Machine Intelligence, pokazuje koliko brzo se performanse ovih modela mogu poboljšati kako se povećava njihova veličina i skup podataka na kojima su obučeni.

„Rad ‘Zakoni skaliranja za neuronske jezičke modele’ od Kaplana i drugih, bio je glavna inspiracija za naše istraživanje,“ rekao je Nathan Frei, jedan od istraživača koji su sproveli studiju, za Tech Ksplore. „Taj rad je pokazao da povećanje veličine neuronske mreže i količine podataka na kojima se ona obučava dovodi do predvidljivih poboljšanja u obuci modela. Želeli smo da vidimo kako se ‘neuralno skaliranje’ primenjuje na modele obučene na hemijskim podacima, za aplikacije kao što je otkrivanje lekova .“

Frej i njegove kolege su počeli da rade na ovom istraživačkom projektu još 2021. godine, dakle pre objavljivanja renomiranih platformi zasnovanih na veštačkoj inteligenciji ChatGPT i Dall-E 2. U to vreme, buduće povećanje DNN-a se smatralo posebno relevantnim za neka polja i studije koje su istraživale njihovo skaliranje u fizičkim ili životnim naukama bile su retke.

Studija istraživača istražuje neuronsko skaliranje dva različita tipa modela za analizu hemijskih podataka: model velikog jezika (LLM) i model zasnovan na neuronskoj mreži grafa (GNN). Ova dva različita tipa modela mogu se koristiti za generisanje hemijskih sastava i učenje potencijala između različitih atoma u hemijskim supstancama, respektivno.

„Proučavali smo dva veoma različita tipa modela: autoregresivni jezički model u GPT stilu koji smo izgradili pod nazivom ‘ChemGPT’ i familiju GNN-ova“, objasnio je Frej. „ChemGPT je obučen na isti način kao ChatGPT, ali u našem slučaju ChemGPT pokušava da predvidi sledeći token u nizu koji predstavlja molekul. GNN su obučeni da predvide energiju i sile molekula.“

Da bi istražili skalabilnost ChemGPT modela i GNN-a, Frei i njegove kolege su istražili efekte veličine modela i veličine skupa podataka koji se koristi za obuku na različitim relevantnim metrikama. Ovo im je omogućilo da izvuku brzinu kojom se ovi modeli poboljšavaju kako postaju veći i dobijaju više podataka.

„Pronalazimo ‘neuralno ponašanje skaliranja’ za hemijske modele, koje podseća na ponašanje skaliranja koje se vidi u LLM i modelima vizije za različite aplikacije“, rekao je Frei.

„Takođe smo pokazali da nismo blizu bilo kakve fundamentalne granice za skaliranje hemijskih modela, tako da još uvek ima mnogo prostora za dalje istraživanje sa više računarskih i većih skupova podataka. Uključivanje fizike u GNN preko svojstva zvanog ‘ekvivarijansa’ ima dramatičan efekat na poboljšanje efikasnosti skaliranja, što je uzbudljiv rezultat jer je zapravo prilično teško pronaći algoritme koji menjaju ponašanje skaliranja.“

Sve u svemu, nalazi koje je prikupio ovaj tim istraživača bacaju novo svetlo na potencijal dve vrste AI modela za sprovođenje hemijskih istraživanja, pokazujući u kojoj meri se njihov učinak može poboljšati kako se povećavaju. Ovaj rad bi uskoro mogao da posluži za dodatne studije koje istražuju obećanje i marginu za poboljšanje ovih modela, kao i drugih tehnika zasnovanih na DNN-u za specifične naučne primene.

„Od kada se naš rad prvi put pojavio, već je postojao uzbudljiv nastavak rada na ispitivanju mogućnosti i ograničenja skaliranja za hemijske modele“, dodao je Frej. „U skorije vreme, takođe sam radio na generativnim modelima za dizajn proteina i razmišljao o tome kako skaliranje utiče na modele za biološke podatke.“