Da li je moguće izgraditi modele mašinskog učenja bez stručnosti za mašinsko učenje?
Jim Collins, Termeer profesor medicinskog inženjerstva i nauke na Odeljenju za biološko inženjerstvo na MIT-u i fakultet prirodnih nauka na čelu klinike Abdul Latif Jameel za mašinsko učenje u zdravstvu (Jameel Clinic), zajedno sa brojnim kolegama odlučili su da se pozabave ovaj problem kada se suočite sa sličnom zagonetkom. Dokument otvorenog pristupa o njihovom predloženom rešenju, pod nazivom BioAutoMATED, objavljen je u Cell Sistems.
Regrutovanje istraživača koji se bave mašinskim učenjem može biti dugotrajan i finansijski skup proces za naučne i inženjerske laboratorije. Čak i sa stručnjakom za mašinsko učenje, odabir odgovarajućeg modela, formatiranje skupa podataka za model, a zatim njegovo fino podešavanje može dramatično da promeni način na koji model funkcioniše i zahteva mnogo posla.
„U vašem projektu mašinskog učenja, koliko vremena ćete obično potrošiti na pripremu i transformaciju podataka?“ pita Google kurs za 2022. o osnovama mašinskog učenja (ML). Dva ponuđena izbora su ili „Manje od polovine projektnog vremena“ ili „Više od polovine vremena projekta“. Da ste pogodili ovo drugo, bili biste u pravu. Gugl navodi da je potrebno više od 80% vremena projekta za formatiranje podataka, a to čak ni ne uzima u obzir vreme potrebno da se problem uokviri u terminima mašinskog učenja.
„Bilo bi potrebno mnogo nedelja napora da se otkrije odgovarajući model za naš skup podataka, a ovo je zaista nedovoljan korak za mnoge ljude koji žele da koriste mašinsko učenje ili biologiju“, kaže Žaklin Valeri, peta godina doktorata. D. student biološkog inženjerstva u Kolinsovoj laboratoriji koji je prvi koautor rada.
BioAutoMATED je automatizovani sistem mašinskog učenja koji može da izabere i izgradi odgovarajući model za dati skup podataka, pa čak i da se pobrine za naporan zadatak prethodne obrade podataka, svodeći višemesečni proces na samo nekoliko sati. Sistemi za automatizovano mašinsko učenje (AutoML) su još uvek u relativno početnoj fazi razvoja, sa trenutnom upotrebom prvenstveno fokusiranom na prepoznavanje slika i teksta, ali se uglavnom ne koriste u podoblastima biologije, ističe prvi koautor i postdoktor klinike Jameel dr Luis Soenksen .D.
„Osnovni jezik biologije zasnovan je na sekvencama“, objašnjava Soenksen, koji je doktorirao na MIT odeljenju za mašinstvo. „Biološke sekvence kao što su DNK, RNK, proteini i glikani imaju neverovatnu informacijsku osobinu da su suštinski standardizovane, poput abecede. Mnogo AutoML alata je razvijeno za tekst, tako da je imalo smisla proširiti ih na [biološke] sekvence. “
Štaviše, većina AutoML alata može da istražuje i pravi samo smanjene tipove modela. „Ali ne možete zaista znati od početka projekta koji će model biti najbolji za vaš skup podataka“, kaže Valeri. „Ugrađivanjem više alata pod jedan krovni alat, mi zaista dozvoljavamo mnogo veći prostor za pretragu nego što bi bilo koji pojedinačni AutoML alat mogao da postigne sam.“
BioAutoMATED-ov repertoar nadziranih ML modela uključuje tri tipa: binarne modele klasifikacije (podela podataka u dve klase), modele klasifikacije sa više klasa (podela podataka na više klasa) i regresione modele (uklapanje kontinuiranih numeričkih vrednosti ili merenje jačine ključnih odnosa između Promenljive). BioAutoMATED je čak u stanju da pomogne u određivanju koliko podataka je potrebno za odgovarajuću obuku izabranog modela.
„Naš alat istražuje modele koji su pogodniji za manje, ređe biološke skupove podataka, kao i za složenije neuronske mreže“, kaže Valeri. Ovo je prednost za istraživačke grupe sa novim podacima koji mogu ili ne moraju biti prikladni za problem mašinskog učenja.
„Sprovođenje novih i uspešnih eksperimenata na raskrsnici biologije i mašinskog učenja može koštati mnogo novca“, objašnjava Soenksen. „Trenutno, laboratorije orijentisane na biologiju treba da investiraju u značajnu digitalnu infrastrukturu i ljudske resurse obučene za AI-ML pre nego što uopšte vide da li su njihove ideje spremne da se ostvare. Želimo da smanjimo ove barijere za stručnjake iz oblasti biologije.“
Uz BioAutoMATED, istraživači imaju slobodu da pokreću početne eksperimente kako bi procenili da li je vredno angažovati stručnjaka za mašinsko učenje da napravi drugačiji model za dalje eksperimentisanje.
Kod je javno dostupan i, naglašavaju istraživači, lako ga je pokrenuti. „Ono što bismo voleli da vidimo je da ljudi uzmu naš kod, poboljšaju ga i sarađuju sa većim zajednicama kako bismo ga učinili alatom za sve“, kaže Soenksen. „Želimo da unapredimo biološko istraživačku zajednicu i stvorimo svest u vezi sa AutoML tehnikama, kao ozbiljno korisnim putem koji bi mogao da spoji rigoroznu biološku praksu sa brzom praksom AI-ML bolje nego što se to postiže danas.