Nova studija otkriva da veći skupovi podataka možda nisu uvek bolji za AI modele

Nova studija otkriva da veći skupovi podataka možda nisu uvek bolji za AI modele

Od ChatGPT-a do DALL-E, algoritmi veštačke inteligencije dubokog učenja (AI) se primenjuju na sve veći opseg oblasti. Nova studija istraživača sa Univerziteta u Torontu, objavljena u časopisu Nature Communications, sugeriše da jedna od fundamentalnih pretpostavki modela dubokog učenja – da zahtevaju ogromne količine podataka o obuci – možda nije tako čvrsta kao što se nekada mislilo.

Profesor Jason Hattrick-Simpers i njegov tim fokusirani su na dizajn materijala sledeće generacije, od katalizatora koji pretvaraju uhvaćeni ugljenik u goriva do nelepljivih površina koje čuvaju krila aviona bez leda.

Jedan od izazova u ovoj oblasti je ogroman potencijalni prostor za pretragu. Na primer, Open Catalist Project sadrži više od 200 miliona tačaka podataka za potencijalne katalizatorske materijale, od kojih svi još uvek pokrivaju samo mali deo ogromnog hemijskog prostora koji može, na primer, sakriti pravi katalizator koji će nam pomoći da se bavimo klimatskim promenama.

„AI modeli nam mogu pomoći da efikasno pretražimo ovaj prostor i suzimo izbor na one porodice materijala koji će najviše obećavati“, kaže Hattrick-Simpers.

„Tradicionalno, značajna količina podataka se smatra neophodnom za obuku tačnih AI modela. Ali skup podataka poput onog iz Open Catalist Project je toliko velik da su vam potrebni veoma moćni superkompjuteri da biste mogli da se nosite sa njim. Dakle, postavlja se pitanje pravičnost; moramo da pronađemo način da identifikujemo manje skupove podataka na kojima ljudi bez pristupa ogromnim količinama računarske snage mogu da treniraju svoje modele.“

Ali ovo dovodi do drugog izazova: mnogi od trenutno dostupnih manjih skupova podataka o materijalima razvijeni su za određeni domen — na primer, poboljšanje performansi elektroda baterije.

To znači da imaju tendenciju da se grupišu oko nekoliko hemijskih sastava sličnih onima koji se već koriste danas i da im možda nedostaju mogućnosti koje bi mogle biti obećavajuće, ali manje intuitivno očigledne.

„Zamislite da želite da napravite model za predviđanje konačnih ocena učenika na osnovu rezultata prethodnih testova“, kaže dr Kangming Li, postdoktorski saradnik u Hattrick-Simpersovoj laboratoriji. „Ako ste ga obučili samo na studentima iz Kanade, moglo bi da bude savršeno dobro u tom kontekstu, ali možda neće tačno predvideti ocene za učenike iz Francuske ili Japana. To je situacija sa kojom se suočavamo u svetu materijala.“

Jedno moguće rešenje za rešavanje gore navedenih izazova je da se identifikuju podskupovi podataka unutar veoma velikih skupova podataka koje je lakše obraditi, ali koji ipak zadržavaju čitav niz informacija i raznolikosti prisutnih u originalu.

Da bi bolje razumeo kako kvalitet skupova podataka utiče na modele koje se koriste za obuku, Li je dizajnirao metode za identifikaciju visokokvalitetnih podskupova podataka iz prethodno objavljenih skupova podataka materijala, kao što su JARVIS, The Materials Project i Open Kuantum Materials Database (OKMD ). Zajedno, ove baze podataka sadrže informacije o više od milion različitih materijala.

Li je napravio kompjuterski model koji je predvideo svojstva materijala i trenirao ga na dva načina: jedan je koristio originalni skup podataka, ali je drugi koristio podskup istih podataka koji je bio približno 95% manji.

„Ono što smo otkrili je da kada smo pokušavali da predvidimo svojstva materijala koji je sadržan u domenu skupa podataka, model koji je bio obučen na samo 5% podataka je delovao otprilike isto kao i onaj koji je obučen na svi podaci“, kaže Li. „Suprotno tome, kada su pokušavali da predvide svojstva materijala koji je bio van domena skupa podataka, obojica su radila slično loše.“

Li kaže da nalazi sugerišu način merenja količine suvišnosti u datom skupu podataka: ako više podataka ne poboljšava performanse modela, to bi mogao biti pokazatelj da su ti dodatni podaci suvišni i da ne pružaju nove informacije za modele da nauče .

„Naši rezultati takođe otkrivaju zabrinjavajući stepen redundancije skriven u ovim veoma traženim velikim skupovima podataka“, kaže Li.

Studija takođe naglašava ono što stručnjaci za veštačku inteligenciju iz mnogih oblasti smatraju istinitim: da čak i modeli obučeni na relativno malim skupovima podataka mogu dobro da rade ako su podaci dovoljno visokog kvaliteta.

„Sve ovo je proizašlo iz činjenice da u smislu korišćenja veštačke inteligencije za ubrzanje otkrivanja materijala, tek počinjemo“, kaže Hattrick-Simpers.

„Ono što sugeriše je da dok idemo napred, moramo da budemo veoma pažljivi o tome kako gradimo naše skupove podataka. To je tačno bilo da se radi odozgo nadole, kao u odabiru podskupa podataka iz mnogo većeg skupa podataka, ili iz odozdo prema gore, kao kod uzorkovanja novih materijala koje treba uključiti.

„Moramo obratiti pažnju na bogatstvo informacija, a ne samo da prikupljamo što više podataka.“