Nova studija otkriva da veći skupovi podataka možda nisu uvek bolji za AI modele

Od ChatGPT-a do DALL-E, algoritmi veštačke inteligencije dubokog učenja (AI) se primenjuju na sve veći opseg oblasti. Nova studija istraživača sa Univerziteta u Torontu, objavljena u časopisu Nature Communications, sugeriše da jedna od fundamentalnih pretpostavki modela dubokog učenja – da zahtevaju ogromne količine podataka o obuci – možda nije tako čvrsta kao što se nekada mislilo.

Profesor Jason Hattrick-Simpers i njegov tim fokusirani su na dizajn materijala sledeće generacije, od katalizatora koji pretvaraju uhvaćeni ugljenik u goriva do nelepljivih površina koje čuvaju krila aviona bez leda.

Jedan od izazova u ovoj oblasti je ogroman potencijalni prostor za pretragu. Na primer, Open Catalist Project sadrži više od 200 miliona tačaka podataka za potencijalne katalizatorske materijale, od kojih svi još uvek pokrivaju samo mali deo ogromnog hemijskog prostora koji može, na primer, sakriti pravi katalizator koji će nam pomoći da se bavimo klimatskim promenama.

„AI modeli nam mogu pomoći da efikasno pretražimo ovaj prostor i suzimo izbor na one porodice materijala koji će najviše obećavati“, kaže Hattrick-Simpers.

„Tradicionalno, značajna količina podataka se smatra neophodnom za obuku tačnih AI modela. Ali skup podataka poput onog iz Open Catalist Project je toliko velik da su vam potrebni veoma moćni superkompjuteri da biste mogli da se nosite sa njim. Dakle, postavlja se pitanje pravičnost; moramo da pronađemo način da identifikujemo manje skupove podataka na kojima ljudi bez pristupa ogromnim količinama računarske snage mogu da treniraju svoje modele.“

Ali ovo dovodi do drugog izazova: mnogi od trenutno dostupnih manjih skupova podataka o materijalima razvijeni su za određeni domen — na primer, poboljšanje performansi elektroda baterije.

To znači da imaju tendenciju da se grupišu oko nekoliko hemijskih sastava sličnih onima koji se već koriste danas i da im možda nedostaju mogućnosti koje bi mogle biti obećavajuće, ali manje intuitivno očigledne.

„Zamislite da želite da napravite model za predviđanje konačnih ocena učenika na osnovu rezultata prethodnih testova“, kaže dr Kangming Li, postdoktorski saradnik u Hattrick-Simpersovoj laboratoriji. „Ako ste ga obučili samo na studentima iz Kanade, moglo bi da bude savršeno dobro u tom kontekstu, ali možda neće tačno predvideti ocene za učenike iz Francuske ili Japana. To je situacija sa kojom se suočavamo u svetu materijala.“

Jedno moguće rešenje za rešavanje gore navedenih izazova je da se identifikuju podskupovi podataka unutar veoma velikih skupova podataka koje je lakše obraditi, ali koji ipak zadržavaju čitav niz informacija i raznolikosti prisutnih u originalu.

Da bi bolje razumeo kako kvalitet skupova podataka utiče na modele koje se koriste za obuku, Li je dizajnirao metode za identifikaciju visokokvalitetnih podskupova podataka iz prethodno objavljenih skupova podataka materijala, kao što su JARVIS, The Materials Project i Open Kuantum Materials Database (OKMD ). Zajedno, ove baze podataka sadrže informacije o više od milion različitih materijala.

Li je napravio kompjuterski model koji je predvideo svojstva materijala i trenirao ga na dva načina: jedan je koristio originalni skup podataka, ali je drugi koristio podskup istih podataka koji je bio približno 95% manji.

„Ono što smo otkrili je da kada smo pokušavali da predvidimo svojstva materijala koji je sadržan u domenu skupa podataka, model koji je bio obučen na samo 5% podataka je delovao otprilike isto kao i onaj koji je obučen na svi podaci“, kaže Li. „Suprotno tome, kada su pokušavali da predvide svojstva materijala koji je bio van domena skupa podataka, obojica su radila slično loše.“

Li kaže da nalazi sugerišu način merenja količine suvišnosti u datom skupu podataka: ako više podataka ne poboljšava performanse modela, to bi mogao biti pokazatelj da su ti dodatni podaci suvišni i da ne pružaju nove informacije za modele da nauče .

„Naši rezultati takođe otkrivaju zabrinjavajući stepen redundancije skriven u ovim veoma traženim velikim skupovima podataka“, kaže Li.

Studija takođe naglašava ono što stručnjaci za veštačku inteligenciju iz mnogih oblasti smatraju istinitim: da čak i modeli obučeni na relativno malim skupovima podataka mogu dobro da rade ako su podaci dovoljno visokog kvaliteta.

„Sve ovo je proizašlo iz činjenice da u smislu korišćenja veštačke inteligencije za ubrzanje otkrivanja materijala, tek počinjemo“, kaže Hattrick-Simpers.

„Ono što sugeriše je da dok idemo napred, moramo da budemo veoma pažljivi o tome kako gradimo naše skupove podataka. To je tačno bilo da se radi odozgo nadole, kao u odabiru podskupa podataka iz mnogo većeg skupa podataka, ili iz odozdo prema gore, kao kod uzorkovanja novih materijala koje treba uključiti.

„Moramo obratiti pažnju na bogatstvo informacija, a ne samo da prikupljamo što više podataka.“

Nova studija otkriva da veći skupovi podataka možda nisu uvek bolji za AI modele

Merc: Izbori u Baden-Virtembergu gorak rezultat, nećemo sarađivati sa AFD

Fritule sa slaninicom

AUTOPUT PAKOVRAĆE–POŽEGA: Tunel bez dozvole, deonica bez funkcije, građani bez odgovora

VUČIĆEV PAD: Šta stoji iza gubitka podrške predsedniku Srbije

Nemački teniser Aleksander Zverev plasirao se u finale Rolan Garosa

Pukotine na Međunarodnoj svemirskoj stanici, astronauti evakuisani, pa vraćeni

Vlada podigla cenzus za dečji dodatak na 18.000 dinara

Vučić sa Ficom o unapređenju saradnje dve zemlje

Sibiga: Zvanično ćemo predati pismo Putinu

Nemački teniser Aleksander Zverev plasirao se u finale Rolan Garosa

Pukotine na Međunarodnoj svemirskoj stanici, astronauti evakuisani, pa vraćeni

Vlada podigla cenzus za dečji dodatak na 18.000 dinara

Okvir vesti, servisne informacije (VIDEO)

Vilijams najavio da Nikolas Latifi napušta tim krajem 2022

Juki Cunoda ostaje u AlphaTauri-u i 2023

Nemački teniser Aleksander Zverev plasirao se u finale Rolan Garosa

Pukotine na Međunarodnoj svemirskoj stanici, astronauti evakuisani, pa vraćeni

Vlada podigla cenzus za dečji dodatak na 18.000 dinara

Prva vakcina na svetu koju je osmislila veštačka inteligencija

Upozorenje UN: Pripremite se za El Ninjo, očekuje se jedan od najjačih ikada, slede ekstremne vremenske prilike

Rilmenidin: Lek protiv hipertenzije koji može usporiti starenje i produžiti život

Istraživanje pokazuje da bi obnavljanje DNK moglo usporiti proces starenja kod ljudi

Otkrivanje veštačke inteligencije OpenAI: Novi rezultat u matematici izaziva veliku pažnju

Požar u podzemnoj garaži na Zvezdari zahvatio nekoliko automobila

Teška povreda tokom karnevalske parade: helikopterom prebačena osoba u bolnicu

U Nišu pronađeno telo žene, sumnja se da je ubijena

Nemački teniser Aleksander Zverev plasirao se u finale Rolan Garosa

Radar: Košarkaški klubovi Crvena zvezda i Partizan potrošili više od 180 miliona evra u pet godina

Trke Formule 1 voziće se u Las Vegasu najmanje do 2037. godine

Penjaroja: U plej-ofu je svaka utakmica drugačija, moramo da popravimo energiju

Fudbaleri Srbije poveli golom Stanića, pa doživeli težak poraz od Meksika

Pretežno sunčano i toplije, u večernjim satima naoblačenje i kiša

Sutra promenljivo vreme, temperatura do 30 stepeni

U Srbiji danas promenljivo oblačno i malo svežije, temperatura do 26 stepeni

Pročitajte još