Kako veštačka inteligencija (AI) dostiže vrhunac svoje popularnosti, istraživači su upozorili da industriji možda ponestaje podataka o obuci – goriva koje pokreće moćne AI sisteme.
Ovo bi moglo da uspori rast AI modela, posebno velikih jezičkih modela, i može čak da promeni putanju AI revolucije.
Ali zašto je potencijalni nedostatak podataka problem, s obzirom na to koliko ih ima na vebu? I postoji li način da se odgovori na rizik?
Potrebno nam je mnogo podataka za obuku moćnih, tačnih i visokokvalitetnih AI algoritama. Na primer, ChatGPT je obučen na 570 gigabajta tekstualnih podataka, ili oko 300 milijardi reči.
Slično tome, algoritam stabilne difuzije (koji stoji iza mnogih aplikacija za generisanje AI slika kao što su DALL-E, Lensa i Midjournei) je obučen na skupu podataka LIAON-5B koji se sastoji od 5,8 milijardi parova slika-tekst. Ako je algoritam obučen na nedovoljnoj količini podataka, on će proizvesti netačne ili niskokvalitetne rezultate.
Kvalitet podataka o obuci je takođe važan. Podatke niskog kvaliteta, kao što su postovi na društvenim mrežama ili zamućene fotografije, lako je nabaviti, ali nisu dovoljni za obuku AI modela visokih performansi.
Tekst preuzet sa platformi društvenih medija može biti pristrasan ili sa predrasudama, ili može uključivati dezinformacije ili nezakonit sadržaj koji bi model mogao kopirati. Na primer, kada je Microsoft pokušao da obuči svog AI bota koristeći Tvitter sadržaj, naučio je da proizvodi rasističke i mizoginističke rezultate.
Zbog toga programeri veštačke inteligencije traže sadržaj visokog kvaliteta kao što su tekstovi iz knjiga, onlajn članci, naučni radovi, Vikipedija i određeni filtrirani veb sadržaj. Google pomoćnik je obučen za 11.000 ljubavnih romana preuzetih sa samoizdavačkog sajta Smashvords kako bi bio razgovorniji.
Industrija veštačke inteligencije obučava AI sisteme na sve većim skupovima podataka, zbog čega sada imamo modele visokih performansi kao što su ChatGPT ili DALL-E 3. U isto vreme, istraživanja pokazuju da zalihe podataka na mreži rastu mnogo sporije od skupova podataka koji se koriste da trenira AI.
U radu objavljenom prošle godine, grupa istraživača je predvidela da ćemo ostati bez visokokvalitetnih tekstualnih podataka pre 2026. ako se nastave trenutni trendovi obuke AI. Takođe su procenili da će podaci o jeziku lošeg kvaliteta biti iscrpljeni negde između 2030. i 2050. godine, a podaci o slikama niskog kvaliteta između 2030. i 2060. godine.
AI bi mogao doprineti do 15,7 biliona američkih dolara (24,1 triliona dolara) svetskoj ekonomiji do 2030, prema računovodstvenoj i konsultantskoj grupi PvC. Ali nedostatak upotrebljivih podataka mogao bi usporiti njegov razvoj.
Iako bi gore navedene tačke mogle da uznemire neke ljubitelje veštačke inteligencije, situacija možda nije tako loša kao što se čini. Postoji mnogo nepoznanica o tome kako će se modeli veštačke inteligencije razvijati u budućnosti, kao i nekoliko načina za rešavanje rizika od nedostatka podataka.
Jedna prilika je da programeri veštačke inteligencije poboljšaju algoritme kako bi efikasnije koristili podatke koje već imaju.
Verovatno će u narednim godinama moći da treniraju AI sisteme visokih performansi koristeći manje podataka, a verovatno i manje računarske snage. Ovo bi takođe pomoglo da se smanji ugljenični otisak veštačke inteligencije.
Druga opcija je korišćenje veštačke inteligencije za kreiranje sintetičkih podataka za obuku sistema. Drugim rečima, programeri mogu jednostavno da generišu podatke koji su im potrebni, kurirani da odgovaraju njihovom konkretnom AI modelu.
Nekoliko projekata već koristi sintetički sadržaj, često dobijen iz usluga za generisanje podataka kao što je Uglavnom AI. Ovo će postati sve češće u budućnosti.
Programeri takođe traže sadržaj izvan besplatnog onlajn prostora, kao što je onaj koji drže veliki izdavači i oflajn skladišta. Razmislite o milionima tekstova objavljenih pre interneta. Učinjeni dostupnim digitalno, mogli bi da obezbede novi izvor podataka za projekte veštačke inteligencije.
Njuz korp, jedan od najvećih svetskih vlasnika sadržaja vesti (koji ima veliki deo svog sadržaja iza platnog zida), nedavno je rekao da pregovara o ugovorima o sadržaju sa programerima veštačke inteligencije. Takvi dogovori bi primorali kompanije sa veštačkom inteligencijom da plate podatke za obuku – dok su ih do sada uglavnom besplatno skinuli sa interneta.
Kreatori sadržaja protestovali su protiv neovlašćenog korišćenja njihovog sadržaja za obuku AI modela, a neke su tužile kompanije kao što su Microsoft, OpenAI i Stabiliti AI. Biti nagrađeni za svoj rad može pomoći da se povrati deo neravnoteže moći koja postoji između kreativaca i kompanija sa veštačkom inteligencijom.