Svetu ponestaje podataka za ishranu veštačke inteligencije, upozoravaju stručnjaci

Kako veštačka inteligencija (AI) dostiže vrhunac svoje popularnosti, istraživači su upozorili da industriji možda ponestaje podataka o obuci – goriva koje pokreće moćne AI sisteme.

Ovo bi moglo da uspori rast AI modela, posebno velikih jezičkih modela, i može čak da promeni putanju AI revolucije.

Ali zašto je potencijalni nedostatak podataka problem, s obzirom na to koliko ih ima na vebu? I postoji li način da se odgovori na rizik?

Potrebno nam je mnogo podataka za obuku moćnih, tačnih i visokokvalitetnih AI algoritama. Na primer, ChatGPT je obučen na 570 gigabajta tekstualnih podataka, ili oko 300 milijardi reči.

Slično tome, algoritam stabilne difuzije (koji stoji iza mnogih aplikacija za generisanje AI slika kao što su DALL-E, Lensa i Midjournei) je obučen na skupu podataka LIAON-5B koji se sastoji od 5,8 milijardi parova slika-tekst. Ako je algoritam obučen na nedovoljnoj količini podataka, on će proizvesti netačne ili niskokvalitetne rezultate.

Kvalitet podataka o obuci je takođe važan. Podatke niskog kvaliteta, kao što su postovi na društvenim mrežama ili zamućene fotografije, lako je nabaviti, ali nisu dovoljni za obuku AI modela visokih performansi.

Tekst preuzet sa platformi društvenih medija može biti pristrasan ili sa predrasudama, ili može uključivati dezinformacije ili nezakonit sadržaj koji bi model mogao kopirati. Na primer, kada je Microsoft pokušao da obuči svog AI bota koristeći Tvitter sadržaj, naučio je da proizvodi rasističke i mizoginističke rezultate.

Zbog toga programeri veštačke inteligencije traže sadržaj visokog kvaliteta kao što su tekstovi iz knjiga, onlajn članci, naučni radovi, Vikipedija i određeni filtrirani veb sadržaj. Google pomoćnik je obučen za 11.000 ljubavnih romana preuzetih sa samoizdavačkog sajta Smashvords kako bi bio razgovorniji.

Industrija veštačke inteligencije obučava AI sisteme na sve većim skupovima podataka, zbog čega sada imamo modele visokih performansi kao što su ChatGPT ili DALL-E 3. U isto vreme, istraživanja pokazuju da zalihe podataka na mreži rastu mnogo sporije od skupova podataka koji se koriste da trenira AI.

U radu objavljenom prošle godine, grupa istraživača je predvidela da ćemo ostati bez visokokvalitetnih tekstualnih podataka pre 2026. ako se nastave trenutni trendovi obuke AI. Takođe su procenili da će podaci o jeziku lošeg kvaliteta biti iscrpljeni negde između 2030. i 2050. godine, a podaci o slikama niskog kvaliteta između 2030. i 2060. godine.

AI bi mogao doprineti do 15,7 biliona američkih dolara (24,1 triliona dolara) svetskoj ekonomiji do 2030, prema računovodstvenoj i konsultantskoj grupi PvC. Ali nedostatak upotrebljivih podataka mogao bi usporiti njegov razvoj.

Iako bi gore navedene tačke mogle da uznemire neke ljubitelje veštačke inteligencije, situacija možda nije tako loša kao što se čini. Postoji mnogo nepoznanica o tome kako će se modeli veštačke inteligencije razvijati u budućnosti, kao i nekoliko načina za rešavanje rizika od nedostatka podataka.

Jedna prilika je da programeri veštačke inteligencije poboljšaju algoritme kako bi efikasnije koristili podatke koje već imaju.

Verovatno će u narednim godinama moći da treniraju AI sisteme visokih performansi koristeći manje podataka, a verovatno i manje računarske snage. Ovo bi takođe pomoglo da se smanji ugljenični otisak veštačke inteligencije.

Druga opcija je korišćenje veštačke inteligencije za kreiranje sintetičkih podataka za obuku sistema. Drugim rečima, programeri mogu jednostavno da generišu podatke koji su im potrebni, kurirani da odgovaraju njihovom konkretnom AI modelu.

Nekoliko projekata već koristi sintetički sadržaj, često dobijen iz usluga za generisanje podataka kao što je Uglavnom AI. Ovo će postati sve češće u budućnosti.

Programeri takođe traže sadržaj izvan besplatnog onlajn prostora, kao što je onaj koji drže veliki izdavači i oflajn skladišta. Razmislite o milionima tekstova objavljenih pre interneta. Učinjeni dostupnim digitalno, mogli bi da obezbede novi izvor podataka za projekte veštačke inteligencije.

Njuz korp, jedan od najvećih svetskih vlasnika sadržaja vesti (koji ima veliki deo svog sadržaja iza platnog zida), nedavno je rekao da pregovara o ugovorima o sadržaju sa programerima veštačke inteligencije. Takvi dogovori bi primorali kompanije sa veštačkom inteligencijom da plate podatke za obuku – dok su ih do sada uglavnom besplatno skinuli sa interneta.

Kreatori sadržaja protestovali su protiv neovlašćenog korišćenja njihovog sadržaja za obuku AI modela, a neke su tužile kompanije kao što su Microsoft, OpenAI i Stabiliti AI. Biti nagrađeni za svoj rad može pomoći da se povrati deo neravnoteže moći koja postoji između kreativaca i kompanija sa veštačkom inteligencijom.

Svetu ponestaje podataka za ishranu veštačke inteligencije, upozoravaju stručnjaci

AUTOPUT PAKOVRAĆE–POŽEGA: Tunel bez dozvole, deonica bez funkcije, građani bez odgovora

VUČIĆEV PAD: Šta stoji iza gubitka podrške predsedniku Srbije

Dušan Lajović na startu kvalifikacija za Australijan open igra protiv Argentinca Akoste

Perić: Neistinite su informacije da se Univerzitet iz Kosovske Mitrovice premešta u Novi Pazar

Hiljade turista zaglavljeni u severnoj Finskoj: Letovi otkazani usled ekstremne hladnoće

Tramp razmatra različite opcije za intervenciju u Iranu zbog nasilja i protesta

Sećanje na bombardovanje NATO i posledice po Srbiju kao moralni kompas društva

Dušan Lajović na startu kvalifikacija za Australijan open igra protiv Argentinca Akoste

Perić: Neistinite su informacije da se Univerzitet iz Kosovske Mitrovice premešta u Novi Pazar

Hiljade turista zaglavljeni u severnoj Finskoj: Letovi otkazani usled ekstremne hladnoće

Skup podrške studentima u Kragujevcu u 19h

UN: Avganistanu potrebno 128,8 miliona dolara za oporavak od zemljotresa

Njujork tajms: Tramp dao „zeleno svetlo“ CIA za tajne operacije unutar Venecuele

Dušan Lajović na startu kvalifikacija za Australijan open igra protiv Argentinca Akoste

Perić: Neistinite su informacije da se Univerzitet iz Kosovske Mitrovice premešta u Novi Pazar

Hiljade turista zaglavljeni u severnoj Finskoj: Letovi otkazani usled ekstremne hladnoće

Bear Grylls i njegovi ekstremni saveti o preživljavanju: Da li je pijenje urina bezbedno?

Fosilizovani kičmeni stubovi otkriveni na Aljasci potiču od neočekivane životinje, a ne vunastih mamuta

Feomelanin u crvenoj kosi: tajna supermoć za sprečavanje oštećenja ćelija

Kako percepcija o opadanju moralnosti može biti netačna i obmanjujuća

Vežbanje na hladnom vremenu: Kako smanjiti rizik od povreda tokom zimskih aktivnosti

Grčka: Brod sa migrantima potonuo, pronađena četiri tela, među kojima je jedno dete

Tragična nesreća: Pogibija ekstremnog sportiste Felixa Baumgartnera zbog ljudske greške

Zgrada u centru Madrida delimično se srušila, tri povređene osobe

Dušan Lajović na startu kvalifikacija za Australijan open igra protiv Argentinca Akoste

Obradović pred meč sa Bosnom: Moramo da vratimo zajedništvo u igri

Vaterpolisti Rumunije ubedljivo pobedli Slovačku na EP u Beogradu

Fudbaleri Crvene zvezde bolji od Debrecina u trećem pripremnom meču u Antaliji

Vaterpolisti Italije deklasirali Tursku na EP u Beogradu

Sutra oblačno, na palninama sneg – temperatura od -5 do 1 stepen

Do kraja dana oblačno sa slabim snegom, temperatura od -4 do 0 stepeni

Danas oblačno sa slabim snegom, temperatura od -4 do 0

Pročitajte još