Novo istraživanje istraživača digitalnih medija sa Univerziteta Massachusetts Amherst otkriva da je YouTube arhiva, koja obuhvata preko 14,8 milijardi video snimaka, bogata skrivenim draguljima koji se koriste za obuku moćnih AI sistema. Studija, objavljena u radu od 85 stranica, istražuje raznovrsnost ovih snimaka, od ličnih video zapisa do sadržaja kreiranog decom.
Prema istraživanju, čak do 70% video snimaka koje korisnici gledaju preporučuju algoritmi YouTube-a. Ova preporuka često podrazumeva popularne sadržaje poput akrobacija sa uticajnim ličnostima, vesti, putopisnih vlogova i video igara. Međutim, mnogi video snimci na platformi su lični, namenjeni malim grupama ili porodicama, što čini veliki deo arhive koji se retko istražuje.
Jedno od iznenađujućih otkrića istraživanja je da značajan broj video snimaka na YouTube-u dolazi od dece koja izgledaju mlađa od 13 godina, iako platforma zahteva minimalnu starosnu granicu od 13 godina za korisnike. Ovi snimci često uključuju pesme, plesove ili video igre, i pokazuju drugačiju namenu platforme kao društvene mreže za manje grupe.
„TubeStats“, nova veb lokacija koju su istraživači izradili, pruža osnovne informacije o ovim video snimcima za istraživače i novinare koji istražuju YouTube kao izvor podataka za obuku AI sistema.
Ovo istraživanje baca novo svetlo na korišćenje YouTube-a kao dragocenog resursa za obuku AI modela kao što su ChatGPT i Gemini. Dok tehnološke kompanije kao što su OpenAI i Google intenziviraju svoju upotrebu ovih resursa, postavlja se pitanje o etici i privatnosti, posebno kada je reč o sadržaju koji uključuje decu.
Ovo istraživanje naglašava potrebu za transparentnošću u korišćenju podataka sa YouTube-a za obuku AI sistema, istovremeno ističući važnost zaštite privatnosti i prava dece na internetu. Dalja istraživanja bi mogla pružiti bolji uvid u kompleksnost ove ogromne digitalne arhive i njenu ulogu u razvoju veštačke inteligencije u budućnosti.