AI modeli koji se hrane podacima AI mogu se suočiti sa spiralom smrti

Veliki jezički modeli generišu verbalno zagađenje koje preti da potkopa same podatke na kojima se takvi modeli obučavaju.

To je zaključak do kojeg je došao tim britanskih i kanadskih istraživača koji istražuju uticaj uzastopnih generacija ChatGPT generisanog teksta koji će biti odabran za buduće modele.

U radu objavljenom na arKsiv serveru za preprint i pod naslovom „Prokletstvo rekurzije: Obuka na generisanim podacima čini modele zaboravljenim“, tim je predvideo da će rekurzivna priroda AI obuke na kraju dovesti do „kolapsa modela“.

„Otkrivamo da učenje iz podataka proizvedenih od strane drugih modela uzrokuje kolaps modela – degenerativni proces u kojem, tokom vremena, modeli zaboravljaju pravu osnovnu distribuciju podataka“, rekao je tim.

Član tima Ros Anderson, sa Univerziteta u Kembridžu i Univerziteta u Edinburgu, uporedio je efekat sa opadanjem kvaliteta muzičke produkcije.

„Ako obučavate muzički model na Mocartu“, rekao je on na ličnom blogu, „možete očekivati rezultat koji je pomalo sličan Mocartu, ali bez sjaja… i ako [ta verzija] obučava sledeću generaciju, i tako dalje, šta će peta ili šesta generacija zvuči kao?“

Autori primećuju da je kolaps modela pretnja slična katastrofalnom zaboravljanju i trovanju podataka.

Kod katastrofalnog zaboravljanja, model „zaboravlja“ prethodne podatke, ponekad naglo, kada uči nove informacije. Uticaj se vremenom pogoršava.

U svom novom istraživanju, rekao je tim, modeli ne zaboravljaju prethodno naučene podatke „već radije počinju pogrešno da tumače ono za šta veruju da je stvarno, jačajući sopstvena uverenja“.

Trovanje podacima je zlonamerno ubacivanje lažnih informacija. Naravno, ova praksa je prethodila upotrebi velikih jezičkih modela. Ali uz korišćenje velikih veb pretraživanja, umetanje čak i male količine zlonamernih podataka, rekao je tim, može dovesti do široko rasprostranjene kontaminacije.

„Ono što je drugačije sa dolaskom velikih jezičkih modela je razmera na kojoj se takvo trovanje može dogoditi kada se automatizuje“, rekao je tim.

Istraživač Ilia Šumailov, sa Univerziteta u Oksfordu, upozorio je da se „velika degradacija dešava u samo nekoliko iteracija, čak i kada su neki od originalnih podataka sačuvani”.

„Greške zbog nesavršenosti optimizacije, ograničenih modela i konačnih podataka,“ nastavio je, „na kraju dovode do toga da sintetički podaci budu nižeg kvaliteta.

Istraživači su rekli da je priroda rekurzivnog učenja odbacivanje događaja male verovatnoće, koje statističari nazivaju „repom distribucije“

U svom blogu, Anderson je upozorio: „korišćenje sadržaja generisanog modelom u obuci izaziva nepovratne defekte. Repovi originalne distribucije sadržaja nestaju. U roku od nekoliko generacija, tekst postaje smeće“.

„Događaji male verovatnoće su… vitalni za razumevanje složenih sistema“, navodi se u izveštaju.

Prvi veliki jezički modeli obučeni su na tekstu koji su generisali ljudi. Ali sa brzim usvajanjem ChatGPT-a od strane industrije i opštih korisnika, ogromna količina podataka se popunjava veb lokacijama na mreži.

Istraživači su pozvali da se preduzmu koraci za razlikovanje sadržaja veštačke inteligencije od sadržaja koji su generisali ljudi i da se ulože napori da se sačuva originalni sadržaj za buduće potrebe obuke.

„Veliki jezički modeli su poput vatre“, rekao je član tima Anderson, „korisno sredstvo, ali ono koje zagađuje životnu sredinu. Kako ćemo se nositi s tim?“

AI modeli koji se hrane podacima AI mogu se suočiti sa spiralom smrti

AUTOPUT PAKOVRAĆE–POŽEGA: Tunel bez dozvole, deonica bez funkcije, građani bez odgovora

VUČIĆEV PAD: Šta stoji iza gubitka podrške predsedniku Srbije

Dušan Lajović na startu kvalifikacija za Australijan open igra protiv Argentinca Akoste

Perić: Neistinite su informacije da se Univerzitet iz Kosovske Mitrovice premešta u Novi Pazar

Hiljade turista zaglavljeni u severnoj Finskoj: Letovi otkazani usled ekstremne hladnoće

Tramp razmatra različite opcije za intervenciju u Iranu zbog nasilja i protesta

Sećanje na bombardovanje NATO i posledice po Srbiju kao moralni kompas društva

Dušan Lajović na startu kvalifikacija za Australijan open igra protiv Argentinca Akoste

Perić: Neistinite su informacije da se Univerzitet iz Kosovske Mitrovice premešta u Novi Pazar

Hiljade turista zaglavljeni u severnoj Finskoj: Letovi otkazani usled ekstremne hladnoće

Skup podrške studentima u Kragujevcu u 19h

UN: Avganistanu potrebno 128,8 miliona dolara za oporavak od zemljotresa

Njujork tajms: Tramp dao „zeleno svetlo“ CIA za tajne operacije unutar Venecuele

Dušan Lajović na startu kvalifikacija za Australijan open igra protiv Argentinca Akoste

Perić: Neistinite su informacije da se Univerzitet iz Kosovske Mitrovice premešta u Novi Pazar

Hiljade turista zaglavljeni u severnoj Finskoj: Letovi otkazani usled ekstremne hladnoće

Bear Grylls i njegovi ekstremni saveti o preživljavanju: Da li je pijenje urina bezbedno?

Fosilizovani kičmeni stubovi otkriveni na Aljasci potiču od neočekivane životinje, a ne vunastih mamuta

Feomelanin u crvenoj kosi: tajna supermoć za sprečavanje oštećenja ćelija

Kako percepcija o opadanju moralnosti može biti netačna i obmanjujuća

Vežbanje na hladnom vremenu: Kako smanjiti rizik od povreda tokom zimskih aktivnosti

Grčka: Brod sa migrantima potonuo, pronađena četiri tela, među kojima je jedno dete

Tragična nesreća: Pogibija ekstremnog sportiste Felixa Baumgartnera zbog ljudske greške

Zgrada u centru Madrida delimično se srušila, tri povređene osobe

Dušan Lajović na startu kvalifikacija za Australijan open igra protiv Argentinca Akoste

Obradović pred meč sa Bosnom: Moramo da vratimo zajedništvo u igri

Vaterpolisti Rumunije ubedljivo pobedli Slovačku na EP u Beogradu

Fudbaleri Crvene zvezde bolji od Debrecina u trećem pripremnom meču u Antaliji

Vaterpolisti Italije deklasirali Tursku na EP u Beogradu

Sutra oblačno, na palninama sneg – temperatura od -5 do 1 stepen

Do kraja dana oblačno sa slabim snegom, temperatura od -4 do 0 stepeni

Danas oblačno sa slabim snegom, temperatura od -4 do 0

Pročitajte još