Veliki jezički modeli generišu verbalno zagađenje koje preti da potkopa same podatke na kojima se takvi modeli obučavaju.
To je zaključak do kojeg je došao tim britanskih i kanadskih istraživača koji istražuju uticaj uzastopnih generacija ChatGPT generisanog teksta koji će biti odabran za buduće modele.
U radu objavljenom na arKsiv serveru za preprint i pod naslovom „Prokletstvo rekurzije: Obuka na generisanim podacima čini modele zaboravljenim“, tim je predvideo da će rekurzivna priroda AI obuke na kraju dovesti do „kolapsa modela“.
„Otkrivamo da učenje iz podataka proizvedenih od strane drugih modela uzrokuje kolaps modela – degenerativni proces u kojem, tokom vremena, modeli zaboravljaju pravu osnovnu distribuciju podataka“, rekao je tim.
Član tima Ros Anderson, sa Univerziteta u Kembridžu i Univerziteta u Edinburgu, uporedio je efekat sa opadanjem kvaliteta muzičke produkcije.
„Ako obučavate muzički model na Mocartu“, rekao je on na ličnom blogu, „možete očekivati rezultat koji je pomalo sličan Mocartu, ali bez sjaja… i ako [ta verzija] obučava sledeću generaciju, i tako dalje, šta će peta ili šesta generacija zvuči kao?“
Autori primećuju da je kolaps modela pretnja slična katastrofalnom zaboravljanju i trovanju podataka.
Kod katastrofalnog zaboravljanja, model „zaboravlja“ prethodne podatke, ponekad naglo, kada uči nove informacije. Uticaj se vremenom pogoršava.
U svom novom istraživanju, rekao je tim, modeli ne zaboravljaju prethodno naučene podatke „već radije počinju pogrešno da tumače ono za šta veruju da je stvarno, jačajući sopstvena uverenja“.
Trovanje podacima je zlonamerno ubacivanje lažnih informacija. Naravno, ova praksa je prethodila upotrebi velikih jezičkih modela. Ali uz korišćenje velikih veb pretraživanja, umetanje čak i male količine zlonamernih podataka, rekao je tim, može dovesti do široko rasprostranjene kontaminacije.
„Ono što je drugačije sa dolaskom velikih jezičkih modela je razmera na kojoj se takvo trovanje može dogoditi kada se automatizuje“, rekao je tim.
Istraživač Ilia Šumailov, sa Univerziteta u Oksfordu, upozorio je da se „velika degradacija dešava u samo nekoliko iteracija, čak i kada su neki od originalnih podataka sačuvani”.
„Greške zbog nesavršenosti optimizacije, ograničenih modela i konačnih podataka,“ nastavio je, „na kraju dovode do toga da sintetički podaci budu nižeg kvaliteta.
Istraživači su rekli da je priroda rekurzivnog učenja odbacivanje događaja male verovatnoće, koje statističari nazivaju „repom distribucije“
U svom blogu, Anderson je upozorio: „korišćenje sadržaja generisanog modelom u obuci izaziva nepovratne defekte. Repovi originalne distribucije sadržaja nestaju. U roku od nekoliko generacija, tekst postaje smeće“.
„Događaji male verovatnoće su… vitalni za razumevanje složenih sistema“, navodi se u izveštaju.
Prvi veliki jezički modeli obučeni su na tekstu koji su generisali ljudi. Ali sa brzim usvajanjem ChatGPT-a od strane industrije i opštih korisnika, ogromna količina podataka se popunjava veb lokacijama na mreži.
Istraživači su pozvali da se preduzmu koraci za razlikovanje sadržaja veštačke inteligencije od sadržaja koji su generisali ljudi i da se ulože napori da se sačuva originalni sadržaj za buduće potrebe obuke.
„Veliki jezički modeli su poput vatre“, rekao je član tima Anderson, „korisno sredstvo, ali ono koje zagađuje životnu sredinu. Kako ćemo se nositi s tim?“