Generativna veštačka inteligencija (AI) se na glasu mučila da stvori konzistentne slike, često pogrešno shvatajući detalje poput prstiju i simetrije lica. Štaviše, ovi modeli mogu potpuno propasti kada se od njih zatraži da generišu slike u različitim veličinama i rezolucijama.
Novi metod kompjuterskih naučnika Univerziteta Rajs za generisanje slika pomoću unapred obučenih modela difuzije – klasa generativnih AI modela koji „uče“ dodavanjem sloja za slojem nasumične buke slikama na kojima su obučeni, a zatim generišu nove slike uklanjanjem dodatna buka ⎯ bi mogla pomoći u ispravljanju takvih problema.
Moaied Haji Ali, student doktorskih studija računarskih nauka Univerziteta Rice, opisao je novi pristup, nazvan ElasticDiffusion, u recenziranom radu predstavljenom na Konferenciji Instituta za inženjere elektronike i elektronike (IEEE) 2024 o kompjuterskom vidu i prepoznavanju uzoraka (CVPR) u Seattle.
„Modeli difuzije kao što su Stable Diffusion, Midjournei i DALL-E stvaraju impresivne rezultate, generišući prilično realistične i fotorealistične slike“, rekao je Haji Ali. „Ali oni imaju slabost: mogu da generišu samo kvadratne slike. Dakle, u slučajevima kada imate različite proporcije, na primer na monitoru ili pametnom satu… tu ovi modeli postaju problematični.“
Ako modelu kao što je Stable Diffusion kažete da kreira nekvadratnu sliku, recimo odnos širine i visine 16:9, elementi koji se koriste za pravljenje generisane slike će se ponavljati. To ponavljanje se pojavljuje kao deformiteti čudnog izgleda na slici ili subjektima slike, poput ljudi sa šest prstiju ili čudno izduženog automobila.
Tome doprinosi i način na koji su ovi modeli obučeni.
„Ako obučite model samo na slikama koje su određene rezolucije, one mogu da generišu slike samo sa tom rezolucijom“, rekao je Visente Ordonjez-Roman, vanredni profesor računarskih nauka koji je savetovao Hadži Alija o njegovom radu zajedno sa Guhom Balakrišnanom, docentom elektrotehnike i računarstva.
Ordonjez-Roman je objasnio da je ovo problem endemičan za veštačku inteligenciju poznat kao preterano prilagođavanje, gde AI model postaje preterano dobar u generisanju podataka sličnih onome na čemu je obučen, ali ne može da odstupi daleko od tih parametara.
„To biste mogli da rešite obučavanjem modela na širem spektru slika, ali to je skupo i zahteva ogromne količine računarske snage – stotine, možda čak i hiljade grafičkih procesorskih jedinica“, rekao je Ordonjez-Roman.
Prema Hadži Aliju, digitalni šum koji koriste difuzioni modeli može se prevesti u signal sa dva tipa podataka: lokalni i globalni. Lokalni signal sadrži detaljne informacije na nivou piksela, poput oblika oka ili teksture psećeg krzna. Globalni signal sadrži više opšteg obrisa slike.
„Jedan od razloga zašto je modelima difuzije potrebna pomoć sa nekvadratnim odnosom širine i visine je taj što oni obično zajedno pakuju lokalne i globalne informacije“, rekao je Hadži Ali, koji je radio na sintezi pokreta u video snimcima generisanim veštačkom inteligencijom pre nego što se pridružio Ordonjez-Romanovoj istraživačkoj grupi u Rajsu za svoje dr. studijama. „Kada model pokuša da duplira te podatke kako bi uračunao dodatni prostor na nekvadratnoj slici, to rezultira vizuelnim nesavršenostima.“
Metoda ElasticDiffusion u Hadži Alijevom radu ima drugačiji pristup kreiranju slike. Umesto da pakuje oba signala zajedno, ElasticDiffusion razdvaja lokalne i globalne signale u uslovne i bezuslovne putanje generisanja. On oduzima uslovni model od bezuslovnog modela, dobijajući rezultat koji sadrži globalne informacije o slici.
Nakon toga, bezuslovna putanja sa lokalnim detaljima na nivou piksela se primenjuje na sliku u kvadrantima, popunjavajući detalje jedan po kvadrat. Globalne informacije ⎯ kakav treba da bude odnos širine i visine slike i kakva je slika (pas, osoba koja trči, itd.) ⎯ ostaje odvojena, tako da nema šanse da AI zbuni signale i ponovi podatke. Rezultat je čistija slika bez obzira na odnos širine i visine za koju nije potrebna dodatna obuka.
„Ovaj pristup je uspešan pokušaj da se iskoriste posredne reprezentacije modela kako bi se oni povećali tako da dobijete globalnu doslednost“, rekao je Ordonjez-Roman.
Jedini nedostatak ElasticDiffusion u odnosu na druge modele difuzije je vreme. Trenutno je potrebno do 6-9 puta duže da Hadži Alijev metod napravi sliku. Cilj je da se to smanji na isto vreme zaključivanja kao i drugi modeli kao što su Stable Diffusion ili DALL-E.
„Nadam se da će ovo istraživanje da definiše… zašto modeli difuzije generišu ove delove koji se više ponavljaju i ne mogu da se prilagode ovim promenljivim razmerama i smisle okvir koji se može prilagoditi tačno bilo kom odnosu bez obzira na treninga, u isto vreme zaključivanja“, rekao je Hadži Ali.