Novo istraživanje bi čudne slike veštačke inteligencije moglo učiniti prošlošću

Generativna veštačka inteligencija (AI) se na glasu mučila da stvori konzistentne slike, često pogrešno shvatajući detalje poput prstiju i simetrije lica. Štaviše, ovi modeli mogu potpuno propasti kada se od njih zatraži da generišu slike u različitim veličinama i rezolucijama.

Novi metod kompjuterskih naučnika Univerziteta Rajs za generisanje slika pomoću unapred obučenih modela difuzije – klasa generativnih AI modela koji „uče“ dodavanjem sloja za slojem nasumične buke slikama na kojima su obučeni, a zatim generišu nove slike uklanjanjem dodatna buka ⎯ bi mogla pomoći u ispravljanju takvih problema.

Moaied Haji Ali, student doktorskih studija računarskih nauka Univerziteta Rice, opisao je novi pristup, nazvan ElasticDiffusion, u recenziranom radu predstavljenom na Konferenciji Instituta za inženjere elektronike i elektronike (IEEE) 2024 o kompjuterskom vidu i prepoznavanju uzoraka (CVPR) u Seattle.

„Modeli difuzije kao što su Stable Diffusion, Midjournei i DALL-E stvaraju impresivne rezultate, generišući prilično realistične i fotorealistične slike“, rekao je Haji Ali. „Ali oni imaju slabost: mogu da generišu samo kvadratne slike. Dakle, u slučajevima kada imate različite proporcije, na primer na monitoru ili pametnom satu… tu ovi modeli postaju problematični.“

Ako modelu kao što je Stable Diffusion kažete da kreira nekvadratnu sliku, recimo odnos širine i visine 16:9, elementi koji se koriste za pravljenje generisane slike će se ponavljati. To ponavljanje se pojavljuje kao deformiteti čudnog izgleda na slici ili subjektima slike, poput ljudi sa šest prstiju ili čudno izduženog automobila.

Tome doprinosi i način na koji su ovi modeli obučeni.

„Ako obučite model samo na slikama koje su određene rezolucije, one mogu da generišu slike samo sa tom rezolucijom“, rekao je Visente Ordonjez-Roman, vanredni profesor računarskih nauka koji je savetovao Hadži Alija o njegovom radu zajedno sa Guhom Balakrišnanom, docentom elektrotehnike i računarstva.

Ordonjez-Roman je objasnio da je ovo problem endemičan za veštačku inteligenciju poznat kao preterano prilagođavanje, gde AI model postaje preterano dobar u generisanju podataka sličnih onome na čemu je obučen, ali ne može da odstupi daleko od tih parametara.

„To biste mogli da rešite obučavanjem modela na širem spektru slika, ali to je skupo i zahteva ogromne količine računarske snage – stotine, možda čak i hiljade grafičkih procesorskih jedinica“, rekao je Ordonjez-Roman.

Prema Hadži Aliju, digitalni šum koji koriste difuzioni modeli može se prevesti u signal sa dva tipa podataka: lokalni i globalni. Lokalni signal sadrži detaljne informacije na nivou piksela, poput oblika oka ili teksture psećeg krzna. Globalni signal sadrži više opšteg obrisa slike.

„Jedan od razloga zašto je modelima difuzije potrebna pomoć sa nekvadratnim odnosom širine i visine je taj što oni obično zajedno pakuju lokalne i globalne informacije“, rekao je Hadži Ali, koji je radio na sintezi pokreta u video snimcima generisanim veštačkom inteligencijom pre nego što se pridružio Ordonjez-Romanovoj istraživačkoj grupi u Rajsu za svoje dr. studijama. „Kada model pokuša da duplira te podatke kako bi uračunao dodatni prostor na nekvadratnoj slici, to rezultira vizuelnim nesavršenostima.“

Metoda ElasticDiffusion u Hadži Alijevom radu ima drugačiji pristup kreiranju slike. Umesto da pakuje oba signala zajedno, ElasticDiffusion razdvaja lokalne i globalne signale u uslovne i bezuslovne putanje generisanja. On oduzima uslovni model od bezuslovnog modela, dobijajući rezultat koji sadrži globalne informacije o slici.

Nakon toga, bezuslovna putanja sa lokalnim detaljima na nivou piksela se primenjuje na sliku u kvadrantima, popunjavajući detalje jedan po kvadrat. Globalne informacije ⎯ kakav treba da bude odnos širine i visine slike i kakva je slika (pas, osoba koja trči, itd.) ⎯ ostaje odvojena, tako da nema šanse da AI zbuni signale i ponovi podatke. Rezultat je čistija slika bez obzira na odnos širine i visine za koju nije potrebna dodatna obuka.

„Ovaj pristup je uspešan pokušaj da se iskoriste posredne reprezentacije modela kako bi se oni povećali tako da dobijete globalnu doslednost“, rekao je Ordonjez-Roman.

Jedini nedostatak ElasticDiffusion u odnosu na druge modele difuzije je vreme. Trenutno je potrebno do 6-9 puta duže da Hadži Alijev metod napravi sliku. Cilj je da se to smanji na isto vreme zaključivanja kao i drugi modeli kao što su Stable Diffusion ili DALL-E.

„Nadam se da će ovo istraživanje da definiše… zašto modeli difuzije generišu ove delove koji se više ponavljaju i ne mogu da se prilagode ovim promenljivim razmerama i smisle okvir koji se može prilagoditi tačno bilo kom odnosu bez obzira na treninga, u isto vreme zaključivanja“, rekao je Hadži Ali.

Novo istraživanje bi čudne slike veštačke inteligencije moglo učiniti prošlošću

Merc: Izbori u Baden-Virtembergu gorak rezultat, nećemo sarađivati sa AFD

Fritule sa slaninicom

AUTOPUT PAKOVRAĆE–POŽEGA: Tunel bez dozvole, deonica bez funkcije, građani bez odgovora

VUČIĆEV PAD: Šta stoji iza gubitka podrške predsedniku Srbije

Ukrajinska vojska izvestila o ruskim napadima dronovima i raketama tokom noći

Srbija dobila tromesečno produženje ugovora o snabdevanju gasom iz Rusije

Poraz košarkaša Partizana, Dubai poveo 1:0 u finalu ABA lige

Danas se održava samit EU-Zapadni Balkan u Tivtu, prisustvuje i Vučić

AMSS: Zadržavanja na granici za teretna vozila – četiri sata na Batrovcima, dva sata na Šidu

Ukrajinska vojska izvestila o ruskim napadima dronovima i raketama tokom noći

Srbija dobila tromesečno produženje ugovora o snabdevanju gasom iz Rusije

Poraz košarkaša Partizana, Dubai poveo 1:0 u finalu ABA lige

Do kraja dana promenljivo i toplo, temperatura do 18 stepeni

Živković: Plaćanja celokupnog računa za januar oslobođena 51.000 potrošača

Izložba o protestima u Srbiji u muzeju u Berlinu

Ukrajinska vojska izvestila o ruskim napadima dronovima i raketama tokom noći

Srbija dobila tromesečno produženje ugovora o snabdevanju gasom iz Rusije

Poraz košarkaša Partizana, Dubai poveo 1:0 u finalu ABA lige

Upozorenje UN: Pripremite se za El Ninjo, očekuje se jedan od najjačih ikada, slede ekstremne vremenske prilike

Rilmenidin: Lek protiv hipertenzije koji može usporiti starenje i produžiti život

Istraživanje pokazuje da bi obnavljanje DNK moglo usporiti proces starenja kod ljudi

Otkrivanje veštačke inteligencije OpenAI: Novi rezultat u matematici izaziva veliku pažnju

Istraživači otkrili novi tip gigantskog virusa koji može promeniti naše razumevanje života

Požar u podzemnoj garaži na Zvezdari zahvatio nekoliko automobila

Teška povreda tokom karnevalske parade: helikopterom prebačena osoba u bolnicu

U Nišu pronađeno telo žene, sumnja se da je ubijena

Poraz košarkaša Partizana, Dubai poveo 1:0 u finalu ABA lige

Odbojkaši Srbije u subotu putuju u Brazil na prvu sedmicu Lige nacija

Košarkaši Partizana večeras gostuju Dubaiju u prvoj utakmici finala ABA lige

Hrvatski vaterpolo reprezentativac Josip Vrlić novo pojačanje Radničkog

Aleksandra Krunić u polufinalu Rolan Garosa u dubl konkurenciji

Pretežno sunčano i toplije, u večernjim satima naoblačenje i kiša

Sutra promenljivo vreme, temperatura do 30 stepeni

U Srbiji danas promenljivo oblačno i malo svežije, temperatura do 26 stepeni

Pročitajte još