Model koristi ljudske upute i skice za stvaranje realističnih modnih slika

Model koristi ljudske upute i skice za stvaranje realističnih modnih slika

Veštačka inteligencija (AI) je nedavno počela da se probija u mnoge kreativne industrije, na primer, u obliku alata za digitalne umetnike, arhitekte, dizajnere enterijera i urednike slika. U ovim kontekstima, veštačka inteligencija može da automatizuje procese koji su dosadni ili dugotrajni, a istovremeno potencijalno inspiriše umetnike i olakšava njihov kreativni proces.

Istraživači sa Univerziteta u Firenci, Univerziteta Modena i Reggio Emilia i Univerziteta u Pizi nedavno su krenuli da istraže potencijal AI modela u modnom dizajnu. U radu prethodno objavljenom na arKsiv-u, predstavili su novi okvir kompjuterske vizije koji bi mogao pomoći modnim dizajnerima da vizualizuju svoje dizajne, pokazujući im kako bi mogli da izgledaju na ljudskom telu.

Većina prethodnih studija koje su istraživale upotrebu veštačke inteligencije u modnoj industriji fokusirale su se na računarske alate koji mogu preporučiti odevne predmete slične onima koje odabere korisnik ili modele koji mogu da pokažu onlajn kupcima kako bi odeća izgledala na njihovom telu (tj. virtuelni sistemi za isprobavanje) . Ovaj tim italijanskih istraživača, s druge strane, krenuo je da razvije okvir koji bi mogao da podrži rad dizajnera, pokazujući im kako odeća koju su dizajnirali mogu izgledati u stvarnom životu, kako bi mogli da pronađu novu inspiraciju, identifikuju potencijalne probleme i promenite svoje dizajne ako je potrebno.

„Za razliku od prethodnih radova koji su se uglavnom fokusirali na virtuelno isprobavanje odevnih predmeta, mi predlažemo zadatak multimodalnog uslovljenog uređivanja modnih slika, vodeći generisanje modnih slika usmerenih na čoveka prateći multimodalne zahteve, kao što su tekst, poze ljudskog tela, i skice odeće“, napisali su Alberto Baldrati, Davide Moreli i njihove kolege u svom listu.

„Mi se bavimo ovim problemom tako što predlažemo novu arhitekturu zasnovanu na modelima latentne difuzije, pristup koji ranije nije korišćen u modnom domenu.

Umesto da koriste generativne adversarijske mreže (GAN), arhitekture veštačkih neuronskih mreža koje se često koriste za generisanje novih tekstova ili slika, istraživači su odlučili da kreiraju okvir zasnovan na modelima latentne difuzije ili LDM-ovima. Pošto su obučeni u komprimovanom i nižedimenzionalnom latentnom prostoru, LDM mogu kreirati visokokvalitetne sintetičke slike.

Iako su ovi obećavajući modeli primenjeni na mnoge zadatke koji zahtevaju generisanje veštačkih slika ili video zapisa, oni su retko korišćeni u kontekstu modnog uređivanja slika. Većina prethodnih radova u ovoj oblasti uvela je arhitekture zasnovane na GAN-u, koje generišu slike nižeg kvaliteta od LDM-ova.

Većina postojećih skupova podataka za obuku AI modela o zadacima modnog dizajna uključuje samo slike odeće niske rezolucije i ne uključuje informacije neophodne za kreiranje modnih slika na osnovu tekstualnih upita i skica. Da bi efikasno obučili svoj model, Baldrati, Morelli i njihove kolege su morali prvo da ažuriraju ove postojeće skupove podataka ili kreiraju nove.

„S obzirom na nedostatak postojećih skupova podataka koji su pogodni za zadatak, takođe proširujemo dva postojeća modna skupa podataka, odnosno Dress Code i VITON-HD, sa multimodalnim napomenama prikupljenim na poluautomatski način“, objasnili su Baldrati, Morelli i njihove kolege u svom radu. . „Eksperimentalni rezultati na ovim novim skupovima podataka pokazuju efikasnost našeg predloga, kako u smislu realizma tako i u pogledu koherentnosti sa datim multimodalnim ulazima.“

U početnim procenama, model koji je kreirao ovaj tim istraživača postigao je veoma obećavajuće rezultate, stvarajući realistične slike odevnih predmeta na ljudskim telima inspirisane ljudskim skicama i specifičnim tekstualnim naredbama. Izvorni kod njihovog modela i multimodalne napomene koje su dodali skupovima podataka uskoro će biti objavljeni na GitHub-u.

U budućnosti bi ovaj novi model mogao biti integrisan u postojeće ili nove softverske alate za modne dizajnere. Takođe bi mogao da informiše razvoj drugih AI arhitektura zasnovanih na LDM-ovima za kreativne aplikacije u stvarnom svetu.

„Ovo je jedan od prvih uspešnih pokušaja da se oponaša posao dizajnera u kreativnom procesu modnog dizajna i mogao bi da bude polazna tačka za kapilarno usvajanje modela difuzije u kreativnim industrijama, nadzora od strane ljudi“, Baldrati, Morelli i njihovi kolege zaključuju u svom radu.