Slika koju vidite iznad nije fotografija nekog specifičnog mesta. To je sintetizovana predstava pejzaža opisana tekstom. Sliku je sintetizovao novi ‘deep learning’ model nazvan ‘Stable diffusion’, koji je nedavno predstavljen i dodeljen na raspolaganje najširoj javnosti.
Nedavno objavljeni model sinteze slika pod nazivom ‘Stable Diffusion’ (srp. stabilna difuzija, odnosi se na tehnike primenjene u modelu) omogućava svakome ko ima računar i pristojan GPU da dočara skoro svaku vizuelnu stvarnost koju mogu zamisliti. Može da imitira brojne vizuelne stilove, a ako mu unesete opisnu frazu, rezultati se pojavljuju na ekranu – gotovo kao magijom.
Kako se navodi na zvaničnom mestu objavljivanja programskog kôda projekta, ovaj korak je samo jedan u nizu unapređenja koja su postigli. „Stabilna difuzija je latentni model difuzije teksta u sliku. Zahvaljujući velikodušnoj računskoj donaciji od Stabiliti AI i podršci od LAION-a, uspeli smo da obučimo model latentne difuzije na slikama veličine 512k512 iz podskupa baze podataka LAION-5B. Slično Google-ovom Imagen-u, ovaj model koristi zamrznuti CLIP ViT-L/14 tekstualni koder za uslovljavanje modela tekstualnim upitima. Sa svojim 860M UNet i 123M tekstualnim koderom, model je relativno lagan i radi na GPU-u sa najmanje 10 GB VRAM-a. Pogledajte ovaj odeljak ispod i karticu modela.“
Ovo praktično znači da je i pojedinci, sa hardverom umerenih performansi, mogu koristiti ovaj softver za lične ili profesionalne projekte. To je još jedno u nizu unapređenja postignuta radom ove grupe.
Neki umetnici su oduševljeni perspektivom, drugi nisu srećni zbog toga, a društvo u celini izgleda još uvek u velikoj meri nesvesno tehnološke revolucije koja se brzo razvija kroz zajednice na Tvitter-u, Discord-u i Github-u. Sinteza slike verovatno donosi implikacije velike kao pronalazak kamere — ili možda stvaranje same vizuelne umetnosti. Čak bi i naš osećaj za istoriju mogao biti u pitanju, u zavisnosti od toga kako se stvari predstave. U svakom slučaju, ‘Stable Diffusion’ predvodi novi talas kreativnih alata dubokog učenja koji su spremni da revolucionišu stvaranje vizuelnih medija.