AI model trenutno generiše 3D sliku iz 2D uzorka

U svetu računarstva velikih razmera koji se brzo razvija, bilo je samo pitanje vremena kada će dostignuće koje menja igru biti spremno da uzdrma polje 3D vizuelizacije.

Adobe Research i Australijski nacionalni univerzitet (ANU) objavili su prvi model veštačke inteligencije koji može da generiše 3D slike iz jedne 2D slike.

U razvoju koji će transformisati kreiranje 3D modela, istraživači kažu da njihov novi algoritam, koji trenira na masovnim uzorcima slika, može da generiše takve 3D slike za nekoliko sekundi.

Iicong Hong, Adobe pripravnik i bivši diplomirani student Fakulteta za inženjerstvo, računarstvo i kibernetiku na ANU, rekao je da je njihov veliki model rekonstrukcije (LRM) zasnovan na visoko skalabilnoj neuronskoj mreži koja sadrži milion skupova podataka sa 500 miliona parametara. Takvi skupovi podataka uključuju slike, 3D oblike i video zapise.

„Ova kombinacija modela visokog kapaciteta i podataka o obuci velikih razmera omogućava našem modelu da bude veoma generalizovan i da proizvodi visokokvalitetne 3D rekonstrukcije iz različitih inputa za testiranje“, rekao je Hong, vodeći autor izveštaja o projektu.

„Prema našim saznanjima, [naš] LRM je prvi model velike 3D rekonstrukcije.“

Može se očekivati da će sistemi proširene stvarnosti i virtuelne stvarnosti, igre, bioskopske animacije i industrijski dizajn iskoristiti transformativnu tehnologiju.

Rani softver za 3D snimanje dobro se pokazao samo u određenim kategorijama predmeta sa unapred utvrđenim oblicima. Hong je objasnio da je kasniji napredak u generisanju slika postignut sa programima kao što su DALL-E i Stable Diffusion, koji su „iskoristili izuzetnu sposobnost generalizacije 2D modela difuzije da bi omogućili višestruke prikaze“. Međutim, rezultati sa tim programima bili su ograničeni na unapred obučene 2D generativne modele.

Drugi sistemi su koristili optimizaciju po obliku da bi postigli impresivne rezultate, ali su oni „često spori i nepraktični“, kaže Hong.

Evolucija modela prirodnog jezika unutar masivnih transformatorskih mreža koje su koristile podatke velikih razmera da bi maksimizirale zadatke predviđanja sledeće reči, rekao je Hong, ohrabrila je njegov tim da postavi pitanje: „Da li je moguće naučiti generički 3D prethodni za rekonstrukciju objekta iz jednu sliku?“

Njihov odgovor je bio „Da“.

„LRM može da rekonstruiše 3D oblike visoke vernosti iz širokog spektra slika snimljenih u stvarnom svetu, kao i slika kreiranih generativnim modelima“, rekao je Hong. „LRM je takođe veoma praktično rešenje za nizvodne aplikacije jer može da proizvede 3D oblik za samo pet sekundi bez post-optimizacije.“

Uspeh programa leži u njegovoj sposobnosti da koristi svoju bazu podataka miliona parametara slike i predvidi polje neuronskog zračenja (NeRF). To je kapacitet za generisanje realističnih 3D slika zasnovanih isključivo na 2D slikama — čak i ako su te slike niske rezolucije. NeRF ima mogućnost sinteze slike, detekcije objekata i segmentacije slike.

Pre 60 godina stvoren je prvi kompjuterski program koji je korisnicima omogućavao da generišu i manipulišu jednostavnim 3D oblicima. Sketchpad, koji je dizajnirao Ivan Sutherland kao deo njegovog doktorata. teze na MIT-u, imao je ukupno 64K memorije.

Tokom decenija, 3D programi su rasli skokovima i granicama sa programima kao što su AutoCAD, 3D Studio, SoftImage 3D, RenderMan i Maia.

Hongov rad, „LRM: Model velike rekonstrukcije za jednu sliku u 3D“, postavljen je na server za preprint arXsiv 8. novembra.

Pročitajte još