Tehnologija prepoznavanja slika prešla je dug put od 2012. godine kada je grupa kompjuterskih naučnika sa Univerziteta u Torontu stvorila konvolucionu neuronsku mrežu (CNN)—nazvanu „AlekNet“ po svom tvorcu Aleksu Križevskom—koja je ispravno identifikovala slike mnogo bolje od drugih. Njegovi nalazi su podstakli uspešnu upotrebu CNN-a u srodnim oblastima kao što su video analiza i prepoznavanje obrazaca, a sada se istraživači sada fokusiraju na 3D mreže dubokog učenja.
Za razliku od 2D slika koje je AlekNet kompetentno identifikovao, 3D podaci predstavljaju drugačiji izazov. Dok je osnovni element 2D slika zasnovanih na mreži piksel, a gornji levi piksel je uvek prvi piksel sa svim ostalim pikselima poređanim u odnosu na njega, to nije slučaj za 3D podatke. Sa tri dimenzije koje treba uzeti u obzir – koje se obično označavaju osama k, i i z – 3D CNN se bave 3D „tačkama“ umesto pikselima. Zbirka ovih tačaka čini 3D oblak tačaka koji je direktan izlaz brojnih 3D skenera i najpopularniji 3D prikaz podataka.
„3D oblaci tačaka nisu dobro strukturirani i 3D tačke su rasute, retke i bez reda“, objašnjava Zhang Zhiiuan, docent računarstva na SMU školi za računarstvo i informacione sisteme. „Dakle, tradicionalne neuronske mreže poput CNN-a, koje mogu dobro da rade na dobro strukturiranim 2D slikama, ne mogu se direktno primeniti na 3D oblake tačaka bez reda, i moramo da dizajniramo nove konvolucione operatore za 3D oblake tačaka.
Ovaj nedostatak prve 3D tačke, za razliku od prvog piksela na 2D slici, naziva se „dvosmislenost redosleda tačaka“. Iako su 3D podaci uvedeni u CNN sa određenim uspehom i preciznošću identifikacije, neophodna je kompleksna mrežna arhitektura, a brzina obuke niska. Oni takođe nisu rotacioni invarijantni, tj. mogu da identifikuju dva objekta kao rotirane verzije jedan drugog.
„Postojeće neuronske mreže mogu prepoznati samo 3D objekat koji je u sličnoj pozi sadržan u podacima o obuci“, objašnjava profesor Zhang. „Uzmite, na primer, 3D prepoznavanje ljudi. Tokom faze obuke, svi 3D modeli ljudi su u stojećoj pozi, dok se u stvarnoj primeni (tokom faze testiranja) mreži daje isti ljudski model, ali u ležećoj pozi. Dobro obučene neuronske mreže ne mogu da ga prepoznaju jer takvu pozu nisu videle.
„Dakle, mreže invarijantne rotacije su važne tako da mogu biti generalizovanije i efikasnije u stvarnim aplikacijama. Ne možemo garantovati da je dati 3D objekat u istoj pozi kao u fazi obuke. Ovo posebno važi za 3D podatke jer ima više slobode rotacije od 2D podataka.“ Ovaj problem je rešen radom profesora Džanga, „RIConv++: Efikasne rotacione nepromenljive konvolucije za 3D oblake tačaka“. RIConv++ postiže invarijantnost rotacije tako što dizajnira informativne invarijantne karakteristike rotacije koje kodiraju uglove i dužine između 3D tačaka.
Operacija konvolucije, koja u suštini predstavlja obradu digitalnih podataka u slike razumljive ljudima, i rešavanje dvosmislenosti u tačkom redosleda čine najveći deo rada profesora Džanga, „ShellNet: Efikasne konvolucione neuronske mreže u oblaku tačaka koristeći statistiku koncentrične školjke“, objavljenog u Međunarodni časopis za kompjutersku viziju. ShellNet, CNN koji profesor Zhang detaljno opisuje u svom radu, uključuje ShellConv, program koji pretvara 3D podatke u strukture ljuske i izvodi 1D (jednodimenzionalnu) konvoluciju.
„Ovo je veoma efikasno jer je potrebna samo 1D konvolucija“, kaže profesor Džang, ukazujući na to kako ubrzava obuku. „ShellConv ne samo da postiže efikasnost, već i rešava problem bez poretka na veoma elegantan način. Konvertuje skup tačaka bez naloga u strukture ljuske i kreira redosled od unutrašnje ka spoljašnjoj ljusci.“
Istraživački interesi profesora Zhanga obuhvataju objektno orijentisano programiranje kao i veštačku inteligenciju, ali ovaj konkretan rad će imati značajne implikacije na oblasti autonomne vožnje, navigacije robota i bespilotnih letelica (UAV) koje zahtevaju tačnu i efikasnu percepciju 3D okruženja uključujući 3D objekat prepoznavanje i razumevanje 3D scene.
On dodaje: „Danas se istraživači uglavnom fokusiraju na to kako da poboljšaju tačnost dizajniranjem komplikovanih mreža koje je teško pokrenuti na inteligentnim pokretnim uređajima kao što su roboti i UAV. Za takve uređaje, lake mreže su poželjnije. Stoga ShellConv i ShellNet menjaju istraživanje fokusirati se na stvarne aplikacije i efikasne 3D tehnike dubokog učenja.“