Ljudi mogu urođeno da izvode širok spektar pokreta, jer im to omogućava da se na najbolji način pozabave raznim zadacima u svakodnevnom životu. Automatsko reprodukovanje ovih pokreta u virtuelnim avatarima i 3D animiranim likovima nalik ljudima može biti od velike koristi za mnoge aplikacije, u rasponu od metaverzalnih prostora do digitalne zabave, AI interfejsa i robotike.
Istraživači sa Instituta Maks Plank za inteligentne sisteme i ETH Cirih nedavno su razvili VANDR, novi model koji može da generiše prirodne ljudske pokrete za avatare. Ovaj model, koji će biti predstavljen u radu predstavljenom na Konferenciji o kompjuterskom vidu i prepoznavanju uzoraka (CVPR 2024) u junu, objedinjuje različite izvore podataka pod jednim modelom kako bi se postigla realističnija kretanja u 3D humanoidnim likovima. Rad se takođe postavlja na arKsiv preprint server.
„Na visokom nivou, naše istraživanje ima za cilj da otkrije šta je potrebno za stvaranje virtuelnih ljudi sposobnih da se ponašaju kao mi“, rekao je Markos Diomataris, prvi autor rada, za Tech Ksplore. „Ovo u suštini znači naučiti razmišljati o svetu, kako se kretati u njemu, postavljati ciljeve i pokušavati da ih postignete.
„Ali zašto se baviti ovim istraživačkim problemom? U osnovi, želimo da bolje razumemo ljude, baš kao što bi to uradili neuronaučnici, a mi to pokušavamo prateći filozofiju ‘pokušajte da izgradite ono što želite da razumete’.
Primarni cilj nedavne studije Diomatarisa i njegovih kolega bio je stvaranje modela koji bi generisao realistične pokrete za 3D avatare. Ovi generisani pokreti bi omogućili avatarima da na kraju stupe u interakciju sa svojim virtuelnim okruženjem, na primer da dohvate predmete.
„Razmislite o tome da posegnete za šoljicom za kafu – to može biti jednostavno kao produžetak ruke ili može uključivati koordinisanu akciju celog našeg tela“, rekao je Diomataris. „Radnje kao što su saginjanje, pružanje ruke i hodanje moraju se spojiti da bismo postigli cilj. Na granularnom nivou, mi kontinuirano vršimo suptilna prilagođavanja kako bismo održali ravnotežu i ostali na kursu ka našem cilju.“
Praveći ova suptilna podešavanja, ljudi mogu proizvesti tečne pokrete, integrišući brojne manje pokrete koji se približavaju jednostavnom cilju (npr. stavljanje ruke na šolju). Diomataris i njegove kolege su krenuli da podučavaju ljudskog avatara istim veštinama.
Jedan pristup za podučavanje virtuelnih agenata novim veštinama je učenje sa pojačanjem (RL), dok je drugi sastavljanje skupa podataka koji sadrži ljudske demonstracije i zatim ga koristiti za obuku modela mašinskog učenja. Ova dva pristupa imaju različite snage i ograničenja.
„RL, vrlo jednostavno rečeno, je učenje veština kroz iskustvo prikupljeno pokušajima i greškama“, objasnio je Diomataris. „Za naš zadatak, agent bi morao da isproba sve vrste nasumičnih pokreta na početku svoje obuke sve dok ne uspe da prvo pravilno stane, zatim hoda, orijentiše se ka cilju, navigira ka njemu i na kraju stigne rukom.
„Ovaj pristup ne zahteva nužno skup podataka, ali može zahtevati velike količine izračunavanja, kao i zamoran dizajn nagrada za agenta da spreči neprirodno ponašanje (npr. preferira puzanje umesto hodanja kada se kreće).“
Za razliku od RL, modeli obuke koji koriste skupove podataka pružaju virtuelnom agentu bogatije informacije o veštini, umesto da mu dozvoljavaju da sam shvati ove informacije. Iako sada postoje različiti veliki skupovi podataka koji sadrže demonstracije ljudskog pokreta, vrlo malo njih uključuje pokrete dostizanja, koje je tim takođe želeo da replicira u avatarima.
„Dajući prioritet realizmu pokreta, odlučili smo da naučimo ovu veštinu iz podataka“, rekao je Diomataris. „Predstavljamo metodu koja je u stanju da iskoristi i velike skupove podataka sa različitim opštim pokretima i manje skupove podataka koji su specijalizovani za ljude koji posežu za ciljevima.“
Diomataris i njegove kolege su prvo osmislili cilj obuke koji je agnostičan u odnosu na postojanje oznaka ciljeva. Ovaj ključni korak je omogućio VANDR-u da nauči opšte veštine navigacije iz većih skupova podataka, dok i dalje koristi označene podatke koje je dobio iz manjih skupova podataka.
„VANDR je prvi model generisanja ljudskih pokreta koji je vođen aktivnom povratnom spregom naučenom isključivo iz podataka, bez ikakvih dodatnih koraka učenja pojačanja (RL)“, rekao je Diomataris. „Šta je aktivna povratna sprega? VANDR generiše kretanje autoregresivno (kadar po kadar). U svakom koraku predviđa radnju koja će napredovati čoveka u sledeće stanje.“
VANDR-ova predviđanja akcija avatara su uslovljena karakteristikama koje zavise od vremena i cilja, koje istraživači definišu kao „namera“. Ove karakteristike se ponovo izračunavaju u svakom kadru, delujući kao povratna sprega koja vodi avatara u postizanju datog cilja koristeći svoj zglob.
„To znači da, slično kao kod čoveka, naš metod stalno prilagođava akcije koje preduzima pokušavajući da usmeri avatar ka cilju i dostigne ga“, rekao je Diomataris. „Kao rezultat toga, naš avatar je u stanju da se približi i postigne pokretne ili sekvencijalne ciljeve iako nikada nije bio obučen za tako nešto.
Postojeći skupovi podataka koji sadrže pokrete ljudi koji su usmereni na postizanje ciljeva, kao što je CIRCLE , su oskudni i ne sadrže dovoljno podataka da bi omogućili modelima da se generalizuju u različitim zadacima. Zbog toga je RL do sada bio najčešći pristup modelima obuke za reprodukciju ljudskih pokreta u avatarima.
„Inspirisani paradigmom bihejvioralnog kloniranja u robotici, predlažemo pristup koji se zasniva isključivo na podacima gde se tokom treninga kao cilj smatra nasumično odabrana buduća pozicija avatarove ruke“, rekao je Diomataris.
„Halucinirajući ciljeve na ovaj način, u mogućnosti smo da kombinujemo i manje skupove podataka sa napomenama cilja kao što je CIRCLE, kao i velike veličine poput AMASS-a koje nemaju oznake ciljeva, ali su neophodne za učenje opštih navigacionih veština kao što su hodanje, skretanje itd.
VANDR, model koji su razvili Diomataris i njegove kolege, obučen je na podacima iz različitih skupova podataka i izvora. Prikladnim mešanjem podataka iz ovih izvora, model proizvodi prirodnije pokrete, omogućavajući avataru da postigne proizvoljne ciljeve u svom okruženju.
„Do sada, radovi koji proučavaju generisanje pokreta ili koriste RL, ili u potpunosti nemaju element onlajn prilagođavanja pokreta“, rekao je Diomataris. „VANDR demonstrira način da se nauči adaptivno ponašanje avatara iz podataka. Deo ‘online adaptacije’ je neophodan za svaku aplikaciju u realnom vremenu gde avatari ostvaruju interakciju sa ljudima i stvarnim svetom, kao na primer, u video igrici virtuelne realnosti ili u ljudskim- interakcija sa avatarom.“
U budućnosti, novi model koji je uveo ovaj tim istraživača mogao bi da pomogne generisanju novog sadržaja za video igre, VR aplikacije, animirane filmove i zabavu, omogućavajući likovima nalik ljudima da izvode realnije pokrete tela. Kako se VANDR oslanja na različite izvore podataka, a skupovi podataka sa ljudskim pokretima će verovatno rasti u narednim decenijama, njegove performanse bi se uskoro mogle dodatno poboljšati.
„Trenutno nedostaju dva glavna dela koja planiramo da istražimo u budućnosti“, dodao je Diomataris. „Prvo, avatari moraju da budu u stanju da iskoriste velike i neobrađene skupove podataka video zapisa kako bi naučili da se kreću i komuniciraju sa svojim virtuelnim svetom, a pored toga, moraju imati sposobnost da istražuju svoj virtuelni svet i uče iz sopstvenih iskustava.
„Ova dva pravca predstavljaju temeljna sredstva da ljudi takođe stiču iskustvo: preduzimajući akcije i učeći iz njihovih posledica, ali i posmatrajući druge i učeći iz njihovog iskustva.“