Okvir za učenje imitacije poboljšava veštine loko-manipulacije četvoronožnih robota u divljini

Okvir za učenje imitacije poboljšava veštine loko-manipulacije četvoronožnih robota u divljini

Četvoronožni roboti koji integrišu manipulatore mogli bi potencijalno da se pozabave zadacima koji podrazumevaju manipulaciju objektima dok se brzo kreću u okolini. To uključuje zadatke kao što su sakupljanje smeća oko kuće, sakupljanje određenih predmeta i njihovo donošenje ljudima ili odlaganje ciljanih predmeta na određene lokacije.

Mnogi pristupi dizajnirani da obuče robote da se uspešno nose sa ovim zadacima oslanjaju se na učenje imitacijom. To znači da algoritmi koji planiraju akcije robota uče politike koje bi omogućile robotu da završi zadatak obradom demonstracionih podataka koji pokazuju kako su se agenti uhvatili u koštac sa ovim zadatkom.

Dok su neke postojeće metode za obuku robota za zadatke koji uključuju i lokomociju i manipulaciju objektima postigle obećavajuće rezultate u simulacijama, one se često ne rade tako dobro „u divljini“. Ovo u suštini znači da ne dozvoljavaju robotima da dobro generalizuju različite zadatke kada se testiraju u okruženju u stvarnom svetu.

Istraživači sa UC San Diego nedavno su predstavili VildLMa, novi okvir koji bi mogao poboljšati veštine lokomipulacije dugog horizonta četvoronožnih robota u divljini. Ovaj okvir, naveden u radu na arKsiv serveru za preprint, ima tri komponente koje zajedno mogu povećati generalizaciju veština naučenih putem imitacije učenja.

„Brzi napredak u učenju imitacijom omogućio je robotima da uče iz ljudskih demonstracija“, rekao je Iuchen Song, autor rada, za Tech Ksplore.

„Međutim, ovi sistemi se često fokusiraju na izolovane, specifične veštine i bore se da se prilagode novim okruženjima. Naš rad ima za cilj da prevaziđe ovo ograničenje obučavanjem robota da steknu veštine koje se mogu generalizovati koristeći Vision-Language Models (VLM), a zatim iskoristiti modele velikih jezika ( LLM) da poveže ove veštine u sekvence koje omogućavaju robotima da se pozabave složenim zadacima.“

VildLMa, okvir koji su osmislili Song i njegove kolege, prvo pruža jednostavan način za prikupljanje stručnih demonstracionih podataka. Ovo se postiže putem teleoperativnog sistema zasnovanog na virtuelnoj realnosti (VR), u kojem ljudski agenti mogu da iskoriste unapred obučene algoritme za kontrolu robota i koriste samo jednu ruku da kontrolišu pokrete celog robota.

„Ove unapred obučene veštine se zatim unapređuju pomoću LLM-a, koji razlažu složene zadatke u korake kojima se može upravljati – slično onome kako čovek može da pristupi izazovu (npr. „izaberi—navigiraj—mesto“)“, objasnio je Song. „Rezultat je robot sposoban da efikasno i intuitivno izvršava dugačke zadatke u više koraka.“

Karakteristična karakteristika pristupa koji je uveo ovaj tim istraživača je da integriše i mehanizme pažnje. Ovi mehanizmi omogućavaju robotima da se fokusiraju na ciljni objekat dok obavljaju određene zadatke.

„Integracija mehanizama pažnje igra ključnu ulogu u tome da veštine robota budu prilagodljivije i generalizovanije“, rekao je Song. „Potencijalne aplikacije VildLMa uključuju praktične kućne poslove, kao što su pospremanje ili preuzimanje predmeta. Već smo demonstrirali neke od ovih mogućnosti.“

Song i njegove kolege su već demonstrirali potencijal svog okvira u nizu eksperimenata u stvarnom svetu, gde su uspešno obučili četvoronožnog robota da obavlja različite zadatke. Ovi zadaci su uključivali čišćenje smeća u hodnicima i otvorenim prostorima u UC San Diego, preuzimanje isporuka hrane i preuređivanje predmeta na polici za knjige.

„Iako naš sistem radi dobro, na njega i dalje mogu uticati neočekivani poremećaji, kao što su ljudi koji se kreću okolo“, dodao je Song. „Naši sledeći koraci će uključivati da sistem bude robusniji u dinamičkim okruženjima. Na kraju, cilj nam je da kreiramo robote kućne pomoćnike koji su pristupačni i dostupni svima.“