Istraživači proširuju sposobnost robota da uče iz video zapisa

Novi rad sa Univerziteta Karnegi Melon omogućio je robotima da uče kućne poslove gledajući video snimke ljudi koji obavljaju svakodnevne zadatke u svojim domovima.

Istraživanje bi moglo pomoći da se poboljša korisnost robota u kući, omogućavajući im da pomognu ljudima u zadacima kao što su kuvanje i čišćenje. Dva robota su uspešno naučila 12 zadataka uključujući otvaranje fioke, vrata rerne i poklopca; skidanje lonca sa šporeta; i uzimajući telefon, povrće ili konzervu supe.

„Robot može da nauči gde i kako ljudi komuniciraju sa različitim objektima kroz gledanje video zapisa“, rekao je Deepak Pathak, docent na Institutu za robotiku na CMU-ovoj školi računarskih nauka. „Iz ovog znanja možemo da obučimo model koji omogućava dva robota da obavljaju slične zadatke u različitim okruženjima.“

Trenutne metode obuke robota zahtevaju ili ručnu demonstraciju zadataka od strane ljudi ili opsežnu obuku u simuliranom okruženju. Obe su dugotrajne i sklone neuspehu. Prošla istraživanja Pathaka i njegovih učenika pokazala su novu metodu u kojoj roboti uče posmatrajući ljudske zadatke. Međutim, VHIRL, skraćenica od In-the-Vild Human Imitating Robot Learning, zahtevao je od čoveka da izvrši zadatak u istom okruženju kao i robot. Ovaj video prikazuje kako VRB uči zadatak. Zasluge: Univerzitet Carnegie Mellon

Pathakov najnoviji rad, Vision-Robotics Bridge, ili skraćeno VRB, nadovezuje se i poboljšava VHIRL. Novi model eliminiše potrebu za ljudskim demonstracijama, kao i potrebu da robot radi u identičnom okruženju. Kao i VHIRL, robotu je i dalje potrebna praksa da bi savladao zadatak. Istraživanje tima pokazalo je da može naučiti novi zadatak za samo 25 minuta.

„Uspeli smo da vodimo robote po kampusu i obavljamo sve vrste zadataka“, rekao je Shikhar Bahl, dr. student robotike. „Roboti mogu da koriste ovaj model da radoznalo istražuju svet oko sebe. Umesto da samo mlatara rukama, robot može biti direktniji u načinu na koji reaguje.“

Da bi naučio robota kako da komunicira sa objektom, tim je primenio koncept prisustva. Affordance imaju svoje korene u psihologiji i odnose se na ono što okruženje nudi pojedincu. Koncept je proširen na dizajn i interakciju između čoveka i računara kako bi se odnosio na potencijalne akcije koje pojedinac opaža.

Za VRB, mogućnosti definišu gde i kako robot može da stupi u interakciju sa objektom na osnovu ljudskog ponašanja. Na primer, dok robot posmatra čoveka kako otvara fioku, on identifikuje kontaktne tačke – ručku – i pravac kretanja fioke – direktno sa početne lokacije. Nakon gledanja nekoliko video snimaka ljudi koji otvaraju fioke, robot može da odredi kako da otvori bilo koju fioku. Ovaj video pokazuje kako VRB funkcioniše. Zasluge: Univerzitet Carnegie Mellon

Tim je koristio video zapise iz velikih skupova podataka kao što su Ego4D i Epic Kitchens. Ego4D ima skoro 4.000 sati egocentričnih video snimaka svakodnevnih aktivnosti iz celog sveta. Istraživači iz CMU-a pomogli su u prikupljanju nekih od ovih video zapisa. Epic Kitchens sadrži slične video zapise koji snimaju kuvanje, čišćenje i druge kuhinjske zadatke. Oba skupa podataka imaju za cilj da pomognu u obuci modela kompjuterskog vida.

„Koristimo ove skupove podataka na nov i drugačiji način“, rekao je Bahl. „Ovaj rad bi mogao omogućiti robotima da uče iz ogromne količine dostupnih internetskih i YouTube video zapisa.“

Pročitajte još