U klasičnom crtanom filmu „The Jetsons“, Rouzi, robotska sobarica, neprimetno prelazi sa usisavanja kuće na kuvanje večere na iznošenje smeća. Ali u stvarnom životu obuka robota opšte namene ostaje veliki izazov.
Obično inženjeri prikupljaju podatke koji su specifični za određenog robota i zadatak, koje koriste za obuku robota u kontrolisanom okruženju. Međutim, prikupljanje ovih podataka je skupo i dugotrajno, a robot će se verovatno boriti da se prilagodi okruženjima ili zadacima koje ranije nije video.
Da bi obučili bolje robote opšte namene, istraživači sa MIT-a razvili su svestranu tehniku koja kombinuje ogromnu količinu heterogenih podataka iz mnogih izvora u jedan sistem koji svakog robota može naučiti širokom spektru zadataka.
Njihov metod uključuje usklađivanje podataka iz različitih domena, kao što su simulacije i stvarni roboti, i više modaliteta, uključujući senzore vida i robotske enkodere položaja ruku, u zajednički „jezik“ koji generativni AI model može da obradi.
Rad je objavljen na arXiv preprint serveru.
Kombinovanjem tako ogromne količine podataka, ovaj pristup se može koristiti za obuku robota da obavlja različite zadatke bez potrebe da ga svaki put počnete od nule.
Ovaj metod bi mogao biti brži i jeftiniji od tradicionalnih tehnika jer zahteva mnogo manje podataka specifičnih za zadatak. Pored toga, nadmašio je obuku od nule za više od 20% u simulaciji i eksperimentima u stvarnom svetu.
„U robotici ljudi često tvrde da nemamo dovoljno podataka o obuci. Ali po mom mišljenju, još jedan veliki problem je što podaci dolaze iz toliko različitih domena, modaliteta i robotskog hardvera. Naš rad pokazuje kako biste bili sposoban da obuči robota sa svima zajedno“, kaže Lirui Vang, diplomirani student elektrotehnike i računarstva (EECS) i glavni autor rada o ovoj tehnici.
Vangovi koautori su kolega EECS diplomirani student Jialiang Zhao; Ksinlei Chen, naučnik istraživač u Meta; i stariji autor Kaiming He, vanredni profesor u EECS i član Laboratorije za računarske nauke i veštačku inteligenciju (CSAIL). Istraživanje će biti predstavljeno na Konferenciji o sistemima za neuralnu obradu informacija, održanoj od 10. do 15. decembra u Kongresnom centru Vankuvera.
Robotska „politika“ uzima u obzir zapažanja senzora, kao što su slike kamere ili proprioceptivna merenja koja prate brzinu i položaj robotske ruke, a zatim govori robotu kako i gde da se kreće.
Politike se obično obučavaju korišćenjem imitacije učenja, što znači da čovek demonstrira akcije ili daljinski upravlja robotom da generiše podatke, koji se unose u AI model koji uči politiku. Pošto ovaj metod koristi malu količinu podataka specifičnih za zadatak, roboti često ne uspeju kada se njihovo okruženje ili zadatak promeni.
Da bi razvili bolji pristup, Vang i njegovi saradnici su crpili inspiraciju iz velikih jezičkih modela kao što je GPT-4.
Ovi modeli su unapred obučeni koristeći ogromnu količinu različitih jezičkih podataka, a zatim se fino podešavaju dajući im malu količinu podataka specifičnih za zadatak. Prethodni trening na toliko podataka pomaže modelima da se prilagode da dobro obavljaju različite zadatke.
„U domenu jezika, svi podaci su samo rečenice. U robotici, s obzirom na svu heterogenost podataka, ako želite da se prethodno obučite na sličan način, potrebna nam je drugačija arhitektura“, kaže on.
Robotski podaci imaju mnogo oblika, od slika kamere preko jezičkih uputstava do mapa dubine. U isto vreme, svaki robot je mehanički jedinstven, sa različitim brojem i orijentacijom ruku, hvataljki i senzora. Osim toga, okruženja u kojima se podaci prikupljaju uveliko variraju.
Istraživači sa MIT-a razvili su novu arhitekturu pod nazivom Heterogeni unapred obučeni transformatori (HPT) koja objedinjuje podatke iz ovih različitih modaliteta i domena.
Oni stavljaju model mašinskog učenja poznat kao transformator u sredinu svoje arhitekture, koji obrađuje ulaze vizije i propriocepcije. Transformator je isti tip modela koji čini okosnicu velikih jezičkih modela.
Istraživači usklađuju podatke iz vida i propriocepcije u isti tip ulaza, nazvan token, koji transformator može da obradi. Svaki ulaz je predstavljen istim fiksnim brojem tokena.
Zatim transformator mapira sve ulaze u jedan zajednički prostor, prerastajući u ogroman, unapred obučeni model dok obrađuje i uči iz više podataka. Što transformator postaje veći, to će bolje raditi.
Korisnik treba samo da unese HPT-u malu količinu podataka o dizajnu, podešavanju i zadatku svog robota koji želi da izvrši. Zatim HPT prenosi znanje koje je transformator stekao tokom predobuke da bi naučio novi zadatak.
Jedan od najvećih izazova razvoja HPT-a bila je izgradnja masivnog skupa podataka za prethodnu obuku transformatora, koji je uključivao 52 skupa podataka sa više od 200.000 putanja robota u četiri kategorije, uključujući ljudske demo video snimke i simulaciju.
Istraživači su takođe morali da razviju efikasan način za pretvaranje sirovih propriocepcijskih signala iz niza senzora u podatke koje transformator može da obradi.
„Propriocepcija je ključna za omogućavanje mnogo spretnih pokreta. Pošto je broj tokena u našoj arhitekturi uvek isti, isti značaj pridajemo propriocepciji i viziji“, objašnjava Vang.
Kada su testirali HPT, poboljšao je performanse robota za više od 20% na simulaciji i zadacima iz stvarnog sveta, u poređenju sa obukom od nule svaki put. Čak i kada je zadatak bio veoma različit od podataka pre obuke, HPT je i dalje poboljšao performanse.
„Ovaj rad pruža novi pristup obučavanju jedne politike u više otelovljenja robota. Ovo omogućava obuku u različitim skupovima podataka, omogućavajući metodama učenja robota da značajno povećaju veličinu skupova podataka na kojima mogu da treniraju. Takođe omogućava modelu da se brzo prilagodi na nova otelovljenja robota, što je važno jer se novi dizajni robota kontinuirano proizvode“, kaže David Held, vanredni profesor na Institutu za robotiku Univerziteta Carnegie Mellon, koji nije bio uključen u ovaj posao.
U budućnosti, istraživači žele da prouče kako bi raznolikost podataka mogla povećati performanse HPT-a. Takođe žele da poboljšaju HPT tako da može da obrađuje neoznačene podatke kao što je GPT-4 i drugi veliki jezički modeli.
„Naš san je da imamo univerzalni robotski mozak koji biste mogli da preuzmete i koristite za svog robota bez ikakve obuke. Dok smo tek u ranoj fazi, nastavićemo da se trudimo i nadamo se da će skaliranje dovesti do proboja u robotici politike, kao što je to bilo sa velikim jezičkim modelima“, kaže on.