Zamislite da morate da sredite neurednu kuhinju, počevši od pulta prepunog paketića sosa. Ako je vaš cilj da obrišete šalter, mogli biste da počistite pakete kao grupa. Međutim, ako biste želeli da prvo izaberete pakete senfa pre nego što bacite ostatak, sortirali biste diskriminatornije, prema vrsti sosa. A ako ste, među senfom, žudeli za Grej Pouponom, pronalaženje ovog specifičnog brenda zahtevalo bi pažljiviju pretragu.
Inženjeri MIT-a razvili su metodu koja omogućava robotima da donose slično intuitivne odluke koje su relevantne za zadatak.
Novi pristup tima, nazvan Clio, omogućava robotu da identifikuje delove scene koji su važni, s obzirom na zadatke. Sa Cliom, robot preuzima listu zadataka opisanih na prirodnom jeziku i, na osnovu tih zadataka, zatim određuje nivo granularnosti koji je potreban da bi interpretirao okolinu i „zapamtio“ samo delove scene koji su relevantni.
U stvarnim eksperimentima u rasponu od pretrpane kabine do petospratne zgrade u kampusu MIT-a, tim je koristio Clio da automatski segmentira scenu na različitim nivoima granularnosti, na osnovu skupa zadataka navedenih u uputstvima na prirodnom jeziku kao što je „pomeri stalak časopisa“ i „nabavite komplet prve pomoći“.
Tim je takođe vodio Clio u realnom vremenu na četvoronožnom robotu. Dok je robot istraživao kancelarijsku zgradu, Clio je identifikovao i mapirao samo one delove scene koji su se odnosili na robotove zadatke (kao što je uzimanje igračke za psa uz ignorisanje gomile kancelarijskog materijala), omogućavajući robotu da uhvati predmete od interesa.
Clio je dobio ime po grčkoj muzi istorije, zbog svoje sposobnosti da identifikuje i zapamti samo elemente koji su važni za dati zadatak. Istraživači predviđaju da bi Clio bio koristan u mnogim situacijama i okruženjima u kojima bi robot morao brzo da ispita i shvati okolinu u kontekstu zadatog zadatka.
„Potraga i spasavanje je motivišuća aplikacija za ovaj posao, ali Clio takođe može da pokreće domaće robote i robote koji rade na fabričkom podu zajedno sa ljudima“, kaže Luca Carlone, vanredni profesor na MIT-ovom odeljenju za aeronautiku i astronautiku (AeroAstro), glavni istraživač u Laboratorija za informacione i sisteme odlučivanja (LIDS) i direktor Laboratorije MIT SPARK. „Zaista se radi o pomaganju robotu da razume okruženje i šta mora da zapamti da bi izvršio svoju misiju.“
Tim detaljno opisuje svoje rezultate u studiji objavljenoj danas u časopisu IEEE Robotics and Automation Letters. Karlonovi koautori su članovi SPARK Lab-a: Dominic Maggio, Iun Chang, Nathan Hughes i Lukas Schmid; i članovi MIT Lincoln laboratorije: Metju Trang, Dan Grifit, Karlin Dogerti i Erik Kristofalo.
Ogroman napredak u oblasti kompjuterskog vida i obrade prirodnog jezika omogućio je robotima da identifikuju objekte u svom okruženju. Ali do nedavno, roboti su to mogli da rade samo u scenarijima „zatvorenog skupa“, gde su programirani da rade u pažljivo kuriranom i kontrolisanom okruženju, sa ograničenim brojem objekata za koje je robot bio unapred obučen da prepozna.
Poslednjih godina, istraživači su zauzeli „otvoreniji“ pristup kako bi omogućili robotima da prepoznaju objekte u realističnijim okruženjima. U oblasti otvorenog prepoznavanja, istraživači su iskoristili alate za duboko učenje kako bi izgradili neuronske mreže koje mogu da obrađuju milijarde slika sa interneta, zajedno sa pridruženim tekstom svake slike (kao što je slika psa na Fejsbuku prijatelja sa natpisom „Upoznajte se moje novo štene!“).
Od miliona parova slika-tekst, neuronska mreža uči iz onih segmenata u sceni koji su karakteristični za određene termine, kao što je pas, a zatim ih identifikuje. Robot onda može da primeni tu neuronsku mrežu da uoči psa u potpuno novoj sceni.
Ali i dalje ostaje izazov kako raščlaniti scenu na koristan način koji je relevantan za određeni zadatak.
„Tipične metode će izabrati neki proizvoljan, fiksni nivo granularnosti za određivanje kako spojiti segmente scene u ono što možete smatrati jednim ‘objektom’“, kaže Maggio. „Međutim, granularnost onoga što nazivate ‘objekt’ je zapravo povezana sa onim što robot mora da uradi. Ako se ta granularnost popravi bez razmatranja zadataka, onda robot može završiti sa mapom koja nije korisna za njegovu zadataka“.
Sa Cliom, tim MIT-a je imao za cilj da omogući robotima da tumače svoje okruženje sa nivoom granularnosti koji se može automatski prilagoditi zadacima.
Na primer, ako ima zadatak da premesti hrpu knjiga na policu, robot bi trebalo da bude u stanju da utvrdi da je ceo snop knjiga objekat relevantan za zadatak. Slično, ako bi zadatak bio da pomeri samo zelenu knjigu iz ostatka hrpe, robot bi trebalo da razlikuje zelenu knjigu kao jedan ciljni objekat i zanemari ostatak scene — uključujući i druge knjige u hrpi.
Pristup tima kombinuje najsavremeniju kompjutersku viziju i velike jezičke modele koji se sastoje od neuronskih mreža koje prave veze između miliona slika otvorenog koda i semantičkog teksta. Oni takođe uključuju alate za mapiranje koji automatski dele sliku na mnogo malih segmenata, koji se mogu uneti u neuronsku mrežu da bi se utvrdilo da li su određeni segmenti semantički slični.
Istraživači zatim koriste ideju iz klasične teorije informacija nazvanu „informaciono usko grlo“, koju koriste za komprimovanje brojnih segmenata slike na način koji izdvaja i čuva segmente koji su semantički najrelevantniji za dati zadatak.
„Na primer, recimo da postoji gomila knjiga u sceni i moj zadatak je samo da dobijem zelenu knjigu. U tom slučaju sve ove informacije o sceni proguramo kroz ovo usko grlo i završimo sa grupom segmenata koji predstavljaju zelena knjiga“, objašnjava Maggio.
„Svi ostali segmenti koji nisu relevantni se jednostavno grupišu u klaster koji možemo jednostavno ukloniti. I ostaje nam objekat prave granularnosti koji je potreban da podrži moj zadatak.“
Istraživači su demonstrirali Clio u različitim okruženjima iz stvarnog sveta.
„Ono što smo mislili da će biti zaista besmislen eksperiment je da pokrenem Clio u mom stanu, gde nisam prethodno čistio“, kaže Maggio.
Tim je sastavio listu zadataka na prirodnom jeziku, kao što je „pomeriti gomilu odeće“, a zatim primenio Clio na slike Maggiovog pretrpanog stana. U ovim slučajevima, Clio je bio u mogućnosti da brzo segmentira scene iz stana i hrani segmente kroz algoritam Information Bottleneck kako bi identifikovao one segmente koji su činili gomilu odeće.
Takođe su pokrenuli Clio na četvoronožnom robotu Boston Dinamic-a, Spot. Dali su robotu listu zadataka koje treba da izvrši, a dok je robot istraživao i mapirao unutrašnjost poslovne zgrade, Clio je trčao u realnom vremenu na kompjuteru na vozilu montiranom na Spot, da bi odabrao segmente u mapiranim scenama koje vizuelno odnose na dati zadatak.
Metoda je generisala mapu sa preklapanjem koja prikazuje samo ciljne objekte, koje je robot koristio da pristupi identifikovanim objektima i fizički izvrši zadatak.
„Upravljanje Cliom u realnom vremenu bilo je veliko dostignuće za tim“, kaže Maggio. „Mnogo prethodnog posla može potrajati nekoliko sati.“
Ubuduće, tim planira da prilagodi Clio tako da može da se nosi sa zadacima višeg nivoa i da se nadoveže na nedavna dostignuća u fotorealističnim vizuelnim prikazima scene.
„Još uvek dajemo Clio-u zadatke koji su donekle specifični, poput ‘pronađi špil karata’“, kaže Maggio. „Za potragu i spasavanje, potrebno je da mu date više zadataka visokog nivoa, kao što su ‘pronalaženje preživelih’ ili ‘ponovo uključite napajanje’. Dakle, želimo da dođemo do boljeg razumevanja na ljudskom nivou o tome kako da postignemo složenije zadatke.“