Jedan algoritam može pomoći robotima da donose dobre odluke u realnom vremenu

Jedan algoritam može pomoći robotima da donose dobre odluke u realnom vremenu

U 2018. godini, AlphaZero program Google DeepMind-a sam je učio igre šaha, šogija i Go koristeći mašinsko učenje i poseban algoritam za određivanje najboljih poteza za pobedu u igri unutar definisane mreže. Sada je tim istraživača iz Caltech-a razvio analogni algoritam za autonomne robote — kontrolni sistem planiranja i donošenja odluka koji pomaže robotima koji se slobodno kreću da odrede najbolje pokrete dok se kreću u stvarnom svetu.

„Naš algoritam zapravo strategiše, a zatim istražuje sve moguće i važne pokrete i bira najbolji putem dinamičke simulacije, kao što je igranje mnogih simuliranih igara koje uključuju pokretne robote“, kaže Soon-Jo Chung, Bren profesor kontrolnih i dinamičkih sistema na Caltech-u i stariji istraživač u JPL, kojim Caltech upravlja za NASA. „Ovde je revolucionarna inovacija to što smo izveli veoma efikasan način pronalaženja optimalnog bezbednog kretanja koje tipične metode zasnovane na optimizaciji nikada ne bi pronašle.

Tim opisuje tehniku, koju nazivaju Spectral Ekpansion Tree Search (SETS), u decembarskom naslovnom članku časopisa Science Robotics.

Mnogi roboti mogu da se kreću prilično slobodno iu bilo kom pravcu. Zamislite, na primer, humanoidnog robota dizajniranog da pomogne starijoj osobi u domu. Takav robot bi trebalo da bude u stanju da se kreće na mnogo različitih načina i, u suštini, u bilo kom pravcu unutar prostora dok naiđe na prepreke ili neočekivane događaje dok izvršava svoje zadatke. Skup pokreta, prepreka i izazova tog robota biće veoma drugačiji od onih u automobilu koji se samostalno vozi, na primer.

Kako onda jedan algoritam može voditi različite robotske sisteme da donesu najbolje odluke za kretanje kroz njihovo okruženje?

„Ne želite da dizajner mora da uđe i ručno izradi ove pokrete i kaže: ‘Ovo je diskretni skup poteza koje robot treba da može da uradi'“, kaže John Lathrop, diplomirani student kontrole i dinamičkih sistema. na Caltech-u i ko-vodeći autor novog rada. „Da bismo ovo prevazišli, smislili smo SETS.“

SETS koristi teoriju upravljanja i linearnu algebru da pronađe prirodna kretanja koja koriste mogućnosti robotske platforme u najvećoj meri u fizičkom okruženju.

Osnovni koncept zasnovan je na Monte Carlo Tree Search, algoritmu za donošenje odluka koji takođe koristi Google-ov AlphaZero. Ovde Monte Karlo u suštini znači nešto nasumično, a pretraga stabla se odnosi na kretanje kroz granastu strukturu koja predstavlja odnose podataka u sistemu. U takvom stablu koren se grana do takozvanih dečjih čvorova koji su povezani ivicama.

Koristeći Monte Carlo Tree Search za igru kao što je Go, mogući potezi su predstavljeni kao novi čvorovi, a drvo raste kako se pokušavaju više nasumičnih uzoraka mogućih putanja. Algoritam prikazuje moguće poteze da bi video konačne ishode različitih čvorova, a zatim bira onaj koji nudi najbolji ishod na osnovu procene poena.

Problem je, objašnjava Latrop, u tome što kada se koristi ova granasta struktura stabla za kontinuirane dinamičke sisteme kao što su roboti koji rade u fizičkom svetu, ukupan broj putanja u stablu raste eksponencijalno. „Za neke probleme, pokušaj da se simulira svaka mogućnost i zatim utvrdi koja je najbolja trajaće godine, možda stotine godina“, kaže on.

Da bi ovo prevazišao, SETS koristi prednost kompromisa između istraživanja i eksploatacije. „Želimo da pokušamo da simuliramo putanje koje ranije nismo istraživali – to je istraživanje“, kaže Latrop. „I želimo da nastavimo da tražimo puteve koji su ranije davali visoku nagradu — to je eksploatacija. Balansirajući istraživanje i eksploataciju, algoritam je u stanju da brzo konvergira na optimalno rešenje među svim mogućim putanjama.“

Na primer, ako robot počne da izračunava nekoliko mogućih radnji za koje utvrdi da bi prouzrokovale da se razbije o zid, nema potrebe da istražuje bilo koji od drugih čvorova na toj grani drveta.

„Ovo istraživanje/eksploatacija kompromisa i pretraga prirodnih kretanja robota omogućavaju našim robotima da razmišljaju, kreću se i prilagođavaju se novim informacijama u realnom vremenu“, kaže Benjamin Riviere, postdoktorski naučni saradnik za mašinstvo i građevinarstvo na Caltech-u i co. – glavni autor rada.

SETS može pokrenuti pretragu čitavog stabla za otprilike desetinku sekunde. Za to vreme može da simulira hiljade do desetine hiljada mogućih putanja, odabere najbolju, a zatim da deluje. Petlja se nastavlja iznova i iznova, dajući robotskom sistemu mogućnost da donosi mnoge odluke svake sekunde.

Ključna karakteristika SETS algoritma je da se može primeniti na bilo koju robotsku platformu. Karakteristike i mogućnosti ne moraju da se programiraju pojedinačno. U novom radu, Chung i njegove kolege demonstriraju uspešnu korisnost algoritma u tri potpuno različita eksperimentalna podešavanja – nešto što je veoma retko u radovima o robotici.

U prvom, dron kvadrotor je bio u stanju da posmatra četiri bele kugle koje lebde, izbegavajući četiri narandžaste kugle, a sve to dok se kretao po aerodromu prepunom nasumičnih, opasnih vazdušnih struja ili termi. Eksperiment sa dronom sproveden je u Kaltehovom Centru za autonomne sisteme i tehnologije (CAST).

U drugom, algoritam je povećao ljudskog vozača kopnenog vozila na gusjenicama da se kreće uskom i krivudavom stazom bez udaranja u bočne šine. I u konačnom podešavanju, SETS je pomogao paru vezanih svemirskih letelica da uhvati i preusmeri trećeg agenta, koji bi mogao da predstavlja drugu letelicu, asteroid ili drugi objekat.

Tim studenata i istraživača Caltech-a trenutno primenjuje verziju SETS algoritma na Indi automobil koji će učestvovati u Indi Autonomous Challenge-u na sajmu potrošačke elektronike (CES) u Las Vegasu 9. januara.