Tim robotičara i stručnjaka za veštačku inteligenciju u Google-ovom DeepMind-u demonstrirao je naprednog robota koji može voditi obilaske svojih kancelarija na osnovu konteksta. Ovi istraživači su objavili rad, zajedno sa demonstracionim video zapisima, na arXiv serveru za preprint.
AI aplikacije su značajno napredovale u protekloj deceniji, a veliki jezički modeli (LLM) poput ChatGPT-a postali su poznati korisnicima širom sveta. U ovom novom istraživanju, tim je opremio RT-2 robote AI mogućnostima preko Gemini 1.5 Pro, što je omogućilo robotima da obavljaju sofisticirane aktivnosti.
Robot je sposoban da sluša osobu koju vodi, analizira njen zahtev i prevede ga u ponašanje. Na primer, jedan istraživač je zamolio robota da ga odvede na mesto u kancelariji gde se može pisati ili crtati. Robot je razmislio o zahtevu oko 30 sekundi, a zatim je vodio osobu do table pričvršćene za zid u jednoj od kancelarija.
Prema istraživačima, robot može obavljati takve zadatke jer je njegova Gemini 1.5 Pro aplikacija obučena da razume raspored kancelarijskog prostora od 850 kvadratnih metara, koristeći svoj dugi prozor konteksta dok je prikupljao podatke gledajući video snimke lokacija u kancelariji.
Istraživači opisuju takva iskustva učenja kao multimodalnu navigaciju instrukcija sa demonstracionim obilascima. Dok je robot gledao video zapise, istovremeno je obrađivao različite delove kancelarijskog pejzaža, što mu je omogućilo da generiše asocijacije.
Dodavanjem obrade glasa i teksta, zajedno sa drugim AI funkcijama, tim u DeepMind-u je omogućio robotu da izvrši inferencijalnu obradu. Na primer, istraživač je pitao robota da li u frižideru ima još njegovog omiljenog napitka. Robot je primetio nekoliko praznih limenki koka-kole u blizini mesta gde je istraživač sedeo i iskoristio tu informaciju da pretpostavi da je koka-kola njegovo omiljeno piće. Zatim je otišao do frižidera, pogledao unutra i prijavio šta je pronašao.
Ovo istraživanje predstavlja značajan korak napred u razvoju robota koji mogu razumeti i interagovati sa ljudima na kompleksniji način, koristeći napredne AI tehnologije.