U nastojanju da internet učine dostupnijim osobama sa invaliditetom, istraživači sa Državnog univerziteta u Ohaju počeli su da razvijaju agenta veštačke inteligencije koji bi mogao da obavlja složene zadatke na bilo kojoj veb lokaciji koristeći jednostavne jezičke komande.
U tri decenije otkako je prvi put pušten u javno vlasništvo, svetska mreža je postala neverovatno zamršen, dinamičan sistem. Ipak, budući da je funkcija interneta sada toliko sastavna za dobrobit društva, njena složenost takođe znatno otežava navigaciju.
Danas su dostupne milijarde veb lokacija koje pomažu u pristupu informacijama ili komunikaciji sa drugima, a mnogi zadaci na internetu mogu da izvedu više od deset koraka. Zbog toga je Ju Su, koautor studije i pomoćnik profesora računarskih nauka i inženjerstva u državi Ohajo, rekao da je njihov rad, koji koristi informacije preuzete sa živih sajtova za kreiranje veb agenata – onlajn AI pomagača – korak ka stvaranju digitalni svet manje zbunjujuće mesto.
Nekim ljudima, posebno onima sa invaliditetom, nije lako da pretražuju internet“, rekla je Su. „Sve više se oslanjamo na računarski svet u našem svakodnevnom životu i radu, ali postoji sve više prepreka tom pristupu, što u određenoj meri povećava disparitet.“
Studija je predstavljena u decembru na Trideset sedmoj konferenciji o sistemima za neuralnu obradu informacija (NeurIPS), vodećoj konferenciji za istraživanje veštačke inteligencije i mašinskog učenja. Dostupan je na arXiv serveru za preprint.
Iskorišćavanjem prednosti velikih jezičkih modela, agent radi slično onome kako se ljudi ponašaju kada pretražuju veb, rekao je Su. Tim iz države Ohajo pokazao je da je njihov model bio u stanju da razume izgled i funkcionalnost različitih veb lokacija koristeći samo svoju sposobnost obrade i predviđanja jezika.
Istraživači su započeli proces kreiranjem Mind2Veb, prvog skupa podataka za generalne veb agente. Iako su prethodni napori za pravljenje veb agenata bili fokusirani na veb-sajtove simulirane igračkama, Mind2Veb u potpunosti prihvata kompleksnu i dinamičnu prirodu veb-sajtova u stvarnom svetu i naglašava sposobnost agenta da generalizuje na potpuno nove veb-sajtove koje nikada ranije nije video.
Su je rekao da je veliki deo njihovog uspeha posledica sposobnosti njihovog agenta da se nosi sa krivom učenja interneta koja se stalno razvija. Tim je podigao preko 2.000 otvorenih zadataka sa 137 različitih veb lokacija u stvarnom svetu, koje su zatim koristili za obuku agenta.
Neki od zadataka su uključivali rezervisanje međunarodnih letova u jednom pravcu i povratnim letovima, praćenje naloga slavnih na Tviteru, pregledavanje komičnih filmova od 1992. do 2017. strimovanja na Netflik-u, pa čak i zakazivanje testova znanja automobila u DMV-u. Mnogi od zadataka su bili veoma složeni — na primer, za rezervaciju jednog od međunarodnih letova koji se koristi u modelu bilo bi potrebno 14 radnji. Takva svestranost bez napora omogućava raznovrsnu pokrivenost na brojnim veb lokacijama i otvara novi pejzaž za buduće modele da istražuju i uče na autonoman način, rekao je Su.
„Postalo je moguće uraditi nešto ovako samo zbog nedavnog razvoja velikih jezičkih modela kao što je ChatGPT“, rekao je Su. Otkako je chatbot postao javan u novembru 2022. godine, milioni korisnika su ga koristili za automatsko generisanje sadržaja, od poezije i šala do saveta o kuvanju i medicinskih dijagnoza.
Ipak, pošto bi jedna veb lokacija mogla da sadrži hiljade neobrađenih HTML elemenata, bilo bi preskupo davati toliko informacija jednom velikom jezičkom modelu. Da bi se rešio ovaj jaz, studija takođe uvodi okvir pod nazivom MindAct, dvosmerni agent koji koristi i male i velike jezičke modele za obavljanje ovih zadataka. Tim je otkrio da korišćenjem ove strategije, MindAct značajno nadmašuje druge uobičajene strategije modeliranja i da je u stanju da razume različite koncepte na pristojnom nivou.
Uz više finog podešavanja, ističe studija, model bi se verovatno mogao koristiti u tandemu sa velikim jezičkim modelima otvorenog i zatvorenog koda kao što su Flan-T5 ili GPT-4. Međutim, njihov rad naglašava sve relevantniji etički problem u stvaranju fleksibilne veštačke inteligencije, rekao je Su. Iako bi sigurno mogao da posluži kao pomoćno sredstvo ljudima koji surfuju internetom, model bi se takođe mogao koristiti za poboljšanje sistema kao što je ChatGPT i pretvaranje čitavog interneta u neviđeno moćan alat, rekao je Su.
„S jedne strane, imamo veliki potencijal da poboljšamo našu efikasnost i da nam omogućimo da se fokusiramo na najkreativniji deo našeg rada“, rekao je on. „Ali s druge strane, postoji ogroman potencijal štete.“ Na primer, autonomni agenti koji mogu da prevedu onlajn korake u stvarni svet mogu uticati na društvo preduzimanjem potencijalno opasnih radnji, kao što je zloupotreba finansijskih informacija ili širenje dezinformacija.
„Trebalo bi da budemo izuzetno oprezni u vezi sa ovim faktorima i uložimo zajednički napor da pokušamo da ih ublažimo“, rekao je Su. Ali kako istraživanje veštačke inteligencije nastavlja da se razvija, on napominje da je verovatno da će društvo doživeti veliki rast u komercijalnoj upotrebi i performansama generalističkih veb agenata u godinama koje dolaze, posebno pošto je tehnologija već stekla toliku popularnost u očima javnosti.
„Tokom moje karijere, moj cilj je uvek bio pokušaj da premostim jaz između ljudskih korisnika i računarskog sveta“, rekao je Su. „Ipak, prava vrednost ovog alata je u tome što će ljudima zaista uštedeti vreme i učiniti nemoguće mogućim.