AI skup podataka stvara nove puteve do otkrivanja tornada

AI skup podataka stvara nove puteve do otkrivanja tornada

Povratak proleća na severnoj hemisferi otvara sezonu tornada. Izvrćući levak prašine i krhotina tornada izgleda kao nepogrešiv prizor. Ali taj prizor može biti zaklonjen radarom, oruđem meteorologa. Teško je tačno znati kada se tornado formirao, pa čak i zašto.

Novi skup podataka bi mogao da sadrži odgovore. Sadrži radarske povratne informacije od hiljada tornada koji su pogodili Sjedinjene Države u poslednjih 10 godina. Oluje koje su izazvale tornada prate druge teške oluje, neke sa skoro identičnim uslovima, koje nikada nisu. Istraživači MIT Lincoln Laboratorije koji su kurirali skup podataka, nazvan TorNet, sada su ga objavili u otvorenom kodu. Nadaju se da će omogućiti napredak u otkrivanju jednog od najmisterioznijih i najnasilnijih fenomena prirode.

„Veliki napredak je vođen lako dostupnim, referentnim skupovima podataka. Nadamo se da će TorNet postaviti osnovu za algoritme mašinskog učenja kako bi otkrili i predvideli tornada,” kaže Mark Veillete, glavni istraživač projekta sa Džejmsom Kurdžom. Oba istraživača rade u Grupi za sisteme kontrole letenja.

Zajedno sa skupom podataka, tim objavljuje modele obučene na njemu. Modeli obećavaju sposobnost mašinskog učenja da uoči tvister. Nadogradnja na ovaj rad mogla bi otvoriti nove granice za prognostičare, pomažući im da pruže tačnija upozorenja koja bi mogla spasiti živote.

Oko 1.200 tornada se dogodi u Sjedinjenim Državama svake godine, uzrokujući milione do milijarde dolara ekonomske štete i odnevši u proseku 71 život. Prošle godine, jedan neobično dugotrajan tornado ubio je 17 ljudi i povredio najmanje 165 drugih na stazi od 59 milja u Misisipiju.

Ipak, poznato je da je tornada teško predvideti jer naučnici nemaju jasnu sliku zašto se formiraju. „Možemo da vidimo dve oluje koje izgledaju identično, i jedna će proizvesti tornado, a druga neće. Ne razumemo to u potpunosti“, kaže Kurdžo.

Osnovni sastojci tornada su oluje sa grmljavinom sa nestabilnošću uzrokovane toplim vazduhom koji se brzo diže i smicanjem vetra koji izaziva rotaciju. Vremenski radar je primarni alat koji se koristi za praćenje ovih uslova. Ali tornada leže prenisko da bi bila otkrivena, čak i kada su umereno blizu radara. Kako radarski snop sa datim uglom nagiba putuje dalje od antene, on se podiže iznad zemlje, uglavnom videći refleksije kiše i grada nošene u „mezociklonu“, širokom, rotirajućem uzlaznom strujanju oluje. Mezociklon ne proizvodi uvek tornado.

Sa ovim ograničenim pogledom, prognostičari moraju odlučiti da li da izdaju upozorenje o tornadu ili ne. Često greše na strani opreza. Kao rezultat toga, stopa lažnih alarma za upozorenja o tornadu je više od 70%.

„To može dovesti do sindroma dečaka koji je plakao-vuk“, kaže Kurdžo.

Poslednjih godina, istraživači su se okrenuli mašinskom učenju kako bi bolje otkrili i predvideli tornada. Međutim, neobrađeni skupovi podataka i modeli nisu uvek bili dostupni široj zajednici, gušeći napredak. TorNet popunjava ovu prazninu.

Skup podataka sadrži više od 200.000 radarskih slika, od kojih 13.587 prikazuje tornada. Ostale slike su netornadične, preuzete iz oluja u jednoj od dve kategorije: nasumično odabrane jake oluje ili oluje sa lažnim alarmom (one koje su navele prognostičara da izda upozorenje, ali koje nisu proizvele tornado).

Svaki uzorak oluje ili tornada sastoji se od dva seta od šest radarskih slika. Ova dva seta odgovaraju različitim uglovima radara. Šest slika prikazuje različite proizvode radarskih podataka, kao što je refleksivnost (pokazuje intenzitet padavina) ili radijalnu brzinu (što ukazuje na to da li se vetrovi kreću prema ili od radara).

Izazov u ​​sastavljanju skupa podataka bio je prvo pronalaženje tornada. U okviru korpusa podataka meteoroloških radara, tornada su izuzetno retki događaji. Tim je zatim morao da uravnoteži te uzorke tornada sa teškim uzorcima koji nisu tornado. Ako bi skup podataka bio previše lak, recimo upoređivanjem tornada sa snežnim olujama, algoritam obučen na podacima bi verovatno preterano klasifikovao oluje kao tornadne.

„Ono što je prelepo u vezi sa pravim benchmark skupom podataka je to što svi radimo sa istim podacima, sa istim nivoom težine i možemo da uporedimo rezultate“, kaže Veillette. „To takođe čini meteorologiju dostupnijom naučnicima podataka, i obrnuto. Ovim dvema stranama postaje lakše da rade na zajedničkom problemu.“

Oba istraživača predstavljaju napredak koji može doći iz međusobne saradnje. Veillette je matematičar i programer algoritama koji je dugo bio fasciniran tornadima. Kurdžo je po obrazovanju meteorolog i stručnjak za obradu signala. Na postdiplomskim studijama, jurio je tornada sa prilagođenim mobilnim radarima, prikupljajući podatke za analizu na nove načine.

„Ovaj skup podataka takođe znači da student ne mora da provede godinu ili dve da pravi skup podataka. Oni mogu odmah da uskoče u svoje istraživanje“, kaže Kurdžo.

Koristeći skup podataka, istraživači su razvili osnovne modele veštačke inteligencije (AI). Posebno su bili željni da primene duboko učenje, oblik mašinskog učenja koji se ističe u obradi vizuelnih podataka. Samo po sebi, duboko učenje može izvući karakteristike (ključna zapažanja koja algoritam koristi da donese odluku) iz slika širom skupa podataka. Drugi pristupi mašinskom učenju zahtevaju od ljudi da prvo ručno obeleže funkcije.

„Želeli smo da vidimo da li duboko učenje može ponovo da otkrije ono što ljudi obično traže u tornadima, pa čak i da identifikuju nove stvari koje prognostičari obično ne traže“, kaže Velet.

Rezultati su obećavajući. Njihov model dubokog učenja je bio sličan ili bolji od svih algoritama za otkrivanje tornada poznatih u literaturi. Obučeni algoritam je ispravno klasifikovao 50% slabijih EF-1 tornada i preko 85% tornada sa ocenom EF-2 ili više, koji čine najrazornije i najskuplje pojave ovih oluja.

Takođe su procenili još dva tipa modela mašinskog učenja i jedan tradicionalni model za upoređivanje. Izvorni kod i parametri svih ovih modela su slobodno dostupni. Modeli i skup podataka su takođe opisani u radu dostavljenom časopisu Američkog meteorološkog društva (AMS). Veillette je predstavio ovaj rad na godišnjem sastanku AMS-a u januaru.

„Najveći razlog za postavljanje naših modela je da ih zajednica unapredi i uradi druge velike stvari“, kaže Kurdžo. „Najbolje rešenje bi mogao biti model dubokog učenja, ili bi neko mogao otkriti da je model ne-dubokog učenja zapravo bolji.

TorNet bi mogao biti koristan u vremenskoj zajednici i za druge svrhe, kao što je sprovođenje velikih studija slučaja o olujama. Takođe se može dopuniti drugim izvorima podataka, poput satelitskih snimaka ili mapa munja. Spajanje više vrsta podataka moglo bi da poboljša tačnost modela mašinskog učenja.

Pored otkrivanja tornada, Kurdžo se nada da bi modeli mogli pomoći u otkrivanju nauke o tome zašto nastaju.

„Kao naučnici, vidimo sve ove prethodnike tornada — povećanje rotacije na niskom nivou, eho kuke u podacima o refleksivnosti, specifične diferencijalne faze (KDP) stopala i diferencijalne refleksivnosti (ZDR) lukove. Ali kako svi oni idu zajedno? I da li postoje fizičke manifestacije za koje ne znamo?“ on pita.

Zadirkivanje tih odgovora moglo bi biti moguće uz objašnjivu AI. Objašnjiva AI se odnosi na metode koje omogućavaju modelu da pruži svoje rezonovanje, u formatu razumljivom ljudima, zašto je došao do određene odluke. U ovom slučaju, ova objašnjenja mogu otkriti fizičke procese koji se dešavaju pre tornada. Ovo znanje bi moglo pomoći u obuci prognostičara i modela da pre prepoznaju znakove.

„Nijedna od ove tehnologije nikada nije zamišljena da zameni prognostičare. Ali možda bi jednog dana mogla da usmeri pogled prognostičara u složenim situacijama i da vizuelno upozori područje za koje se predviđa da će imati tornadsku aktivnost“, kaže Kurdžo.

Takva pomoć bi mogla biti posebno korisna jer se radarska tehnologija poboljšava i buduće mreže potencijalno postaju gušće. Očekuje se da će se stope osvežavanja podataka u radarskoj mreži sledeće generacije povećati sa svakih pet minuta na otprilike jedan minut, možda brže nego što prognostičari mogu da protumače nove informacije. Pošto duboko učenje može brzo da obradi ogromne količine podataka, moglo bi biti pogodno za praćenje radara u realnom vremenu, zajedno sa ljudima. Tornada se mogu formirati i nestati za nekoliko minuta.

Ali put do operativnog algoritma je dug put, posebno u situacijama kritičnim za bezbednost, kaže Veillete. „Mislim da je zajednica prognostičara i dalje, razumljivo, skeptična prema mašinskom učenju. Jedan od načina da se uspostavi poverenje i transparentnost je da imate javne referentne skupove podataka kao što je ovaj. To je prvi korak.“

Tim se nada da će sledeće korake preduzeti istraživači širom sveta koji su inspirisani skupom podataka i podstaknuti da izgrade sopstvene algoritme. Ti algoritmi će zauzvrat otići u testne krevete, gde će na kraju biti prikazani prognostičarima, kako bi započeli proces prelaska u operacije.

Na kraju, put bi mogao da se vrati do poverenja.

„Možda nikada nećemo dobiti više od 10 do 15-minutnog upozorenja o tornadu koristeći ove alate. Ali ako bismo mogli da smanjimo stopu lažnih alarma, mogli bismo da počnemo da napredujemo sa percepcijom javnosti“, kaže Kurdžo. „Ljudi će koristiti ta upozorenja da preduzmu akciju koja im je potrebna da spasu svoje živote.“