Istraživači sa Universidad de Santiago de Chile i Univerziteta Notr Dame, radeći sa mašinskim učenjem, osmislili su metod za identifikaciju organskih jedinjenja na osnovu indeksa prelamanja na jednoj optičkoj talasnoj dužini. Tehnika bi mogla da ima istraživačku i industrijsku primenu za automatizovanu hemijsku analizu koja je jeftinija, bezbednija i zahteva manje stručnosti za rad.
U radu „Identifikacija organskih jedinjenja mašinskim učenjem korišćenjem vidljive svetlosti“, objavljenom u časopisu The Journal of Phisical Chemistri A, istraživači dokumentuju kreativan i nov način na koji su došli do jedinstvenog skupa podataka i korake koje su koristili da naprave dokaz koncepta detektor organske hemije.
Mašinsko učenje je obučeno na javno dostupnoj bazi podataka prošlih optičkih eksperimenata sa objavljenim podacima iz naučne literature iz 1940. U ovoj bazi podataka istraživači su pronašli sve parametre potrebne za sastavljanje profila identifikacije za 61 organski molekul; grupna brzina i disperzija grupne brzine, opseg talasnih dužina merenja i stanje materije uzoraka, indeksi prelamanja i koeficijenti ekstinkcije u širokom opsegu talasnih dužina. Ukupno je primenjeno 194.816 spektralnih zapisa indeksa prelamanja i ekstinkcije 61 organskog jedinjenja i polimera.
U tipičnom infracrvenom (IR) detektoru za molekularnu klasifikaciju, identitet molekula se potvrđuje apsorpcijom i vrhovima Ramanskog rasejanja, stvarajući otisak prsta kombinovanih karakteristika usklađenih sa bazom podataka. Statički indeks prelamanja organskih jedinjenja je jednoznačna karakteristika koja nema iste kodirane informacije. Isto važi i za baze podataka indeksa prelamanja na pojedinačnim talasnim dužinama daleko od ultraljubičaste i infracrvene apsorpcione rezonancije, zbog čega se možda vidljiva svetlost nije koristila za klasifikaciju organskih molekula.
Početno testiranje sa sirovim podacima dostiglo je 80%, a istraživači su pokušali da ga povećaju. Originalna baza podataka nije bila namenjena za optimizaciju mašinskog učenja jer je veliki deo nje proizašao iz istraživanja sprovedenog pre nego što je izumljen prvi kućni računar. Postojala je ogromna količina informacija o talasnim dužinama u UV i IR opsegu, na kojima je AI unakrsno trenirala. Stoga su istraživači odlučili da zauzmu fokusiraniji pristup.
Upotrebljeno je nekoliko strategija za prethodnu obradu podataka da bi se simuliralo idealizovanije okruženje za učenje za AI. Cilj je bio da se stvori izbalansiran skup podataka tako da AI ne daje prednost određenim karakteristikama u odnosu na druge samo na osnovu količine informacija. Prekomerno uzorkovanje i nedovoljno uzorkovanje i tehnike uvećanja zasnovane na fizičkim podacima su korišćene da bi se suštinski smanjio uticaj IR talasnih dužina na celokupni skup podataka. Treningom sa prethodno obrađenim izbalansiranim podacima, istraživači su postigli tačnost testiranja molekularne klasifikacije u vidljivim regionima bolju od 98%.
Istraživači navode da je potreban dodatni rad na proširenju i generalizaciji klasifikatora kako bi se identifikovale strukturne i druge hemijske karakteristike molekula koji su prisutni u bazi podataka o indeksu prelamanja. Ukratko, pišu da je rad dobra polazna tačka za razvoj daljinskih hemijskih senzora.