DeepSeek izaziva tektonske pokrete širom sveta

DeepSeek izaziva tektonske pokrete širom sveta

Kineska kompanija za veštačku inteligenciju (AI) DeepSeek izazvala je potrese širom tehnološke zajednice, objavljivanje izuzetno efikasnih AI modela koji se mogu porediti sa vrhunskim proizvodima američkih kompanija kao što su OpenAI i Antropic.

Osnovan 2023. godine, DeepSeek je postigao rezultate sa dramatično manje novca i računarske snage od svojih konkurenata.

DeepSeek-ov model R1, objavljen prošle nedelje, izazvao je uzbuđenje među istraživačima, šok među investitorima i reakcije AI teškaša. Kompanija je zatim napravila još jedan korak 28. januara, objavivši model koji može da radi sa slikama kao i na tekstu.

Šta su tačno uradili u kompaniji DeepSeek i kako tačno?

DeepSeek je u decembru objavio svoj V3 model. Ovo je veoma moćan „standardni“ model velikog jezika koji na sličnom nivou vrši na sličnom nivou za OpenAI-ov GPT-4O i Antropic Claude 3.5.

Iako su ovi modeli skloni grešačima i ponekad čine sopstvene činjenice, mogu da sprovedu zadatke kao što su odgovori na pitanja, pisanje eseja i generisanje računarskog koda. Na nekim testovima rešavanja problema i matematičkog rezonovanja postižu bolje od prosečnog čoveka.

V3 je obučen na prijavljeni trošak od oko 5,58 miliona američkih dolara. Ovo je dramatično jeftinije od GPT-4, na primer, koji košta više od 100 miliona američkih dolara za razvoj.

DeepSeek takođe tvrdi da je obučio V3 koristeći oko 2.000 specijalizovanih računarskih čipova, posebno H800 GPU-a koje je napravio NVIDIA. Ovo je opet mnogo manje od ostalih kompanija koje su možda koristile i do 16.000 moćnijih H100 čipova.

20. januara DeepSeek je objavio drugi model, nazvan R1. Ovo je takozvani „rezonovanje“ model, koji pokušava da radi kroz složene probleme korak po korak. Čini se da su ovi modeli bolji u mnogim zadacima koji zahtevaju kontekst i imaju više međureliranih delova, poput razumevanja čitanja i strateško planiranje.

R1 model je podešena verzija V3, modifikovana tehnikom koja se zove armaturno učenje. Čini se da Rl deluje na sličnom nivou Operai-a O1, objavljen je prošle godine.

DeepSeek je takođe koristio istu tehniku da bi „rezonovši“ verzije malih modela otvorenih izvora koji mogu pokrenuti na kućnim računarima.

Ovo izdanje je izazvalo ogroman porast interesovanja u DeepSeek-u, koji je pokrenuo popularnost svoje aplikacije V3-pogon Chatbot i pokreće ogromnu pad cene u tehnološkim akcijama kao što investitori ponovo procenjuju AI industriju. U vreme pisanja pisanja, čipmaker Nvidia je izgubio oko 600 milijardi USD u vrednosti.

DeepSeek proboj je postigao veću efikasnost: dobijanje dobrih rezultata sa manje resursa. DeepSeek-ovi programeri su posebno provalili dve tehnike koje AI istraživači mogu usvojiti šire.

Prvo ima veze sa matematičkom idejom pod nazivom „Sparnost“. AI modeli imaju puno parametara koji određuju njihove odgovore na inpute (V3 ima oko 671 milijarde), ali samo mali deo ovih parametara koristi se za bilo koji dat ulaz.

Međutim, predviđajući koji će biti potrebni parametri nisu lak. DeepSeek je koristio novu tehniku da to uradi, a zatim je obučio samo one parametre. Kao rezultat toga, njegovi modeli su potrebni daleko manje obuke od konvencionalnog pristupa.

Drugi trik ima veze sa načinom na koji v3 čuva informacije u računarskoj memoriji. DeepSeek je našao pametan način da se komprimira relevantne podatke, tako da je lakše skladištiti i pristupiti brzo.

DeepSeek modeli i tehnike su objavljeni pod besplatnom licencom, što znači da ih svako može preuzeti i modifikovati.

Iako je to možda loša vest za neke AI kompanije – čija se zarada može emitirati postojanje slobodno dostupnih, moćnih modela – to je sjajna vest za širu istraživačku zajednicu.

Trenutno, puno AI istraživanja zahteva pristup ogromnim količinama računarskih resursa. Istraživači poput mene koji se baziraju na univerzitetima (ili bilo gde osim velikih tehnoloških kompanija) imali su ograničenu sposobnost da izvrše testove i eksperimente.

Efikasniji modeli i tehnike menjaju situaciju. Eksperimentiranje i razvoj sada nam mogu biti značajno lakši.

Za potrošače, pristup AI takođe može postati jeftiniji. Više AI modela može se pokrenuti na sopstvenim uređajima korisnika, kao što su laptopi ili telefoni, a ne da rade „u oblaku“ za pretplatu.

Za istraživače koji već imaju puno resursa, možda je veća efikasnost manja efekat. Nejasno je da li će DeepSeek pristup pomoći da se modeli učini boljim performansama ili jednostavnim modelima koji su efikasniji.