Izvorna verzija od ova priča pojavio se u Magazin Quanta.
Kineska AI tvrtka Deepseek objavila je chatbota početkom ove godine pod nazivom R1, koji je privukao ogromnu pažnju. Većinu toga usredotočen na činjenicu Da je relativno mala i nepoznata tvrtka rekla da je izgradila chatbota koji je izveo izvedbu onih iz najpoznatijih svjetskih AI kompanija, ali koristeći djelić računalne snage i troškova. Kao rezultat toga, zalihe mnogih zapadnih tehnoloških kompanija pale su; Nvidia, koja prodaje čipove koji vode vodeće AI modele, izgubio više vrijednosti dionica u jednom danu nego bilo koja tvrtka u povijesti.
Neki od te pažnje uključivali su element optužbe. Izvori navodni da Deepseek je dobiobez odobrenja, znanje iz OpenAi -ovog vlasničkog O1 modela pomoću tehnike poznate kao destilacija. Veliki dio vijesti Ovu mogućnost uokvirio kao šok za industriju AI, što implicira da je DeepSeek otkrio novi, učinkovitiji način za izgradnju AI.
Ali destilacija, koja se naziva i destilacija znanja, široko je korištena alat u AI, predmet istraživanja informatičkih znanosti koji se vraćaju desetljeće i alat koji velike tehnološke kompanije koriste na vlastitim modelima. “Destilacija je jedan od najvažnijih alata koje tvrtke danas imaju učinkovitije modele”, rekao je Enric Boix-adseraistraživač koji proučava destilaciju na Sveučilištu u Pennsylvaniji Wharton School.
Sadržaj objave
Tamno znanje
Ideja za destilaciju počela je s rad iz 2015. godine Tri istraživača na Googleu, uključujući Geoffrey Hinton, takozvani kum AI i 2024 Nobelski laureat. U to su vrijeme istraživači često vodili ansamble modela – “mnogi su modeli zalijepljeni zajedno”, rekao je Oriol Vinyalsglavni znanstvenik u Google Deepmind i jedan od autora rada – kako bi poboljšao njihov učinak. “Ali bilo je nevjerojatno nezgrapno i skupo voditi sve modele paralelno”, rekao je Vinyals. “Zaintrigirali su nas ideju destiliranja na jedan model.”
Istraživači su mislili da bi mogli postići napredak rješavanjem značajne slabe točke u algoritmima strojnog učenja: Pogrešni odgovori svi su se smatrali jednako lošim, bez obzira na to koliko su pogrešni. Na primjer, u modelu klasifikacije slike, “zbunjenje psa s lisicom bilo je kažnjeno na isti način kao i zbuniti psa pizzom”, rekao je Vinyals. Istraživači su sumnjali da modeli ansambla sadrže informacije o tome koji su pogrešni odgovori manje loši od ostalih. Možda bi manji model „učenika“ mogao upotrijebiti informacije iz velikog „učitelja“ kako bi brže shvatio kategorije u koje je trebala sortirati slike. Hinton je ovo “mračno znanje” nazvao pozivajući se na analogiju kozmološkom tamnom tvari.
Nakon što je s Hintonom razgovarao o ovoj mogućnosti, Vinyals je razvio način da veliki model učitelja prenese više informacija o kategorijama slike na manji model učenika. Ključ je bio uključivanje u „meke ciljeve“ u modelu učitelja-gdje on dodjeljuje vjerojatnosti svakoj mogućnosti, a ne da je učvršćen tim ili-koji odgovori. Jedan model, na primjer, izračunat da je postojala 30 posto šanse da slika pokaže psa, 20 posto da je pokazala mačku, 5 posto da pokazuje kravu, a 0,5 posto da pokazuje automobil. Koristeći ove vjerojatnosti, učiteljski model učinkovito je otkrio učeniku da su psi prilično slični mačkama, ne toliko različiti od krava, i prilično se razlikuju od automobila. Istraživači su otkrili da će ove informacije pomoći učeniku da nauči kako učinkovitije identificirati slike pasa, mačaka, krava i automobila. Veliki, komplicirani model mogao bi se svesti na mršaviji s jedva gubitkom točnosti.
Eksplozivni rast
Ideja nije bila neposredni hit. Rad je odbijen s konferencije, a Vinyals, obeshrabreni, okrenut je drugim temama. Ali destilacija je stigla u važan trenutak. Otprilike u to vrijeme inženjeri su otkrili da što su više podataka o treningu uhranili u neuronske mreže, to su postale učinkovitije te mreže. Veličina modela ubrzo je eksplodirala, kao i njihovi sposobnostiali troškovi njihovog trčanja popeli su se u korak sa svojom veličinom.
Mnogi su se istraživači okrenuli destilaciji kao način izrade manjih modela. U 2018. godini, na primjer, Google istraživači otkrili su moćan jezični model pod nazivom Bertkoju je tvrtka ubrzo počela koristiti kako bi pomogla u analizi milijardi web pretraživanja. No, Bert je bio velik i skupo voditi, pa su sljedeće godine drugi programeri destilirali manju verziju nazvanu Distilbert, koja se široko koristila u poslovanju i istraživanju. Destilacija postupno postala sveprisutna, a sada je ponudila uslugu tvrtki poput Google,, Openi Amazon. Izvorni destilacijski rad, koji je još uvijek objavljen samo na arxiv.org poslužitelju preprinta, sada citirano je više od 25 000 puta.
S obzirom na to da destilacija zahtijeva pristup unutarnjim modelu učitelja, nije moguće da treća strana prikopto destilira podatke iz modela zatvorenog koda poput OpenAi’s O1, kao što se smatralo da je Deepseek učinio. U skladu s tim, studentski model još uvijek bi mogao naučiti prilično malo od učitelja samo potaknuvši učitelja određenim pitanjima i koristeći odgovore za osposobljavanje vlastitih modela – gotovo sokratski pristup destilaciji.
U međuvremenu, drugi istraživači i dalje pronalaze nove aplikacije. U siječnju, laboratorij Novasky u UC Berkeley pokazali da destilacija dobro funkcionira za modele obrazloženje lanaca treningakoji koriste višestupanjske „razmišljanja“ kako bi bolje odgovorili na komplicirana pitanja. U laboratoriju kaže da je njegov potpuno otvoreni SPAD-T1 model koštao manje od 450 dolara za treniranje, a postigao je slične rezultate mnogo većem modelu otvorenog koda. “Bili smo istinski iznenađeni kako je dobro funkcionirala destilacija u ovom okruženju”, rekao je Dacheng li, Doktorski student Berkeleyja i ko-studentski vodstvo tima Novasky. “Destilacija je temeljna tehnika u AI.”
Originalna priča ponovljena s dopuštenjem iz Magazin Quanta,, urednička neovisna publikacija Fondacija Simons Čija je misija poboljšati javno razumijevanje znanosti pokrivanjem razvoja istraživanja i trendova iz matematike i fizičkih i životnih znanosti.



