Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Destilacija može učiniti AI modele manjim i jeftinijim

Novosti

Destilacija može učiniti AI modele manjim i jeftinijim

Tomšić Damjan 21. rujna 2025

Izvorna verzija od ova priča pojavio se u Magazin Quanta.

Kineska AI tvrtka Deepseek objavila je chatbota početkom ove godine pod nazivom R1, koji je privukao ogromnu pažnju. Većinu toga usredotočen na činjenicu Da je relativno mala i nepoznata tvrtka rekla da je izgradila chatbota koji je izveo izvedbu onih iz najpoznatijih svjetskih AI kompanija, ali koristeći djelić računalne snage i troškova. Kao rezultat toga, zalihe mnogih zapadnih tehnoloških kompanija pale su; Nvidia, koja prodaje čipove koji vode vodeće AI modele, izgubio više vrijednosti dionica u jednom danu nego bilo koja tvrtka u povijesti.

Neki od te pažnje uključivali su element optužbe. Izvori navodni da Deepseek je dobiobez odobrenja, znanje iz OpenAi -ovog vlasničkog O1 modela pomoću tehnike poznate kao destilacija. Veliki dio vijesti Ovu mogućnost uokvirio kao šok za industriju AI, što implicira da je DeepSeek otkrio novi, učinkovitiji način za izgradnju AI.

Ali destilacija, koja se naziva i destilacija znanja, široko je korištena alat u AI, predmet istraživanja informatičkih znanosti koji se vraćaju desetljeće i alat koji velike tehnološke kompanije koriste na vlastitim modelima. “Destilacija je jedan od najvažnijih alata koje tvrtke danas imaju učinkovitije modele”, rekao je Enric Boix-adseraistraživač koji proučava destilaciju na Sveučilištu u Pennsylvaniji Wharton School.

Sadržaj objave

  • 1 Tamno znanje
  • 2 Eksplozivni rast
    • 2.1 Povezani sadržaji

Tamno znanje

Ideja za destilaciju počela je s rad iz 2015. godine Tri istraživača na Googleu, uključujući Geoffrey Hinton, takozvani kum AI i 2024 Nobelski laureat. U to su vrijeme istraživači često vodili ansamble modela – “mnogi su modeli zalijepljeni zajedno”, rekao je Oriol Vinyalsglavni znanstvenik u Google Deepmind i jedan od autora rada – kako bi poboljšao njihov učinak. “Ali bilo je nevjerojatno nezgrapno i skupo voditi sve modele paralelno”, rekao je Vinyals. “Zaintrigirali su nas ideju destiliranja na jedan model.”

“Destilacija je jedan od najvažnijih alata koje tvrtke danas imaju učinkovitije modele.”

Enric Boix-adsera

Istraživači su mislili da bi mogli postići napredak rješavanjem značajne slabe točke u algoritmima strojnog učenja: Pogrešni odgovori svi su se smatrali jednako lošim, bez obzira na to koliko su pogrešni. Na primjer, u modelu klasifikacije slike, “zbunjenje psa s lisicom bilo je kažnjeno na isti način kao i zbuniti psa pizzom”, rekao je Vinyals. Istraživači su sumnjali da modeli ansambla sadrže informacije o tome koji su pogrešni odgovori manje loši od ostalih. Možda bi manji model „učenika“ mogao upotrijebiti informacije iz velikog „učitelja“ kako bi brže shvatio kategorije u koje je trebala sortirati slike. Hinton je ovo “mračno znanje” nazvao pozivajući se na analogiju kozmološkom tamnom tvari.

Nakon što je s Hintonom razgovarao o ovoj mogućnosti, Vinyals je razvio način da veliki model učitelja prenese više informacija o kategorijama slike na manji model učenika. Ključ je bio uključivanje u „meke ciljeve“ u modelu učitelja-gdje on dodjeljuje vjerojatnosti svakoj mogućnosti, a ne da je učvršćen tim ili-koji odgovori. Jedan model, na primjer, izračunat da je postojala 30 posto šanse da slika pokaže psa, 20 posto da je pokazala mačku, 5 posto da pokazuje kravu, a 0,5 posto da pokazuje automobil. Koristeći ove vjerojatnosti, učiteljski model učinkovito je otkrio učeniku da su psi prilično slični mačkama, ne toliko različiti od krava, i prilično se razlikuju od automobila. Istraživači su otkrili da će ove informacije pomoći učeniku da nauči kako učinkovitije identificirati slike pasa, mačaka, krava i automobila. Veliki, komplicirani model mogao bi se svesti na mršaviji s jedva gubitkom točnosti.

Eksplozivni rast

Ideja nije bila neposredni hit. Rad je odbijen s konferencije, a Vinyals, obeshrabreni, okrenut je drugim temama. Ali destilacija je stigla u važan trenutak. Otprilike u to vrijeme inženjeri su otkrili da što su više podataka o treningu uhranili u neuronske mreže, to su postale učinkovitije te mreže. Veličina modela ubrzo je eksplodirala, kao i njihovi sposobnostiali troškovi njihovog trčanja popeli su se u korak sa svojom veličinom.

Mnogi su se istraživači okrenuli destilaciji kao način izrade manjih modela. U 2018. godini, na primjer, Google istraživači otkrili su moćan jezični model pod nazivom Bertkoju je tvrtka ubrzo počela koristiti kako bi pomogla u analizi milijardi web pretraživanja. No, Bert je bio velik i skupo voditi, pa su sljedeće godine drugi programeri destilirali manju verziju nazvanu Distilbert, koja se široko koristila u poslovanju i istraživanju. Destilacija postupno postala sveprisutna, a sada je ponudila uslugu tvrtki poput Google,, Openi Amazon. Izvorni destilacijski rad, koji je još uvijek objavljen samo na arxiv.org poslužitelju preprinta, sada citirano je više od 25 000 puta.

S obzirom na to da destilacija zahtijeva pristup unutarnjim modelu učitelja, nije moguće da treća strana prikopto destilira podatke iz modela zatvorenog koda poput OpenAi’s O1, kao što se smatralo da je Deepseek učinio. U skladu s tim, studentski model još uvijek bi mogao naučiti prilično malo od učitelja samo potaknuvši učitelja određenim pitanjima i koristeći odgovore za osposobljavanje vlastitih modela – gotovo sokratski pristup destilaciji.

U međuvremenu, drugi istraživači i dalje pronalaze nove aplikacije. U siječnju, laboratorij Novasky u UC Berkeley pokazali da destilacija dobro funkcionira za modele obrazloženje lanaca treningakoji koriste višestupanjske „razmišljanja“ kako bi bolje odgovorili na komplicirana pitanja. U laboratoriju kaže da je njegov potpuno otvoreni SPAD-T1 model koštao manje od 450 dolara za treniranje, a postigao je slične rezultate mnogo većem modelu otvorenog koda. “Bili smo istinski iznenađeni kako je dobro funkcionirala destilacija u ovom okruženju”, rekao je Dacheng li, Doktorski student Berkeleyja i ko-studentski vodstvo tima Novasky. “Destilacija je temeljna tehnika u AI.”


Originalna priča ponovljena s dopuštenjem iz Magazin Quanta,, urednička neovisna publikacija Fondacija Simons Čija je misija poboljšati javno razumijevanje znanosti pokrivanjem razvoja istraživanja i trendova iz matematike i fizičkih i životnih znanosti.

Web izvor

Povezani sadržaji

  • Appleov elegantni okvir mogao bi da se kućni roboti osjećaju manje poput strojeva i više kao pratitelji
  • Koji ste novi piksel kupili?Koji ste novi piksel kupili?
  • Politika privatnosti Genshin Impacta naznačila je da se glasovni podaci igrača mogu koristiti za treniranje AI modelaPolitika privatnosti Genshin Impacta naznačila je da se glasovni podaci igrača mogu koristiti za treniranje AI modela
  • Once Humanov broj mobilnih predregistracija premašio je 26 milijuna kako je sada potvrđen rok za izdavanje u travnjuOnce Humanov broj mobilnih predregistracija premašio je 26 milijuna kako je sada potvrđen rok za izdavanje u travnju
  • Com4 odabire Nokia 5g samostalnu jezgru za napajanje Global IoT -aCom4 odabire Nokia 5g samostalnu jezgru za napajanje Global IoT -a
  • Linux kernel 6.14 veliki je skok naprijed u performansama i kompatibilnosti o sustavu WindowsLinux kernel 6.14 veliki je skok naprijed u performansama i kompatibilnosti o sustavu Windows

Previous Article

Trebate izmijeniti korisničke račune u Linuxu? Ovo je naredba za vas

Next Article

Huawei otkriva međusobno povezivanje za rješavanje velikih AI infrastruktura velikih granica

Posljednje objave

AT&T-ovi novi neograničeni planovi izgledaju solidno

AT&T-ovi novi neograničeni planovi izgledaju solidno

Dok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržaj

Dok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržaj

Altneti ‘na koje se mora računati’ u širokopojasnom pristupu u Velikoj Britaniji

Sadržaj

  • 1 Tamno znanje
  • 2 Eksplozivni rast

Novosti

  • AT&T-ovi novi neograničeni planovi izgledaju solidno 15. ožujka 2026
  • Dok se vrte glasine o Witcher 3 DLC-u, CD Projekt Red želi da znate da Cyberpunk 2077 više neće dobivati ​​nikakav ‘tajni’ sadržaj 15. ožujka 2026
  • Altneti ‘na koje se mora računati’ u širokopojasnom pristupu u Velikoj Britaniji 15. ožujka 2026
  • Random Labs koji podržava Y Combinator lansira Slate V1, tvrdeći da je prvi ‘swarm-native’ agent za kodiranje 14. ožujka 2026
  • Pi možete približno izračunati bacanjem igala na pod 14. ožujka 2026
  • Zašto koristim Appleove i Googleove upravitelje lozinkama – i ne obaziri se na kaos 14. ožujka 2026
  • T-Mobile izbacuje 2TB + neograničene korisnike Google fotografija na Google tamo gdje njihov plan ne postoji 14. ožujka 2026
  • “Ljudi jednostavno nisu bili spremni za” Starfield, kaže skladatelj igre dok govori o “vizionaru” Toddu Howardu 14. ožujka 2026
  • Openreach testira ‘pionirsko’ otkrivanje curenja vode optičkim vlaknima 14. ožujka 2026
  • NanoClaw i Docker su partneri kako bi napravili sandboxove najsigurnijim načinom za poduzeća da implementiraju AI agente 13. ožujka 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice