Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Destilacija može učiniti AI modele manjim i jeftinijim

Novosti

Destilacija može učiniti AI modele manjim i jeftinijim

Tomšić Damjan 21. rujna 2025

Izvorna verzija od ova priča pojavio se u Magazin Quanta.

Kineska AI tvrtka Deepseek objavila je chatbota početkom ove godine pod nazivom R1, koji je privukao ogromnu pažnju. Većinu toga usredotočen na činjenicu Da je relativno mala i nepoznata tvrtka rekla da je izgradila chatbota koji je izveo izvedbu onih iz najpoznatijih svjetskih AI kompanija, ali koristeći djelić računalne snage i troškova. Kao rezultat toga, zalihe mnogih zapadnih tehnoloških kompanija pale su; Nvidia, koja prodaje čipove koji vode vodeće AI modele, izgubio više vrijednosti dionica u jednom danu nego bilo koja tvrtka u povijesti.

Neki od te pažnje uključivali su element optužbe. Izvori navodni da Deepseek je dobiobez odobrenja, znanje iz OpenAi -ovog vlasničkog O1 modela pomoću tehnike poznate kao destilacija. Veliki dio vijesti Ovu mogućnost uokvirio kao šok za industriju AI, što implicira da je DeepSeek otkrio novi, učinkovitiji način za izgradnju AI.

Ali destilacija, koja se naziva i destilacija znanja, široko je korištena alat u AI, predmet istraživanja informatičkih znanosti koji se vraćaju desetljeće i alat koji velike tehnološke kompanije koriste na vlastitim modelima. “Destilacija je jedan od najvažnijih alata koje tvrtke danas imaju učinkovitije modele”, rekao je Enric Boix-adseraistraživač koji proučava destilaciju na Sveučilištu u Pennsylvaniji Wharton School.

Sadržaj objave

  • 1 Tamno znanje
  • 2 Eksplozivni rast
    • 2.1 Povezani sadržaji

Tamno znanje

Ideja za destilaciju počela je s rad iz 2015. godine Tri istraživača na Googleu, uključujući Geoffrey Hinton, takozvani kum AI i 2024 Nobelski laureat. U to su vrijeme istraživači često vodili ansamble modela – “mnogi su modeli zalijepljeni zajedno”, rekao je Oriol Vinyalsglavni znanstvenik u Google Deepmind i jedan od autora rada – kako bi poboljšao njihov učinak. “Ali bilo je nevjerojatno nezgrapno i skupo voditi sve modele paralelno”, rekao je Vinyals. “Zaintrigirali su nas ideju destiliranja na jedan model.”

“Destilacija je jedan od najvažnijih alata koje tvrtke danas imaju učinkovitije modele.”

Enric Boix-adsera

Istraživači su mislili da bi mogli postići napredak rješavanjem značajne slabe točke u algoritmima strojnog učenja: Pogrešni odgovori svi su se smatrali jednako lošim, bez obzira na to koliko su pogrešni. Na primjer, u modelu klasifikacije slike, “zbunjenje psa s lisicom bilo je kažnjeno na isti način kao i zbuniti psa pizzom”, rekao je Vinyals. Istraživači su sumnjali da modeli ansambla sadrže informacije o tome koji su pogrešni odgovori manje loši od ostalih. Možda bi manji model „učenika“ mogao upotrijebiti informacije iz velikog „učitelja“ kako bi brže shvatio kategorije u koje je trebala sortirati slike. Hinton je ovo “mračno znanje” nazvao pozivajući se na analogiju kozmološkom tamnom tvari.

Nakon što je s Hintonom razgovarao o ovoj mogućnosti, Vinyals je razvio način da veliki model učitelja prenese više informacija o kategorijama slike na manji model učenika. Ključ je bio uključivanje u „meke ciljeve“ u modelu učitelja-gdje on dodjeljuje vjerojatnosti svakoj mogućnosti, a ne da je učvršćen tim ili-koji odgovori. Jedan model, na primjer, izračunat da je postojala 30 posto šanse da slika pokaže psa, 20 posto da je pokazala mačku, 5 posto da pokazuje kravu, a 0,5 posto da pokazuje automobil. Koristeći ove vjerojatnosti, učiteljski model učinkovito je otkrio učeniku da su psi prilično slični mačkama, ne toliko različiti od krava, i prilično se razlikuju od automobila. Istraživači su otkrili da će ove informacije pomoći učeniku da nauči kako učinkovitije identificirati slike pasa, mačaka, krava i automobila. Veliki, komplicirani model mogao bi se svesti na mršaviji s jedva gubitkom točnosti.

Eksplozivni rast

Ideja nije bila neposredni hit. Rad je odbijen s konferencije, a Vinyals, obeshrabreni, okrenut je drugim temama. Ali destilacija je stigla u važan trenutak. Otprilike u to vrijeme inženjeri su otkrili da što su više podataka o treningu uhranili u neuronske mreže, to su postale učinkovitije te mreže. Veličina modela ubrzo je eksplodirala, kao i njihovi sposobnostiali troškovi njihovog trčanja popeli su se u korak sa svojom veličinom.

Mnogi su se istraživači okrenuli destilaciji kao način izrade manjih modela. U 2018. godini, na primjer, Google istraživači otkrili su moćan jezični model pod nazivom Bertkoju je tvrtka ubrzo počela koristiti kako bi pomogla u analizi milijardi web pretraživanja. No, Bert je bio velik i skupo voditi, pa su sljedeće godine drugi programeri destilirali manju verziju nazvanu Distilbert, koja se široko koristila u poslovanju i istraživanju. Destilacija postupno postala sveprisutna, a sada je ponudila uslugu tvrtki poput Google,, Openi Amazon. Izvorni destilacijski rad, koji je još uvijek objavljen samo na arxiv.org poslužitelju preprinta, sada citirano je više od 25 000 puta.

S obzirom na to da destilacija zahtijeva pristup unutarnjim modelu učitelja, nije moguće da treća strana prikopto destilira podatke iz modela zatvorenog koda poput OpenAi’s O1, kao što se smatralo da je Deepseek učinio. U skladu s tim, studentski model još uvijek bi mogao naučiti prilično malo od učitelja samo potaknuvši učitelja određenim pitanjima i koristeći odgovore za osposobljavanje vlastitih modela – gotovo sokratski pristup destilaciji.

U međuvremenu, drugi istraživači i dalje pronalaze nove aplikacije. U siječnju, laboratorij Novasky u UC Berkeley pokazali da destilacija dobro funkcionira za modele obrazloženje lanaca treningakoji koriste višestupanjske „razmišljanja“ kako bi bolje odgovorili na komplicirana pitanja. U laboratoriju kaže da je njegov potpuno otvoreni SPAD-T1 model koštao manje od 450 dolara za treniranje, a postigao je slične rezultate mnogo većem modelu otvorenog koda. “Bili smo istinski iznenađeni kako je dobro funkcionirala destilacija u ovom okruženju”, rekao je Dacheng li, Doktorski student Berkeleyja i ko-studentski vodstvo tima Novasky. “Destilacija je temeljna tehnika u AI.”


Originalna priča ponovljena s dopuštenjem iz Magazin Quanta,, urednička neovisna publikacija Fondacija Simons Čija je misija poboljšati javno razumijevanje znanosti pokrivanjem razvoja istraživanja i trendova iz matematike i fizičkih i životnih znanosti.

Web izvor

Povezani sadržaji

  • Nintendo je počeo raditi na Switchu 2 “Ubrzo nakon otpuštanja” Switch 1, novi radovi za tužbe New Genki otkrivaju
  • Baldur’s Gate 3 Boss kaže da Studio nije radio DLC jer je to bila opcija “dosadno”Baldur’s Gate 3 Boss kaže da Studio nije radio DLC jer je to bila opcija “dosadno”
  • Tipkovnica Kopiraj ZalijepiPromijenite namjenu tipki na tipkovnici uz Power Copy
  • Zvjezdana oštrica 2 je službena i naizgled nije predalekoZvjezdana oštrica 2 je službena i naizgled nije predaleko
  • CDC potvrdio prvi slučaj teške ptičje gripe u SAD-uCDC potvrdio prvi slučaj teške ptičje gripe u SAD-u
  • Korisnici Windows 10 koji traže novi OS? Appleov MacBook od 599 dolara ne može doći u bolje vrijemeKorisnici Windows 10 koji traže novi OS? Appleov MacBook od 599 dolara ne može doći u bolje vrijeme

Previous Article

Trebate izmijeniti korisničke račune u Linuxu? Ovo je naredba za vas

Next Article

Huawei otkriva međusobno povezivanje za rješavanje velikih AI infrastruktura velikih granica

Posljednje objave

Lagana distribucija Linuxa koju bi svaki ovisnik o medijima trebao isprobati – i zašto

Zaslon ovih pametnih naočala drži moj pogled daleko od sata – i na putu ispred mene

Šest vrućih novih značajki koje dolaze na sve Android telefone

Šest vrućih novih značajki koje dolaze na sve Android telefone

Sadržaj

  • 1 Tamno znanje
  • 2 Eksplozivni rast

Novosti

  • Lagana distribucija Linuxa koju bi svaki ovisnik o medijima trebao isprobati – i zašto 3. prosinca 2025
  • Zaslon ovih pametnih naočala drži moj pogled daleko od sata – i na putu ispred mene 3. prosinca 2025
  • Šest vrućih novih značajki koje dolaze na sve Android telefone 3. prosinca 2025
  • Redatelj Shōguna, dobitnik Emmyja, pridružuje se Amazonovoj akcijskoj seriji God of War uživo 3. prosinca 2025
  • SASE, SD-WAN razvijaju se kako poduzeća daju prioritet jedinstvenoj mrežnoj sigurnosti 2. prosinca 2025
  • Mistral launches Mistral 3, a family of open models designed to run on laptops, drones, and edge devices 2. prosinca 2025
  • Može li brana hidroelektrane doista produžiti dane? 2. prosinca 2025
  • Novi Debian Libre Live je besplatan softver, ali ja trebam svoje vlasničke aplikacije 2. prosinca 2025
  • Pronašao sam najbolje ponude Apple Watcha Cyber ​​Monday prije nego ih više nema 2. prosinca 2025
  • Android XR događaj zakazan za 8. prosinca 2. prosinca 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice