Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

DeepSeek-R1 otvorenog koda koristi čisto učenje pojačanja za usklađivanje s OpenAI o1 — po 95% nižoj cijeni

Novosti

DeepSeek-R1 otvorenog koda koristi čisto učenje pojačanja za usklađivanje s OpenAI o1 — po 95% nižoj cijeni

Tomšić Damjan 21. siječnja 2025


Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o AI pokrivenosti vodećoj u industriji. Saznajte više


Kineski AI startup DeepSeekpoznat po izazivanju vodećih dobavljača umjetne inteligencije s tehnologijama otvorenog koda, upravo je izbacio još jednu bombu: novi LLM s otvorenim razmišljanjem pod nazivom DeepSeek-R1.

Na temelju nedavno predstavljenog modela DeepSeek V3 mix-of-experts, DeepSeek-R1 odgovara performansama o1, OpenAI-jevog frontier login LLM-a, u matematičkim, kodnim i rezonantnim zadacima. Najbolji dio? To čini po mnogo primamljivijoj cijeni, koja se pokazala 90-95% pristupačnijom od potonjeg.

Izdanje označava veliki korak naprijed u areni otvorenog koda. Pokazuje da otvoreni modeli dodatno smanjuju jaz u odnosu na zatvorene komercijalne modele u utrci za umjetnom općom inteligencijom (AGI). Kako bi pokazao snagu svog rada, DeepSeek je također koristio R1 za destilaciju šest modela Llama i Qwen, podižući njihove performanse na novu razinu. U jednom slučaju, destilirana verzija Qwen-1.5B nadmašila je mnogo veće modele, GPT-4o i Claude 3.5 Sonnet, u odabranim matematičkim mjerilima.

Ovi destilirani modeli, zajedno s glavni R1bili su otvorenog izvora i dostupni su na Hugging Face pod licencom MIT-a.

Sadržaj objave

  • 1 Što DeepSeek-R1 donosi na stol?
  • 2 Cjevovod za obuku
  • 3 Daleko pristupačniji od o1
    • 3.1 Povezani sadržaji

Što DeepSeek-R1 donosi na stol?

Fokus se izoštrava na umjetnoj općoj inteligenciji (AGI), razini AI koja može obavljati intelektualne zadatke poput ljudi. Mnogi timovi rade na poboljšanju sposobnosti razmišljanja modela. OpenAI je napravio prvi značajan korak u domeni sa svojim modelom o1, koji koristi proces razmišljanja u lancu razmišljanja za rješavanje problema. Kroz RL (reinforcement learning ili optimizacija vođena nagradom), o1 uči usavršiti svoj lanac misli i poboljšati strategije koje koristi — u konačnici uči prepoznati i ispraviti svoje pogreške ili isprobati nove pristupe kada trenutni ne funkcioniraju.

Sada, nastavljajući rad u ovom smjeru, DeepSeek je izdao DeepSeek-R1, koji koristi kombinaciju RL-a i nadziranog finog podešavanja za rješavanje složenih zadataka zaključivanja i usklađivanje performansi s o1.

Prilikom testiranja DeepSeek-R1 postigao je 79,8% na AIME 2024 matematičkim testovima i 97,3% na MATH-500. Također je postigao ocjenu 2029 na Codeforcesu — bolje od 96,3% ljudskih programera. Nasuprot tome, o1-1217 postigao je 79,2%, 96,4% odnosno 96,6% na ovim referentnim vrijednostima.

Također je pokazao snažno opće znanje, s 90,8% točnosti na MMLU, odmah iza o1-ovih 91,8%.

Performanse DeepSeek-R1 u odnosu na OpenAI o1 i o1-mini

Cjevovod za obuku

Rezonantna izvedba DeepSeek-R1 označava veliku pobjedu za kineski startup u prostoru umjetne inteligencije kojim dominiraju SAD, pogotovo zato što je cijeli rad otvorenog koda, uključujući kako je tvrtka istrenirala cijelu stvar.

Međutim, posao nije tako jednostavan kao što zvuči.

Prema dokumentu koji opisuje istraživanje, DeepSeek-R1 razvijen je kao poboljšana verzija DeepSeek-R1-Zero — revolucionarnog modela treniranog isključivo na temelju učenja potkrepljenja.

We are living in a timeline where a non-US company is keeping the original mission of OpenAI alive – truly open, frontier research that empowers all. It makes no sense. The most entertaining outcome is the most likely.

DeepSeek-R1 not only open-sources a barrage of models but… pic.twitter.com/M7eZnEmCOY

— Jim Fan (@DrJimFan) January 20, 2025

Tvrtka je prvo upotrijebila DeepSeek-V3-base kao osnovni model, razvijajući svoje sposobnosti zaključivanja bez korištenja nadziranih podataka, u biti fokusirajući se samo na svoju samoevoluciju kroz čisti proces pokušaja i pogreške temeljen na RL-u. Razvijena intrinzično iz rada, ova sposobnost osigurava da model može rješavati sve složenije zadatke razmišljanja iskorištavanjem produženog izračuna vremena testiranja za dublje istraživanje i usavršavanje svojih misaonih procesa.

“Tijekom treninga, DeepSeek-R1-Zero se prirodno pojavio s brojnim snažnim i zanimljivim načinima razmišljanja”, ističu istraživači u radu. “Nakon tisuća RL koraka, DeepSeek-R1-Zero pokazuje super performanse na rezonantnim referentnim vrijednostima. Na primjer, pass@1 rezultat na AIME 2024 povećava se s 15,6% na 71,0%, a s većinskim glasovanjem, rezultat se dodatno poboljšava na 86,7%, što odgovara performansama OpenAI-o1-0912.”

Međutim, unatoč tome što je pokazao poboljšanu izvedbu, uključujući ponašanja poput razmišljanja i istraživanja alternativa, početni model pokazao je neke probleme, uključujući lošu čitljivost i miješanje jezika. Kako bi to popravila, tvrtka je nadogradila posao obavljen za R1-Zero, koristeći višefazni pristup koji kombinira i nadzirano učenje i učenje s potkrepljenjem, i tako je došla do poboljšanog modela R1.

“Konkretno, počinjemo prikupljanjem tisuća podataka o hladnom pokretanju kako bismo fino podesili model DeepSeek-V3-Base”, objasnili su istraživači. “Slijedeći ovo, izvodimo RL usmjeren na razmišljanje poput DeepSeek-R1- Zero. Nakon što se približimo konvergenciji u RL procesu, stvaramo nove SFT podatke kroz uzorkovanje odbijanja na RL kontrolnoj točki, u kombinaciji s nadziranim podacima iz DeepSeek-V3 u domenama kao što su pisanje, činjenični QA i samospoznaja, a zatim ponovno obučavamo DeepSeek-V3 – Osnovni model. Nakon finog podešavanja s novim podacima, kontrolna točka prolazi dodatni RL proces, uzimajući u obzir upite iz svih scenarija. Nakon ovih koraka dobili smo kontrolnu točku nazvanu DeepSeek-R1, koja postiže performanse jednake performansama OpenAI-o1-1217.”

Daleko pristupačniji od o1

Uz poboljšane performanse koje gotovo odgovaraju OpenAI-jevom o1 u svim referentnim vrijednostima, novi DeepSeek-R1 također je vrlo pristupačan. Konkretno, gdje OpenAI o1 košta 15 USD po milijunu ulaznih tokena i 60 USD po milijunu izlaznih tokena, DeepSeek Reasoner, koji se temelji na modelu R1, troškovi 0,55 dolara po milijunu ulaznih i 2,19 dolara po milijunu izlaznih tokena.

https://twitter.com/EMostaque/status/1881310721746804810

Model se može testirati kao “DeepThink” na DeepSeek chat platformakoji je sličan ChatGPT-u. Zainteresirani korisnici mogu pristupiti težinama modela i repozitoriju kodova putem Hugging Facea, pod licencom MIT-a, ili mogu koristiti API za izravnu integraciju.

Dnevni uvidi u slučajeve poslovne upotrebe uz VB Daily

Ako želite impresionirati svog šefa, VB Daily vas pokriva. Dajemo vam uvid u to što tvrtke rade s generativnom umjetnom inteligencijom, od regulatornih promjena do praktičnih implementacija, tako da možete podijeliti uvide za maksimalni ROI.

Pročitajte našu Politiku privatnosti

Hvala što ste se pretplatili. Više VB biltena pogledajte ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • PlayStation Plus dodatne i vrhunske igre za veljaču otkrivene su
  • What is the artificial intelligence of things (AIoT)?What is the artificial intelligence of things (AIoT)?
  • Facebook SpamSpam i društvene mreže
  • X11 -ovi dani umiruće znače da ćete biti prisiljeni prebaciti se na WaylandX11 -ovi dani umiruće znače da ćete biti prisiljeni prebaciti se na Wayland
  • Operativne igre otkrivaju AI-vođenu interaktivnu platformu pripovijedanjaOperativne igre otkrivaju AI-vođenu interaktivnu platformu pripovijedanja
  • Zaposlenici NOAA -e rekli su da zaustave rad s ‘stranim državljanima’Zaposlenici NOAA -e rekli su da zaustave rad s ‘stranim državljanima’

Previous Article

Utjecaji su Hawking Wellness proizvodi kao odgovor na požare u LA-u

Next Article

EXA sklapa ugovor o preuzimanju tvrtke Aqua Comms

Posljednje objave

Masivni prekid rada Verizona donosi korisnicima 20 USD kredita

Masivni prekid rada Verizona donosi korisnicima 20 USD kredita

Sve više dokaza koji sugeriraju da se Ubisoft doista sprema najaviti remake Assassin’s Creed 4: Black Flag

Sve više dokaza koji sugeriraju da se Ubisoft doista sprema najaviti remake Assassin’s Creed 4: Black Flag

Teksaški sudac odbacuje drugu tužbu zbog prekida rada CrowdStrikea

Teksaški sudac odbacuje drugu tužbu zbog prekida rada CrowdStrikea

Sadržaj

  • 1 Što DeepSeek-R1 donosi na stol?
  • 2 Cjevovod za obuku
  • 3 Daleko pristupačniji od o1

Novosti

  • Masivni prekid rada Verizona donosi korisnicima 20 USD kredita 15. siječnja 2026
  • Sve više dokaza koji sugeriraju da se Ubisoft doista sprema najaviti remake Assassin’s Creed 4: Black Flag 15. siječnja 2026
  • Teksaški sudac odbacuje drugu tužbu zbog prekida rada CrowdStrikea 15. siječnja 2026
  • Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici 15. siječnja 2026
  • Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije 15. siječnja 2026
  • Ovaj popularni Bose zvučnik izgubit će softversku podršku 2026. – ali sada ima spas 14. siječnja 2026
  • Google Photos “Ask” pretraga još uvijek ima puno mrzitelja 14. siječnja 2026
  • Battlefield 6, 2. sezona odgođena je za veljaču, ali još sadržaja za 1. sezonu i događaja je na putu 14. siječnja 2026
  • Širokopojasna revolucija u Velikoj Britaniji ne pokazuje znakove usporavanja 14. siječnja 2026
  • Zašto Egnyte nastavlja zapošljavati mlađe inženjere unatoč porastu AI alata za kodiranje 14. siječnja 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice