DeepSeek-R1 otvorenog koda koristi čisto učenje pojačanja za usklađivanje s OpenAI o1 — po 95% nižoj cijeni

Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o AI pokrivenosti vodećoj u industriji. Saznajte više

Kineski AI startup DeepSeekpoznat po izazivanju vodećih dobavljača umjetne inteligencije s tehnologijama otvorenog koda, upravo je izbacio još jednu bombu: novi LLM s otvorenim razmišljanjem pod nazivom DeepSeek-R1.

Na temelju nedavno predstavljenog modela DeepSeek V3 mix-of-experts, DeepSeek-R1 odgovara performansama o1, OpenAI-jevog frontier login LLM-a, u matematičkim, kodnim i rezonantnim zadacima. Najbolji dio? To čini po mnogo primamljivijoj cijeni, koja se pokazala 90-95% pristupačnijom od potonjeg.

Izdanje označava veliki korak naprijed u areni otvorenog koda. Pokazuje da otvoreni modeli dodatno smanjuju jaz u odnosu na zatvorene komercijalne modele u utrci za umjetnom općom inteligencijom (AGI). Kako bi pokazao snagu svog rada, DeepSeek je također koristio R1 za destilaciju šest modela Llama i Qwen, podižući njihove performanse na novu razinu. U jednom slučaju, destilirana verzija Qwen-1.5B nadmašila je mnogo veće modele, GPT-4o i Claude 3.5 Sonnet, u odabranim matematičkim mjerilima.

Ovi destilirani modeli, zajedno s glavni R1bili su otvorenog izvora i dostupni su na Hugging Face pod licencom MIT-a.

Sadržaj objave

1 Što DeepSeek-R1 donosi na stol?
2 Cjevovod za obuku
3 Daleko pristupačniji od o1

Što DeepSeek-R1 donosi na stol?

Fokus se izoštrava na umjetnoj općoj inteligenciji (AGI), razini AI koja može obavljati intelektualne zadatke poput ljudi. Mnogi timovi rade na poboljšanju sposobnosti razmišljanja modela. OpenAI je napravio prvi značajan korak u domeni sa svojim modelom o1, koji koristi proces razmišljanja u lancu razmišljanja za rješavanje problema. Kroz RL (reinforcement learning ili optimizacija vođena nagradom), o1 uči usavršiti svoj lanac misli i poboljšati strategije koje koristi — u konačnici uči prepoznati i ispraviti svoje pogreške ili isprobati nove pristupe kada trenutni ne funkcioniraju.

Sada, nastavljajući rad u ovom smjeru, DeepSeek je izdao DeepSeek-R1, koji koristi kombinaciju RL-a i nadziranog finog podešavanja za rješavanje složenih zadataka zaključivanja i usklađivanje performansi s o1.

Prilikom testiranja DeepSeek-R1 postigao je 79,8% na AIME 2024 matematičkim testovima i 97,3% na MATH-500. Također je postigao ocjenu 2029 na Codeforcesu — bolje od 96,3% ljudskih programera. Nasuprot tome, o1-1217 postigao je 79,2%, 96,4% odnosno 96,6% na ovim referentnim vrijednostima.

Također je pokazao snažno opće znanje, s 90,8% točnosti na MMLU, odmah iza o1-ovih 91,8%.

Performanse DeepSeek-R1 u odnosu na OpenAI o1 i o1-mini

Cjevovod za obuku

Rezonantna izvedba DeepSeek-R1 označava veliku pobjedu za kineski startup u prostoru umjetne inteligencije kojim dominiraju SAD, pogotovo zato što je cijeli rad otvorenog koda, uključujući kako je tvrtka istrenirala cijelu stvar.

Međutim, posao nije tako jednostavan kao što zvuči.

Prema dokumentu koji opisuje istraživanje, DeepSeek-R1 razvijen je kao poboljšana verzija DeepSeek-R1-Zero — revolucionarnog modela treniranog isključivo na temelju učenja potkrepljenja.

We are living in a timeline where a non-US company is keeping the original mission of OpenAI alive – truly open, frontier research that empowers all. It makes no sense. The most entertaining outcome is the most likely.

DeepSeek-R1 not only open-sources a barrage of models but… pic.twitter.com/M7eZnEmCOY
— Jim Fan (@DrJimFan) January 20, 2025

Tvrtka je prvo upotrijebila DeepSeek-V3-base kao osnovni model, razvijajući svoje sposobnosti zaključivanja bez korištenja nadziranih podataka, u biti fokusirajući se samo na svoju samoevoluciju kroz čisti proces pokušaja i pogreške temeljen na RL-u. Razvijena intrinzično iz rada, ova sposobnost osigurava da model može rješavati sve složenije zadatke razmišljanja iskorištavanjem produženog izračuna vremena testiranja za dublje istraživanje i usavršavanje svojih misaonih procesa.

“Tijekom treninga, DeepSeek-R1-Zero se prirodno pojavio s brojnim snažnim i zanimljivim načinima razmišljanja”, ističu istraživači u radu. “Nakon tisuća RL koraka, DeepSeek-R1-Zero pokazuje super performanse na rezonantnim referentnim vrijednostima. Na primjer, pass@1 rezultat na AIME 2024 povećava se s 15,6% na 71,0%, a s većinskim glasovanjem, rezultat se dodatno poboljšava na 86,7%, što odgovara performansama OpenAI-o1-0912.”

Međutim, unatoč tome što je pokazao poboljšanu izvedbu, uključujući ponašanja poput razmišljanja i istraživanja alternativa, početni model pokazao je neke probleme, uključujući lošu čitljivost i miješanje jezika. Kako bi to popravila, tvrtka je nadogradila posao obavljen za R1-Zero, koristeći višefazni pristup koji kombinira i nadzirano učenje i učenje s potkrepljenjem, i tako je došla do poboljšanog modela R1.

“Konkretno, počinjemo prikupljanjem tisuća podataka o hladnom pokretanju kako bismo fino podesili model DeepSeek-V3-Base”, objasnili su istraživači. “Slijedeći ovo, izvodimo RL usmjeren na razmišljanje poput DeepSeek-R1- Zero. Nakon što se približimo konvergenciji u RL procesu, stvaramo nove SFT podatke kroz uzorkovanje odbijanja na RL kontrolnoj točki, u kombinaciji s nadziranim podacima iz DeepSeek-V3 u domenama kao što su pisanje, činjenični QA i samospoznaja, a zatim ponovno obučavamo DeepSeek-V3 – Osnovni model. Nakon finog podešavanja s novim podacima, kontrolna točka prolazi dodatni RL proces, uzimajući u obzir upite iz svih scenarija. Nakon ovih koraka dobili smo kontrolnu točku nazvanu DeepSeek-R1, koja postiže performanse jednake performansama OpenAI-o1-1217.”

Daleko pristupačniji od o1

Uz poboljšane performanse koje gotovo odgovaraju OpenAI-jevom o1 u svim referentnim vrijednostima, novi DeepSeek-R1 također je vrlo pristupačan. Konkretno, gdje OpenAI o1 košta 15 USD po milijunu ulaznih tokena i 60 USD po milijunu izlaznih tokena, DeepSeek Reasoner, koji se temelji na modelu R1, troškovi 0,55 dolara po milijunu ulaznih i 2,19 dolara po milijunu izlaznih tokena.

Sooo @deepseek_ai's reasoner model, which sits somewhere between o1-mini & o1 is about 90-95% cheaper 👀 https://t.co/ohnI6dtPRC pic.twitter.com/Qn78yIGUtt
— Emad (@EMostaque) January 20, 2025

Model se može testirati kao “DeepThink” na DeepSeek chat platformakoji je sličan ChatGPT-u. Zainteresirani korisnici mogu pristupiti težinama modela i repozitoriju kodova putem Hugging Facea, pod licencom MIT-a, ili mogu koristiti API za izravnu integraciju.

Dnevni uvidi u slučajeve poslovne upotrebe uz VB Daily

Ako želite impresionirati svog šefa, VB Daily vas pokriva. Dajemo vam uvid u to što tvrtke rade s generativnom umjetnom inteligencijom, od regulatornih promjena do praktičnih implementacija, tako da možete podijeliti uvide za maksimalni ROI.

Pročitajte našu Politiku privatnosti

Hvala što ste se pretplatili. Više VB biltena pogledajte ovdje.

Došlo je do pogreške.

Web izvor

DeepSeek-R1 otvorenog koda koristi čisto učenje pojačanja za usklađivanje s OpenAI o1 — po 95% nižoj cijeni

ByTomšić Damjan

Što DeepSeek-R1 donosi na stol?

Cjevovod za obuku

Daleko pristupačniji od o1

By Tomšić Damjan

Pure DC pokreće kampus podatkovnih centara za umjetnu inteligenciju u Finskoj vrijedan 7,5 milijardi eura

Agentic orchestration: Enterprise AI organizations have a deployment problem, not a platform problem — and most are calling chatbots agents

Astronomi su po prvi put u povijesti pronašli molekulu šećera u dubokom svemiru

You missed

Pure DC pokreće kampus podatkovnih centara za umjetnu inteligenciju u Finskoj vrijedan 7,5 milijardi eura

Agentic orchestration: Enterprise AI organizations have a deployment problem, not a platform problem — and most are calling chatbots agents

Astronomi su po prvi put u povijesti pronašli molekulu šećera u dubokom svemiru

‘Rust ponovno čini kodiranje zabavnim’: Zašto se Linux udaljava od C-a, prema Gregu Kroah-Hartmanu

DeepSeek-R1 otvorenog koda koristi čisto učenje pojačanja za usklađivanje s OpenAI o1 — po 95% nižoj cijeni

ByTomšić Damjan

Što DeepSeek-R1 donosi na stol?

Cjevovod za obuku

Daleko pristupačniji od o1

By Tomšić Damjan

Related Post

Pure DC pokreće kampus podatkovnih centara za umjetnu inteligenciju u Finskoj vrijedan 7,5 milijardi eura

Agentic orchestration: Enterprise AI organizations have a deployment problem, not a platform problem — and most are calling chatbots agents

Astronomi su po prvi put u povijesti pronašli molekulu šećera u dubokom svemiru

You missed

Pure DC pokreće kampus podatkovnih centara za umjetnu inteligenciju u Finskoj vrijedan 7,5 milijardi eura

Agentic orchestration: Enterprise AI organizations have a deployment problem, not a platform problem — and most are calling chatbots agents

Astronomi su po prvi put u povijesti pronašli molekulu šećera u dubokom svemiru

‘Rust ponovno čini kodiranje zabavnim’: Zašto se Linux udaljava od C-a, prema Gregu Kroah-Hartmanu