Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o AI pokrivenosti vodećoj u industriji. Saznajte više
Kineski AI startup DeepSeekpoznat po izazivanju vodećih dobavljača umjetne inteligencije s tehnologijama otvorenog koda, upravo je izbacio još jednu bombu: novi LLM s otvorenim razmišljanjem pod nazivom DeepSeek-R1.
Na temelju nedavno predstavljenog modela DeepSeek V3 mix-of-experts, DeepSeek-R1 odgovara performansama o1, OpenAI-jevog frontier login LLM-a, u matematičkim, kodnim i rezonantnim zadacima. Najbolji dio? To čini po mnogo primamljivijoj cijeni, koja se pokazala 90-95% pristupačnijom od potonjeg.
Izdanje označava veliki korak naprijed u areni otvorenog koda. Pokazuje da otvoreni modeli dodatno smanjuju jaz u odnosu na zatvorene komercijalne modele u utrci za umjetnom općom inteligencijom (AGI). Kako bi pokazao snagu svog rada, DeepSeek je također koristio R1 za destilaciju šest modela Llama i Qwen, podižući njihove performanse na novu razinu. U jednom slučaju, destilirana verzija Qwen-1.5B nadmašila je mnogo veće modele, GPT-4o i Claude 3.5 Sonnet, u odabranim matematičkim mjerilima.
Ovi destilirani modeli, zajedno s glavni R1bili su otvorenog izvora i dostupni su na Hugging Face pod licencom MIT-a.
Sadržaj objave
Što DeepSeek-R1 donosi na stol?
Fokus se izoštrava na umjetnoj općoj inteligenciji (AGI), razini AI koja može obavljati intelektualne zadatke poput ljudi. Mnogi timovi rade na poboljšanju sposobnosti razmišljanja modela. OpenAI je napravio prvi značajan korak u domeni sa svojim modelom o1, koji koristi proces razmišljanja u lancu razmišljanja za rješavanje problema. Kroz RL (reinforcement learning ili optimizacija vođena nagradom), o1 uči usavršiti svoj lanac misli i poboljšati strategije koje koristi — u konačnici uči prepoznati i ispraviti svoje pogreške ili isprobati nove pristupe kada trenutni ne funkcioniraju.
Sada, nastavljajući rad u ovom smjeru, DeepSeek je izdao DeepSeek-R1, koji koristi kombinaciju RL-a i nadziranog finog podešavanja za rješavanje složenih zadataka zaključivanja i usklađivanje performansi s o1.
Prilikom testiranja DeepSeek-R1 postigao je 79,8% na AIME 2024 matematičkim testovima i 97,3% na MATH-500. Također je postigao ocjenu 2029 na Codeforcesu — bolje od 96,3% ljudskih programera. Nasuprot tome, o1-1217 postigao je 79,2%, 96,4% odnosno 96,6% na ovim referentnim vrijednostima.
Također je pokazao snažno opće znanje, s 90,8% točnosti na MMLU, odmah iza o1-ovih 91,8%.
Cjevovod za obuku
Rezonantna izvedba DeepSeek-R1 označava veliku pobjedu za kineski startup u prostoru umjetne inteligencije kojim dominiraju SAD, pogotovo zato što je cijeli rad otvorenog koda, uključujući kako je tvrtka istrenirala cijelu stvar.
Međutim, posao nije tako jednostavan kao što zvuči.
Prema dokumentu koji opisuje istraživanje, DeepSeek-R1 razvijen je kao poboljšana verzija DeepSeek-R1-Zero — revolucionarnog modela treniranog isključivo na temelju učenja potkrepljenja.
We are living in a timeline where a non-US company is keeping the original mission of OpenAI alive – truly open, frontier research that empowers all. It makes no sense. The most entertaining outcome is the most likely.
— Jim Fan (@DrJimFan) January 20, 2025
DeepSeek-R1 not only open-sources a barrage of models but… pic.twitter.com/M7eZnEmCOY
Tvrtka je prvo upotrijebila DeepSeek-V3-base kao osnovni model, razvijajući svoje sposobnosti zaključivanja bez korištenja nadziranih podataka, u biti fokusirajući se samo na svoju samoevoluciju kroz čisti proces pokušaja i pogreške temeljen na RL-u. Razvijena intrinzično iz rada, ova sposobnost osigurava da model može rješavati sve složenije zadatke razmišljanja iskorištavanjem produženog izračuna vremena testiranja za dublje istraživanje i usavršavanje svojih misaonih procesa.
“Tijekom treninga, DeepSeek-R1-Zero se prirodno pojavio s brojnim snažnim i zanimljivim načinima razmišljanja”, ističu istraživači u radu. “Nakon tisuća RL koraka, DeepSeek-R1-Zero pokazuje super performanse na rezonantnim referentnim vrijednostima. Na primjer, pass@1 rezultat na AIME 2024 povećava se s 15,6% na 71,0%, a s većinskim glasovanjem, rezultat se dodatno poboljšava na 86,7%, što odgovara performansama OpenAI-o1-0912.”
Međutim, unatoč tome što je pokazao poboljšanu izvedbu, uključujući ponašanja poput razmišljanja i istraživanja alternativa, početni model pokazao je neke probleme, uključujući lošu čitljivost i miješanje jezika. Kako bi to popravila, tvrtka je nadogradila posao obavljen za R1-Zero, koristeći višefazni pristup koji kombinira i nadzirano učenje i učenje s potkrepljenjem, i tako je došla do poboljšanog modela R1.
“Konkretno, počinjemo prikupljanjem tisuća podataka o hladnom pokretanju kako bismo fino podesili model DeepSeek-V3-Base”, objasnili su istraživači. “Slijedeći ovo, izvodimo RL usmjeren na razmišljanje poput DeepSeek-R1- Zero. Nakon što se približimo konvergenciji u RL procesu, stvaramo nove SFT podatke kroz uzorkovanje odbijanja na RL kontrolnoj točki, u kombinaciji s nadziranim podacima iz DeepSeek-V3 u domenama kao što su pisanje, činjenični QA i samospoznaja, a zatim ponovno obučavamo DeepSeek-V3 – Osnovni model. Nakon finog podešavanja s novim podacima, kontrolna točka prolazi dodatni RL proces, uzimajući u obzir upite iz svih scenarija. Nakon ovih koraka dobili smo kontrolnu točku nazvanu DeepSeek-R1, koja postiže performanse jednake performansama OpenAI-o1-1217.”
Daleko pristupačniji od o1
Uz poboljšane performanse koje gotovo odgovaraju OpenAI-jevom o1 u svim referentnim vrijednostima, novi DeepSeek-R1 također je vrlo pristupačan. Konkretno, gdje OpenAI o1 košta 15 USD po milijunu ulaznih tokena i 60 USD po milijunu izlaznih tokena, DeepSeek Reasoner, koji se temelji na modelu R1, troškovi 0,55 dolara po milijunu ulaznih i 2,19 dolara po milijunu izlaznih tokena.
https://twitter.com/EMostaque/status/1881310721746804810
Model se može testirati kao “DeepThink” na DeepSeek chat platformakoji je sličan ChatGPT-u. Zainteresirani korisnici mogu pristupiti težinama modela i repozitoriju kodova putem Hugging Facea, pod licencom MIT-a, ili mogu koristiti API za izravnu integraciju.
Web izvor



