Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više
Istraživači na Zajedno AI i Agensica Objavili su DeepCoder-14B, novi model kodiranja koji pruža impresivne performanse usporedive s vodećim vlasničkim modelima poput OpenAi’s O3-Mini.
Izgrađen na vrhu DeepSeek-R1, ovaj model daje veću fleksibilnost za integriranje mogućnosti stvaranja i obrazloženja visokih performansi u aplikacije u stvarnom svijetu. Važno je da su timovi u potpunosti otvorili model, njegove podatke o treningu, kôd, zapisnike i optimizacije sustava, što može pomoći istraživačima da poboljšaju svoj rad i ubrzaju napredak.
Sadržaj objave
Konkurentne mogućnosti kodiranja u manjem paketu
Eksperimenti istraživačkog tima pokazuju da DeepCoder-14B snažno djeluje na nekoliko izazovnih referentnih vrijednosti kodiranja, uključujući LiveCodeBench (LCB), Codeforces i Humaneval+.
“Naš model pokazuje snažne performanse na svim referentnim vrijednostima kodiranja … usporedivo s performansama O3-Mini (niskog) i O1”, pišu istraživači u a blog blog To opisuje model.
Zanimljivo je da je, iako je prvenstveno osposoban za zadatke kodiranja, model pokazuje poboljšano matematičko obrazloženje, postigavši 73,8% na AIME 2024 Benchmark, što je 4,1% poboljšanje u odnosu na njegov osnovni model (DeepSeek-R1-Destill-Qwen-14B). To sugerira da se vještine rasuđivanja razvijene kroz RL na kodu mogu se učinkovito generalizirati na druge domene.
Najupečatljiviji aspekt je postizanje ove razine performansi sa samo 14 milijardi parametara. To čini DeepCoder značajno manjim i potencijalno učinkovitijim za pokretanje od mnogih graničnih modela.
Inovacije koje pokreću performanse DeepCodera
Tijekom razvoja modela, istraživači su riješili neke od ključnih izazova u treningu kodiranja modela koristeći učenje ojačanja (RL).
Prvi izazov bio je kuriranje podataka o treningu. Učenje pojačanja zahtijeva pouzdane signale nagrade koji pokazuju da je izlaz modela točan. Kao što istraživači ističu, “za razliku od matematike-gdje obilni visokokvalitetni, provjerni podaci lako su dostupni na Internetu-domena kodiranja pati od relativne oskudice takvih podataka.”
Da bi riješio ovaj problem, tim DeepCoder -a implementirao je strogi cjevovod koji prikuplja primjere iz različitih skupova podataka i filtrira ih za valjanost, složenost i umnožavanje. Ovaj je postupak dao 24 000 visokokvalitetnih problema, pružajući solidne temelje za učinkovit RL trening.
Tim je također dizajnirao izravnu funkciju nagrade koja pruža pozitivan signal samo ako generirani kôd prođe sve uzorkovane jedinice testova za problem u određenom vremenskom ograničenju. U kombinaciji s visokokvalitetnim primjerima treninga, ovaj sustav nagrađivanja usmjerenog na ishod sprječava da model učenje trikova poput tiska memoriranih odgovora za javne testove ili optimizacije za jednostavne rubne slučajeve bez rješavanja temeljnog problema.
Modelni algoritam za obuku modela temelji se na optimizaciji relativne politike grupe (GRPO), algoritmu za učenje pojačanja koji se pokazao vrlo uspješnim u DeepSeek-R1. Međutim, tim je napravio nekoliko modifikacija algoritma kako bi ga učinili stabilnijim i omogućio modelu da se nastavi poboljšati kako se trening proteže duže vrijeme.
Konačno, tim je iterativno proširio kontekstni prozor modela, prvo ga treniraju na kraćim sekvencama i postupno povećavajući duljinu. Također su razvili metodu filtriranja kako bi se izbjeglo kažnjavanje modela kada je stvorio lance obrazloženja koji su premašili ograničenja konteksta prilikom rješavanja tvrdog prozora.
Istraživači objašnjavaju temeljnu ideju: „Da bismo sačuvali rasuđivanje dugog konteksta, omogućujući učinkovit trening, ugradili smo filtriranje prenapučenih… Ova tehnika maskira skraćene sekvence tijekom treninga kako bi modeli ne kažnjeni za generiranje promišljenih, ali dugotrajnih izlaza koji premašuju trenutno ograničenje konteksta.“
Trening se postupno smanjuje od 16K na 32K kontekstni prozor, a rezultirajući model također bi mogao riješiti probleme koji su zahtijevali do 64K tokena.
Optimiziranje dugog konteksta RL treninga
Trening velikih modela s RL -om, posebno na zadacima koji zahtijevaju dugo generirane sekvence poput kodiranja ili složenog rasuđivanja, računski je intenzivan i spor. Glavno usko grlo je korak “uzorkovanja”, gdje model stvara potencijalno tisuće tokena po primjeru u šarži. Varijacije u duljini odgovora znače da neki odgovori završavaju mnogo kasnije od drugih, ostavljajući GPU -ove u praznom hodu i usporavajući cijelu petlju za trening.
Da bi to ubrzao, tim je razvio Verl-PIPELINE, optimizirano proširenje biblioteke Verl otvorenog koda za Učenje pojačanja iz ljudskih povratnih informacija (RLHF). Ključna inovacija, koju nazivaju “jednokratno cjevovodno”, preuređuje uzorkovanje odgovora i ažuriranja modela kako bi se smanjila uska grla i vrijeme ubrzavanja ubrzavanja.
Njihovi eksperimenti pokazali su da je jednokratna cjevovoda osigurala 2x ubrzavanje za kodiranje RL zadataka u usporedbi s osnovnim implementacijama. Ova je optimizacija bila presudna za obuku DeepCoder-a u razumnom vremenskom okviru (2,5 tjedna na 32 H100) i sada je otvorena kao dio Verl-PIPELENE-a za zajednicu koja bi mogla koristiti i izgraditi.
Utjecaj poduzeća
Istraživači su učinili sve artefakte za trening i vođenje DeepCoder-14b Ždrijeb i Zagrljaj lica pod dopuštenom licencom.
“Potpunim dijeljenjem našeg skupa podataka, koda i recepta za obuku, osnažujemo zajednicu da reproducira svoj rad i učini da RL obuka bude dostupna svima”, pišu istraživači.
DeepCoder-14B snažno ilustrira širi, ubrzavajući trend u AI krajoliku: porast visoko sposobnih, ali učinkovitih i otvoreno dostupnih modela.
Za Enterprise World, ovaj pomak označava više opcija i veću dostupnost naprednih modela. Vrhunski performanse više nisu samo domena hiperscalera ili onih koji su spremni platiti vrhunske API naknade. Modeli poput DeepCoder -a mogu osnažiti organizacije svih veličina kako bi iskoristili sofisticirano stvaranje i obrazloženje koda, prilagodili rješenja njihovim specifičnim potrebama i sigurno ih implementirati u njihovo okruženje.
Ovaj trend može smanjiti prepreku za ulazak za usvajanje AI i poticati konkurentniji i inovativniji ekosustav, gdje se napredak pokreće kroz suradnju otvorenog koda.
Web izvor