Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

DeepCoder pruža vrhunske performanse kodiranja u učinkovitom modelu otvorenog 14b

Novosti

DeepCoder pruža vrhunske performanse kodiranja u učinkovitom modelu otvorenog 14b

Tomšić Damjan 11. travnja 2025


Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više


Istraživači na Zajedno AI i Agensica Objavili su DeepCoder-14B, novi model kodiranja koji pruža impresivne performanse usporedive s vodećim vlasničkim modelima poput OpenAi’s O3-Mini.

Izgrađen na vrhu DeepSeek-R1, ovaj model daje veću fleksibilnost za integriranje mogućnosti stvaranja i obrazloženja visokih performansi u aplikacije u stvarnom svijetu. Važno je da su timovi u potpunosti otvorili model, njegove podatke o treningu, kôd, zapisnike i optimizacije sustava, što može pomoći istraživačima da poboljšaju svoj rad i ubrzaju napredak.

Sadržaj objave

  • 1 Konkurentne mogućnosti kodiranja u manjem paketu
  • 2 Inovacije koje pokreću performanse DeepCodera
  • 3 Optimiziranje dugog konteksta RL treninga
  • 4 Utjecaj poduzeća
    • 4.1 Povezani sadržaji

Konkurentne mogućnosti kodiranja u manjem paketu

Eksperimenti istraživačkog tima pokazuju da DeepCoder-14B snažno djeluje na nekoliko izazovnih referentnih vrijednosti kodiranja, uključujući LiveCodeBench (LCB), Codeforces i Humaneval+.

“Naš model pokazuje snažne performanse na svim referentnim vrijednostima kodiranja … usporedivo s performansama O3-Mini (niskog) i O1”, pišu istraživači u a blog blog To opisuje model.

Zanimljivo je da je, iako je prvenstveno osposoban za zadatke kodiranja, model pokazuje poboljšano matematičko obrazloženje, postigavši ​​73,8% na AIME 2024 Benchmark, što je 4,1% poboljšanje u odnosu na njegov osnovni model (DeepSeek-R1-Destill-Qwen-14B). To sugerira da se vještine rasuđivanja razvijene kroz RL na kodu mogu se učinkovito generalizirati na druge domene.

Kredit: Zajedno AI

Najupečatljiviji aspekt je postizanje ove razine performansi sa samo 14 milijardi parametara. To čini DeepCoder značajno manjim i potencijalno učinkovitijim za pokretanje od mnogih graničnih modela.

Inovacije koje pokreću performanse DeepCodera

Tijekom razvoja modela, istraživači su riješili neke od ključnih izazova u treningu kodiranja modela koristeći učenje ojačanja (RL).

Prvi izazov bio je kuriranje podataka o treningu. Učenje pojačanja zahtijeva pouzdane signale nagrade koji pokazuju da je izlaz modela točan. Kao što istraživači ističu, “za razliku od matematike-gdje obilni visokokvalitetni, provjerni podaci lako su dostupni na Internetu-domena kodiranja pati od relativne oskudice takvih podataka.”

Da bi riješio ovaj problem, tim DeepCoder -a implementirao je strogi cjevovod koji prikuplja primjere iz različitih skupova podataka i filtrira ih za valjanost, složenost i umnožavanje. Ovaj je postupak dao 24 000 visokokvalitetnih problema, pružajući solidne temelje za učinkovit RL trening.

Tim je također dizajnirao izravnu funkciju nagrade koja pruža pozitivan signal samo ako generirani kôd prođe sve uzorkovane jedinice testova za problem u određenom vremenskom ograničenju. U kombinaciji s visokokvalitetnim primjerima treninga, ovaj sustav nagrađivanja usmjerenog na ishod sprječava da model učenje trikova poput tiska memoriranih odgovora za javne testove ili optimizacije za jednostavne rubne slučajeve bez rješavanja temeljnog problema.

Modelni algoritam za obuku modela temelji se na optimizaciji relativne politike grupe (GRPO), algoritmu za učenje pojačanja koji se pokazao vrlo uspješnim u DeepSeek-R1. Međutim, tim je napravio nekoliko modifikacija algoritma kako bi ga učinili stabilnijim i omogućio modelu da se nastavi poboljšati kako se trening proteže duže vrijeme.

Grpo+ omogućuje DeepCoder-14 da nastavi dulje trajanje bez srušavanja kredita: Zajedno AI

Konačno, tim je iterativno proširio kontekstni prozor modela, prvo ga treniraju na kraćim sekvencama i postupno povećavajući duljinu. Također su razvili metodu filtriranja kako bi se izbjeglo kažnjavanje modela kada je stvorio lance obrazloženja koji su premašili ograničenja konteksta prilikom rješavanja tvrdog prozora.

DeepCoder je obučen na 32K kontekstnim problemima, ali je također mogao riješiti 64K zadatke kredita: Zajedno AI

Istraživači objašnjavaju temeljnu ideju: „Da bismo sačuvali rasuđivanje dugog konteksta, omogućujući učinkovit trening, ugradili smo filtriranje prenapučenih… Ova tehnika maskira skraćene sekvence tijekom treninga kako bi modeli ne kažnjeni za generiranje promišljenih, ali dugotrajnih izlaza koji premašuju trenutno ograničenje konteksta.“

Trening se postupno smanjuje od 16K na 32K kontekstni prozor, a rezultirajući model također bi mogao riješiti probleme koji su zahtijevali do 64K tokena.

Optimiziranje dugog konteksta RL treninga

Trening velikih modela s RL -om, posebno na zadacima koji zahtijevaju dugo generirane sekvence poput kodiranja ili složenog rasuđivanja, računski je intenzivan i spor. Glavno usko grlo je korak “uzorkovanja”, gdje model stvara potencijalno tisuće tokena po primjeru u šarži. Varijacije u duljini odgovora znače da neki odgovori završavaju mnogo kasnije od drugih, ostavljajući GPU -ove u praznom hodu i usporavajući cijelu petlju za trening.

Da bi to ubrzao, tim je razvio Verl-PIPELINE, optimizirano proširenje biblioteke Verl otvorenog koda za Učenje pojačanja iz ljudskih povratnih informacija (RLHF). Ključna inovacija, koju nazivaju “jednokratno cjevovodno”, preuređuje uzorkovanje odgovora i ažuriranja modela kako bi se smanjila uska grla i vrijeme ubrzavanja ubrzavanja.

Jednokratna cjevovoda

Njihovi eksperimenti pokazali su da je jednokratna cjevovoda osigurala 2x ubrzavanje za kodiranje RL zadataka u usporedbi s osnovnim implementacijama. Ova je optimizacija bila presudna za obuku DeepCoder-a u razumnom vremenskom okviru (2,5 tjedna na 32 H100) i sada je otvorena kao dio Verl-PIPELENE-a za zajednicu koja bi mogla koristiti i izgraditi.

Utjecaj poduzeća

Istraživači su učinili sve artefakte za trening i vođenje DeepCoder-14b Ždrijeb i Zagrljaj lica pod dopuštenom licencom.

“Potpunim dijeljenjem našeg skupa podataka, koda i recepta za obuku, osnažujemo zajednicu da reproducira svoj rad i učini da RL obuka bude dostupna svima”, pišu istraživači.

DeepCoder-14B snažno ilustrira širi, ubrzavajući trend u AI krajoliku: porast visoko sposobnih, ali učinkovitih i otvoreno dostupnih modela.

Za Enterprise World, ovaj pomak označava više opcija i veću dostupnost naprednih modela. Vrhunski performanse više nisu samo domena hiperscalera ili onih koji su spremni platiti vrhunske API naknade. Modeli poput DeepCoder -a mogu osnažiti organizacije svih veličina kako bi iskoristili sofisticirano stvaranje i obrazloženje koda, prilagodili rješenja njihovim specifičnim potrebama i sigurno ih implementirati u njihovo okruženje.

Ovaj trend može smanjiti prepreku za ulazak za usvajanje AI i poticati konkurentniji i inovativniji ekosustav, gdje se napredak pokreće kroz suradnju otvorenog koda.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Igre za promjene festivala traje u NYC -u 26. do 27. lipnja
  • Kako brzo spremiti i zatvoriti više Ms Office dokumenata?
  • Ex-Sega Studio Relic opisuje buduće planove nakon prošlogodišnjeg podjeleEx-Sega Studio Relic opisuje buduće planove nakon prošlogodišnjeg podjele
  • 450 dolara i 19 sati je sve što je potrebno da se mjeri s OpenAI-jevim o1-previewom450 dolara i 19 sati je sve što je potrebno da se mjeri s OpenAI-jevim o1-previewom
  • Dodajte natrag Quick Launch Bar u Windows 7
  • Stvaranje globalnog paketa za rješavanje problema plastikeStvaranje globalnog paketa za rješavanje problema plastike

Previous Article

Eksperimentalna tableta za pretilost oponaša operaciju želučane zaobilaznice

Next Article

Comms Consortium poziva na veću budnost na sigurnosnoj sigurnosti kabela

Posljednje objave

Njemačka država zamjenjuje Microsoft Exchange i Outlook e-poštom otvorenog koda

Samsung nudi 100 dolara trenutačne ponude novim korisnicima XR slušalica prije nego što je Upakiran

Google fotografije stvaranje kolaža dobiva velika poboljšanja

Google fotografije stvaranje kolaža dobiva velika poboljšanja

Sadržaj

  • 1 Konkurentne mogućnosti kodiranja u manjem paketu
  • 2 Inovacije koje pokreću performanse DeepCodera
  • 3 Optimiziranje dugog konteksta RL treninga
  • 4 Utjecaj poduzeća

Novosti

  • Njemačka država zamjenjuje Microsoft Exchange i Outlook e-poštom otvorenog koda 15. listopada 2025
  • Samsung nudi 100 dolara trenutačne ponude novim korisnicima XR slušalica prije nego što je Upakiran 15. listopada 2025
  • Google fotografije stvaranje kolaža dobiva velika poboljšanja 14. listopada 2025
  • Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent 14. listopada 2025
  • Sita otkriva prevlake za vlaknastim optičkim aerodromima 14. listopada 2025
  • Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata 14. listopada 2025
  • Kako učiniti STEM smiješnim – i idi virusno radeći 14. listopada 2025
  • 10 Windows aplikacija otvorenog koda ne mogu živjeti – i svi su besplatni 14. listopada 2025
  • Isprobao sam pametne naočale s XMEMS zvučnicima i aktivnim hlađenjem – i puni su obećanja 13. listopada 2025
  • Moramo se približiti pokretanju Galaxy XR 13. listopada 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice