Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Sada je na redu Tiktok roditelja Bytetlance za AI: Unesite sjeme-razmišljanje-V1.5!

Novosti

Sada je na redu Tiktok roditelja Bytetlance za AI: Unesite sjeme-razmišljanje-V1.5!

Tomšić Damjan 12. travnja 2025


Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više


Započelo je najavom OpenAi’s O1 modela u rujnu 2024. godine, ali stvarno se poletio s izdanjem Deepseeka R1 u siječnju 2025. godine.

Sada se čini da je većina glavnih pružatelja AI modela i trenera u novoj utrci da isporuče bolje, brže i jeftinije modele jezika AI-to jesu oni koji možda trebaju malo više da odgovore na ljudskog korisnika, ali idealno to čine s boljim, sveobuhvatnijim, više „obrazloženim“ odgovorima, kojim se obraćaju “, koji su se mogli obraćati,„ Organiziranje “.

ByTottance, kineski divovski roditelj Tiktoka, najnoviji je koji će se pridružiti stranci s najava i Objava tehničkog rada Iza sjemenki-razmišljanja-V1.5, nadolazeći model velikog jezika (LLM) dizajniran za unapređenje rasuđivanja performansi u poljima znanosti, tehnologije, matematike i inženjerstva (STEM) i domena opće namjene.

Model još nije dostupan za preuzimanje ili upotrebu, a nejasno je koji će biti uvjeti licenciranja – bilo da će biti vlasnički/zatvoreni izvor, otvoreni izvor/besplatno za sve korištenje i izmjenu po volji ili negdje između. Međutim, tehnički rad pruža neke značajne detalje koje vrijedi prijeći i prije nego što su dostupni.

Sadržaj objave

  • 1 Izgrađena na vrhu sve popularnije arhitekture mješavine (MOE)
  • 2 Mjerilo performansi i fokus modela
  • 3 Strategija podataka
  • 4 Pristup učenju pojačanja
  • 5 Infrastruktura i skaliranje
  • 6 Ljudska procjena i utjecaj u stvarnom svijetu
  • 7 Što to znači za tehničke vođe, inženjere podataka i donositelje odluka o poduzeću
  • 8 Budući izgledi
    • 8.1 Povezani sadržaji

Izgrađena na vrhu sve popularnije arhitekture mješavine (MOE)

Poput Meta novog Llama 4 i Mistral-ovog Mixtral-a prije njega, sjeme-razmišljanje-V1.5 izgrađen je pomoću arhitekture mješavine (MOE).

Ova je arhitektura dizajnirana tako da modeli učine učinkovitijim. U osnovi kombinira mogućnosti više modela u jedan, svaki specijalizirani za različitu domenu.

U ovom slučaju, MOE arhitektura znači da istovremeno samo 20 milijardi parametara od 200 milijardi parametara.

Bytedlance kaže u svom Tehnički rad objavljen GitHub -u Taj sjeme-razmišljanje-V1.5 prioritet daje strukturirano obrazloženje i promišljeno stvaranje odgovora.

Rezultati gotovo govore sami za sebe, s tim da sjeme-razmišljanje-V1.5 nadmašuje DeepSeek R1 i približava se Googleovom novoobjavljenom GEMINI 2.5 Pro i OpenAi-jevom O3-Mini-visokom razmišljanju o mnogim procjenama referentnih vrijednosti trećih strana. Čak premašuje ta dva u slučaju Referentna vrijednost lukakoja mjeri napredak prema umjetnoj općoj inteligenciji, koja se vidi kao cilj ili “sveti gral” AI. Ovaj model nadmašuje ljude na većinu ekonomski vrijednih zadataka, prema definiciji OpenAi.

Pozicioniran kao kompaktna, ali sposobna alternativa većim najmodernijim modelima, sjeme-razmišljanje-v1.5 postiže konkurentne referentne rezultate. Uvodi inovacije za učenje ojačanja (RL), kustos podataka o obuci i AI infrastrukturu.

Mjerilo performansi i fokus modela

Sjeme-razmišljanje-V1.5 pokazuje snažne performanse na paketu izazovnih zadataka, postigavši ​​86,7% na AIME 2024, 55,0% prolaz@8 na Codeforces i 77,3% na GPQA Science Benchmark. Ovi rezultati postavljaju ga blizu ili odgovarajućim modelima poput OpenAi’s O3-Mini-High-High-a i Googleovog GEMINI 2.5 Pro na specifične metrike obrazloženja.

U zadacima koji nisu rezolucirani, model je ocijenjen usporedbom ljudskih preferencija i postigao je 8,0% veću stopu pobjede u odnosu na DeepSeek R1, što sugerira da njegove snage generaliziraju izvan logičkih ili matematičkih izazova.

Za rješavanje zasićenja u standardnim mjerilima poput AIME -a, ByTottance uvedeno izvan, novu, tvrđu matematičku referentnu vrijednost s kuriranim problemima namijenjenim odupiranju memorizaciji i bolje diskriminiranju performansi modela. Očekuje se da će ovaj i set evaluacije CodeForces biti javno objavljen kako bi podržao buduća istraživanja.

Strategija podataka

Podaci o treningu igrali su središnju ulogu u razvoju modela. Za nadzirani fino podešavanje (SFT), tim je kurirao 400 000 uzoraka, uključujući 300 000 provjerljivih (STEM, logika i kodirajuće zadatke) i 100 000 problema koji se ne mogu provjeriti poput kreativnog pisanja i igranja uloga.

Za RL obuku, podaci su segmentirani u:

  • Problemi s provjerljivim: 100.000 rigorozno filtrirana stabljika pitanja i logičke zagonetke s poznatim odgovorima, dobivenim iz elitnih natjecanja i stručnjaka.
  • Zadaci koji se ne mogu provjeriti: skupovi podataka o ljudskim preferencijama usredotočeni na otvorene upute, ocijenjene pomoću modela s parskim nagradama.

Podaci STEM -a uvelike su se oslanjali na naprednu matematiku, što čini više od 80% skupa problema. Dodatni logički podaci uključivali su zadatke poput SUDOKU-a i zagonetki od 24 točke, s podesivim poteškoćama u skladu s napretkom modela.

Pristup učenju pojačanja

Učenje pojačanja u sjemenu-razmišljanju-V1.5 pokreće se prilagođenim okvirima aktera-kritičnih (VAPO) i političkih (DAPO), razvijenih za rješavanje poznatih nestabilnosti u treningu RL-a. Ove tehnike smanjuju neugodnost signala nagrađivanja i povećavaju stabilnost treninga, posebno u postavkama dugog lanca (COT).

Modeli nagrađivanja igraju kritičnu ulogu u nadzoru RL izlaza. ByTottance je uveo dva ključna alata:

  • Povjerenik sjemena: LLM temeljen na pravilima koji provjerava je li generirani i referentni odgovori matematički ekvivalentni.
  • Venifikator sjemenki: Sudac koji se temelji na koraku, koji poboljšava dosljednost presude i odupire se nagradama.

Ovaj dvoslojni sustav nagrađivanja omogućuje nijansiranu procjenu i za izravne i za složene zadatke.

Infrastruktura i skaliranje

Da bi podržao učinkovit trening velikih razmjera, Bytetenda je izgradio sustav na svom hibridflow okviru. Izvođenje upravljaju zračnim klasterima, a procesi treninga i zaključivanja su smješteni kako bi se smanjilo vrijeme u praznom hoda GPU-a.

Streaming Rollout System (SRS) zapažena je inovacija koja razdvaja evoluciju modela od izvođenja izvođenja. Ubrzava brzinu iteracije asinkronim upravljanjem djelomično dovršenim generacijama kroz verzije modela. Ova arhitektura navodno isporučuje do 3 × brže RL cikluse.

Dodatne tehnike infrastrukture uključuju:

  • Mješovita preciznost (FP8) za uštedu memorije
  • Stručni paralelizam i automatsko podešavanje kernela za učinkovitost MOE
  • ByteCheckPoint za otporno i fleksibilno kontrolne točke
  • Autotuner za optimizaciju paralelizma i konfiguracije memorije

Ljudska procjena i utjecaj u stvarnom svijetu

Za procjenu usklađivanja s preferencijama usredotočenim na čovjeka, ByTottance je provodio ljudsko testiranje u različitim domenama, uključujući kreativno pisanje, znanje o humanističkim znanostima i opći razgovor.

Sjeme-razmišljanje-V1.5 dosljedno je nadmašio DeepSeek R1 tijekom sesija, pojačavajući njegovu primjenjivost na potrebe korisnika u stvarnom svijetu.

Razvojni tim napominje da su modeli obrazloženja obučene prvenstveno na provjerljive zadatke pokazali snažnu generalizaciju kreativnim domenama – ishod koji se pripisuje strukturi i strogosti ugrađene u radne tokove matematičkog treninga.

Što to znači za tehničke vođe, inženjere podataka i donositelje odluka o poduzeću

Za tehničke vodiče upravljanja životnim ciklusom velikih jezičnih modela-od kuriranja podataka do implementacije-sjemenki-razmišljanja-V1.5 predstavlja priliku za preispitivanje načina na koji su mogućnosti rasuđivanja integrirane u AI hrpe poduzeća.

Njegov modularni postupak treninga, koji uključuje provjerljive obrazloženje podataka i višefazno učenje pojačanja, posebno privlači timove koji žele razmjestiti razvoj LLM-a, a istovremeno zadržavaju finozrnatu kontrolu.

ByTottance-ovi potezi za uvođenje verifikatora sjemena i ventifikatora za razmišljanje sjemena nude mehanizme za pouzdanije modeliranje nagrada, što može biti presudno prilikom raspoređivanja modela u okruženja koja su okrenuta prema kupcima ili regulirana.

Za timove koji djeluju u tijesnim rokovima i ograničenom propusnošću, stabilnost modela pod učenjem pojačanja, omogućena inovacijama poput VAPO-a i dinamičkog uzorkovanja, mogla bi smanjiti cikluse iteracije i pojednostaviti fino podešavanje za određene zadatke.

Iz perspektive orkestracije i implementacije, hibridni infrastrukturni pristup modelu – uključujući sustav za prenošenje streaminga (SRS) i podršku za FP8 optimizaciju – dostižu značajne dobitke u propusnosti treninga i korištenju hardvera.

Ove bi značajke bile vrijedne za inženjere odgovorne za skaliranje LLM operacija u oblacima i on-prem sustavima. Činjenica da je sjeme-razmišljanje-V1.5 osposobljena mehanizmima za prilagodbu povratnih informacija o nagrađivanju na temelju dinamike izvođenja govori izravno na izazove upravljanja heterogenim cjevovodima i održavanja dosljednosti u svim domenama.

Za timove koji imaju zadatak osigurati pouzdanost, obnovljivost i kontinuiranu integraciju novih alata, dizajn na razini sistema na razini sjemena-promišljenog na razini sjemena mogao bi poslužiti kao nacrt za izgradnju robusnih, multi-modalnih sustava orkestracije.

Za stručnjake za inženjering podataka, strukturirani pristup podacima o obuci – uključujući rigorozno filtriranje, povećanje i stručnu provjeru – pokazuje važnost kvalitete podataka kao množitelja performansi modela. To bi moglo potaknuti namjernije pristupe cjevovodima za razvoj podataka i validacije.

Budući izgledi

Sjeme-razmišljanje-V1.5 rezultati iz suradnje unutar tima Bytetendan’s Seed LLM Systems, na čelu s Yonghui Wu, a s javnim zastupljenošću Haibina Lin-a, dugogodišnjeg suradnika AI-ja.

Projekt se također temelji na prethodnim naporima, kao što je Doubao 1.5 Pro, i uključuje zajedničke tehnike u RLHF i kuriranje podataka.

Tim planira nastaviti usavršavati tehnike učenja ojačanja, usredotočujući se na učinkovitost obuke i modeliranje nagrađivanja za zadatke koji se ne mogu provjeriti. Javno izdanje unutarnjih mjerila poput BeyondAime-a namijenjeno je poticanju šireg napretka u istraživanju AI usmjerenog na rasuđivanje.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Izvlačenje ovih 50 predmeta iz orbite smanjilo bi opasnost od svemirskog smeća na pola
  • Coidi -snimci uskoro će biti široko dostupniCoidi -snimci uskoro će biti široko dostupni
  • Mješavina rekurzija donosi 2x brže zaključivanje-evo kako je implementiratiMješavina rekurzija donosi 2x brže zaključivanje-evo kako je implementirati
  • Kako generirati slučajne lozinke iz naredbenog retka LinuxKako generirati slučajne lozinke iz naredbenog retka Linux
  • Kako inženjering konteksta može spasiti vašu tvrtku od preopterećenja AI vibe kodom: lekcije s Qoda i Monday.comKako inženjering konteksta može spasiti vašu tvrtku od preopterećenja AI vibe kodom: lekcije s Qoda i Monday.com
  • Potraga jednog fotografa da redefinira morski pasPotraga jednog fotografa da redefinira morski pas

Previous Article

Jedan čovjek potraga za počiniteljstvom doline Rio Grande

Next Article

Nokia tvrdi da je rekord vanjskih valnih duljina, pojačava bežično povezivanje događaja

Posljednje objave

Samsung mrzi novac, 1000 USD popusta na Galaxy Z Fold 7 s 2x prostora za pohranu

Samsung mrzi novac, 1000 USD popusta na Galaxy Z Fold 7 s 2x prostora za pohranu

Ekscentrična serija Battle Royale-meets-Ace Attorney Danganronpa dosegla je 10 milijuna prodanih cijena

Ekscentrična serija Battle Royale-meets-Ace Attorney Danganronpa dosegla je 10 milijuna prodanih cijena

10 najvažnijih priča o umrežavanju 2025

Sadržaj

  • 1 Izgrađena na vrhu sve popularnije arhitekture mješavine (MOE)
  • 2 Mjerilo performansi i fokus modela
  • 3 Strategija podataka
  • 4 Pristup učenju pojačanja
  • 5 Infrastruktura i skaliranje
  • 6 Ljudska procjena i utjecaj u stvarnom svijetu
  • 7 Što to znači za tehničke vođe, inženjere podataka i donositelje odluka o poduzeću
  • 8 Budući izgledi

Novosti

  • Samsung mrzi novac, 1000 USD popusta na Galaxy Z Fold 7 s 2x prostora za pohranu 25. prosinca 2025
  • Ekscentrična serija Battle Royale-meets-Ace Attorney Danganronpa dosegla je 10 milijuna prodanih cijena 25. prosinca 2025
  • 10 najvažnijih priča o umrežavanju 2025 25. prosinca 2025
  • Red teaming LLMs exposes a harsh truth about the AI security arms race 24. prosinca 2025
  • AlphaFold je promijenio znanost. Nakon 5 godina, još uvijek se razvija 24. prosinca 2025
  • 10 besplatnih Windows aplikacija koje su poboljšale moju produktivnost (i za koje bih lako platio) 24. prosinca 2025
  • Pixels Nabavite ažuriranje za Android 16 QPR3 Beta 1.1 Fixer 24. prosinca 2025
  • Sretan Božić, igra James Bond 007 First Light je odgođena 24. prosinca 2025
  • Vlada Ujedinjenog Kraljevstva dodatno proširuje ruralnu 4G pokrivenost putem SRN-a 24. prosinca 2025
  • Od pomoći do autonomije: Kako agentska umjetna inteligencija redefinira poduzeća 23. prosinca 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice