Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više
Započelo je najavom OpenAi’s O1 modela u rujnu 2024. godine, ali stvarno se poletio s izdanjem Deepseeka R1 u siječnju 2025. godine.
Sada se čini da je većina glavnih pružatelja AI modela i trenera u novoj utrci da isporuče bolje, brže i jeftinije modele jezika AI-to jesu oni koji možda trebaju malo više da odgovore na ljudskog korisnika, ali idealno to čine s boljim, sveobuhvatnijim, više „obrazloženim“ odgovorima, kojim se obraćaju “, koji su se mogli obraćati,„ Organiziranje “.
ByTottance, kineski divovski roditelj Tiktoka, najnoviji je koji će se pridružiti stranci s najava i Objava tehničkog rada Iza sjemenki-razmišljanja-V1.5, nadolazeći model velikog jezika (LLM) dizajniran za unapređenje rasuđivanja performansi u poljima znanosti, tehnologije, matematike i inženjerstva (STEM) i domena opće namjene.
Model još nije dostupan za preuzimanje ili upotrebu, a nejasno je koji će biti uvjeti licenciranja – bilo da će biti vlasnički/zatvoreni izvor, otvoreni izvor/besplatno za sve korištenje i izmjenu po volji ili negdje između. Međutim, tehnički rad pruža neke značajne detalje koje vrijedi prijeći i prije nego što su dostupni.
Sadržaj objave
- 1 Izgrađena na vrhu sve popularnije arhitekture mješavine (MOE)
- 2 Mjerilo performansi i fokus modela
- 3 Strategija podataka
- 4 Pristup učenju pojačanja
- 5 Infrastruktura i skaliranje
- 6 Ljudska procjena i utjecaj u stvarnom svijetu
- 7 Što to znači za tehničke vođe, inženjere podataka i donositelje odluka o poduzeću
- 8 Budući izgledi
Izgrađena na vrhu sve popularnije arhitekture mješavine (MOE)
Poput Meta novog Llama 4 i Mistral-ovog Mixtral-a prije njega, sjeme-razmišljanje-V1.5 izgrađen je pomoću arhitekture mješavine (MOE).
Ova je arhitektura dizajnirana tako da modeli učine učinkovitijim. U osnovi kombinira mogućnosti više modela u jedan, svaki specijalizirani za različitu domenu.
U ovom slučaju, MOE arhitektura znači da istovremeno samo 20 milijardi parametara od 200 milijardi parametara.
Bytedlance kaže u svom Tehnički rad objavljen GitHub -u Taj sjeme-razmišljanje-V1.5 prioritet daje strukturirano obrazloženje i promišljeno stvaranje odgovora.
Rezultati gotovo govore sami za sebe, s tim da sjeme-razmišljanje-V1.5 nadmašuje DeepSeek R1 i približava se Googleovom novoobjavljenom GEMINI 2.5 Pro i OpenAi-jevom O3-Mini-visokom razmišljanju o mnogim procjenama referentnih vrijednosti trećih strana. Čak premašuje ta dva u slučaju Referentna vrijednost lukakoja mjeri napredak prema umjetnoj općoj inteligenciji, koja se vidi kao cilj ili “sveti gral” AI. Ovaj model nadmašuje ljude na većinu ekonomski vrijednih zadataka, prema definiciji OpenAi.
Pozicioniran kao kompaktna, ali sposobna alternativa većim najmodernijim modelima, sjeme-razmišljanje-v1.5 postiže konkurentne referentne rezultate. Uvodi inovacije za učenje ojačanja (RL), kustos podataka o obuci i AI infrastrukturu.
Mjerilo performansi i fokus modela
Sjeme-razmišljanje-V1.5 pokazuje snažne performanse na paketu izazovnih zadataka, postigavši 86,7% na AIME 2024, 55,0% prolaz@8 na Codeforces i 77,3% na GPQA Science Benchmark. Ovi rezultati postavljaju ga blizu ili odgovarajućim modelima poput OpenAi’s O3-Mini-High-High-a i Googleovog GEMINI 2.5 Pro na specifične metrike obrazloženja.
U zadacima koji nisu rezolucirani, model je ocijenjen usporedbom ljudskih preferencija i postigao je 8,0% veću stopu pobjede u odnosu na DeepSeek R1, što sugerira da njegove snage generaliziraju izvan logičkih ili matematičkih izazova.
Za rješavanje zasićenja u standardnim mjerilima poput AIME -a, ByTottance uvedeno izvan, novu, tvrđu matematičku referentnu vrijednost s kuriranim problemima namijenjenim odupiranju memorizaciji i bolje diskriminiranju performansi modela. Očekuje se da će ovaj i set evaluacije CodeForces biti javno objavljen kako bi podržao buduća istraživanja.
Strategija podataka
Podaci o treningu igrali su središnju ulogu u razvoju modela. Za nadzirani fino podešavanje (SFT), tim je kurirao 400 000 uzoraka, uključujući 300 000 provjerljivih (STEM, logika i kodirajuće zadatke) i 100 000 problema koji se ne mogu provjeriti poput kreativnog pisanja i igranja uloga.
Za RL obuku, podaci su segmentirani u:
- Problemi s provjerljivim: 100.000 rigorozno filtrirana stabljika pitanja i logičke zagonetke s poznatim odgovorima, dobivenim iz elitnih natjecanja i stručnjaka.
- Zadaci koji se ne mogu provjeriti: skupovi podataka o ljudskim preferencijama usredotočeni na otvorene upute, ocijenjene pomoću modela s parskim nagradama.
Podaci STEM -a uvelike su se oslanjali na naprednu matematiku, što čini više od 80% skupa problema. Dodatni logički podaci uključivali su zadatke poput SUDOKU-a i zagonetki od 24 točke, s podesivim poteškoćama u skladu s napretkom modela.
Pristup učenju pojačanja
Učenje pojačanja u sjemenu-razmišljanju-V1.5 pokreće se prilagođenim okvirima aktera-kritičnih (VAPO) i političkih (DAPO), razvijenih za rješavanje poznatih nestabilnosti u treningu RL-a. Ove tehnike smanjuju neugodnost signala nagrađivanja i povećavaju stabilnost treninga, posebno u postavkama dugog lanca (COT).
Modeli nagrađivanja igraju kritičnu ulogu u nadzoru RL izlaza. ByTottance je uveo dva ključna alata:
- Povjerenik sjemena: LLM temeljen na pravilima koji provjerava je li generirani i referentni odgovori matematički ekvivalentni.
- Venifikator sjemenki: Sudac koji se temelji na koraku, koji poboljšava dosljednost presude i odupire se nagradama.
Ovaj dvoslojni sustav nagrađivanja omogućuje nijansiranu procjenu i za izravne i za složene zadatke.
Infrastruktura i skaliranje
Da bi podržao učinkovit trening velikih razmjera, Bytetenda je izgradio sustav na svom hibridflow okviru. Izvođenje upravljaju zračnim klasterima, a procesi treninga i zaključivanja su smješteni kako bi se smanjilo vrijeme u praznom hoda GPU-a.
Streaming Rollout System (SRS) zapažena je inovacija koja razdvaja evoluciju modela od izvođenja izvođenja. Ubrzava brzinu iteracije asinkronim upravljanjem djelomično dovršenim generacijama kroz verzije modela. Ova arhitektura navodno isporučuje do 3 × brže RL cikluse.
Dodatne tehnike infrastrukture uključuju:
- Mješovita preciznost (FP8) za uštedu memorije
- Stručni paralelizam i automatsko podešavanje kernela za učinkovitost MOE
- ByteCheckPoint za otporno i fleksibilno kontrolne točke
- Autotuner za optimizaciju paralelizma i konfiguracije memorije
Ljudska procjena i utjecaj u stvarnom svijetu
Za procjenu usklađivanja s preferencijama usredotočenim na čovjeka, ByTottance je provodio ljudsko testiranje u različitim domenama, uključujući kreativno pisanje, znanje o humanističkim znanostima i opći razgovor.
Sjeme-razmišljanje-V1.5 dosljedno je nadmašio DeepSeek R1 tijekom sesija, pojačavajući njegovu primjenjivost na potrebe korisnika u stvarnom svijetu.
Razvojni tim napominje da su modeli obrazloženja obučene prvenstveno na provjerljive zadatke pokazali snažnu generalizaciju kreativnim domenama – ishod koji se pripisuje strukturi i strogosti ugrađene u radne tokove matematičkog treninga.
Što to znači za tehničke vođe, inženjere podataka i donositelje odluka o poduzeću
Za tehničke vodiče upravljanja životnim ciklusom velikih jezičnih modela-od kuriranja podataka do implementacije-sjemenki-razmišljanja-V1.5 predstavlja priliku za preispitivanje načina na koji su mogućnosti rasuđivanja integrirane u AI hrpe poduzeća.
Njegov modularni postupak treninga, koji uključuje provjerljive obrazloženje podataka i višefazno učenje pojačanja, posebno privlači timove koji žele razmjestiti razvoj LLM-a, a istovremeno zadržavaju finozrnatu kontrolu.
ByTottance-ovi potezi za uvođenje verifikatora sjemena i ventifikatora za razmišljanje sjemena nude mehanizme za pouzdanije modeliranje nagrada, što može biti presudno prilikom raspoređivanja modela u okruženja koja su okrenuta prema kupcima ili regulirana.
Za timove koji djeluju u tijesnim rokovima i ograničenom propusnošću, stabilnost modela pod učenjem pojačanja, omogućena inovacijama poput VAPO-a i dinamičkog uzorkovanja, mogla bi smanjiti cikluse iteracije i pojednostaviti fino podešavanje za određene zadatke.
Iz perspektive orkestracije i implementacije, hibridni infrastrukturni pristup modelu – uključujući sustav za prenošenje streaminga (SRS) i podršku za FP8 optimizaciju – dostižu značajne dobitke u propusnosti treninga i korištenju hardvera.
Ove bi značajke bile vrijedne za inženjere odgovorne za skaliranje LLM operacija u oblacima i on-prem sustavima. Činjenica da je sjeme-razmišljanje-V1.5 osposobljena mehanizmima za prilagodbu povratnih informacija o nagrađivanju na temelju dinamike izvođenja govori izravno na izazove upravljanja heterogenim cjevovodima i održavanja dosljednosti u svim domenama.
Za timove koji imaju zadatak osigurati pouzdanost, obnovljivost i kontinuiranu integraciju novih alata, dizajn na razini sistema na razini sjemena-promišljenog na razini sjemena mogao bi poslužiti kao nacrt za izgradnju robusnih, multi-modalnih sustava orkestracije.
Za stručnjake za inženjering podataka, strukturirani pristup podacima o obuci – uključujući rigorozno filtriranje, povećanje i stručnu provjeru – pokazuje važnost kvalitete podataka kao množitelja performansi modela. To bi moglo potaknuti namjernije pristupe cjevovodima za razvoj podataka i validacije.
Budući izgledi
Sjeme-razmišljanje-V1.5 rezultati iz suradnje unutar tima Bytetendan’s Seed LLM Systems, na čelu s Yonghui Wu, a s javnim zastupljenošću Haibina Lin-a, dugogodišnjeg suradnika AI-ja.
Projekt se također temelji na prethodnim naporima, kao što je Doubao 1.5 Pro, i uključuje zajedničke tehnike u RLHF i kuriranje podataka.
Tim planira nastaviti usavršavati tehnike učenja ojačanja, usredotočujući se na učinkovitost obuke i modeliranje nagrađivanja za zadatke koji se ne mogu provjeriti. Javno izdanje unutarnjih mjerila poput BeyondAime-a namijenjeno je poticanju šireg napretka u istraživanju AI usmjerenog na rasuđivanje.
Web izvor



