Još jedan dan krajem 2025., još jedan impresivan rezultat kineske tvrtke u umjetnoj inteligenciji otvorenog koda.
Kineska tvrtka za društveno umrežavanje Weibo-ov AI odjel nedavno je objavio svoj open source VibeThinker-1.5B—veliki jezični model (LLM) od 1,5 milijardi parametara koji je fino podešena varijanta konkurentske kineske tehnološke tvrtke Alibabin Qwen2.5-Math-1.5B.
Sada je dostupan za besplatno preuzimanje i korištenje od strane istraživača i poslovnih programera—čak iu komercijalne svrhe—pod dopuštenom licencom MIT-a na Lice koje grli, GitHub i ModelScopes a tehnički izvještaj na stranici za objavljivanje znanosti s otvorenim pristupom arxiv.org.
Pa ipak, usprkos svojoj kompaktnoj veličini, VibeThinker-1.5B postiže vrhunsku izvedbu rezoniranja u matematičkim i kodnim zadacima, nadmašujući ili nadmašujući modele stotinama puta svoju veličinu, čak nadmašujući poznati kineski rival DeepSeek R1 koji je postao viralan početkom ove godine—model parametara od 671 milijardu—na referentnoj točki formalnog rezoniranja.
Dalje zasjenjuje Mistralov AI Magistral Medium i drži se u odnosu na Anthropicov Claude Opus 4 i OpenAI-jev gpt-oss-20B Medium, a sve to zahtijeva djelić infrastrukture i ulaganja.
To također čini nakon naknadne obuke s proračunom od samo 7800 USD za računalne resurse (3900 GPU sati na Nvidia H800s) — daleko manje od desetaka ili čak stotina tisuća dolara koji su obično potrebni za fino ugađanje modela sličnih ili većih razmjera.
Međutim, podsjetimo da ovo nije ukupna cijena razvoja modela: LLM-ovi se obučavaju u fazama. Prvo dolazi prethodna obuka, kada model uči osnovnu jezičnu strukturu i opće znanje predviđajući sljedeću riječ kroz goleme količine teksta s interneta, knjiga i članaka. To mu daje tečnost, ali nema mnogo smisla za praćenje uputa ili održavanje razgovora
Sljedeća je obuka nakon koje se koriste mnogo manji, kvalitetniji skupovi podataka—obično zbirke primjera pitanja, upita i stručnih pisanih odgovora—kako bi se model naučio kako odgovoriti od pomoći, razmišljati o problemima i uskladiti se s ljudskim očekivanjima. Ipak, isplativost Weiba nakon treninga na VibeThinker-1.5B vrijedna je pažnje i treba je pohvaliti.
Izdanje otvorenog izvornog koda poništava pretpostavke o skali parametara, intenzitetu izračuna i minimalnoj održivoj veličini za LLM visoke performanse.
Sadržaj objave
Drugačiji pristup obuci: od spektra do signala
VibeThinker-1.5B svoju izvedbu ne duguje veličini, već okviru za obuku koji stoji iza njega: principu od spektra do signala (SSP).
Umjesto optimizacije modela samo za točnost jednog odgovora (Pass@1), SSP okvir odvaja nadzirano fino podešavanje (SFT) i učenje s pojačanjem (RL) u dvije različite faze s različitim ciljevima:
-
SFT (“Faza spektra”): Model je obučen za maksimiziranje raznolikosti među mogućim točnim odgovorima, poboljšavajući svoj rezultat Pass@K. Ovo stvara širok raspon prihvatljivih putova rješenja.
-
RL (“faza signala”): Sustav učenja pojačanja u drugoj fazi (nazvan MaxEnt-Guided Policy Optimization ili MGPO) koristi se za identifikaciju i pojačavanje najispravnijih putova iz ovog raznolikog skupa rješenja. MGPO daje prioritet problemima gdje je model najnesigurniji, koristeći ponderiranje temeljeno na entropiji za fokusiranje učenja.
Autori tvrde da ovo odvajanje omogućuje malim modelima da učinkovitije istražuju prostor razmišljanja—ostvarujući pojačanje signala bez oslanjanja na goleme brojeve parametara.
VibeThinker-1.5B daje uvjerljiv argument da je oslanjanje industrije na skaliranje parametara kao jedini put do bolje izvedbe rasuđivanja možda zastarjelo.
Usvajanjem niza treninga usmjerenih na raznolikost, WeiboAI je pokazao da manji, pristupačniji modeli mogu parirati, pa čak i nadmašiti sustave vrijedne milijarde dolara u logički zahtjevnim zadacima.
Mali otisak resursa jedan je od najznačajnijih aspekata VibeThinker-1.5B. S manje od 8000 USD, troškovi nakon vježbanja su 30–60x niži od modela poput DeepSeek R1 i MiniMax-M1, koji koštaju između 294K i 535K$ za treniranje.
Izvedba preko domena
Unatoč svojoj maloj veličini, VibeThinker-1.5B donosi razmišljanje između domena koje nadmašuje mnoge veće open-source i komercijalne modele:
|
Model |
AIME25 |
LiveCodeBench v6 |
GPQA-dijamant |
|
VibeThinker-1.5B |
74.4 |
51.1 |
46.7 |
|
GPT-OSS-20B-Srednji |
72.1 |
54.9 |
66.0 |
|
Claude Opus 4 |
69.2 |
56.6 |
79.6 |
|
MiniMax M1 (456B) |
74.6 |
62.3 |
69.2 |
|
DeepSeek R1 (671B) |
70.0 |
65.9 |
71.5 |
|
Kimi K2 (1.09T) |
49.5 |
53.7 |
75.1 |
VibeThinker je uspoređivan s modelima koji su usmjereni na rasuđivanje (Magistral, Claude, OpenAI o3-mini) i LLM-ovima bez rasuđivanja (GPT-4.1, Kimi K2, DeepSeek V3). U referentnim vrijednostima strukturiranog rezoniranja, model je dosljedno nadmašivao modele bez rezoniranja, bez obzira na veličinu:
-
Na AIME24 (matematika), pobijedio je Kimi K2 (1.09T) za više od 10 bodova (80.3 naspram 69.6).
-
Na LiveCodeBench v6 nadmašio je Claude Opus 4 (51,1 naspram 47,4).
-
Na GPQA je postigao ispod GPT-4.1 i Claude, ali je ipak udvostručio svoj osnovni model (sa 16.4 na 46.7).
Ovo podupire tvrdnju autora da veličina nije jedini put do sposobnosti rasuđivanja – s pravilnim dizajnom obuke, manji modeli mogu doseći ili čak premašiti performanse daleko većih sustava u ciljanim zadacima.
Značajno, postiže paritet s modelima stotinama puta većim u matematici i kodu, iako zaostaje u rasuđivanju općeg znanja (GPQA), gdje veći modeli održavaju prednost.
Ovo sugerira potencijalni kompromis specijalizacije: dok se VibeThinker ističe u strukturiranim logičkim zadacima, ima manje kapaciteta za opsežno enciklopedijsko prisjećanje, što je poznato ograničenje manjih arhitektura.
Smjernice za usvajanje poduzeća
Izdanje uključuje preporučene postavke zaključivanja (temperatura = 0,6, top_p = 0,95, maks. tokena = 40960).
Model je dovoljno malen da se može primijeniti na rubnim uređajima, uključujući mobilne telefone i sustave ugrađene u vozila, dok se procjenjuje da su troškovi zaključivanja 20–70 puta niži nego kod velikih modela.
Ovo pozicionira VibeThinker-1.5B ne samo kao istraživačko postignuće, već i kao potencijalnu osnovu za isplative, lokalno implementirave sustave razmišljanja.
Weiboova strategija i tržišna pozicija
Weibo, koji je pokrenula Sina Corporation 2009., ostaje kamen temeljac kineskog ekosustava društvenih medija. Često opisivana kao kineska verzija X-a (bivši Twitter), platforma spaja mikroblogging, multimedijski sadržaj i trendovske značajke s regulatornim okruženjem oblikovanim strogim državnim nadzorom.
Unatoč brojanju od 600 milijuna mjesečno aktivnih korisnika (više nego dvostruko više od X), investitori nisu optimistični u pogledu potencijala rasta prihoda od oglašavanja u bliskoj budućnosti, a Weibo se nosi sa sve intenzivnijom konkurencijom platformi koje su na prvom mjestu video kao što je Douyin, koje privlače mlađe korisnike i povećavaju vrijeme provedeno drugdje.
Kao odgovor na to, Weibo se priklonio monetizaciji ekonomije kreatora, prijenosu uživo i vertikalnom videu – dodajući alate za angažman utjecajnih osoba, integraciju e-trgovine i bogatiju analitiku za robne marke.
Uloga platforme kao digitalnog javnog trga također je čini središtem regulatornog nadzora. Kineske vlasti nastavljaju vršiti pritisak na pitanja u rasponu od upravljanja sadržajem do sigurnosti podataka. U rujnu 2025. Weibo je bio među platformama koje su navedene u službenim upozorenjimaističući svoju stalnu izloženost rizicima politike.
Weibovo guranje u istraživanje i razvoj umjetne inteligencije – prikazano izdanjem VibeThinker-1.5B – signalizira promjenu u ambicijama. Osim što je medijska platforma, Weibo se pozicionira kao igrač u sljedećoj fazi razvoja kineske umjetne inteligencije, koristeći svoje rezerve kapitala, podatke o ponašanju korisnika i vlastite istraživačke kapacitete za praćenje susjednih tehničkih domena.
Što to znači za donositelje tehničkih odluka u poduzećima
Za inženjerske vođe i poslovne timove AI, izdanje VibeThinkera ima praktične implikacije za sve, od orkestracije cjevovoda do modeliranja troškova.
Model od 1,5B parametra koji nadmašuje 100 puta veće modele u matematičkim i programskim zadacima ne samo da štedi računanje – on mijenja arhitektonsku ravnotežu. Omogućuje zaključivanje LLM-a o ograničenoj infrastrukturi, smanjuje latenciju na rubu i smanjuje prepreku ulasku za aplikacije koje bi inače trebale pristup API-ju zatvorenim, graničnim modelima.
To je važno za voditelje ML-a u poduzećima koji pokušavaju implementirati agente sposobne za razmišljanje unutar postojećih sustava ili za vlasnike platformi koji imaju zadatak integrirati LLM-ove u automatizirane tijekove rada.
Također govori o onima koji pokreću učenje pojačanja iz cjevovoda ljudskih povratnih informacija (RLHF) ili upravljaju optimizacijom zaključivanja u hibridnim okruženjima oblaka.
Metodologija modela nakon treninga—posebno njegov pristup učenju pojačanja usmjeren na entropiju—nudi plan za timove koji žele poboljšati manje kontrolne točke umjesto da se oslanjaju na opsežnu pretvježbu.
VibeThinker-ovi referentni koraci za transparentnost i dekontaminaciju podataka također se bave još jednim novim prioritetom u poslovnoj umjetnoj inteligenciji: revizionošću. Dok njegova izvedba na testovima općeg znanja još uvijek zaostaje za velikim graničnim modelima, njegova pouzdanost za specifične zadatke čini ga atraktivnim kandidatom za kontrolirana okruženja gdje je ispravnost važnija od pokrivenosti.
Ukratko, VibeThinker-1.5B nije samo prekretnica u istraživanju – on je snažan kandidat za praktičnu upotrebu u poduzećima, implementaciju i učenje. Sugerira da je nova klasa kompaktnih modela optimiziranih za razmišljanje održiva za poslovne slučajeve korištenja koji su prije bili domena daleko većih sustava. Za organizacije koje pokušavaju uravnotežiti troškove, kašnjenje, interpretabilnost i kontrolu, to je dobra nova opcija na dugom, rastućem popisu kineskih ponuda otvorenog koda.




