Pridruživanje redovima sve većeg broja manjih, snažnih modela rasuđivanja jest MiroThinker 1.5 iz MiroMinda, sa samo 30 milijardi parametara, u usporedbi sa stotinama milijardi ili trilijuna parametara koje koriste vodeći temeljni veliki jezični modeli (LLM).
Ali MiroThinker 1.5 ističe se među ovim manjim rezonerima iz jednog glavnog razloga: nudi mogućnosti agentskog istraživanja koje se natječu s konkurentima s trilijun parametara kao što su Kimi K2 i DeepSeek, uz djelić cijene zaključivanja.
Izdanje označava prekretnicu u guranju prema učinkovitim agentima umjetne inteligencije koji se mogu primijeniti. Poduzeća su dugo bila prisiljena birati između skupih API poziva graničnim modelima ili kompromitirane lokalne izvedbe. MiroThinker 1.5 nudi treći put: otvoreni modeli osmišljeni posebno za proširenu upotrebu alata i razmišljanje u više koraka.
Jedan od najvećih trendova koji se pojavljuje u industriji je odmak od visoko specijaliziranih agenata prema generaliziranijim agentima. Donedavno je ta mogućnost bila uglavnom ograničena na vlasničke modele. MiroThinker 1.5 predstavlja ozbiljnog konkurenta u ovom prostoru. Gledaj moj YouTube video na njemu ispod.
Sadržaj objave
- 1 Smanjeni rizik od halucinacija kroz provjerljivo zaključivanje
- 2 Referentna izvedba: udarci iznad svoje težine
- 3 Proširena upotreba alata: do 400 poziva alata po sesiji
- 4 Inovacija u obuci: vremenski osjetljivo sandbox
- 5 Razmatranja praktične primjene
- 6 Šira slika: Interaktivno skaliranje u odnosu na skaliranje parametara
Smanjeni rizik od halucinacija kroz provjerljivo zaključivanje
Za IT timove koji procjenjuju implementaciju umjetne inteligencije, halucinacije ostaju primarna prepreka korištenju otvorenih modela u proizvodnji. MiroThinker 1.5 rješava to kroz ono što MiroMind naziva “način rada znanstvenika” – temeljnu arhitektonsku promjenu u načinu na koji se model nosi s neizvjesnošću.
Umjesto generiranja statistički vjerojatnih odgovora iz zapamćenih obrazaca (korijenski uzrok većine halucinacija), MiroThinker je osposobljen za izvođenje provjerljive istraživačke petlje: predlaganje hipoteza, traženje dokaza od vanjskih izvora, identificiranje nepodudarnosti, revidiranje zaključaka i ponovnu provjeru. Tijekom obuke, model se izričito kažnjava za izlaze visoke pouzdanosti kojima nedostaje izvorna podrška.
Praktična implikacija za implementaciju poduzeća je mogućnost revizije. Kada MiroThinker proizvede odgovor, može izroniti i lanac razmišljanja i vanjske izvore koje je konzultirao. Za regulirane industrije kao što su financijske usluge, zdravstvo i pravo, ovo stvara dokumentacijski trag koji modeli temeljeni na memoriranju ne mogu pružiti. Timovi za usklađenost mogu pregledati ne samo ono što je model zaključio, već i kako je tamo stigao.
Ovaj pristup također smanjuje problem “samouvjerene halucinacije” uobičajen u produkcijskim AI sustavima. Model je uvježban da traži provjeru, a ne ekstrapolaciju kada je neizvjestan – ponašanje koje izravno dovodi do manje skupih pogrešaka.
Referentna izvedba: udarci iznad svoje težine
Pod ovim okvirom, MiroThinker-v1.5-30B pruža performanse usporedive s modelima s do 30x više parametara, uključujući model Kimi-K2-Thinking s trilijun parametara.
Na BrowseComp-ZH, ključnom mjerilu za mogućnosti web istraživanja, model 30B zapravo je nadmašio svog konkurenta s trilijun parametara s rezultatom od 69,8.
Razlika u troškovima je jednako značajna. MiroMind izvještava o niskim troškovima zaključivanja od samo 0,07 USD po pozivu za varijantu 30B — što je otprilike jedna dvadesetina cijene Kimi-K2-Thinkinga — zajedno s većim brzinama zaključivanja.
Veća varijanta 235B (s 22B aktivnih parametara u arhitekturi mješavine stručnjaka) rangirana je u najvišoj globalnoj razini u višestrukim mjerilima agenata za pretraživanje. Na općim procjenama agentskog pretraživanja, ovi se modeli dobro drže protiv sustava DeepSeek V3.2, Minimax, GLM i Kimi-K2.
U testiranju, veći model približava se Geminiju 3 Pro na nekoliko mjerila i približava se sustavima klase GPT-5 nego što bi njegov broj parametara mogao sugerirati. Dok je uspon na brda sve češći, ono što je važnije je ukupna konkurentnost—i MiroThinker se dobro drži.
Proširena upotreba alata: do 400 poziva alata po sesiji
Definirajuća sposobnost MiroThinkera 1.5 je kontinuirana upotreba alata.
Modeli podržavaju do 256.000 tokena konteksta i zahtijevaju podršku za do 400 poziva alata po sesiji – kritični zahtjev za složene istraživačke tijekove rada koji uključuju opsežno prikupljanje informacija, sintezu i unakrsnu provjeru.
Ovo MiroThinker čvrsto smješta u novu kategoriju agencijskih modela dizajniranih za autonomno izvršavanje zadataka, a ne pitanja i odgovore s jednim okretom. Praktične primjene uključuju duboke istraživačke tijekove rada, kanale sadržaja, generiranje izvješća i rezultate u stilu podcasta slične NotebookLM-u.
Inovacija u obuci: vremenski osjetljivo sandbox
Još jedna velika inovacija u MiroThinkeru 1.5 je njegov Time-Sensitive Training Sandbox.
Tradicionalna obuka na modelu funkcionira na temelju onoga što MiroMind opisuje kao “pogled iz Božjeg oka”, gdje model ima pristup finaliziranim ishodima unutar statičnih skupova podataka—stvarajući naknadnu pristranost. MiroThinkerov trening uklanja tu prednost.
Tijekom obuke, model može komunicirati samo s informacijama objavljenim prije zadane vremenske oznake, sprječavajući buduće curenje i prisiljavajući ga na razmišljanje u realnim uvjetima nepotpunih informacija.
Cjevovod kombinira nadzirano fino ugađanje s učenjem pojačanja korištenjem provjerljivih nagrada putem optimizacije relativne politike grupe (GRPO), naprednog algoritma učenja pojačanja koji je popularizirao DeepSeek, potičući model da odabere pravi alat u pravo vrijeme.
Ovaj je pristup posebno relevantan za slučajeve korištenja u poduzećima gdje modeli moraju razmišljati o situacijama koje se razvijaju, a ne prisjećati se statičnih činjenica.
Razmatranja praktične primjene
Za IT timove koji razmatraju implementaciju, hardverski zahtjevi i dalje su važni. Čak i model 30B zahtijeva znatnu količinu GPU memorije, a manje postavke mogu imati poteškoća.
Jedna prednost je kompatibilnost. MiroThinker radi na vLLM poslužiteljima s krajnjim točkama API-ja kompatibilnim s OpenAI-om, što olakšava integraciju u postojeće alate i tijekove rada pozivanja funkcija kao zamjenu.
Obje veličine modela dostupne su pod dopuštenom licencom MIT-a prilagođenoj poduzećima na Hugging Face, a online demo dostupan je za procjenu. Dozvoljena licenca uklanja glavne prepreke internoj implementaciji i finom podešavanju.
Šira slika: Interaktivno skaliranje u odnosu na skaliranje parametara
MiroThinker 1.5 dolazi dok se industrija suočava s ograničenjima tradicionalnih zakona o skaliranju. Veći modeli više ne jamče bolje performanse u stvarnom svijetu. Kao što je primijetio Artificial Analysis, mnoga mjerila su zasićena, što gura industriju prema procjenama koje se temelje na ekonomskoj korisnosti, a ne samo na apstraktnom razmišljanju.
MiroMind se kladi na interaktivno skaliranje—poboljšanje mogućnosti kroz dublju interakciju alata umjesto sve većeg broja parametara. Ako je točno, to bi moglo omogućiti sofisticirane agente na infrastrukturi koja ne ovisi o skupim graničnim API-jima.
Tvrtka, koju su osnovali Tianqiao Chen i znanstvenik Jifeng Dai, AI, opisuje svoju misiju kao izgradnju “prirodne inteligencije” – AI koja razmišlja kroz interakciju, a ne pamćenje.
Hoće li ovaj pristup postati dominantan ili će ostati specijalizirana niša još uvijek je otvoreno pitanje. Ali za poduzeća koja se bore s ustupcima troškovne sposobnosti, MiroThinker 1.5 nudi uvjerljivu podatkovnu točku: ponekad je učenje modela kako istraživati važnije nego podučavanje da sve zapamti.




