Moonshot AI objavio je ovaj tjedan Kimi K2.7-Code, ažuriranje otvorenog koda za svoju obitelj modela kodiranja K2, uz tvrdnju o jednostavnijem razmišljanju i dvoznamenkastom poboljšanju performansi.
K2.7-Code izgrađen je na istoj arhitekturi mješavine stručnjaka s trilijun parametara kao i njegov prethodnik K2.6, a uključuje se putem OpenAI-kompatibilnog API-ja — što je važno za timove koji već koriste K2.6 u proizvodnim pristupnicima.
Kada je K2.6 lansiran u travnju, bio je na vrhu OpenRouterove tjedne LLM liste najboljih — rangiranje temeljeno na stvarnim odlukama programera o usmjeravanju API-ja, a ne na rezultatima benchmarka koje su sami prijavili.
Moonshot AI kaže da K2.7-Code rješava ono što zove "pretjerano razmišljanje," smanjenje upotrebe tokena za razmišljanje za 30% u usporedbi s K2.6 — broj koji bi izravno utjecao na troškove zaključivanja za timove koji pokreću agencijske tijekove rada. Održava li se povećanje učinkovitosti na neovisnim mjerilima pitanje je koje su praktičari već počeli javno postavljati.
Što je Kimi K2.7-Code
K2.7-Code je objavljen pod modificiranom MIT licencom, s utezima dostupnima na HuggingFace. Model je moguće implementirati putem vLLM ili SGLang. Radi isključivo u načinu razmišljanja i ne podržava prilagodbu temperature — Moonshot AI ga je popravio na 1.0, što znači da timovi ne mogu podesiti determinizam izlaza na način na koji bi mogli s drugim modelima.
Osnovna promjena u odnosu na K2.6 je način na koji model generira kod niske razine. Tamo gdje je K2.6 proizveo implementacije umotavanjem postojećih biblioteka i usmjeravanjem kroz uspostavljene okvire, K2.7-Code izravno autor implementacija. Moonshot AI kaže da ovo proizvodi pouzdaniju generalizaciju za Rust, Go i Python, te za sve vrste zadataka uključujući razvoj sučelja, DevOps i optimizaciju performansi.
Što se tiče usporedne izvedbe, Moonshot AI tvrdi dobitke od 21,8% na Kimi Code Bench v2, 11% na Program Bench i 31,5% na MLS Bench Lite. Sva tri su vlasnička mjerila kojima upravlja Moonshot AI. Model nije dostavljen DeepSWE-u, neovisnoj referentnoj točki kodiranja koja proizvodi raspon od 70 točaka po modelima — u usporedbi s rasponom od 30 točaka SWE-Bench Pro-a — što ga čini diskriminirajućim signalom za timove koji konfiguriraju sustave usmjeravanja modela.
Pošteniji, slabiji za to
Slika izvan Moonshotovih vlastitih mjerila je kompliciranija.
Istraživač Elliot Arledge pokrenuo je K2.7-Code protiv K2.6 i Claude Fable 5 na KernelBench-Hardu, javnom mjerilu usmjerenom na optimizaciju jezgre GPU-a, i objavio svoje pune zapisnike na kernelbench.com.
"K2.7 je pošteniji ali ne i sposobniji," Arledge je napisao na X.
Na pet od šest problema, K2.7-Code proizveo je stvarne autorske Triton kernele gdje je K2.6 koristio omote knjižnice. Dvije od tih jezgri nisu uspjele zbog grešaka samog modela. Rezultat jezgre MoE smanjio se s K2.6 rezultata od 0,222 na 0,157.
"Fable, za referencu, nadmašuje svaku ćeliju u kojoj iskreno ne pada," napisao je Arledge.
Sugumaran Balasubramaniyan, programer koji je izgradio model-task-router za platformu Hermes Agent koristeći DeepSWE kao svoj referentni signal, javno je odgovorio na izdanje K2.7-Code i izazvao Moonshot AI izravno na odabiru referentne vrijednosti.
"S poštovanjem, svaki model ‘poboljšava’ dvoznamenkaste brojke na vlastitom paketu testova," Balasubramaniyan je napisao na X.
Primijetio je da je K2.6 postigao 24% na DeepSWE-u, izjednačen s GPT-5.4-mini, i upitao bi li Moonshot AI podnio K2.7-Code istom mjerilu.
Balasubramaniyan je rekao da je bilo potrebno 13 krugova pregleda da bi dobili ispravne referentne podatke za svoj usmjerivač i da će zadatke kodiranja preusmjeriti na K2.7-Code ako neovisni brojevi izdrže.
Što to znači za poduzeća
Dobitak učinkovitosti tokena odmah je upotrebljiv. Timovi koji pokreću K2.6 u produkciji mogu zamijeniti K2.7-Code putem OpenAI-kompatibilnog API-ja i očekivati niže troškove zaključivanja na agentskim tijekovima rada bez promjene arhitekture. Smanjenje tokena za razmišljanje od 30% je Moonshotov vlastiti broj, ali integracijski put je dovoljno niskorizičan da ga testirate u odnosu na vlastita radna opterećenja prije nego što se obvežete.
Praktično pitanje je zadržavaju li se ti dobici učinkovitosti na raspodjeli zadataka tima. Pokretanje K2.7-Code-a prema vlastitim radnim opterećenjima prije podešavanja težine pristupnika je niskorizičan put do saznanja.
