Nvidijin strateški licencni ugovor s Groqom vrijedan 20 milijardi dolara predstavlja jedan od prvih jasnih poteza u borbi na četiri fronta oko budućeg skupa AI. 2026. je kada ta borba postaje očigledna graditeljima poduzeća.
Za donositelje tehničkih odluka s kojima razgovaramo svaki dan – ljude koji grade AI aplikacije i podatkovne kanale koji ih pokreću – ovaj je dogovor signal da era GPU-a koji odgovara svima kao zadanog odgovora na AI zaključivanje završava.
Ulazimo u doba arhitektura disagregiranog zaključivanjagdje se sam silicij dijeli na dvije različite vrste kako bi se prilagodio svijetu koji zahtijeva i masivan kontekst i trenutačno razmišljanje.
Sadržaj objave
Zašto zaključivanje lomi GPU arhitekturu na dva dijela
Da bismo razumjeli zašto je izvršni direktor Nvidije Jensen Huang odustao od jedne trećine izvijestio o gomili gotovine od 60 milijardi dolara o ugovoru o licenciranju, morate pogledati egzistencijalne prijetnje koje se skupljaju u izvješćima njegove tvrtke 92% tržišnog udjela.
Industrija je dosegla prekretnicu krajem 2025.: po prvi put, zaključivanje — faza u kojoj obučeni modeli zapravo rade — nadmašio obuku u smislu ukupnog prihoda podatkovnog centranavodi Deloitte. U ovom novom "Inference Flip," metrika se promijenila. Iako je točnost i dalje temelj, bitka se sada vodi oko latencije i mogućnosti održavanja "stanje" kod autonomnih agenata.
Postoje četiri fronte te bitke, a svaka fronta upućuje na isti zaključak: radna opterećenja zaključivanja fragmentiraju se brže nego što GPU-ovi mogu generalizirati.
1. Razbijanje GPU-a na dva dijela: Prefill vs. decode
Gavin Baker, investitor u Groq (i stoga pristran, ali također neobično tečan u arhitekturi), sažeti glavni pokretač Groq dogovora čisto: “Zaključak je rastavljanje na prethodno popunjavanje i dekodiranje.”
Prednapunite i dekodirati dvije su različite faze:
-
Faza predispunjavanja: Zamislite ovo kao korisnika "potaknuti" pozornici. Model mora unijeti ogromne količine podataka — bilo da se radi o bazi koda od 100.000 redaka ili satu videa — i izračunati kontekstualno razumijevanje. Ovo je "vezan za računanje," zahtijeva masivno množenje matrica u čemu su Nvidijini GPU povijesno izvrsni.
-
Faza generiranja (dekodiranja): Ovo je stvarni token po token "generacija.” Nakon što se prompt primi, model generira jednu po jednu riječ (ili token), vraćajući svaku natrag u sustav da predvidi sljedeću. Ovo je "vezan za propusnost memorije." Ako se podaci ne mogu dovoljno brzo prebaciti iz memorije u procesor, model zapinje, bez obzira na to koliko je GPU snažan. (Ovdje je Nvidia bila slaba i gdje Groqova posebna jedinica za obradu jezika (LPU) i pripadajuća SRAM memorija sjaje. Više o tome malo kasnije.)
Nvidia ima najavio nadolazeći Vera Rubin obitelj čipsa da je projektiran posebno za rješavanje ove podjele. The Rubin CPX komponenta ove obitelji je označena "predispuniti" radni konj, optimiziran za velike kontekstne prozore od 1 milijun tokena ili više. Kako bi se ova ljestvica mogla cjenovno nositi, udaljava se od troška koji suzi oči memorija visoke propusnosti (HBM) — Nvidijina trenutačna zlatna standardna memorija koja se nalazi tik uz GPU matricu — i umjesto toga koristi 128 GB nove vrste memorije, GDDR7. Dok HBM pruža ekstremnu brzinu (iako ne tako brzu kao Groqova statička memorija s izravnim pristupom (SRAM)), njegova ponuda GPU-a je ograničena, a cijena mu je prepreka skali; GDDR7 pruža troškovno učinkovitiji način unosa masivnih skupova podataka.
U međuvremenu, "Groq-okus" silicij, koji Nvidia integrira u svoj plan zaključivanja, služit će kao brzi "dekodirati" motor. Ovdje se radi o neutraliziranju prijetnje od alternativnih arhitektura poput Googleovih TPU-ova i održavanju dominacije CUDA, Nvidijin softverski ekosustav koji je služio kao njegov primarni jarak više od desetljeća.
Sve je to bilo dovoljno za Bakera, investitora Groqa, da predvidi da će Nvidijin potez licenciranja Groqa uzrokovati otkazivanje svih drugih specijaliziranih AI čipova — to jest, izvan Googleovog TPU-a, Teslinog AI5 i AWS-ovog Trainiuma.
2. Diferencirana snaga SRAM-a
Srce Groqove tehnologije je SRAM. Za razliku od DRAM-a koji se nalazi u vašem računalu ili HBM-a na Nvidia H100 GPU-u, SRAM je ugraviran izravno u logiku procesora.
Michael Stewart, upravljački partner Microsoftovog rizičnog fonda, M12, opisuje SRAM kao najbolji za prijenos podataka na kratke udaljenosti uz minimalnu energiju. "Energija za malo pomicanje u SRAM-u je poput 0,1 pikodžula ili manje," rekao je Stewart. "Prebacivanje između DRAM-a i procesora je otprilike 20 do 100 puta gore."
U svijetu 2026., gdje agenti moraju razmišljati u stvarnom vremenu, SRAM djeluje kao ultimativni "blok za pisanje": radni prostor velike brzine u kojem model može manipulirati simboličkim operacijama i složenim procesima razmišljanja bez "potrošeni ciklusi" prebacivanja vanjske memorije.
Međutim, SRAM ima veliki nedostatak: fizički je glomazan i skup za proizvodnju, što znači da je njegov kapacitet ograničen u usporedbi s DRAM-om. Ovdje Val Bercovici, glavni službenik za umjetnu inteligenciju u Weki, još jednoj tvrtki koja nudi memoriju za GPU, vidi segmentaciju tržišta.
AI radna opterećenja prilagođena Groqu — gdje SRAM ima prednost — ona koriste male modele od 8 milijardi parametara i manje, rekao je Bercovici. Ipak, ovo nije malo tržište. “To je samo divovski tržišni segment koji nije opsluživala Nvidia, a to je rubno zaključivanje, niska latencija, robotika, glas, IoT uređaji — stvari koje želimo da rade na našim telefonima bez oblaka radi praktičnosti, performansi ili privatnosti," rekao je.
Ovaj 8B "slatko mjesto" značajan je jer je 2025. godine došlo do eksplozije modelna destilacijagdje mnoge poslovne tvrtke smanjuju masivne modele u visoko učinkovite manje verzije. Dok SRAM nije praktičan za trilijun parametara "granica" modela, savršen je za ove manje modele velike brzine.
3. Antropska prijetnja: Uspon ‘prijenosnog skupa’
Možda je najpodcijenjeniji pokretač ovog posla Anthropicov uspjeh u tome da svoj skup učini prenosivim na sve akceleratore.
Tvrtka ima uveli prijenosni inženjerski pristup za obuku i zaključivanje — u osnovi softverski sloj koji svojim Claude modelima omogućuje rad u više obitelji AI akceleratora — uključujući Nvidijine GPU-ove i Googleove Ironwood TPU-ove. Donedavno je Nvidijina dominacija bila zaštićena jer je pokretanje modela visokih performansi izvan Nvidijinog skupa bila tehnička noćna mora. “To je Anthropic”, rekao mi je Weka’s Bercovici. “Činjenica da je Anthropic uspio… izgraditi softverski skup koji bi mogao raditi na TPU-ovima kao i na GPU-ovima, mislim da se to ne cijeni dovoljno na tržištu.”
(Otkrivanje: Weka je bila sponzor VentureBeat događaja.)
Anthropic se nedavno obvezao na pristup do 1 milijun TPU-a od Googlea, što predstavlja preko gigavata računalnog kapaciteta. Ovaj višeplatformski pristup osigurava da tvrtka nije talac Nvidijinih cijena ili ograničenja ponude. Dakle, za Nvidiju je Groq ugovor jednako obrambeni potez. Integracijom Groq-ovog ultra-brzog IP-a za zaključivanje, Nvidia osigurava da radna opterećenja koja su najosjetljivija na performanse — poput onih koja pokreću male modele ili kao dio agenata u stvarnom vremenu — mogu biti smještena unutar Nvidijinog CUDA ekosustava, čak i dok konkurenti pokušavaju prijeći na Googleove Ironwood TPU-ove. CUDA je poseban softver koji Nvidia nudi programerima za integraciju GPU-a.
4. Agentski ‘državnički’ rat: Manus i KV Cache
Vrijeme sklapanja ovog ugovora s Groqom podudara se s Metinim preuzimanjem agenta pionira Manus prije samo dva dana. Značaj Manusa djelomično je bio njegova opsesija državotvornost.
Ako se agent ne može sjetiti što je radio prije 10 koraka, beskoristan je za zadatke iz stvarnog svijeta poput istraživanja tržišta ili razvoja softvera. KV predmemorija (Key-Value predmemorija) je "kratkoročno pamćenje" koje LLM gradi tijekom faze predispunjavanja.
Manus prijavio da za agente proizvodne razine, omjer ulaznih i izlaznih tokena može doseći 100:1. To znači da je za svaku riječ koju agent kaže "razmišljanje" i "sjećajući se" 100 drugih. U ovom okruženju, KV Cache hit rate najvažnija je metrika za proizvodnog agenta, rekao je Manus. Ako je taj cache "iseljena" iz memorije, agent gubi svoj tok misli, a model mora potrošiti ogromnu energiju kako bi ponovno izračunao upit.
Groqov SRAM može biti a "blok za pisanje" za ove agente – iako, opet, uglavnom za manje modele – jer omogućuje gotovo trenutno vraćanje tog stanja. U kombinaciji sa Nvidijin Dinamo okvir i KVBM, Nvidia gradi "operativni sustav zaključivanja" koji omogućuje poslužiteljima za zaključivanje da razvrstaju ovo stanje preko SRAM-a, DRAM-a, HBM-a i drugih ponuda temeljenih na flash-u poput one iz Bercovicijeve Weke.
Thomas Jorgensen, viši direktor Technology Enablementa u tvrtki Supermicro, koja je specijalizirana za izgradnju klastera GPU-a za velika poduzeća, rekao mi je u rujnu da računarstvo više nije primarno usko grlo za napredne klastere. Unos podataka u GPU bio je usko grlo, a razbijanje tog uskog grla zahtijeva memoriju.
"Cijeli klaster je sada računalo," rekao je Jorgensen. "Umrežavanje postaje unutarnji dio zvijeri… hraniti zvijer podacima postaje sve teže jer propusnost između GPU-ova raste brže od bilo čega drugog."
To je razlog zašto Nvidia forsira raščlanjeno zaključivanje. Odvajanjem radnih opterećenja, poslovne aplikacije mogu koristiti specijalizirane razine pohrane za unos podataka u performansama memorijske klase, dok specijalizirani "Groq-unutra" silicij upravlja brzom generacijom tokena.
Presuda za 2026
Ulazimo u eru ekstremne specijalizacije. Desetljećima su vodeći proizvođači mogli pobijediti isporukom jedne dominantne arhitekture opće namjene – a njihova slijepa točka često je bila ono što su ignorirali na rubovima. Intelovo dugo zanemarivanje niske potrošnje je klasičan primjer, rekao mi je Michael Stewart, upravljački partner Microsoftovog rizičnog fonda M12. Nvidia signalizira da neće ponoviti tu grešku. “Ako čak i vođa, čak i lav iz džungle stekne talent, stekne tehnologiju — to je znak da cijelo tržište samo želi više opcija”, rekao je Stewart.
Za tehničke vođe poruka je da prestanite projektirati svoj skup kao da je jedan stalak, jedan akcelerator, jedan odgovor. U 2026. prednost će imati timovi koji eksplicitno označavaju radna opterećenja — i usmjeravaju ih na pravu razinu:
-
prefill-heavy vs. decode-heavy
-
dugi kontekst naspram kratkog konteksta
-
interaktivno naspram serije
-
mali model naspram velikog modela
-
rubna ograničenja u odnosu na pretpostavke podatkovnog centra
Vaša će arhitektura slijediti te oznake. Godine 2026. “GPU strategija” prestaje biti odluka o kupnji i postaje odluka o usmjeravanju. Pobjednici neće pitati koji su čip kupili — pitat će gdje je svaki žeton prošao i zašto.


