Nvidia, Groq i limestone utrka za AI u stvarnom vremenu: Zašto poduzeća ovdje pobjeđuju ili gube

Milijama daleko preko pustinje, Velika piramida izgleda kao savršena, glatka geometrija — glatki trokut koji pokazuje prema zvijezdama. Međutim, stanite na podnožje i iluzija glatkoće nestaje. Vidite masivne, nazubljene blokove vapnenca. To nije padina; to je stubište.

Sjetite se ovoga kad sljedeći put čujete futuriste kako govore o eksponencijalnom rastu.

Intelov suosnivač Gordon Moore (Mooreov zakon) poznat je po tome što je 1965. rekao da će se broj tranzistora na mikročipu svake godine udvostručiti. Drugi Intelov izvršni direktor, David House, kasnije je revidirao ovu izjavu u “računalnu snagu koja se udvostručuje svakih 18 mjeseci." Neko su vrijeme Intelovi procesori bili poster ovog zakona. To jest, sve dok se rast performansi CPU-a nije izravnao poput bloka vapnenca.

Ako smanjite, međutim, sljedeći blok vapnenca je već bio tamo — rast u računalstvu samo se pomaknuo s CPU-a na svijet GPU-a. Jensen Huang, Nvidijin izvršni direktor, igrao je dugu igru i izašao kao snažan pobjednik, izgradivši vlastite odskočne daske u početku igranjem, zatim računalnim vizionarstvom i nedavno generativnom umjetnom inteligencijom.

Sadržaj objave

1 Iluzija glatkog rasta
2 Kriza latencije: gdje se Groq uklapa
3 Od univerzalnog čipa do optimizacije zaključivanja
4 Motor za sljedeći val rasta
5 Sljedeći korak na piramidi

Iluzija glatkog rasta

Tehnološki rast pun je sprinteva i zastoja, a AI generacija nije imuna. Strujni val pokreće arhitektura transformatora. Da citiram predsjednika i suosnivača Anthropica Daria Amodeija: “Eksponencijalno se nastavlja sve dok ne prestane. I svake godine smo bili kao, ‘Pa, ovo nikako ne može biti slučaj da će se stvari nastaviti eksponencijalnim’ — a onda svake godine jest.”

No baš kad je CPU dosegao plato i GPU-i preuzeli vodstvo, vidimo znakove da rast LLM-a ponovno mijenja paradigme. Na primjer, krajem 2024. DeepSeek je iznenadio svijet obukom modela svjetske klase s nevjerojatno malim proračunom, djelomično korištenjem tehnike MoE.

Sjećate li se gdje ste nedavno vidjeli spomenutu ovu tehniku? Nvidijino priopćenje za tisak Rubin: Tehnologija uključuje “…najnovije generacije Nvidia NVLink tehnologije međusobnog povezivanja… za ubrzavanje agentske umjetne inteligencije, naprednog razmišljanja i masovnog zaključivanja MoE modela uz do 10 puta nižu cijenu po tokenu.”

Jensen zna da postizanje željenog eksponencijalnog rasta računanja više ne dolazi čistom grubom silom. Ponekad morate potpuno promijeniti arhitekturu kako biste postavili sljedeću odskočnu dasku.

Kriza latencije: gdje se Groq uklapa

Ovaj dugi uvod nas dovodi do Groqa.

Najveći dobici u sposobnostima AI rasuđivanja u 2025. potaknuti su “izračunavanjem vremena zaključivanja” — ili, laički rečeno, “dopuštanjem modelu da razmišlja dulje vremensko razdoblje.” Ali vrijeme je novac. Potrošači i poduzeća ne vole čekati.

Groq ovdje ulazi u igru sa svojim munjevitim zaključivanjem. Ako spojite arhitektonsku učinkovitost modela kao što je DeepSeek i čistu propusnost Groqa, dobit ćete vrhunsku inteligenciju na dohvat ruke. Bržim izvođenjem zaključaka možete “nadmašiti” konkurentske modele, nudeći “pametniji” sustav korisnicima bez kazne kašnjenja.

Od univerzalnog čipa do optimizacije zaključivanja

U posljednjem desetljeću GPU je bio univerzalni čekić za svaki AI čavao. Koristite H100s za treniranje modela; koristite H100s (ili smanjene verzije) za pokretanje modela. Ali kako se modeli pomiču prema "Sustav 2" razmišljanje — gdje AI razmišlja, samoispravlja i ponavlja prije nego što odgovori — računalno opterećenje se mijenja.

Trening zahtijeva ogromnu paralelnu grubu silu. Zaključivanje, posebno za modele zaključivanja, zahtijeva bržu sekvencijalnu obradu. Mora trenutno generirati tokene kako bi olakšao složene lance misli bez da korisnik čeka nekoliko minuta na odgovor. Groqova LPU (Jedinica za obradu jezika) arhitektura uklanja usko grlo memorijske propusnosti koje muči GPU-ove tijekom zaključivanja malih serija, pružajući munjevito brzo zaključivanje.

Motor za sljedeći val rasta

Za C-Suite, ova potencijalna konvergencija rješava "vrijeme za razmišljanje" kriza latencije. Razmotrite očekivanja od agenata umjetne inteligencije: želimo da autonomno rezerviraju letove, kodiraju cijele aplikacije i istražuju pravne presedane. Da bi to učinio pouzdano, model će možda morati generirati 10 000 internih "misaoni žetoni" kako bi provjerio vlastiti rad prije nego što korisniku ispiše jednu riječ.

Na standardnom GPU-u: Za 10 000 misaonih žetona može biti potrebno 20 do 40 sekundi. Korisniku dosadi i ode.
Na Groqu: Taj isti lanac misli događa se za manje od 2 sekunde.

Ako Nvidia integrira Groqovu tehnologiju, oni će riješiti problem "čekajući da robot razmisli" problem. Oni čuvaju magiju AI. Baš kao što su prešli s renderiranja piksela (igre) na inteligenciju renderiranja (gen AI), sada bi prešli na renderiranje rasuđivanje u stvarnom vremenu.

Nadalje, ovo stvara ogroman softverski jarak. Groqova najveća prepreka uvijek je bio softverski skup; Nvidijino najveće bogatstvo je CUDA. Ako Nvidia omota svoj ekosustav oko Groqovog hardvera, oni učinkovito iskopaju jarak toliko širok da ga konkurenti ne mogu prijeći. Ponudili bi univerzalnu platformu: najbolje okruženje za treniranje i najučinkovitije okruženje za trčanje (Groq/LPU).

Razmislite što se događa kada spojite tu sirovu snagu zaključivanja s modelom otvorenog koda sljedeće generacije (kao što je DeepSeek 4 o kojem se pričalo): Dobivate ponudu koja bi se mogla mjeriti s današnjim prednjim modelima u cijeni, performansama i brzini. To otvara mogućnosti za Nvidiju, od izravnog ulaska u posao zaključivanja s vlastitom ponudom u oblaku, do nastavka pokretanja sve većeg broja eksponencijalno rastućih kupaca.

Sljedeći korak na piramidi

Vraćajući se našoj uvodnoj metafori: The "eksponencijalni" rast AI nije glatka linija sirovih FLOP-ova; to je stubište uskih grla koja se razbijaju.

Blok 1: Nismo mogli dovoljno brzo izračunati. Otopina: GPU.
Blok 2: Nismo mogli dovoljno duboko trenirati. Otopina: Arhitektura transformatora.
Blok 3: Ne možemo "misliti" dovoljno brzo. Otopina: Groqov LPU.

Jensen Huang nikada se nije bojao kanibalizirati vlastite linije proizvoda kako bi posjedovao budućnost. Potvrđivanjem Groqa, Nvidia ne bi samo kupila brži čip; oni bi donosili inteligenciju sljedeće generacije masama.

Andrew Filev, osnivač i izvršni direktor Zencodera

Web izvor

Nvidia, Groq i limestone utrka za AI u stvarnom vremenu: Zašto poduzeća ovdje pobjeđuju ili gube

ByTomšić Damjan

Iluzija glatkog rasta

Kriza latencije: gdje se Groq uklapa

Od univerzalnog čipa do optimizacije zaključivanja

Motor za sljedeći val rasta

Sljedeći korak na piramidi

By Tomšić Damjan

Anthropic launches Claude Tag, replacing its Slack app with a persistent AI teammate that learns, monitors and works autonomously

3 osobe dobile su implantate za otkrivanje raka u mozgu

Blog uživo premijernog dana u lipnju 2026.: Pratimo ponude Amazona za SSD-ove, televizore, prijenosna računala i više

You missed

Anthropic launches Claude Tag, replacing its Slack app with a persistent AI teammate that learns, monitors and works autonomously

3 osobe dobile su implantate za otkrivanje raka u mozgu

Blog uživo premijernog dana u lipnju 2026.: Pratimo ponude Amazona za SSD-ove, televizore, prijenosna računala i više

Google u osnovi poklanja igre za samo cent

Nvidia, Groq i limestone utrka za AI u stvarnom vremenu: Zašto poduzeća ovdje pobjeđuju ili gube

ByTomšić Damjan

Iluzija glatkog rasta

​Kriza latencije: gdje se Groq uklapa

​Od univerzalnog čipa do optimizacije zaključivanja

​Motor za sljedeći val rasta

Sljedeći korak na piramidi

By Tomšić Damjan

Related Post

Anthropic launches Claude Tag, replacing its Slack app with a persistent AI teammate that learns, monitors and works autonomously

3 osobe dobile su implantate za otkrivanje raka u mozgu

Blog uživo premijernog dana u lipnju 2026.: Pratimo ponude Amazona za SSD-ove, televizore, prijenosna računala i više

You missed

Anthropic launches Claude Tag, replacing its Slack app with a persistent AI teammate that learns, monitors and works autonomously

3 osobe dobile su implantate za otkrivanje raka u mozgu

Blog uživo premijernog dana u lipnju 2026.: Pratimo ponude Amazona za SSD-ove, televizore, prijenosna računala i više

Google u osnovi poklanja igre za samo cent

Kriza latencije: gdje se Groq uklapa

Od univerzalnog čipa do optimizacije zaključivanja

Motor za sljedeći val rasta