Gemini 3 Flash dolazi sa smanjenim troškovima i latencijom — moćna kombinacija za poduzeća

Poduzeća sada mogu iskoristiti snagu velikog jezičnog modela koji je blizu najmodernijeg Googleovog Gemini 3 Pro, ali uz djelić cijene i s većom brzinom, zahvaljujući nedavno objavljeni Gemini 3 Flash.

Model se pridružuje vodećim modelima Gemini 3 Pro, Gemini 3 Deep Think i Gemini Agent, koji su svi najavljeni i objavljeni prošlog mjeseca.

Gemini 3 Flash, sada dostupan na Gemini Enterprise, Google Antigravity, Gemini CLI, AI Studio, i na pretpregledu u Vertex AI, obrađuje informacije gotovo u stvarnom vremenu i pomaže u izradi brzih, responzivnih agencijskih aplikacija.

Tvrtka rekao je u postu na blogu da se Gemini 3 Flash “nadovezuje na seriju modela koju programeri i poduzeća već vole, optimiziran za visokofrekventne radne procese koji zahtijevaju brzinu, bez žrtvovanja kvalitete.

Model je također zadani za AI Mode na Google Searchu i aplikaciji Gemini.

Tulsee Doshi, viši direktor, upravljanje proizvodima u timu Gemini, rekao je u a zaseban post na blogu da model “pokazuje da brzina i opseg ne moraju doći po cijenu inteligencije”.

“Gemini 3 Flash napravljen je za iterativni razvoj, nudeći Gemini 3 Pro-grade performanse kodiranja s niskom latencijom — sposoban je razmišljati i brzo rješavati zadatke u visokofrekventnim tijekovima rada,” rekao je Doshi. “Postiže idealnu ravnotežu za agentsko kodiranje, sustave spremne za proizvodnju i interaktivne aplikacije s odgovarajućim odzivom.”

Rano usvajanje od strane specijaliziranih tvrtki dokazuje pouzdanost modela u područjima s visokim ulozima. Harvey, AI platforma za odvjetničke tvrtke, izvijestila je o skoku od 7% u obrazloženju na njihovom internom ‘BigLaw Benchu’, dok je Resemble AI otkrio da Gemini 3 Flash može obraditi složene forenzičke podatke za otkrivanje dubinskih krivotvorina 4x brže od Geminija 2.5 Pro. Ovo nisu samo povećanja brzine; oni omogućuju tijek rada ‘gotovo u stvarnom vremenu’ koji je prije bio nemoguć.

Sadržaj objave

1 Učinkovitije po nižoj cijeni
2 Više načina za uštedu
3 Snažne referentne performanse
4 Prvi dojmovi prvih korisnika
- 4.1 Što to znači za korištenje umjetne inteligencije u poduzećima
- 4.2 Povezani sadržaji

Učinkovitije po nižoj cijeni

Graditelji umjetne inteligencije u poduzećima postali su svjesniji troškova pokretanja modela umjetne inteligencije, posebice dok pokušavaju uvjeriti dionike da ulože više proračuna u agentske tijekove rada koji se pokreću na skupim modelima. Organizacije su se okrenule manjim ili destiliranim modelima, usredotočujući se na otvorene modele ili druge tehnike istraživanja i poticaja za pomoć u upravljanju prenapuhanim troškovima umjetne inteligencije.

Za poduzeća, najveća vrijednost za Gemini 3 Flash je da nudi istu razinu naprednih multimodalnih mogućnosti, kao što su složena video analiza i ekstrakcija podataka, kao i njegovi veći Gemini parnjaci, ali je daleko brži i jeftiniji.

Dok Googleovi interni materijali ističu povećanje brzine od 3x u odnosu na seriju 2.5 Pro, podaci su neovisni tvrtka za usporedbu Artificial Analysis dodaje sloj ključne nijanse.

U prethodnom testiranju potonje organizacije, Gemini 3 Flash Preview zabilježio je sirovi protok od 218 izlaznih tokena u sekundi. To ga čini 22% sporijim od prethodnog ‘nerazumljivog’ Gemini 2.5 Flasha, ali je i dalje znatno brži od suparnika uključujući OpenAI GPT-5.1 high (125 t/s) i DeepSeek V3.2 rezoniranje (30 t/s).

Najistaknutije, Artificial Analysis je okrunio Gemini 3 Flash kao novog lidera u svojoj analizi znanja AA-Omniscience, gdje je postigao najveću točnost znanja od bilo kojeg modela testiranog do danas. Međutim, ova inteligencija dolazi s ‘porezom na obrazloženje’: model više nego udvostručuje svoju upotrebu tokena u usporedbi sa serijom 2.5 Flash kada se bavi složenim indeksima.

Ova visoka gustoća tokena nadoknađena je Googleovim agresivnim cijenama: kada se pristupa putem Gemini API-ja, Gemini 3 Flash košta 0,50 USD za 1 milijun ulaznih tokena, u usporedbi s 1,25 USD/1 milijun ulaznih tokena za Gemini 2.5 Pro i 3 USD/1 milijun izlaznih tokena, u usporedbi s 10 USD/1 milijun izlaznih tokena za Gemini 2.5 Pro. To omogućuje Gemini 3 Flashu da preuzme titulu najisplativijeg modela za svoj nivo inteligencije, unatoč tome što je jedan od ‘najpričljivijih’ modela u smislu količine sirovog tokena. Evo kako stoji u odnosu na konkurentske LLM ponude:

Model	Ulaz (/1M)	Izlaz (/1M)	Ukupni trošak	Izvor
Qwen 3 Turbo	0,05 dolara	0,20 dolara	0,25 dolara	Alibaba Cloud
Grok 4.1 Fast (obrazloženje)	0,20 dolara	0,50 dolara	0,70 dolara	xAI
Grok 4.1 Brzi (bez rasuđivanja)	0,20 dolara	0,50 dolara	0,70 dolara	xAI
deepseek-chat (V3.2-Exp)	0,28 dolara	0,42 dolara	0,70 dolara	DeepSeek
deepseek-reasoner (V3.2-Exp)	0,28 dolara	0,42 dolara	0,70 dolara	DeepSeek
Qwen 3 Plus	0,40 dolara	1,20 dolara	1,60 dolara	Alibaba Cloud
ERNIE 5.0	0,85 dolara	3,40 dolara	4,25 dolara	Qianfan
Gemini 3 Flash pregled	0,50 dolara	3,00 dolara	3,50 dolara	Google
Claude Haiku 4.5	1,00 dolara	5,00 USD	6,00 dolara	antropski
Qwen-Max	1,60 dolara	6,40 dolara	8,00 dolara	Alibaba Cloud
Gemini 3 Pro (≤200K)	2,00 dolara	12,00 dolara	14,00 dolara	Google
GPT-5.2	1,75 dolara	14,00 dolara	15,75 dolara	OpenAI
Claude Sonet 4.5	3,00 dolara	15,00 dolara	18,00 dolara	antropski
Gemini 3 Pro (>200K)	4,00 dolara	18,00 dolara	22,00 dolara	Google
Claude Opus 4.5	5,00 USD	25,00 dolara	30,00 dolara	antropski
GPT-5.2 Pro	21,00 dolara	168,00 dolara	189,00 dolara	OpenAI

Više načina za uštedu

No, razvojni programeri i korisnici u poduzećima mogu dodatno smanjiti troškove eliminacijom kašnjenja koje većina većih modela često ima, što povećava upotrebu tokena. Google je rekao da model “može modulirati koliko misli”, tako da koristi više razmišljanja i stoga više tokena za složenije zadatke nego za brze upite. Tvrtka je primijetila da Gemini 3 Flash koristi 30% manje tokena od Gemini 2.5 Pro.

Kako bi uravnotežio ovu novu moć rasuđivanja sa strogim zahtjevima korporativne latencije, Google je uveo parametar ‘Thinking Level’. Razvojni programeri mogu birati između ‘Niskog’—kako bi se smanjili troškovi i kašnjenje za jednostavne zadatke chata—i ‘Visokog’—kako bi se povećala dubina razmišljanja za ekstrakciju složenih podataka. Ova granularna kontrola omogućuje timovima da izgrade aplikacije ‘promjenjive brzine’ koje troše skupe ‘žetone za razmišljanje’ samo kada problem stvarno zahtijeva doktorsku razinu

Ekonomska priča nadilazi jednostavne cijene tokena. Uz standardno uključivanje Context Cachinga, poduzeća koja obrađuju masivne, statične skupove podataka—kao što su čitave pravne biblioteke ili repozitoriji baze kodova—mogu vidjeti 90% smanjenje troškova za ponovljene upite. U kombinaciji s popustom od 50% Batch API-ja, ukupni trošak vlasništva za agenta koji pokreće Gemini pada značajno ispod praga konkurentskih graničnih modela

“Gemini 3 Flash pruža iznimne performanse kodiranja i agentskih zadataka u kombinaciji s nižom cijenom, što omogućuje timovima da implementiraju sofisticirane troškove rasuđivanja u procesima velikog volumena bez nailaska na prepreke”, rekao je Google.

Nudeći model koji pruža snažnu multimodalnu izvedbu po pristupačnijoj cijeni, Google tvrdi da poduzeća koja se bave kontrolom potrošnje na AI trebaju odabrati njegove modele, posebno Gemini 3 Flash.

Snažne referentne performanse

Ali kako se Gemini 3 Flash može uspoređivati s drugim modelima u pogledu performansi?

Doshi je rekao da je model postigao rezultat od 78% na SWE-Bench Verified benchmark testiranju za sredstva za kodiranje, nadmašivši i prethodnu obitelj Gemini 2.5 i sam noviji Gemini 3 Pro!

Za poduzeća to znači da se zadaci održavanja velikog volumena softvera i ispravljanja grešaka sada mogu prenijeti na model koji je i brži i jeftiniji od prethodnih vodećih modela, bez degradacije kvalitete koda.

Model se također dobro pokazao na drugim mjerilima, postigavši 81,2% na mjerilu MMMU Pro, što je usporedivo s Gemini 3 Pro.

Dok je većina modela tipa Flash eksplicitno optimizirana za kratke, brze zadatke kao što je generiranje koda, Google tvrdi da je izvedba Gemini 3 Flasha “u razmišljanju, korištenju alata i multimodalnim mogućnostima idealna za programere koji žele napraviti složeniju videoanalizu, ekstrakciju podataka i vizualna pitanja i odgovore, što znači da može omogućiti inteligentnije aplikacije – kao što su pomoćnici u igri ili A/B testni eksperimenti – koje zahtijevaju i brze odgovore i duboko razmišljanje.”

Prvi dojmovi prvih korisnika

Do sada su rani korisnici bili uglavnom impresionirani modelom, posebice njegovim referentnim performansama.

Što to znači za korištenje umjetne inteligencije u poduzećima

Uz Gemini 3 Flash koji sada služi kao zadani mehanizam za Google pretraživanje i aplikaciju Gemini, svjedoci smo "Flash-ifikacija" granične obavještajne službe. Čineći obrazloženje profesionalne razine novom bazom, Google postavlja zamku sporijim vodećim tvrtkama.

Integracija u platforme kao što je Google Antigravity sugerira da Google ne prodaje samo model; prodaje infrastrukturu za autonomno poduzeće.

Kako su programeri krenuli s 3x većim brzinama i popustom od 90% na predmemoriju konteksta, "Blizanci-prvi" strategija postaje uvjerljiv financijski argument. U brzoj utrci za dominaciju umjetne inteligencije, Gemini 3 Flash mogao bi biti model koji će se konačno okrenuti "vibe kodiranje" iz eksperimentalnog hobija u stvarnost spremnu za proizvodnju.

Web izvor