Svaki GPU klaster ima mrtvo vrijeme. Poslovi obuke završavaju, radna opterećenja se mijenjaju, a hardver stoji u mraku dok troškovi napajanja i hlađenja nastavljaju raditi. Za neocloud operatere, ti prazni ciklusi su izgubljena marža.
Očigledno zaobilazno rješenje su spot tržišta GPU-a — iznajmljivanje slobodnog kapaciteta onome tko ga treba. Ali spot instance znače da je dobavljač oblaka još uvijek taj koji iznajmljuje, a inženjeri koji kupuju taj kapacitet još uvijek plaćaju za sirovo računanje bez priloženog skupa zaključaka.
FriendliAI-jev odgovor je drugačiji: pokrenite zaključak izravno na neiskorištenom hardveru, optimizirajte za protok tokena i podijelite prihod s operaterom. FriendliAI je utemeljio Byung-Gon Chun, istraživač čiji je rad o kontinuiranom grupiranju postao temelj za vLLM, mehanizam za zaključivanje otvorenog koda koji se danas koristi u većini proizvodnih implementacija.
Chun je proveo više od desetljeća kao profesor na Nacionalnom sveučilištu u Seulu proučavajući učinkovito izvođenje modela strojnog učenja na velikom broju. To je istraživanje proizvelo rad tzv Orkakoji je uveo kontinuirano doziranje. Tehnika dinamički obrađuje zahtjeve za zaključivanje umjesto čekanja da se ispuni fiksna serija prije izvršenja. Sada je industrijski standard i temeljni je mehanizam unutar vLLM-a.
Ovaj tjedan FriendliAI lansira novu platformu pod nazivom InferenceSense. Baš kao što izdavači koriste Google AdSense za unovčavanje neprodanog oglasnog prostora, neocloud operateri mogu koristiti InferenceSense za popunjavanje neiskorištenih ciklusa GPU-a s plaćenim AI inferencijskim radnim opterećenjima i prikupljanje udjela u prihodu od tokena. Vlastiti poslovi operatera uvijek imaju prioritet — u trenutku kada planer vrati GPU, InferenceSense popušta.
"Ono što mi nudimo jest da umjesto da GPU-ove pustimo da budu u stanju mirovanja, pokretanjem zaključaka mogu unovčiti te neaktivne GPU-ove," Chun je rekao za VentureBeat.
Sadržaj objave
Kako je laboratorij Nacionalnog sveučilišta u Seulu napravio motor unutar vLLM-a
Chun je osnovao FriendliAI 2021., prije nego što je većina industrije preusmjerila pozornost s obuke na zaključivanje. Primarni proizvod tvrtke je namjenska usluga krajnje točke zaključivanja za AI startupove i poduzeća koja pokreću otvorene modele. FriendliAI se također pojavljuje kao opcija implementacije na Hugging Face uz Azure, AWS i GCP, a trenutno podržava više od 500.000 otvorenih modela s platforme.
InferenceSense sada proširuje taj mehanizam za zaključivanje na problem kapaciteta s kojim se GPU operateri suočavaju između radnih opterećenja.
Kako radi
InferenceSense radi povrh Kubernetesa, koji većina neocloud operatera već koristi za orkestraciju resursa. Operater dodjeljuje skup GPU-ova Kubernetes klasteru kojim upravlja FriendliAI — izjavljujući koji su čvorovi dostupni i pod kojim uvjetima se mogu vratiti. Otkrivanje mirovanja radi kroz sam Kubernetes.
"Imamo vlastitog orkestratora koji radi na GPU-ovima ovih neocloud — ili samo cloud — dobavljača," rekao je Chun. "Definitivno koristimo Kubernetes, ali softver koji radi na vrhu je stvarno visoko optimiziran skup zaključaka."
Kada se GPU-ovi ne koriste, InferenceSense pokreće izolirane spremnike koji služe plaćenim radnim opterećenjima zaključivanja na otvorenim modelima uključujući DeepSeek, Qwen, Kimi, GLM i MiniMax. Kada operaterov planer zatreba natrag hardver, radna opterećenja zaključivanja se preuzimaju i GPU-ovi se vraćaju. FriendliAI kaže da se primopredaja događa u roku od nekoliko sekundi.
Potražnja se agregira putem izravnih klijenata FriendliAI-ja i putem agregatora zaključaka poput OpenRoutera. Operater osigurava kapacitet; FriendliAI upravlja cjevovodom potražnje, optimizacijom modela i stogom posluživanja. Ne postoje naknade unaprijed niti minimalne obveze. Nadzorna ploča u stvarnom vremenu prikazuje operaterima koji modeli rade, tokene koji se obrađuju i prikupljene prihode.
Zašto je protok tokena bolji od najma sirovog kapaciteta
Spot GPU tržišta od dobavljača kao što su CoreWeave, Lambda Labs i RunPod uključuju dobavljača u oblaku koji iznajmljuje vlastiti hardver trećoj strani. InferenceSense radi na hardveru koji neocloud operater već posjeduje, pri čemu operater definira koji čvorovi sudjeluju i unaprijed postavlja ugovore o rasporedu s FriendliAI-jem. Razlika je bitna: spot tržišta unovčavaju kapacitet, InferenceSense unovčava tokene.
Protok tokena po GPU-satu određuje koliko InferenceSense zapravo može zaraditi tijekom neiskorištenih prozora. FriendliAI tvrdi da njegov mehanizam pruža dva do tri puta veću propusnost od standardne implementacije vLLM-a, iako Chun napominje da brojka varira ovisno o vrsti radnog opterećenja. Većina konkurentskih skupova zaključaka izgrađena je na okvirima otvorenog koda temeljenim na Pythonu. Motor FriendliAI napisan je u C++ i koristi prilagođene GPU kernele umjesto Nvidijine cuDNN biblioteke. Tvrtka je izgradila vlastiti sloj predstavljanja modela za particioniranje i izvođenje modela preko hardvera, sa svojim vlastitim implementacijama spekulativnog dekodiranja, kvantizacije i upravljanja KV-cache memorijom.
Budući da FriendliAI-jev mehanizam obrađuje više tokena po GPU-satu od standardnog vLLM stoga, operateri bi trebali generirati više prihoda po neiskorištenom ciklusu nego što bi mogli uvođenjem vlastite usluge zaključivanja.
Na što bi trebali paziti inženjeri umjetne inteligencije koji procjenjuju troškove zaključivanja
Za inženjere umjetne inteligencije koji procjenjuju gdje pokrenuti radna opterećenja zaključivanja, odluka o neokloudu u odnosu na hiperskaler obično se svodi na cijenu i dostupnost.
InferenceSense dodaje novo razmatranje: ako neooblaci mogu unovčiti neaktivan kapacitet putem zaključivanja, imaju više ekonomskog poticaja da cijene tokena budu konkurentne.
To nije razlog za promjenu infrastrukturnih odluka danas — još je rano. Ali inženjeri koji prate ukupne troškove zaključivanja trebali bi pratiti hoće li usvajanje neoklauda na platformama kao što je InferenceSense vršiti pritisak na smanjenje cijena API-ja za modele kao što su DeepSeek i Qwen tijekom sljedećih 12 mjeseci.
"Kada budemo imali učinkovitije dobavljače, ukupni će se troškovi smanjiti," rekao je Chun. "Uz InferenceSense možemo doprinijeti da ti modeli postanu jeftiniji."




