Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Tim koji stoji iza kontinuiranog skupljanja kaže da bi vaši GPU-ovi u mirovanju trebali izvoditi zaključke, a ne sjediti u mraku

Novosti

Tim koji stoji iza kontinuiranog skupljanja kaže da bi vaši GPU-ovi u mirovanju trebali izvoditi zaključke, a ne sjediti u mraku

Tomšić Damjan 12. ožujka 2026

Svaki GPU klaster ima mrtvo vrijeme. Poslovi obuke završavaju, radna opterećenja se mijenjaju, a hardver stoji u mraku dok troškovi napajanja i hlađenja nastavljaju raditi. Za neocloud operatere, ti prazni ciklusi su izgubljena marža.

Očigledno zaobilazno rješenje su spot tržišta GPU-a — iznajmljivanje slobodnog kapaciteta onome tko ga treba. Ali spot instance znače da je dobavljač oblaka još uvijek taj koji iznajmljuje, a inženjeri koji kupuju taj kapacitet još uvijek plaćaju za sirovo računanje bez priloženog skupa zaključaka.

FriendliAI-jev odgovor je drugačiji: pokrenite zaključak izravno na neiskorištenom hardveru, optimizirajte za protok tokena i podijelite prihod s operaterom. FriendliAI je utemeljio Byung-Gon Chun, istraživač čiji je rad o kontinuiranom grupiranju postao temelj za vLLM, mehanizam za zaključivanje otvorenog koda koji se danas koristi u većini proizvodnih implementacija.

Chun je proveo više od desetljeća kao profesor na Nacionalnom sveučilištu u Seulu proučavajući učinkovito izvođenje modela strojnog učenja na velikom broju. To je istraživanje proizvelo rad tzv Orkakoji je uveo kontinuirano doziranje. Tehnika dinamički obrađuje zahtjeve za zaključivanje umjesto čekanja da se ispuni fiksna serija prije izvršenja. Sada je industrijski standard i temeljni je mehanizam unutar vLLM-a.

Ovaj tjedan FriendliAI lansira novu platformu pod nazivom InferenceSense. Baš kao što izdavači koriste Google AdSense za unovčavanje neprodanog oglasnog prostora, neocloud operateri mogu koristiti InferenceSense za popunjavanje neiskorištenih ciklusa GPU-a s plaćenim AI inferencijskim radnim opterećenjima i prikupljanje udjela u prihodu od tokena. Vlastiti poslovi operatera uvijek imaju prioritet — u trenutku kada planer vrati GPU, InferenceSense popušta.

"Ono što mi nudimo jest da umjesto da GPU-ove pustimo da budu u stanju mirovanja, pokretanjem zaključaka mogu unovčiti te neaktivne GPU-ove," Chun je rekao za VentureBeat.

Sadržaj objave

  • 1 Kako je laboratorij Nacionalnog sveučilišta u Seulu napravio motor unutar vLLM-a
  • 2 Kako radi
  • 3 Zašto je protok tokena bolji od najma sirovog kapaciteta
  • 4 Na što bi trebali paziti inženjeri umjetne inteligencije koji procjenjuju troškove zaključivanja
    • 4.1 Povezani sadržaji

Kako je laboratorij Nacionalnog sveučilišta u Seulu napravio motor unutar vLLM-a

Chun je osnovao FriendliAI 2021., prije nego što je većina industrije preusmjerila pozornost s obuke na zaključivanje. Primarni proizvod tvrtke je namjenska usluga krajnje točke zaključivanja za AI startupove i poduzeća koja pokreću otvorene modele. FriendliAI se također pojavljuje kao opcija implementacije na Hugging Face uz Azure, AWS i GCP, a trenutno podržava više od 500.000 otvorenih modela s platforme.

InferenceSense sada proširuje taj mehanizam za zaključivanje na problem kapaciteta s kojim se GPU operateri suočavaju između radnih opterećenja.

Kako radi

InferenceSense radi povrh Kubernetesa, koji većina neocloud operatera već koristi za orkestraciju resursa. Operater dodjeljuje skup GPU-ova Kubernetes klasteru kojim upravlja FriendliAI — izjavljujući koji su čvorovi dostupni i pod kojim uvjetima se mogu vratiti. Otkrivanje mirovanja radi kroz sam Kubernetes.

"Imamo vlastitog orkestratora koji radi na GPU-ovima ovih neocloud — ili samo cloud — dobavljača," rekao je Chun. "Definitivno koristimo Kubernetes, ali softver koji radi na vrhu je stvarno visoko optimiziran skup zaključaka."

Kada se GPU-ovi ne koriste, InferenceSense pokreće izolirane spremnike koji služe plaćenim radnim opterećenjima zaključivanja na otvorenim modelima uključujući DeepSeek, Qwen, Kimi, GLM i MiniMax. Kada operaterov planer zatreba natrag hardver, radna opterećenja zaključivanja se preuzimaju i GPU-ovi se vraćaju. FriendliAI kaže da se primopredaja događa u roku od nekoliko sekundi.

Potražnja se agregira putem izravnih klijenata FriendliAI-ja i putem agregatora zaključaka poput OpenRoutera. Operater osigurava kapacitet; FriendliAI upravlja cjevovodom potražnje, optimizacijom modela i stogom posluživanja. Ne postoje naknade unaprijed niti minimalne obveze. Nadzorna ploča u stvarnom vremenu prikazuje operaterima koji modeli rade, tokene koji se obrađuju i prikupljene prihode.

Zašto je protok tokena bolji od najma sirovog kapaciteta

Spot GPU tržišta od dobavljača kao što su CoreWeave, Lambda Labs i RunPod uključuju dobavljača u oblaku koji iznajmljuje vlastiti hardver trećoj strani. InferenceSense radi na hardveru koji neocloud operater već posjeduje, pri čemu operater definira koji čvorovi sudjeluju i unaprijed postavlja ugovore o rasporedu s FriendliAI-jem. Razlika je bitna: spot tržišta unovčavaju kapacitet, InferenceSense unovčava tokene.

Protok tokena po GPU-satu određuje koliko InferenceSense zapravo može zaraditi tijekom neiskorištenih prozora. FriendliAI tvrdi da njegov mehanizam pruža dva do tri puta veću propusnost od standardne implementacije vLLM-a, iako Chun napominje da brojka varira ovisno o vrsti radnog opterećenja. Većina konkurentskih skupova zaključaka izgrađena je na okvirima otvorenog koda temeljenim na Pythonu. Motor FriendliAI napisan je u C++ i koristi prilagođene GPU kernele umjesto Nvidijine cuDNN biblioteke. Tvrtka je izgradila vlastiti sloj predstavljanja modela za particioniranje i izvođenje modela preko hardvera, sa svojim vlastitim implementacijama spekulativnog dekodiranja, kvantizacije i upravljanja KV-cache memorijom.

Budući da FriendliAI-jev mehanizam obrađuje više tokena po GPU-satu od standardnog vLLM stoga, operateri bi trebali generirati više prihoda po neiskorištenom ciklusu nego što bi mogli uvođenjem vlastite usluge zaključivanja.

Na što bi trebali paziti inženjeri umjetne inteligencije koji procjenjuju troškove zaključivanja

Za inženjere umjetne inteligencije koji procjenjuju gdje pokrenuti radna opterećenja zaključivanja, odluka o neokloudu u odnosu na hiperskaler obično se svodi na cijenu i dostupnost.

InferenceSense dodaje novo razmatranje: ako neooblaci mogu unovčiti neaktivan kapacitet putem zaključivanja, imaju više ekonomskog poticaja da cijene tokena budu konkurentne.

To nije razlog za promjenu infrastrukturnih odluka danas — još je rano. Ali inženjeri koji prate ukupne troškove zaključivanja trebali bi pratiti hoće li usvajanje neoklauda na platformama kao što je InferenceSense vršiti pritisak na smanjenje cijena API-ja za modele kao što su DeepSeek i Qwen tijekom sljedećih 12 mjeseci.

"Kada budemo imali učinkovitije dobavljače, ukupni će se troškovi smanjiti," rekao je Chun. "Uz InferenceSense možemo doprinijeti da ti modeli postanu jeftiniji."

Web izvor

Povezani sadržaji

  • Ubrzajte surfanje kreiranjem virtualnog RAM diska
  • Online alternative PowerPointu
  • U prepunom glasu AI tržište, OpenAi se kladi u pranje uputa i izražajni govor za osvajanje poslovnih usvajanjaU prepunom glasu AI tržište, OpenAi se kladi u pranje uputa i izražajni govor za osvajanje poslovnih usvajanja
  • Mjesecima sam se mučio s Hyprlandom, sve dok ga ova distribucija temeljena na Archu nije popravilaMjesecima sam se mučio s Hyprlandom, sve dok ga ova distribucija temeljena na Archu nije popravila
  • Premjestite Windows Live Messenger ikonu desno u sistemsku traku [WINDOWS 7]
  • Sve se u glasovnoj umjetnoj inteligenciji upravo promijenilo: kako proizvođači umjetne inteligencije u poduzećima mogu imati koristiSve se u glasovnoj umjetnoj inteligenciji upravo promijenilo: kako proizvođači umjetne inteligencije u poduzećima mogu imati koristi

Previous Article

Epidemija ospica u Južnoj Karolini usporava

Next Article

Ovaj uspon splinterneta? Rizici suvereniteta podataka i odgovori

Posljednje objave

Ovaj uspon splinterneta? Rizici suvereniteta podataka i odgovori

Tim koji stoji iza kontinuiranog skupljanja kaže da bi vaši GPU-ovi u mirovanju trebali izvoditi zaključke, a ne sjediti u mraku

Tim koji stoji iza kontinuiranog skupljanja kaže da bi vaši GPU-ovi u mirovanju trebali izvoditi zaključke, a ne sjediti u mraku

Epidemija ospica u Južnoj Karolini usporava

Epidemija ospica u Južnoj Karolini usporava

Sadržaj

  • 1 Kako je laboratorij Nacionalnog sveučilišta u Seulu napravio motor unutar vLLM-a
  • 2 Kako radi
  • 3 Zašto je protok tokena bolji od najma sirovog kapaciteta
  • 4 Na što bi trebali paziti inženjeri umjetne inteligencije koji procjenjuju troškove zaključivanja

Novosti

  • Ovaj uspon splinterneta? Rizici suvereniteta podataka i odgovori 12. ožujka 2026
  • Tim koji stoji iza kontinuiranog skupljanja kaže da bi vaši GPU-ovi u mirovanju trebali izvoditi zaključke, a ne sjediti u mraku 12. ožujka 2026
  • Epidemija ospica u Južnoj Karolini usporava 12. ožujka 2026
  • Zašto je umjetna inteligencija i prokletstvo i blagoslov za softver otvorenog koda – prema programerima 12. ožujka 2026
  • Veliki sigurnosni propust mogao bi utjecati na 1 od 4 Android telefona – evo kako provjeriti svoj 12. ožujka 2026
  • Zabava predstavljanja Galaxy S26 Ultra je gotova 12. ožujka 2026
  • Valve tvrdi da su kutije za plijen “široko korištene, ne samo u video igrama, već i u materijalnom svijetu” dok izražava “razočaranje” zbog tužbe države New York 11. ožujka 2026
  • Ericsson, Future Technologies skalira bežičnu infrastrukturu za industrijsku umjetnu inteligenciju 11. ožujka 2026
  • Anthropic i OpenAI upravo su besplatnim alatima razotkrili SAST-ovu strukturnu slijepu točku 11. ožujka 2026
  • Međuzvjezdani komet 3I/Atlas ima još jedno iznenađenje: Pun je alkohola 11. ožujka 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice