Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

TTT-Discover optimizira GPU kernele 2x brže od ljudskih stručnjaka — treniranjem tijekom zaključivanja

Novosti

TTT-Discover optimizira GPU kernele 2x brže od ljudskih stručnjaka — treniranjem tijekom zaključivanja

Tomšić Damjan 9. veljače 2026

Istraživači sa Stanforda, Nvidije i Together AI razvili su novu tehniku ​​koja može otkriti nova rješenja za vrlo složene probleme. Na primjer, uspjeli su optimizirati kritičnu jezgru GPU-a da radi 2x brže od prethodnog stanja umjetnosti koje su napisali ljudski stručnjaci.

Njihova tehnika, nazvana “Test-Time Trening za otkrivanje” (TTT-Discover), dovodi u pitanje trenutnu paradigmu dopuštanja modelima da “duže razmišljaju” za zaključivanje problema. TTT-Discover omogućuje modelu da nastavi s obukom tijekom procesa zaključivanja i ažurira svoje težine za problem koji je pri ruci.

Sadržaj objave

  • 1 Granice ‘zamrznutog’ razmišljanja
  • 2 Drugačiji pristup učenju s potkrepljenjem
  • 3 Ekonomija ‘teškog zaključivanja’
  • 4 Razmatranja implementacije
  • 5 Slučajevi korištenja iz stvarnog svijeta
  • 6 Od zaključka do izuma
    • 6.1 Povezani sadržaji

Granice ‘zamrznutog’ razmišljanja

Trenutne poslovne strategije umjetne inteligencije često se oslanjaju na "smrznuti" modeli. Bez obzira koristite li zatvoreni ili otvoreni model razmišljanja, parametri modela su statični. Kada zatražite od ovih modela, oni traže odgovore unutar fiksnog razvodnika svojih podataka o obuci. Ovo dobro funkcionira za probleme koji nalikuju onome što je model već vidio.

Međutim, pravi problemi otkrivanja, poput izmišljanja novog algoritma ili dokazivanja novog matematičkog teorema, po definiciji su izvan distribucije. Ako rješenje zahtijeva logički skok koji ne postoji u skupu za uvježbavanje, zamrznuti model vjerojatno neće uspjeti, bez obzira na to koliko računala uložite u njega tijekom zaključivanja.

U komentarima za VentureBeat, Mert Yuksekgonul, koautor rada i doktorant na Stanfordu, ilustrirao je ovu razliku koristeći se poznatim matematičkim otkrićem:

"Vjerujem da modeli razmišljanja ne bi mogli dokazati, na primjer, P != NP, bez treninga u vrijeme testiranja, baš kao što Andrew Wiles ne bi mogao dokazati Fermatov posljednji teorem bez 7 godina koje je proveo tražeći ovaj jedini problem u izolaciji i kontinuirano učeći iz vlastitih neuspjeha."

TTT-Discover tretira testni problem ne kao upit na koji treba odgovoriti, već kao okruženje kojim treba ovladati. Dok model pokušava riješiti problem, on generira različite vrste podataka: neuspjehe, djelomične uspjehe i pogreške. Umjesto odbacivanja ovih podataka, TTT-Discover ih koristi za ažuriranje težine modela u stvarnom vremenu, učinkovito dopuštajući modelu da se laserski usredotoči na taj specifični izazov za razliku od razvoja vrlo općeg okvira za rješavanje problema.

Drugačiji pristup učenju s potkrepljenjem

TTT-Discover pruža temeljnu promjenu u načinu na koji se treniraju modeli razmišljanja. U standardnoj obuci učenja s potkrepljenjem (RL), cilj je generalistička politika koja u prosjeku dobro funkcionira u mnogim zadacima. U TTT-Discoveru, cilj je pronaći najbolje rješenje za vrlo specifičan problem, a politika je “sredstvo za postizanje tog cilja”, prema autorima. Nakon što model otkrije artefakt (tj. optimizirani kod, dokaz ili molekulu), neuronska mreža koja ga je proizvela može se odbaciti.

Kako bi to postigli, istraživači su izradili dvije specifične komponente koje razlikuju TTT-Discover od standardnog učenja s potkrepljenjem:

  1. Entropijski cilj: Standardni RL optimizira za prosječnu očekivanu nagradu. Ako model pokuša riskantnim putem i ne uspije, standardni RL ga kažnjava. TTT-Discover ovo okreće. Koristi se "entropijski cilj" koji eksponencijalno vaga ishode visoke nagrade. Ovo prisiljava model na ignoriranje "sef," prosječne odgovore i agresivno loviti "eureka" outliers, rješenja za koja je mala vjerojatnost da će biti pronađena, ali nude veliku nagradu.

  2. PUCT pretraga: Sustav uvodi PUCT, algoritam pretraživanja stabla inspiriran AlphaZero. Istražuje različite putove rješenja, gradeći skup podataka pokušaja. Model zatim trenira na ovom skupu podataka u stvarnom vremenu, učeći prepoznati koji djelomični koraci dovode do ishoda visoke nagrade.

Ono što je najvažnije, ova metoda najbolje radi na problemima s kontinuiranim signalom nagrade. Sustav treba način za mjerenje inkrementalnog napretka kao što je "vrijeme rada u mikrosekundama" ili "stopa pogreške" a ne binarni "položiti/pasti" signal. To omogućuje modelu da prati postupno poboljšanje prema optimalnom rješenju.

Ekonomija ‘teškog zaključivanja’

Za poduzeća koja su navikla plaćati djeliće centa po API pozivu, troškovni profil TTT-Discovera zahtijeva promjenu načina razmišljanja. U svojim eksperimentima, istraživači su izvijestili da jedno otkrivanje uključuje približno 50 koraka obuke i tisuće uvođenja, koštajući otprilike 500 dolara po problemu.

TTT-Discover bi mogao biti za “statičnu imovinu visoke vrijednosti” za razliku od trivijalnih i ponavljajućih problema koji se mogu riješiti postojećim modelima i pristupima.

Zamislite poduzeće koje se temelji na oblaku i pokreće podatkovni cjevovod koji svake noći obrađuje petabajte informacija. Ako se taj cjevovod oslanja na određeni SQL upit ili GPU kernel, optimizacija tog koda za samo 1% mogla bi uštedjeti stotine tisuća dolara na godišnjim računalnim troškovima. U ovom kontekstu, trošenje 500 USD za pronalaženje kernela koji je 50% brži je trivijalan trošak s trenutačnim povratom ulaganja.

"Ovo ima najviše smisla za odluke niske frekvencije s velikim učinkom gdje jedno poboljšanje vrijedi puno više od troškova računanja," rekao je Yuksekgonul. "Usmjeravanje opskrbnog lanca, dizajn lijekova i otkrivanje materijala ispunjavaju uvjete. U ovim postavkama trošenje stotina dolara na jedan korak otkrivanja može se lako isplatiti."

Razmatranja implementacije

Jedno od najznačajnijih otkrića za prihvaćanje u poduzećima je da TTT-Discover ne zahtijeva vlasnički granični model. Istraživači su postigli najsuvremenije rezultate korištenjem gpt-oss-120bOpenAI-jev model otvorenih utega. Istraživači su objavio kod za TTT-Discover kako bi se omogućilo istraživačima i programerima da ga koriste za vlastite modele.

Budući da tehnika radi s otvorenim modelima, tvrtke to mogu pokrenuti "petlja otkrivanja" u potpunosti unutar vlastitih sigurnih VPC-ova ili lokalnih klastera H100 bez slanja svojih vlasničkih podataka poslužiteljima trećih strana.

“Ako tvrtka već provodi dodatno učenje, nije potrebna dodatna infrastruktura”, rekao je Yuksekgonul. “TTT-Discover koristi isti skup za obuku (GPU-ovi, rollout radnici, optimizatori, kontrolne točke).”

Ako već ne vode RL, morali bi izgraditi tu infrastrukturu. No poduzeća također mogu koristiti postojeća rješenja kako bi smanjila složenost procesa. Istraživači su orkestrirali te treninge pomoću Tinker API od strane Thinking Machines, API-ja koji upravlja složenošću distribuiranog učenja i zaključivanja.

“Alati kao što je Tinker (i otvorene varijante, npr. OpenTinker) snižavaju troškove postavljanja, a troškovi rada i računanja vjerojatno će s vremenom pasti”, rekao je.

Slučajevi korištenja iz stvarnog svijeta

Istraživači su implementirali TTT-Discover u četiri različite tehničke domene: sistemski inženjering, dizajn algoritama, biologija i matematika. U gotovo svakom slučaju, metoda je postavila novo stanje tehnike.

U jednom eksperimentu, model je optimizirao GPU kernele za množenje matrice (uključujući "TriMul" kernel koji se koristi u AlphaFold), postižući brzine izvršenja do 2x brže od prethodnog stanja tehnike i nadmašujući najbolje kernele koje su napisali ljudi na ljestvici s najboljim rezultatima.

U scenarijima konkurentnog programiranja (AtCoder), rješavao je složene heurističke probleme (npr. optimiziranje geometrijskih ograničenja za ribarske mreže) bolje od vrhunskih ljudskih stručnjaka i prijašnjih AI osnovnih linija.

Za poduzeće, prijelaz s ovih akademskih mjerila na poslovnu vrijednost ovisi o jednom specifičnom ograničenju: postojanju provjerljivog, skalarnog signala. Za razliku od chatbota koji generira tekst, TTT-Discover treba čvrstu metriku (npr. vrijeme izvođenja, stopu pogreške ili profitnu maržu) za optimizaciju.

Yuksekgonul je rekao da ovaj zahtjev povlači jasnu granicu između toga gdje bi se ova tehnologija trebala, a gdje ne bi trebala koristiti. "Trenutačno je ključni zahtjev pouzdani skalarni signal napretka — cijena, pogreška, molekularna svojstva — prema kojima se sustav može optimizirati," rekao je.

Ovo usmjerava usvajanje poduzeća prema "teško" inženjerske i operativne izazove kao što su logistika, opskrbni lanac i upravljanje resursima, gdje se problemi poput rutiranja flote ili rasporeda posade često oslanjaju na statičku heuristiku. TTT-Discover ih može tretirati kao okruženja za optimizaciju, trošeći sate kako bi pronašli strukturu rute koja briše 5% dnevnih troškova goriva.

Zahtjev za jasnim verifikatorima isključuje kvalitativne zadatke kao što su "napisati bolju marketinšku strategiju," gdje je provjera subjektivna i sklona šumu.

"Teško provjerljivi problemi još uvijek su otvoreno pitanje,” rekao je Yuksekgonul.

Uz trenutnu tehnologiju, najbolji put naprijed je pokušati dizajnirati verifikatore, ali “učiniti te verifikatore robusnim i teškim za igru ​​je izazov, a mi još nemamo dobro rješenje," dodao je.

Od zaključka do izuma

Šira implikacija je da će se skupovi umjetne inteligencije poduzeća možda morati razviti kako bi podržali ovu vrstu učenja po problemu.

“Sustavi izgrađeni oko zamrznutog modela morat će podržavati prilagodbu po problemu (ili po domeni), a poduzeća će trebati bolje specifikacije problema i interne povratne signale kako bi učenje tijekom testiranja bilo učinkovito”, rekao je Yuksekgonul. “Ako se obuka odvija unutar privatnog VPC-a, petlja obuke također se može integrirati s većim dijelom unutarnjeg okruženja tvrtke, a ne samo sa središnjim laboratorijskim cjevovodom.”

Za poduzeće, vrijednost leži u identificiranju "problemi od milijun dolara”, izazovi optimizacije u kojima postoji provjerljiva metrika, ali ljudski napredak je zastao. Ovo su kandidati za TTT-Discover. Prihvaćanjem veće latencije i troškova za određene upite, poduzeća mogu pretvoriti svoje računanje zaključaka u automatizirani laboratorij za istraživanje i razvoj, otkrivajući rješenja koja su prije bila nedostupna ljudima i zamrznutim AI modelima.

Web izvor

Povezani sadržaji

  • Dugo sam koristio samooffice, a upravo je dobio ogromnu nadogradnju – besplatnoDugo sam koristio samooffice, a upravo je dobio ogromnu nadogradnju – besplatno
  • Kako AirDrop na AndroiduKako AirDrop na Androidu
  • Verizon ponovno podiže cijene, ovaj put za korisnike myPlanaVerizon ponovno podiže cijene, ovaj put za korisnike myPlana
  • Elden Ring co-op spin-off Nightreign mrežni test je najavljen i za njega se možete registrirati uskoroElden Ring co-op spin-off Nightreign mrežni test je najavljen i za njega se možete registrirati uskoro
  • Usporedio sam 5G mrežne signale Verizon, T -Mobile i AT&T na bejzbol stadionu – evo pobjednikaUsporedio sam 5G mrežne signale Verizon, T -Mobile i AT&T na bejzbol stadionu – evo pobjednika
  • Projekt Gigabit zasvijetlio je u Južnom WiltshireuProjekt Gigabit zasvijetlio je u Južnom Wiltshireu

Previous Article

Zašto najprivatniji način pregledavanja weba nije anonimni način (već ovo umjesto toga)

Posljednje objave

TTT-Discover optimizira GPU kernele 2x brže od ljudskih stručnjaka — treniranjem tijekom zaključivanja

TTT-Discover optimizira GPU kernele 2x brže od ljudskih stručnjaka — treniranjem tijekom zaključivanja

Zašto najprivatniji način pregledavanja weba nije anonimni način (već ovo umjesto toga)

Zaboravi prsten: prebacio sam se na ovu sigurnosnu kameru Eufy i ne mogu se vratiti na zrnasti noćni vid

Sadržaj

  • 1 Granice ‘zamrznutog’ razmišljanja
  • 2 Drugačiji pristup učenju s potkrepljenjem
  • 3 Ekonomija ‘teškog zaključivanja’
  • 4 Razmatranja implementacije
  • 5 Slučajevi korištenja iz stvarnog svijeta
  • 6 Od zaključka do izuma

Novosti

  • TTT-Discover optimizira GPU kernele 2x brže od ljudskih stručnjaka — treniranjem tijekom zaključivanja 9. veljače 2026
  • Zašto najprivatniji način pregledavanja weba nije anonimni način (već ovo umjesto toga) 8. veljače 2026
  • Zaboravi prsten: prebacio sam se na ovu sigurnosnu kameru Eufy i ne mogu se vratiti na zrnasti noćni vid 8. veljače 2026
  • Verizon osvaja Ooklin Connectivity Bowl 8. veljače 2026
  • Rast cijena memorije još nije utjecao na Switch 2, kaže predsjednik Nintenda, ali upozorava na pritisak “kroz sljedeću fiskalnu godinu” 8. veljače 2026
  • Hyundai Motor Group i Vodafone IoT postavljaju povezane automobile diljem MENA regije 8. veljače 2026
  • Što OpenClaw trenutak znači za poduzeća: 5 velikih stvari 7. veljače 2026
  • RFK Jr. je spakirao panel o autizmu s kretenima i teoretičarima zavjere 7. veljače 2026
  • Ova nova Linux radna površina radi poput aplikacije na vašoj postojećoj radnoj površini – i toplo je preporučujem 7. veljače 2026
  • Ovaj Bluetooth Auracast prijamnik natjerao me da svoje postavljanje kućnog kina shvatim mnogo ozbiljnije 7. veljače 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice