TTT-Discover optimizira GPU kernele 2x brže od ljudskih stručnjaka — treniranjem tijekom zaključivanja

Istraživači sa Stanforda, Nvidije i Together AI razvili su novu tehniku koja može otkriti nova rješenja za vrlo složene probleme. Na primjer, uspjeli su optimizirati kritičnu jezgru GPU-a da radi 2x brže od prethodnog stanja umjetnosti koje su napisali ljudski stručnjaci.

Njihova tehnika, nazvana “Test-Time Trening za otkrivanje” (TTT-Discover), dovodi u pitanje trenutnu paradigmu dopuštanja modelima da “duže razmišljaju” za zaključivanje problema. TTT-Discover omogućuje modelu da nastavi s obukom tijekom procesa zaključivanja i ažurira svoje težine za problem koji je pri ruci.

Sadržaj objave

1 Granice ‘zamrznutog’ razmišljanja
2 Drugačiji pristup učenju s potkrepljenjem
3 Ekonomija ‘teškog zaključivanja’
4 Razmatranja implementacije
5 Slučajevi korištenja iz stvarnog svijeta
6 Od zaključka do izuma

Granice ‘zamrznutog’ razmišljanja

Trenutne poslovne strategije umjetne inteligencije često se oslanjaju na "smrznuti" modeli. Bez obzira koristite li zatvoreni ili otvoreni model razmišljanja, parametri modela su statični. Kada zatražite od ovih modela, oni traže odgovore unutar fiksnog razvodnika svojih podataka o obuci. Ovo dobro funkcionira za probleme koji nalikuju onome što je model već vidio.

Međutim, pravi problemi otkrivanja, poput izmišljanja novog algoritma ili dokazivanja novog matematičkog teorema, po definiciji su izvan distribucije. Ako rješenje zahtijeva logički skok koji ne postoji u skupu za uvježbavanje, zamrznuti model vjerojatno neće uspjeti, bez obzira na to koliko računala uložite u njega tijekom zaključivanja.

U komentarima za VentureBeat, Mert Yuksekgonul, koautor rada i doktorant na Stanfordu, ilustrirao je ovu razliku koristeći se poznatim matematičkim otkrićem:

"Vjerujem da modeli razmišljanja ne bi mogli dokazati, na primjer, P != NP, bez treninga u vrijeme testiranja, baš kao što Andrew Wiles ne bi mogao dokazati Fermatov posljednji teorem bez 7 godina koje je proveo tražeći ovaj jedini problem u izolaciji i kontinuirano učeći iz vlastitih neuspjeha."

TTT-Discover tretira testni problem ne kao upit na koji treba odgovoriti, već kao okruženje kojim treba ovladati. Dok model pokušava riješiti problem, on generira različite vrste podataka: neuspjehe, djelomične uspjehe i pogreške. Umjesto odbacivanja ovih podataka, TTT-Discover ih koristi za ažuriranje težine modela u stvarnom vremenu, učinkovito dopuštajući modelu da se laserski usredotoči na taj specifični izazov za razliku od razvoja vrlo općeg okvira za rješavanje problema.

Drugačiji pristup učenju s potkrepljenjem

TTT-Discover pruža temeljnu promjenu u načinu na koji se treniraju modeli razmišljanja. U standardnoj obuci učenja s potkrepljenjem (RL), cilj je generalistička politika koja u prosjeku dobro funkcionira u mnogim zadacima. U TTT-Discoveru, cilj je pronaći najbolje rješenje za vrlo specifičan problem, a politika je “sredstvo za postizanje tog cilja”, prema autorima. Nakon što model otkrije artefakt (tj. optimizirani kod, dokaz ili molekulu), neuronska mreža koja ga je proizvela može se odbaciti.

Kako bi to postigli, istraživači su izradili dvije specifične komponente koje razlikuju TTT-Discover od standardnog učenja s potkrepljenjem:

Entropijski cilj: Standardni RL optimizira za prosječnu očekivanu nagradu. Ako model pokuša riskantnim putem i ne uspije, standardni RL ga kažnjava. TTT-Discover ovo okreće. Koristi se "entropijski cilj" koji eksponencijalno vaga ishode visoke nagrade. Ovo prisiljava model na ignoriranje "sef," prosječne odgovore i agresivno loviti "eureka" outliers, rješenja za koja je mala vjerojatnost da će biti pronađena, ali nude veliku nagradu.
PUCT pretraga: Sustav uvodi PUCT, algoritam pretraživanja stabla inspiriran AlphaZero. Istražuje različite putove rješenja, gradeći skup podataka pokušaja. Model zatim trenira na ovom skupu podataka u stvarnom vremenu, učeći prepoznati koji djelomični koraci dovode do ishoda visoke nagrade.

Ono što je najvažnije, ova metoda najbolje radi na problemima s kontinuiranim signalom nagrade. Sustav treba način za mjerenje inkrementalnog napretka kao što je "vrijeme rada u mikrosekundama" ili "stopa pogreške" a ne binarni "položiti/pasti" signal. To omogućuje modelu da prati postupno poboljšanje prema optimalnom rješenju.

Ekonomija ‘teškog zaključivanja’

Za poduzeća koja su navikla plaćati djeliće centa po API pozivu, troškovni profil TTT-Discovera zahtijeva promjenu načina razmišljanja. U svojim eksperimentima, istraživači su izvijestili da jedno otkrivanje uključuje približno 50 koraka obuke i tisuće uvođenja, koštajući otprilike 500 dolara po problemu.

TTT-Discover bi mogao biti za “statičnu imovinu visoke vrijednosti” za razliku od trivijalnih i ponavljajućih problema koji se mogu riješiti postojećim modelima i pristupima.

Zamislite poduzeće koje se temelji na oblaku i pokreće podatkovni cjevovod koji svake noći obrađuje petabajte informacija. Ako se taj cjevovod oslanja na određeni SQL upit ili GPU kernel, optimizacija tog koda za samo 1% mogla bi uštedjeti stotine tisuća dolara na godišnjim računalnim troškovima. U ovom kontekstu, trošenje 500 USD za pronalaženje kernela koji je 50% brži je trivijalan trošak s trenutačnim povratom ulaganja.

"Ovo ima najviše smisla za odluke niske frekvencije s velikim učinkom gdje jedno poboljšanje vrijedi puno više od troškova računanja," rekao je Yuksekgonul. "Usmjeravanje opskrbnog lanca, dizajn lijekova i otkrivanje materijala ispunjavaju uvjete. U ovim postavkama trošenje stotina dolara na jedan korak otkrivanja može se lako isplatiti."

Razmatranja implementacije

Jedno od najznačajnijih otkrića za prihvaćanje u poduzećima je da TTT-Discover ne zahtijeva vlasnički granični model. Istraživači su postigli najsuvremenije rezultate korištenjem gpt-oss-120bOpenAI-jev model otvorenih utega. Istraživači su objavio kod za TTT-Discover kako bi se omogućilo istraživačima i programerima da ga koriste za vlastite modele.

Budući da tehnika radi s otvorenim modelima, tvrtke to mogu pokrenuti "petlja otkrivanja" u potpunosti unutar vlastitih sigurnih VPC-ova ili lokalnih klastera H100 bez slanja svojih vlasničkih podataka poslužiteljima trećih strana.

“Ako tvrtka već provodi dodatno učenje, nije potrebna dodatna infrastruktura”, rekao je Yuksekgonul. “TTT-Discover koristi isti skup za obuku (GPU-ovi, rollout radnici, optimizatori, kontrolne točke).”

Ako već ne vode RL, morali bi izgraditi tu infrastrukturu. No poduzeća također mogu koristiti postojeća rješenja kako bi smanjila složenost procesa. Istraživači su orkestrirali te treninge pomoću Tinker API od strane Thinking Machines, API-ja koji upravlja složenošću distribuiranog učenja i zaključivanja.

“Alati kao što je Tinker (i otvorene varijante, npr. OpenTinker) snižavaju troškove postavljanja, a troškovi rada i računanja vjerojatno će s vremenom pasti”, rekao je.

Slučajevi korištenja iz stvarnog svijeta

Istraživači su implementirali TTT-Discover u četiri različite tehničke domene: sistemski inženjering, dizajn algoritama, biologija i matematika. U gotovo svakom slučaju, metoda je postavila novo stanje tehnike.

U jednom eksperimentu, model je optimizirao GPU kernele za množenje matrice (uključujući "TriMul" kernel koji se koristi u AlphaFold), postižući brzine izvršenja do 2x brže od prethodnog stanja tehnike i nadmašujući najbolje kernele koje su napisali ljudi na ljestvici s najboljim rezultatima.

U scenarijima konkurentnog programiranja (AtCoder), rješavao je složene heurističke probleme (npr. optimiziranje geometrijskih ograničenja za ribarske mreže) bolje od vrhunskih ljudskih stručnjaka i prijašnjih AI osnovnih linija.

Za poduzeće, prijelaz s ovih akademskih mjerila na poslovnu vrijednost ovisi o jednom specifičnom ograničenju: postojanju provjerljivog, skalarnog signala. Za razliku od chatbota koji generira tekst, TTT-Discover treba čvrstu metriku (npr. vrijeme izvođenja, stopu pogreške ili profitnu maržu) za optimizaciju.

Yuksekgonul je rekao da ovaj zahtjev povlači jasnu granicu između toga gdje bi se ova tehnologija trebala, a gdje ne bi trebala koristiti. "Trenutačno je ključni zahtjev pouzdani skalarni signal napretka — cijena, pogreška, molekularna svojstva — prema kojima se sustav može optimizirati," rekao je.

Ovo usmjerava usvajanje poduzeća prema "teško" inženjerske i operativne izazove kao što su logistika, opskrbni lanac i upravljanje resursima, gdje se problemi poput rutiranja flote ili rasporeda posade često oslanjaju na statičku heuristiku. TTT-Discover ih može tretirati kao okruženja za optimizaciju, trošeći sate kako bi pronašli strukturu rute koja briše 5% dnevnih troškova goriva.

Zahtjev za jasnim verifikatorima isključuje kvalitativne zadatke kao što su "napisati bolju marketinšku strategiju," gdje je provjera subjektivna i sklona šumu.

"Teško provjerljivi problemi još uvijek su otvoreno pitanje,” rekao je Yuksekgonul.

Uz trenutnu tehnologiju, najbolji put naprijed je pokušati dizajnirati verifikatore, ali “učiniti te verifikatore robusnim i teškim za igru je izazov, a mi još nemamo dobro rješenje," dodao je.

Od zaključka do izuma

Šira implikacija je da će se skupovi umjetne inteligencije poduzeća možda morati razviti kako bi podržali ovu vrstu učenja po problemu.

“Sustavi izgrađeni oko zamrznutog modela morat će podržavati prilagodbu po problemu (ili po domeni), a poduzeća će trebati bolje specifikacije problema i interne povratne signale kako bi učenje tijekom testiranja bilo učinkovito”, rekao je Yuksekgonul. “Ako se obuka odvija unutar privatnog VPC-a, petlja obuke također se može integrirati s većim dijelom unutarnjeg okruženja tvrtke, a ne samo sa središnjim laboratorijskim cjevovodom.”

Za poduzeće, vrijednost leži u identificiranju "problemi od milijun dolara”, izazovi optimizacije u kojima postoji provjerljiva metrika, ali ljudski napredak je zastao. Ovo su kandidati za TTT-Discover. Prihvaćanjem veće latencije i troškova za određene upite, poduzeća mogu pretvoriti svoje računanje zaključaka u automatizirani laboratorij za istraživanje i razvoj, otkrivajući rješenja koja su prije bila nedostupna ljudima i zamrznutim AI modelima.

Web izvor

TTT-Discover optimizira GPU kernele 2x brže od ljudskih stručnjaka — treniranjem tijekom zaključivanja

ByTomšić Damjan

Granice ‘zamrznutog’ razmišljanja

Drugačiji pristup učenju s potkrepljenjem

Ekonomija ‘teškog zaključivanja’

Razmatranja implementacije

Slučajevi korištenja iz stvarnog svijeta

Od zaključka do izuma

By Tomšić Damjan

Autonomni sigurnosni agenti trebaju potpune podatke. Evo kako provjeriti je li vaš spreman.

Snažni potresi u Venezueli bili su rijedak ‘seizmički dvojnik’

Windows 10 je vrlo tiho dobio još jednu godinu besplatne podrške – ali zašto?

You missed

Autonomni sigurnosni agenti trebaju potpune podatke. Evo kako provjeriti je li vaš spreman.

Snažni potresi u Venezueli bili su rijedak ‘seizmički dvojnik’

Windows 10 je vrlo tiho dobio još jednu godinu besplatne podrške – ali zašto?

Xbox Series X/S dobiva veliki porast cijene, budući da Microsoft postaje posljednja tvrtka koja okrivljuje vrtoglavi porast troškova RAM-a i pohrane

TTT-Discover optimizira GPU kernele 2x brže od ljudskih stručnjaka — treniranjem tijekom zaključivanja

ByTomšić Damjan

Granice ‘zamrznutog’ razmišljanja

Drugačiji pristup učenju s potkrepljenjem

Ekonomija ‘teškog zaključivanja’

Razmatranja implementacije

Slučajevi korištenja iz stvarnog svijeta

Od zaključka do izuma

By Tomšić Damjan

Related Post

Autonomni sigurnosni agenti trebaju potpune podatke. Evo kako provjeriti je li vaš spreman.

Snažni potresi u Venezueli bili su rijedak ‘seizmički dvojnik’

Windows 10 je vrlo tiho dobio još jednu godinu besplatne podrške – ali zašto?

You missed

Autonomni sigurnosni agenti trebaju potpune podatke. Evo kako provjeriti je li vaš spreman.

Snažni potresi u Venezueli bili su rijedak ‘seizmički dvojnik’

Windows 10 je vrlo tiho dobio još jednu godinu besplatne podrške – ali zašto?

Xbox Series X/S dobiva veliki porast cijene, budući da Microsoft postaje posljednja tvrtka koja okrivljuje vrtoglavi porast troškova RAM-a i pohrane