Sakana uvodi novu AI arhitekturu, ‘strojeve za neprekidne misli’ kako bi modeli razlozi s manje vodstva – poput ljudskih mozgova

Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više

Startup umjetne inteligencije sa sjedištem u Tokiju Sakana, koji su suosnivali bivši vrhunski znanstvenici Google AI, uključujući Llion Jones i David Ha, otkrio je novu vrstu AI model arhitektura nazvana strojevi za kontinuirane misli (CTM).

CTM-ovi su dizajnirani kako bi uveli novu eru AI jezičnih modela koji će biti fleksibilniji i sposobniji nositi se s širim rasponom kognitivnih zadataka-poput rješavanja složenih labizira ili navigacijskih zadataka bez pozicijskih znakova ili postojećeg prostornog ugradnje-premještajući ih bliže načinu na koji ljudska bića kroz nepodmoćne probleme.

Umjesto da se oslanjaju na fiksne, paralelne slojeve koji obrađuju ulaze sve odjednom – kao što to čine modeli transformatora – odvijaju računanje preko koraka unutar svake ulazne/izlazne jedinice, poznate kao umjetni “neuron”.

Svaki neuron u modelu zadržava kratku povijest svoje prethodne aktivnosti i koristi tu memoriju kako bi odlučio kada će se ponovno aktivirati.

Ovo dodano unutarnje stanje omogućava CTMS -u da dinamički prilagode dubinu i trajanje njihovog rasuđivanja, ovisno o složenosti zadatka. Kao takav, svaki je neuron daleko opravdano gustiji i složeniji nego u tipičnom modelu transformatora.

Startup je objavio a papir na časopisu za otvoreni pristup arxiv opisujući njegov rad, mikrosjed i Spremište.

Sadržaj objave

1 Kako se CTM-ovi razlikuju od LLM-ova koji se temelje na transformatorima
2 Korištenje varijabilnih, prilagođenih vremenskih rokova za pružanje više inteligencije
3 Rani rezultati: Kako se CTM -ovi uspoređuju s modelima transformatora na ključnim mjerilima i zadacima
4 Što je potrebno prije nego što su CTM -ovi spremni za poduzeće i komercijalno raspoređivanje?
5 Što bi vođe poduzeća AI trebali znati o CTMS -u
6 Sakana karirana AI istraživačka povijest
7 Klađenje na evolucijske mehanizme
- 7.1 Povezani sadržaji

Kako se CTM-ovi razlikuju od LLM-ova koji se temelje na transformatorima

Većina modernih modela velikih jezika (LLMS) i dalje se temelji na arhitekturi „Transformatora“ navedene u seminarskom radu iz 2017. godine istraživača Google Brain pod nazivom „Pažnja je sve što trebate. ”

Ovi modeli koriste paralelizirane slojeve umjetnih neurona s fiksnom dubinom za obradu ulaza u jednom prolazu-bilo da ti ulazi dolaze iz korisničkih upita u vrijeme zaključivanja ili označenih podataka tijekom treninga.

Suprotno tome, CTM-ovi omogućuju svakom umjetnom neuronu da djeluje na vlastitoj unutarnjoj vremenskoj traci, donoseći odluke o aktivaciji na temelju kratkotrajne memorije svojih prethodnih stanja. Te se odluke odvijaju preko unutarnjih koraka poznatih kao “krpelji”, omogućujući modelu da dinamički prilagodi svoje trajanje obrazloženja.

Ova vremenski arhitektura omogućuje CTMS-u da progresivno rasuđuje, prilagođavajući koliko dugo i koliko duboko izračunavaju-uzimajući drugačiji broj krpelja na temelju složenosti ulaza.

Memorija i sinkronizacija specifična za neuron pomažu u određivanju kada se računanje treba nastaviti-ili zaustaviti.

Broj krpelja mijenja se prema unesenim podacima, a može biti i više ili manje, čak i ako su ulazne informacije identične, jer svaki neuron odlučuje koliko će se krpelja podnijeti prije nego što pruži izlaz (ili uopće ne pruža).

To predstavlja i tehnički i filozofski odstupanje od konvencionalnog dubokog učenja, krećući se prema biološki više utemeljenom modelu. Sakana je uokvirila CTM-ove kao korak prema više mozga slične inteligencije-sustavima koji se vremenom prilagođavaju, fleksibilno obrađuju informacije i sudjeluju u dubljem unutarnjem računanju kada je to potrebno.

Sakana je cilj “na kraju postići razinu kompetencije koja suparnička ili nadmašuje ljudske mozgove”.

Korištenje varijabilnih, prilagođenih vremenskih rokova za pružanje više inteligencije

CTM je izgrađen oko dva ključna mehanizma.

Prvo, svaki neuron u modelu održava kratku “povijest” ili radnu memoriju kada se aktivirao i zašto, i koristi ovu povijest kako bi donio odluku o tome kada treba pucati sljedeći.

Drugo, neuronska sinkronizacija – kako i kada grupa umjetnih neurona modela “vatra” ili zajedno procesuirati informacije – dopušteno je da se odvija organski.

Grupe neurona odlučuju kada zajedno pucaju na temelju unutarnjeg poravnanja, a ne vanjskih uputa ili oblikovanja nagrade. Ovi događaji sinkronizacije koriste se za moduliranje pozornosti i stvaranje rezultata – to jest, pažnja je usmjerena prema onim područjima u kojima puca više neurona.

Model nije samo obrada podataka, već je vrijeme njegovog razmišljanja kako bi odgovarao složenosti zadatka.

Zajedno, ovi mehanizmi omogućuju CTM -u da smanje računalno opterećenje na jednostavnijim zadacima, a pritom primjenjuju dublje, dugotrajno obrazloženje tamo gdje je to potrebno.

U demonstracijama u rasponu od klasifikacije slike i rješavanja 2D labirinta do učenje pojačanja, CTM -ovi su pokazali i tumačenje i prilagodljivost. Njihovi unutarnji koraci „misao“ omogućuju istraživačima da promatraju kako se odluke formiraju tijekom vremena – razina transparentnosti koje se rijetko viđa u drugim modelima.

Rani rezultati: Kako se CTM -ovi uspoređuju s modelima transformatora na ključnim mjerilima i zadacima

Stroj za kontinuiranu misao Sakana AI nije dizajniran da progoni ocjene referentnih ploča na vrhu, ali njegovi rani rezultati pokazuju da njegov biološki nadahnuti dizajn ne dolazi po cijenu praktične sposobnosti.

Na široko korištenoj referentnoj vrijednosti ImageNet-1K, CTM je postigao 72,47% Top-1 i 89,89% Top-5 točnost.

Iako ovo nedostaje najsuvremenijih modela transformatora poput VIT-a ili ConvNext-a, i dalje je konkurentno-posebno s obzirom na to da je CTM arhitektura u osnovi drugačija i nije optimizirana samo za performanse.

Ono što se više ističe jesu ponašanja CTM -a u sekvencijalnim i adaptivnim zadacima. U scenarijima za rješavanje labirinta, model proizvodi korak po korak usmjerene izlaze iz RAW slika-bez korištenja pozicijskih ugradnje, koje su obično neophodne u modelima transformatora. Tragovi vizualne pozornosti otkrivaju da CTM-ovi često sudjeluju u slikovnim regijama u ljudskom nizu, poput identificiranja crta lica od očiju do nosa do ušća.

Model također pokazuje snažnu kalibraciju: njegova pouzdanost procjenjuje se usko usklađivanje sa stvarnom točnošću predviđanja. Za razliku od većine modela koji zahtijevaju skaliranje temperature ili post-hoc prilagodbe, CTMS prirodno poboljšava kalibraciju prosjekom predviđanja tijekom vremena kako se njihovo unutarnje rasuđivanje odvija.

Ovaj spoj sekvencijalnog rezonovanja, prirodne kalibracije i interpretabilnosti nudi vrijedan kompromis za aplikacije u kojima su povjerenje i sljedivost važni koliko i sirova točnost.

Što je potrebno prije nego što su CTM -ovi spremni za poduzeće i komercijalno raspoređivanje?

Iako CTM -ovi pokazuju značajno obećanje, arhitektura je i dalje eksperimentalna i još nije optimizirana za komercijalnu implementaciju. Sakana AI prikazuje model kao platformu za daljnja istraživanja i istraživanje, a ne kao dodatak-and-play poduzeće.

Obuka CTMS trenutno zahtijeva više resursa od standardnih modela transformatora. Njihova dinamična vremenska struktura proširuje državni prostor, a potrebno je pažljivo podešavanje kako bi se osiguralo stabilno, učinkovito učenje u unutarnjim vremenskim koracima. Uz to, podrška za uklanjanje pogrešaka i alata još uvijek sustižu-mnogi današnjih knjižnica i profila nisu dizajnirani s obzirom na modele koji su u vidu.

Ipak, Sakana je postavila snažne temelje za usvajanje zajednice. Potpuna implementacija CTM-a je otvorena na Ždrijeb i uključuje skripte treninga specifičnih za domenu, prethodno kontrolne točke, alate za crtanje i alate za analizu. Podržani zadaci uključuju klasifikaciju slike (ImageNet, CIFAR), 2D labirint navigacija, Qamnist, računanje pariteta, sortiranje i učenje pojačanja.

Interaktivni web demo također omogućuje korisnicima da istražuju CTM u akciji, promatrajući kako se njegova pažnja s vremenom mijenja tijekom zaključivanja – uvjerljiv način razumijevanja protoka arhitekture.

Da bi CTM -ovi postigli proizvodna okruženja potreban je daljnji napredak u optimizaciji, učinkovitosti hardvera i integraciji sa standardnim cjevovodima za zaključivanje. No, s pristupačnim kodom i aktivnom dokumentacijom, Sakana je istraživačima i inženjerima olakšalo početak eksperimentiranja s modelom danas.

Što bi vođe poduzeća AI trebali znati o CTMS -u

CTM arhitektura još uvijek je u svojim ranim danima, ali donositelji odluka poduzeća već bi trebali uzeti u obzir. Njegova sposobnost adaptivnog raspodjele računala, samoreguliranje dubine obrazloženja i ponuda jasne interpretabilnosti može se pokazati vrlo vrijednom u proizvodnim sustavima koji se suočavaju s promjenjivom složenošću unosa ili strogim regulatornim zahtjevima.

AI inženjeri koji upravljaju implementacijom modela naći će vrijednost u CTM-ovom energetski učinkovitom zaključku-posebno u aplikacijama osjetljivim na velike ili latencije.

U međuvremenu, detaljno obrazloženje arhitekture otključava bogatiju objašnjenju, omogućujući organizacijama da prate ne samo ono što je model predvidio, već i kako je tamo stigao.

Za timove orkestracije i MLOPS-a, CTMS se integrira s poznatim komponentama poput ResNET-ovih enkodera, omogućujući glatko ugradnju u postojeće tijekove rada. A infrastruktura potencijala mogu koristiti arhitekturu profilirajući kuke kako bi bolje dodijelili resurse i nadzirali dinamiku performansi tijekom vremena.

CTM -ovi nisu spremni zamijeniti transformatore, ali oni predstavljaju novu kategoriju modela novim prihodima. Za organizacije koje daju prioritet sigurnosti, interpretabilnosti i adaptivnim računanjem arhitektura zaslužuje veliku pažnju.

Sakana karirana AI istraživačka povijest

U veljači, Sakana je predstavila inženjera AI CUDAAgentic AI sustav dizajniran za automatizaciju proizvodnje visoko optimiziranog CUDA jezgraskupovi upute koji omogućuju grafičke jedinice za obradu grafike NVIDIA (i drugi) (GPUS) da efikasno pokrenu kôd paralelno u više „niti“ ili računalnih jedinica.

Obećanje je bilo značajno: ubrzanje od 10x do 100x u ML operacijama. Međutim, ubrzo nakon puštanja na slobodu, vanjski recenzenti otkrili su da sustav je iskoristio slabosti u evaluacijskom sanduku—SENTICALY “varanje”Zaobilaženjem ispravnosti provjerava kroz iskorištavanje memorije.

U javnom postu, Sakana je priznala to pitanje i zaslužila članove zajednice da ga označi.

Otkako su prepravili svoje alati za procjenu i vremensko profiliranje za uklanjanje sličnih rupa i revidiraju svoje rezultate i istraživački rad u skladu s tim. Incident je ponudio stvar u stvarnom svijetu jedne od navedenih vrijednosti Sakana: prihvaćanje iteracije i transparentnosti u potrazi za boljim AI sustavima.

Klađenje na evolucijske mehanizme

Osnivački etos Sakana AI leži u spajanju evolucijskog računanja s modernim strojnim učenjem. Tvrtka vjeruje da su trenutni modeli previše kruti – zaključani u fiksne arhitekture i zahtijevaju prekvalifikaciju za nove zadatke.

Suprotno tome, Sakana ima za cilj stvoriti modele koji se prilagođavaju u stvarnom vremenu, pokazuju novo ponašanje i prirodno razmjera interakcijom i povratnim informacijama, slično kao organizmi u ekosustavu.

Ova se vizija već manifestira u proizvodima poput Transformer², sustava koji prilagođava LLM parametre u vrijeme zaključivanja bez prekvalifikacije, koristeći algebarske trikove poput raspadanja jedinstvene vrijednosti.

To je također očito u njihovoj predanosti sustavima otvorenog izvora poput AI znanstvenika-čak i usred kontroverze-demonstruirajući spremnost za suradnju sa širom istraživačkom zajednicom, a ne samo da se s tim natječe.

Kako su veliki dužnosti poput Openai i Google udvostručili modele temelja, Sakana crta drugačiji tečaj: mali, dinamični, biološki nadahnuti sustavi koji razmišljaju u vremenu, surađuju po dizajnu i razvijaju se kroz iskustvo.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.

Web izvor