Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada
Nova evolucijska tehnika iz AI laboratorija sa sjedištem u Japanu Sakana ai Omogućuje programerima da povećaju sposobnosti AI modela bez skupog procesa treninga i finog prilagođavanja. Tehnika, nazvana Model spajanje prirodnih niša (M2N2), prevladava ograničenja drugih metoda spajanja modela i čak može razviti nove modele u potpunosti ispočetka.
M2N2 se može primijeniti na različite vrste modela strojnog učenja, uključujući velike jezične modele (LLMS) i generatore teksta do slike. Za poduzeća koja žele izgraditi prilagođena AI rješenja, pristup nudi snažan i učinkovit način stvaranja specijaliziranih modela kombinirajući snage postojećih varijanti otvorenog koda.
Što je model spajanje?
Spajanje modela tehnika je integriranja znanja više specijaliziranih AI modela u jedan, sposobniji model. Umjesto finog podešavanja, koji usavršava jedan unaprijed obučeni model pomoću novih podataka, spajanje kombinira parametre nekoliko modela istovremeno. Ovaj postupak može konsolidirati bogatstvo znanja u jednoj imovini bez potrebe za skupim obukom ili pristupom originalnim podacima o obuci.
Za poduzetničke timove ovo nudi nekoliko praktičnih prednosti u odnosu na tradicionalno precizno podešavanje. U komentarima za VentureBeat, autori rada rekli su da je spajanje modela proces bez gradijenta koji zahtijeva samo prolazne prolaze, što ga čini računski jeftiniji od finog podešavanja, što uključuje skupa ažuriranja gradijenta. Spajanje također zaobilazi potrebu za pažljivo uravnoteženim podacima o treningu i ublažava rizik od “katastrofalnog zaborava”, gdje model gubi svoje izvorne mogućnosti nakon što je saznao novi zadatak. Tehnika je posebno snažna kada podaci o treningu za specijalne modele nisu dostupni, jer spajanje zahtijeva samo same utege modela.
AI skaliranje pogađa svoje granice
Power ograničenja, rastući troškovi tokena i kašnjenja zaključivanja preoblikovaju Enterprise AI. Pridružite se našem ekskluzivnom salonu kako biste otkrili kako su vrhunski timovi:
- Pretvaranje energije u stratešku prednost
- Arhitekturiste učinkovite zaključke za stvarne propusne dobitke
- Otključavanje natjecateljskog ROI -a s održivim AI sustavima
Osigurajte svoje mjesto da ostanete naprijed:: https://bit.ly/4mwgngo
Rani pristupi modelu spajanja zahtijevali su značajni ručni napor, jer su programeri prilagodili koeficijente pokusa i pogreške kako bi pronašli optimalnu mješavinu. U novije vrijeme, evolucijski algoritmi pomogli su automatiziranju ovog postupka pretraživanjem optimalne kombinacije parametara. Međutim, ostaje značajan ručni korak: programeri moraju postaviti fiksne skupove za spajane parametre, poput slojeva. Ovo ograničenje ograničava prostor za pretraživanje i može spriječiti otkrivanje moćnijih kombinacija.
Kako djeluje m2n2
M2N2 se bavi tim ograničenjima crtanjem inspiracije iz evolucijskih načela u prirodi. Algoritam ima tri ključne značajke koje mu omogućuju istraživanje šireg raspona mogućnosti i otkrivanje učinkovitijih kombinacija modela.
Prvo, M2N2 eliminira fiksne granice spajanja, poput blokova ili slojeva. Umjesto da parametri grupiraju unaprijed definirane slojeve, on koristi fleksibilne „podijeljene točke“ i „miješanje obroka“ za podjelu i kombiniranje modela. To znači da bi, na primjer, algoritam mogao spojiti 30% parametara u jednom sloju iz modela A sa 70% parametara iz istog sloja u modelu B. Proces započinje s “arhivom” sjemenih modela. U svakom koraku M2N2 odabire dva modela iz arhive, određuje omjer miješanja i podijeljenu točku i spaja ih. Ako se rezultirajući model dobro snalazi, dodaje se natrag u arhivu, zamjenjujući slabiju. To omogućava algoritmu da tijekom vremena istražuje sve složenije kombinacije. Kao što istraživači napominju, “ovo postupno uvođenje složenosti osigurava širi spektar mogućnosti uz održavanje računalne traktabilnosti.”
Drugo, M2N2 upravlja raznolikošću svoje modelne populacije kroz konkurenciju. Da bi razumjeli zašto je raznolikost presudna, istraživači nude jednostavnu analogiju: „Zamislite da se spajaju dva lista odgovora za ispit … ako oba lista imaju potpuno iste odgovore, kombiniranje ih ne poboljšava. Ali ako svaki list ima točne odgovore za različita pitanja, spajanje im daje mnogo jači rezultat.“ Model spajanje djeluje na isti način. Izazov je, međutim, definiranje kakve je raznolikosti vrijedna. Umjesto da se oslanjaju na ručno izrađene metrike, M2N2 simulira konkurenciju za ograničene resurse. Ovaj pristup nadahnut prirodom nagrađuje modele jedinstvenim vještinama, jer oni mogu „iskoristiti nesporne resurse“ i riješiti probleme koji drugi ne mogu. Ovi nišni stručnjaci, napominju autorima, najvrjedniji su za spajanje.
Treće, M2N2 koristi heuristički nazvan “atrakcija” za spajanje modela za spajanje. Umjesto da jednostavno kombiniraju vrhunske modele kao u drugim algoritmima spajanja, to ih spaja na temelju njihovih komplementarnih snaga. “Rezultat atrakcije” identificira parove u kojima jedan model dobro djeluje na podatkovnim točkama koje drugi smatra izazovnim. To poboljšava i učinkovitost pretraživanja i kvalitetu konačnog spojenog modela.
M2n2 u akciji
Istraživači su testirali M2N2 u tri različite domene, pokazujući njegovu svestranost i učinkovitost.
Prvi je bio eksperiment malih razmjera koji se razvijao klasifikatorima slike utemeljenih na neuronskoj mreži od nule na MNIST skup podataka. M2N2 je postigao najveću točnost ispitivanja značajnom maržom u usporedbi s drugim metodama. Rezultati su pokazali da je njegov mehanizam za očuvanje raznolikosti bio ključan, što mu je omogućilo da održava arhivu modela s komplementarnim snagama koje su olakšale učinkovito spajanje, a istovremeno odbacujući slabija rješenja.
Zatim su primijenili M2N2 na LLMS, kombinirajući model specijalističkog matematike (WizardMath-7b) sa stručnjakom za agenciju (AgenceVol-7B), a oba se temelje na arhitekturi Llama 2. Cilj je bio stvoriti jednog agenta koji se izvrsno snašao u matematičkim problemima (GSM8K skup podataka) i na web-zadacima (WebShop DataSet). Rezultirajući model postigao je snažne performanse na obje mjerile, pokazujući sposobnost M2N2 da stvara moćne, multikligirane modele.
Konačno, tim je spojio modele generiranja slike temeljenih na difuziji. Kombinirali su model obučen na japanske upute (JSDXL) s tri stabilna difuzijska modela prvenstveno obučena na engleske upute. Cilj je bio stvoriti model koji je kombinirao najbolje mogućnosti stvaranja slika svakog modela sjemena zadržavajući sposobnost razumijevanja japanskog. Spojeni model ne samo da je proizveo više fotorealističnih slika s boljim semantičkim razumijevanjem, već je razvio i hitnu dvojezičnu sposobnost. Mogla bi generirati visokokvalitetne slike iz engleskog i japanskog upita, iako je optimizirana isključivo koristeći japanske naslove.
Za poduzeća koja su već razvila specijalne modele, poslovni slučaj spajanja je uvjerljiv. Autori ukazuju na nove, hibridne mogućnosti koje bi bilo teško postići drugačije. Na primjer, spajanje LLM-a fino prilagođenog uvjerljivim prodajnim igrama s modelom vizije osposobljenim za tumačenje reakcija kupaca moglo bi stvoriti jedinstveni agent koji prilagođava svoj teren u stvarnom vremenu na temelju povratnih informacija uživo. Ovo otključava kombiniranu inteligenciju više modela s troškovima i kašnjenjem trčanja samo jednog.
Gledajući unaprijed, istraživači vide tehnike poput M2N2 kao dio šireg trenda prema “modelu fuzije”. Oni predviđaju budućnost u kojoj organizacije održavaju čitave ekosustave AI modela koji se neprestano razvijaju i spajaju kako bi se prilagodili novim izazovima.
“Zamislite to kao na evoluirajući ekosustav u kojem se mogućnosti kombiniraju po potrebi, a ne da izrađujete jedan divovski monolit ispočetka”, sugeriraju autori.
Istraživači su objavili kod M2N2 na Ždrijeb.
Najveća prepreka ovom dinamičnom, samo-poboljšanju AI ekosustava, vjeruju autori, nije tehnička, već organizacijska. “U svijetu s velikim” spojenim modelom “sastavljen od otvorenog koda, komercijalnih i prilagođenih komponenti, osiguravanje privatnosti, sigurnosti i usklađenosti bit će presudan problem.” Za tvrtke, izazov će shvatiti koji se modeli mogu sigurno i učinkovito apsorbirati u njihov evoluirajući AI snop.
Web izvor