Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Kako novi evolucijski algoritam Sakana AI gradi snažne AI modele bez skupog prekvalifikacije

Novosti

Kako novi evolucijski algoritam Sakana AI gradi snažne AI modele bez skupog prekvalifikacije

Tomšić Damjan 31. kolovoza 2025


Želite pametnije uvide u vašu pristiglu poštu? Prijavite se za naše tjedne biltene kako biste dobili samo ono što je važno za vođe AI, podataka i sigurnosti. Pretplatite se sada


Nova evolucijska tehnika iz AI laboratorija sa sjedištem u Japanu Sakana ai Omogućuje programerima da povećaju sposobnosti AI modela bez skupog procesa treninga i finog prilagođavanja. Tehnika, nazvana Model spajanje prirodnih niša (M2N2), prevladava ograničenja drugih metoda spajanja modela i čak može razviti nove modele u potpunosti ispočetka.

M2N2 se može primijeniti na različite vrste modela strojnog učenja, uključujući velike jezične modele (LLMS) i generatore teksta do slike. Za poduzeća koja žele izgraditi prilagođena AI rješenja, pristup nudi snažan i učinkovit način stvaranja specijaliziranih modela kombinirajući snage postojećih varijanti otvorenog koda.

Sadržaj objave

  • 1 Što je model spajanje?
  • 2 Kako djeluje m2n2
  • 3 M2n2 u akciji
    • 3.1 Povezani sadržaji

Što je model spajanje?

Spajanje modela tehnika je integriranja znanja više specijaliziranih AI modela u jedan, sposobniji model. Umjesto finog podešavanja, koji usavršava jedan unaprijed obučeni model pomoću novih podataka, spajanje kombinira parametre nekoliko modela istovremeno. Ovaj postupak može konsolidirati bogatstvo znanja u jednoj imovini bez potrebe za skupim obukom ili pristupom originalnim podacima o obuci.

Za poduzetničke timove ovo nudi nekoliko praktičnih prednosti u odnosu na tradicionalno precizno podešavanje. U komentarima za VentureBeat, autori rada rekli su da je spajanje modela proces bez gradijenta koji zahtijeva samo prolazne prolaze, što ga čini računski jeftiniji od finog podešavanja, što uključuje skupa ažuriranja gradijenta. Spajanje također zaobilazi potrebu za pažljivo uravnoteženim podacima o treningu i ublažava rizik od “katastrofalnog zaborava”, gdje model gubi svoje izvorne mogućnosti nakon što je saznao novi zadatak. Tehnika je posebno snažna kada podaci o treningu za specijalne modele nisu dostupni, jer spajanje zahtijeva samo same utege modela.


AI skaliranje pogađa svoje granice

Power ograničenja, rastući troškovi tokena i kašnjenja zaključivanja preoblikovaju Enterprise AI. Pridružite se našem ekskluzivnom salonu kako biste otkrili kako su vrhunski timovi:

  • Pretvaranje energije u stratešku prednost
  • Arhitekturiste učinkovite zaključke za stvarne propusne dobitke
  • Otključavanje natjecateljskog ROI -a s održivim AI sustavima

Osigurajte svoje mjesto da ostanete naprijed:: https://bit.ly/4mwgngo


Rani pristupi modelu spajanja zahtijevali su značajni ručni napor, jer su programeri prilagodili koeficijente pokusa i pogreške kako bi pronašli optimalnu mješavinu. U novije vrijeme, evolucijski algoritmi pomogli su automatiziranju ovog postupka pretraživanjem optimalne kombinacije parametara. Međutim, ostaje značajan ručni korak: programeri moraju postaviti fiksne skupove za spajane parametre, poput slojeva. Ovo ograničenje ograničava prostor za pretraživanje i može spriječiti otkrivanje moćnijih kombinacija.

Kako djeluje m2n2

M2N2 se bavi tim ograničenjima crtanjem inspiracije iz evolucijskih načela u prirodi. Algoritam ima tri ključne značajke koje mu omogućuju istraživanje šireg raspona mogućnosti i otkrivanje učinkovitijih kombinacija modela.

Model Spajanje prirodnih niša Izvor: ARXIV

Prvo, M2N2 eliminira fiksne granice spajanja, poput blokova ili slojeva. Umjesto da parametri grupiraju unaprijed definirane slojeve, on koristi fleksibilne „podijeljene točke“ i „miješanje obroka“ za podjelu i kombiniranje modela. To znači da bi, na primjer, algoritam mogao spojiti 30% parametara u jednom sloju iz modela A sa 70% parametara iz istog sloja u modelu B. Proces započinje s “arhivom” sjemenih modela. U svakom koraku M2N2 odabire dva modela iz arhive, određuje omjer miješanja i podijeljenu točku i spaja ih. Ako se rezultirajući model dobro snalazi, dodaje se natrag u arhivu, zamjenjujući slabiju. To omogućava algoritmu da tijekom vremena istražuje sve složenije kombinacije. Kao što istraživači napominju, “ovo postupno uvođenje složenosti osigurava širi spektar mogućnosti uz održavanje računalne traktabilnosti.”

Drugo, M2N2 upravlja raznolikošću svoje modelne populacije kroz konkurenciju. Da bi razumjeli zašto je raznolikost presudna, istraživači nude jednostavnu analogiju: „Zamislite da se spajaju dva lista odgovora za ispit … ako oba lista imaju potpuno iste odgovore, kombiniranje ih ne poboljšava. Ali ako svaki list ima točne odgovore za različita pitanja, spajanje im daje mnogo jači rezultat.“ Model spajanje djeluje na isti način. Izazov je, međutim, definiranje kakve je raznolikosti vrijedna. Umjesto da se oslanjaju na ručno izrađene metrike, M2N2 simulira konkurenciju za ograničene resurse. Ovaj pristup nadahnut prirodom nagrađuje modele jedinstvenim vještinama, jer oni mogu „iskoristiti nesporne resurse“ i riješiti probleme koji drugi ne mogu. Ovi nišni stručnjaci, napominju autorima, najvrjedniji su za spajanje.

Treće, M2N2 koristi heuristički nazvan “atrakcija” za spajanje modela za spajanje. Umjesto da jednostavno kombiniraju vrhunske modele kao u drugim algoritmima spajanja, to ih spaja na temelju njihovih komplementarnih snaga. “Rezultat atrakcije” identificira parove u kojima jedan model dobro djeluje na podatkovnim točkama koje drugi smatra izazovnim. To poboljšava i učinkovitost pretraživanja i kvalitetu konačnog spojenog modela.

M2n2 u akciji

Istraživači su testirali M2N2 u tri različite domene, pokazujući njegovu svestranost i učinkovitost.

Prvi je bio eksperiment malih razmjera koji se razvijao klasifikatorima slike utemeljenih na neuronskoj mreži od nule na MNIST skup podataka. M2N2 je postigao najveću točnost ispitivanja značajnom maržom u usporedbi s drugim metodama. Rezultati su pokazali da je njegov mehanizam za očuvanje raznolikosti bio ključan, što mu je omogućilo da održava arhivu modela s komplementarnim snagama koje su olakšale učinkovito spajanje, a istovremeno odbacujući slabija rješenja.

Zatim su primijenili M2N2 na LLMS, kombinirajući model specijalističkog matematike (WizardMath-7b) sa stručnjakom za agenciju (AgenceVol-7B), a oba se temelje na arhitekturi Llama 2. Cilj je bio stvoriti jednog agenta koji se izvrsno snašao u matematičkim problemima (GSM8K skup podataka) i na web-zadacima (WebShop DataSet). Rezultirajući model postigao je snažne performanse na obje mjerile, pokazujući sposobnost M2N2 da stvara moćne, multikligirane modele.

Model se spaja s m2n2 kombinira najbolje od oba modela sjemena Izvor: ARXIV

Konačno, tim je spojio modele generiranja slike temeljenih na difuziji. Kombinirali su model obučen na japanske upute (JSDXL) s tri stabilna difuzijska modela prvenstveno obučena na engleske upute. Cilj je bio stvoriti model koji je kombinirao najbolje mogućnosti stvaranja slika svakog modela sjemena zadržavajući sposobnost razumijevanja japanskog. Spojeni model ne samo da je proizveo više fotorealističnih slika s boljim semantičkim razumijevanjem, već je razvio i hitnu dvojezičnu sposobnost. Mogla bi generirati visokokvalitetne slike iz engleskog i japanskog upita, iako je optimizirana isključivo koristeći japanske naslove.

Za poduzeća koja su već razvila specijalne modele, poslovni slučaj spajanja je uvjerljiv. Autori ukazuju na nove, hibridne mogućnosti koje bi bilo teško postići drugačije. Na primjer, spajanje LLM-a fino prilagođenog uvjerljivim prodajnim igrama s modelom vizije osposobljenim za tumačenje reakcija kupaca moglo bi stvoriti jedinstveni agent koji prilagođava svoj teren u stvarnom vremenu na temelju povratnih informacija uživo. Ovo otključava kombiniranu inteligenciju više modela s troškovima i kašnjenjem trčanja samo jednog.

Gledajući unaprijed, istraživači vide tehnike poput M2N2 kao dio šireg trenda prema “modelu fuzije”. Oni predviđaju budućnost u kojoj organizacije održavaju čitave ekosustave AI modela koji se neprestano razvijaju i spajaju kako bi se prilagodili novim izazovima.

“Zamislite to kao na evoluirajući ekosustav u kojem se mogućnosti kombiniraju po potrebi, a ne da izrađujete jedan divovski monolit ispočetka”, sugeriraju autori.

Istraživači su objavili kod M2N2 na Ždrijeb.

Najveća prepreka ovom dinamičnom, samo-poboljšanju AI ekosustava, vjeruju autori, nije tehnička, već organizacijska. “U svijetu s velikim” spojenim modelom “sastavljen od otvorenog koda, komercijalnih i prilagođenih komponenti, osiguravanje privatnosti, sigurnosti i usklađenosti bit će presudan problem.” Za tvrtke, izazov će shvatiti koji se modeli mogu sigurno i učinkovito apsorbirati u njihov evoluirajući AI snop.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Kako koristiti Apache web poslužitelj za instalaciju i konfiguraciju web stranice
  • Globalna VC ulaganja porasla su 5,4% na 368,5 milijardi USD u 2024., ali su poslovi pali 17% | NVCA/PitchbookGlobalna VC ulaganja porasla su 5,4% na 368,5 milijardi USD u 2024., ali su poslovi pali 17% | NVCA/Pitchbook
  • Pokušao sam zamijeniti radnu površinu telefonom za posao – 5 frustrirajućih lekcija koje sam naučioPokušao sam zamijeniti radnu površinu telefonom za posao – 5 frustrirajućih lekcija koje sam naučio
  • 5 iznenađujuće produktivnih stvari koje možete učiniti s Linux terminalom5 iznenađujuće produktivnih stvari koje možete učiniti s Linux terminalom
  • Ja sam korisnik Linux Power -a i ovaj distro ima najsvježiji način na dizajnu OS -aJa sam korisnik Linux Power -a i ovaj distro ima najsvježiji način na dizajnu OS -a
  • Tehničke kompanije ugrade nakon što Velika Britanija zahtijeva pristup stražnjim vratima Appleu ClouduTehničke kompanije ugrade nakon što Velika Britanija zahtijeva pristup stražnjim vratima Appleu Cloudu

Previous Article

Ove novootkrivene stanice diše na dva načina

Next Article

8x8 linija za Southampton FC kako bi povećao iskustvo kupca

Posljednje objave

Google fotografije stvaranje kolaža dobiva velika poboljšanja

Google fotografije stvaranje kolaža dobiva velika poboljšanja

Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent

Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent

Sita otkriva prevlake za vlaknastim optičkim aerodromima

Sadržaj

  • 1 Što je model spajanje?
  • 2 Kako djeluje m2n2
  • 3 M2n2 u akciji

Novosti

  • Google fotografije stvaranje kolaža dobiva velika poboljšanja 14. listopada 2025
  • Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent 14. listopada 2025
  • Sita otkriva prevlake za vlaknastim optičkim aerodromima 14. listopada 2025
  • Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata 14. listopada 2025
  • Kako učiniti STEM smiješnim – i idi virusno radeći 14. listopada 2025
  • 10 Windows aplikacija otvorenog koda ne mogu živjeti – i svi su besplatni 14. listopada 2025
  • Isprobao sam pametne naočale s XMEMS zvučnicima i aktivnim hlađenjem – i puni su obećanja 13. listopada 2025
  • Moramo se približiti pokretanju Galaxy XR 13. listopada 2025
  • Crni mith Wukong dobiva ažuriranje koje je tako veliko na PS5, možda ćete trebati izbrisati igru ​​i preusmjeriti je 13. listopada 2025
  • Platforma za e-trgovinu eBay nudi besplatan chatgpt trening i alati 13. listopada 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice