CycleQD tvrtke Sakana AI nadmašuje tradicionalne metode finog podešavanja za jezične modele s više vještina

Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o AI pokrivenosti vodećoj u industriji. Saznajte više

Istraživači na Sakana AI razvili su resursno učinkovit okvir koji može stvoriti stotine jezičnih modela specijaliziranih za različite zadatke. Nazvana CiklusQDtehnika koristi evolucijske algoritme za kombiniranje vještina različitih modela bez potrebe za skupim i sporim procesima obuke.

CycleQD može stvoriti rojeve agenata specifičnih za zadatak koji nude održiviju alternativu trenutnoj paradigmi povećanja veličine modela.

Sadržaj objave

1 Ponovno promišljanje modela obuke
2 CiklusQD
3 Procjena performansi CycleQD-a
- 3.1 Povezani sadržaji

Ponovno promišljanje modela obuke

Veliki jezični modeli (LLM) pokazali su izvanredne sposobnosti u različitim zadacima. Međutim, osposobljavanje LLM-a za svladavanje više vještina ostaje izazov. Prilikom finog podešavanja modela, inženjeri moraju uravnotežiti podatke iz različitih vještina i osigurati da jedna vještina ne dominira nad drugom. Sadašnji pristupi često uključuju obuku sve većih modela, što dovodi do povećanja računalnih zahtjeva i zahtjeva za resursima.

“Vjerujemo da umjesto cilja razvoja jednog velikog modela koji će dobro obavljati sve zadatke, populacijski pristupi za razvoj raznolikog roja nišnih modela mogu ponuditi alternativni, održiviji put za povećanje razvoja AI agenata s naprednim mogućnostima. ”, pišu istraživači Sakane u postu na blogu.

Kako bi stvorili populacije modela, istraživači su uzeli inspiraciju iz raznolikosti kvalitete (QD), evolucijske računalne paradigme koja se fokusira na otkrivanje raznolikog skupa rješenja iz početnog uzorka populacije. QD ima za cilj stvaranje uzoraka s različitim “karakteristikama ponašanja” (BC), koje predstavljaju različite domene vještina. To postiže putem evolucijskih algoritama (EA) koji odabiru roditeljske primjere i koriste operacije križanja i mutacije za stvaranje novih uzoraka.

Kvalitetna raznolikost (izvor: Sakana AI)

CiklusQD

CycleQD uključuje QD u proces post-treninga LLM-a kako bi im pomogao u učenju novih, složenih vještina. CycleQD je koristan kada imate više malih modela koji su fino podešeni za vrlo specifične vještine, kao što je kodiranje ili izvođenje operacija baze podataka i operacijskog sustava, a želite stvoriti nove varijante koje imaju različite kombinacije tih vještina.

U okviru CycleQD, svaka od ovih vještina smatra se karakteristikom ponašanja ili kvalitetom za koju je optimizirana sljedeća generacija modela. U svakoj generaciji, algoritam se usredotočuje na jednu specifičnu vještinu kao svoju metriku kvalitete dok druge vještine koristi kao BC.

“Ovo osigurava da svaka vještina dobije svoj trenutak u središtu pozornosti, omogućujući LLM-ima da budu sveukupno uravnoteženiji i sposobniji”, objašnjavaju istraživači.

CycleQD (izvor: Sakana AI)

CycleQD počinje sa skupom stručnjaka LLM-a, od kojih je svaki specijaliziran za jednu vještinu. Algoritam zatim primjenjuje operacije “križanja” i “mutacije” kako bi populaciji dodao nove modele više kvalitete. Crossover kombinira karakteristike dva roditeljska modela za stvaranje novog modela, dok mutacija čini nasumične promjene u modelu kako bi se istražile nove mogućnosti.

Operacija križanja temelji se na spajanju modela, tehnici koja kombinira parametre dva LLM-a kako bi se stvorio novi model s kombiniranim vještinama. Ovo je ekonomična i brza metoda za razvoj dobro zaokruženih modela bez potrebe za njihovim finim podešavanjem.

Operacija mutacije koristi dekompozicija singularne vrijednosti (SVD), metoda faktorizacije koja rastavlja bilo koju matricu na jednostavnije komponente, olakšavajući razumijevanje i manipuliranje njezinim elementima. CycleQD koristi SVD za rastavljanje vještina modela na temeljne komponente ili podvještine. Ugađanjem ovih pod-vještina, proces mutacije stvara modele koji istražuju nove mogućnosti izvan onih svojih roditeljskih modela. To pomaže modelima da izbjegnu zaglavljivanje u predvidljivim uzorcima i smanjuje rizik od prekomjernog opremanja.

Procjena performansi CycleQD-a

Istraživači su primijenili CycleQD na skup Llama 3-8B stručnih modela fino podešenih za kodiranje, operacije baze podataka i operacije operativnog sustava. Cilj je bio vidjeti može li evolucijska metoda kombinirati vještine triju modela za stvaranje superiornog modela.

Rezultati su pokazali da je CycleQD nadmašio tradicionalne metode finog podešavanja i spajanja modela u svim ocjenjivanim zadacima. Naime, model fino podešen na svim skupovima podataka u kombinaciji imao je samo neznatno bolje rezultate od modela stručnjaka s jednom vještinom, unatoč tome što je obučen na više podataka. Štoviše, tradicionalni proces treninga puno je sporiji i skuplji. CycleQD je također bio u mogućnosti stvoriti različite modele s različitim razinama izvedbe na ciljnim zadacima.

“Ovi rezultati jasno pokazuju da CycleQD nadmašuje tradicionalne metode, dokazujući njegovu učinkovitost u osposobljavanju LLM-a za postizanje višestrukih vještina”, pišu istraživači.

CycleQD u odnosu na druge metode finog podešavanja (izvor: Sakana AI)

Istraživači vjeruju da CycleQD ima potencijal omogućiti cjeloživotno učenje u sustavima umjetne inteligencije, omogućujući im kontinuirani rast, prilagodbu i akumulaciju znanja tijekom vremena. To može imati izravne implikacije za aplikacije u stvarnom svijetu. Na primjer, CycleQD se može koristiti za kontinuirano spajanje vještina stručnih modela umjesto treniranja velikog modela od nule.

Još jedan uzbudljiv smjer je razvoj sustava s više agenata, gdje rojevi specijaliziranih agenata razvijenih kroz CycleQD mogu surađivati, natjecati se i učiti jedni od drugih.

“Od znanstvenih otkrića do rješavanja problema u stvarnom svijetu, rojevi specijaliziranih agenata mogli bi redefinirati granice umjetne inteligencije”, pišu istraživači.

VB Dnevnik

Budite u toku! Svakodnevno primajte najnovije vijesti u svoju pristiglu poštu

Pretplatom se slažete s Uvjetima pružanja usluge VentureBeata.

Hvala što ste se pretplatili. Više VB biltena pogledajte ovdje.

Došlo je do pogreške.

Web izvor