Nova Self-Flow tehnika Black Forest Labsa čini obuku multimodalnih AI modela 2,8 puta učinkovitijom

Za stvaranje koherentnih slika ili videozapisa, generativni modeli AI difuzije poput Stable Diffusion ili FLUX obično se oslanjaju na vanjske "učitelji"—zamrznuti koderi kao što su CLIP ili DINOv2—za pružanje semantičkog razumijevanja koje sami nisu mogli naučiti.

Ali ovo oslanjanje ima svoju cijenu: a "usko grlo" gdje skaliranje modela više ne daje bolje rezultate jer je vanjski nastavnik dosegao svoju granicu.

Danas njemački AI startup Black Forest Labs (proizvođač FLUX serije AI slikovnih modela) je objavio potencijalni kraj ove ere akademskog posuđivanja sa izdanje Self-Flowasamonadzirani okvir za usklađivanje protoka koji omogućuje modelima da uče reprezentaciju i generiranje istovremeno.

Integracijom novog mehanizma raspoređivanja s dva vremenskog koraka, Black Forest Labs pokazao je da jedan model može postići najsuvremenije rezultate na slikama, videu i zvuku bez ikakvog vanjskog nadzora.

Sadržaj objave

1 Tehnologija: razbijanje "semantički jaz"
2 Implikacije proizvoda: brži, oštriji i multimodalni
3 Od piksela do planiranja: put do svjetskih modela
4 Detalji implementacije i inženjeringa
5 Licenciranje i dostupnost
6 Izvodi za donositelje tehničkih odluka u poduzećima i one koji ih usvajaju
- 6.1 Povezani sadržaji

Tehnologija: razbijanje "semantički jaz"

Osnovni problem s tradicionalnim generativnim treningom je taj što je "uklanjanje buke" zadatak. Modelu se prikazuje šum i traži se da pronađe sliku; ima vrlo malo poticaja da razumije što je slika, samo kako izgleda.

Kako bi to popravili, istraživači su prethodno "usklađeni" generativne značajke s vanjskim diskriminativnim modelima. Međutim, Black Forest Labs tvrdi da je to fundamentalno pogrešno: ovi vanjski modeli često rade na neusklađenim ciljevima i ne uspijevaju generalizirati različite modalitete poput zvuka ili robotike.

Nova tehnika Labsa, Self-Flow, predstavlja "informacijska asimetrija" riješiti ovo. Koristeći tehniku pod nazivom Dual-Timestep Scheduling, sustav primjenjuje različite razine šuma na različite dijelove ulaza. Učenik prima jako oštećenu verziju podataka, dok nastavnik—eksponencijalni pomični prosjek (EMA) verzija samog modela—vidi "čistač" verzija istih podataka.

Student tada ima zadatak ne samo generirati konačni rezultat, već i predvidjeti što je to "čistač" ja je viđenje—proces samodestilacije gdje je učitelj na sloju 20, a učenik na sloju 8. Ovo "Dual-Pass" pristup tjera model da razvije duboko, unutarnje semantičko razumijevanje, učinkovito učeći sebe kako vidjeti dok uči kako stvarati.

Implikacije proizvoda: brži, oštriji i multimodalni

Praktični rezultati ove promjene su strašni. Prema istraživačkom radu, Self-Flow konvergira približno 2,8 puta brže od metode REpresentation Alignment (REPA), trenutnog industrijskog standarda za usklađivanje značajki. Možda još važnije, ne staje; kako se računanje i parametri povećavaju, Self-Flow se nastavlja poboljšavati dok starije metode pokazuju sve manje povrate.

Skok u učinkovitosti treninga najbolje se razumije kroz objektiv sirovih računskih koraka: dok je standard "vanilija" trening tradicionalno zahtijeva 7 milijuna koraka da bi se postigla osnovna razina performansi, REPA je skratila taj put na samo 400.000 koraka, što predstavlja 17,5x ubrzanje.

Okvir Self-Flow tvrtke Black Forest Labs pomiče ovu granicu još dalje, radeći 2,8x brže od REPA-e kako bi postigao istu prekretnicu u performansama u otprilike 143.000 koraka.

Uzevši zajedno, ova evolucija predstavlja skoro 50x smanjenje ukupnog broja koraka treninga potrebnih za postizanje visokokvalitetnih rezultata, učinkovito urušavajući ono što je nekada bio ogroman zahtjev za resursima u znatno pristupačniji i jednostavniji proces.

Black Forest Labs prikazao je te dobitke kroz multimodalni model 4B parametra. Uvježban na masivnom skupu podataka od 200 milijuna slika, 6 milijuna videozapisa i 2 milijuna audio-video parova, model je pokazao značajne skokove u tri ključna područja:

Tipografija i prikaz teksta: Jedan od najupornijih "priča" AI slika ima iskrivljen tekst. Self-Flow značajno nadmašuje podudaranje vanilla flow u renderiranju složenih, čitljivih znakova i naljepnica, kao što je neonski znak ispravnim pravopisom "FLUX je multimodalan".
Vremenska dosljednost: U video generiranju, Self-Flow eliminira mnoge od "halucinirao" artefakti uobičajeni u trenutnim modelima, kao što su udovi koji spontano nestaju tijekom kretanja.
Zajednička video-audio sinteza: Budući da model izvorno uči prikaze, može generirati sinkronizirani video i audio iz jednog prompta, zadatak koji je vanjski "posuđeno" reprezentacije često ne uspijevaju jer koder slike ne razumije zvuk.

U smislu kvantitativne metrike, Self-Flow je postigao superiorne rezultate u odnosu na konkurentske osnovne vrijednosti. Na Image FID-u model je postigao 3,61 u usporedbi s REPA-inim 3,92. Za video (FVD) dosegnuo je 47,81 u usporedbi s REPA-inim 49,59, a za audio (FAD) postigao je 145,65 u odnosu na vanilije osnovne linije od 148,87.

Od piksela do planiranja: put do svjetskih modela

Najava završava pogledom prema svjetskim modelima—AI koja ne stvara samo lijepe slike, već razumije temeljnu fiziku i logiku scene za planiranje i robotiku.

Finim podešavanjem verzije Self-Flow od 675M parametara na skupu podataka o robotici RT-1, istraživači su postigli značajno veće stope uspjeha u složenim zadacima od više koraka u SIMPLER simulatoru. Dok se standardno podudaranje protoka borilo sa složenim "Otvorite i postavite" zadataka, često u potpunosti neuspješnih, model Self-Flow zadržao je stalnu stopu uspjeha, što sugerira da su njegovi interni prikazi dovoljno robusni za vizualno rasuđivanje u stvarnom svijetu.

Detalji implementacije i inženjeringa

Za istraživače koji žele potvrditi ove tvrdnje, Black Forest Labs objavio je paket za zaključivanje na GitHubu posebno za generaciju ImageNet 256×256. Projekt, prvenstveno napisan u Pythonu, pruža arhitekturu modela SelfFlowPerTokenDiT temeljenu na SiT-XL/2.

Inženjeri mogu upotrijebiti isporučenu skriptu sample.py za generiranje 50 000 slika za standardnu FID evaluaciju. Repozitorij naglašava da je ključna arhitektonska izmjena u ovoj implementaciji uvjetovanje vremenskog koraka po tokenu, što omogućuje da svaki token u nizu bude uvjetovan svojim specifičnim vremenskim korakom buke. Tijekom treninga, model je koristio BFloat16 mješovitu preciznost i AdamW optimizator s gradijentnim rezanjem za održavanje stabilnosti.

Licenciranje i dostupnost

Black Forest Labs ima napravio istraživački rad i službeni kod za zaključivanje dostupan putem GitHuba i njihov istraživački portal. Iako je ovo trenutačno pregled istraživanja, dosadašnji rezultati tvrtke s obitelji modela FLUX sugeriraju da će ove inovacije vjerojatno pronaći svoj put u njihov komercijalni API i ponudu otvorenih težina u bliskoj budućnosti.

Za programere, odmak od vanjskih kodera velika je pobjeda za učinkovitost. Eliminira potrebu za upravljanjem odvojenim, teškim modelima kao što je DINOv2 tijekom obuke, pojednostavljuje hrpu i omogućuje specijaliziraniju obuku specifičnu za domenu koja nije dužna tuđem "smrznuti" razumijevanje svijeta.

Izvodi za donositelje tehničkih odluka u poduzećima i one koji ih usvajaju

Za poduzeća dolazak Self-Flowa predstavlja značajan pomak u analizi troškova i koristi razvoja vlasničke umjetne inteligencije.

Dok su najveći korisnici organizacije koje obučavaju velike modele od nule, istraživanje pokazuje da je tehnologija jednako moćna za fino ugađanje visoke razlučivosti. Budući da metoda konvergira gotovo tri puta brže od trenutnih standarda, tvrtke mogu postići najsuvremenije rezultate s djelićem tradicionalnog računalnog proračuna.

Ova učinkovitost omogućuje poduzećima da se pomaknu dalje od generičkih gotovih rješenja i razviju specijalizirane modele koji su duboko usklađeni s njihovim specifičnim podatkovnim domenama, bilo da to uključuje nišne medicinske slike ili vlasničke podatke industrijskih senzora.

Praktične primjene ove tehnologije protežu se u industrijske sektore s visokim ulozima, ponajviše u robotiku i autonomne sustave. Iskorištavanjem sposobnosti okvira za učenje "svjetski modeli," poduzeća u proizvodnji i logistici mogu razviti modele vizija-jezik-akcija (VLA) koji posjeduju superiorno razumijevanje fizičkog prostora i sekvencijalnog zaključivanja.

U simulacijskim testovima, Self-Flow je robotskim kontrolerima omogućio uspješno izvršavanje složenih zadataka s više objekata—kao što je otvaranje ladice za stavljanje predmeta unutra—gdje tradicionalni generativni modeli nisu uspjeli. To sugerira da je tehnologija temeljni alat za svako poduzeće koje želi premostiti jaz između generiranja digitalnog sadržaja i fizičke automatizacije u stvarnom svijetu.

Osim povećanja performansi, Self-Flow nudi tvrtkama stratešku prednost pojednostavljivanjem temeljne infrastrukture umjetne inteligencije. Većina današnjih generativnih sustava su "Frankenstein" modeli koji zahtijevaju složene vanjske semantičke kodere koji su često u vlasništvu i licencirani od strane trećih strana.

Objedinjavanjem predstavljanja i generiranja u jednu arhitekturu, Self-Flow omogućuje tvrtkama da eliminiraju ove vanjske ovisnosti, smanjujući tehnički dug i uklanjajući "uska grla" povezan s skaliranjem nastavnika treće strane. Ova samodostatna priroda osigurava da se, kako poduzeće skalira svoje računalstvo i podatke, performanse modela skaliraju predvidljivo u koraku, pružajući jasniji ROI za dugoročna ulaganja u umjetnu inteligenciju.

Web izvor