Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više
Siječnja 2025. potresao je AI krajolik. Naizgled nezaustavljivi OpenAi i moćni američki tehnološki divovi bili su šokirani onim što sigurno možemo nazvati podmuklom u području velikih jezičnih modela (LLMS). Deepseek, kineska tvrtka koja nije na nečijem radaru, odjednom je izazvala OpenAi. Nije da je DeepSeek-R1 bio bolji od najboljih modela američkih divova; To je malo zaostajalo u smislu referentnih vrijednosti, ali odjednom je svi natjerali da svi razmišljaju o učinkovitosti u pogledu upotrebe hardvera i energije.
S obzirom na nedostupnost najboljeg vrhunskog hardvera, čini se da je DeepSeek bio motiviran za inovacije u području učinkovitosti, što je manje briga za veće igrače. OpenAi je tvrdio da imaju dokaze koji sugeriraju da je DeepSeek možda koristio svoj model za obuku, ali mi nemamo konkretan dokaz da to podržimo. Dakle, bilo da je to istina ili je OpenAi jednostavno pokušati smiriti svoje investitore tema je rasprave. Međutim, Deepseek je objavio svoj rad, a ljudi su potvrdili da su rezultati reproducibilni barem u mnogo manjem opsegu.
Ali kako bi DeepSeek mogao postići takvu uštedu troškova dok američke tvrtke nisu mogle? Kratki odgovor je jednostavan: imali su više motivacije. Dugi odgovor zahtijeva malo više tehničkog objašnjenja.
Sadržaj objave
DeepSeek je koristio optimizaciju KV-cache
Jedna važna ušteda troškova za GPU memoriju bila je optimizacija predmemorije ključa i vrijednosti koja se koristi u svakom sloju pažnje u LLM-u.
LLM-ovi sastoje se od blokova transformatora, od kojih svaki sadrži sloj pažnje, a zatim redovna mreža za napad vanilije. Mreža za usmjeravanje konceptualno modelira proizvoljne odnose, ali u praksi mu je teško uvijek odrediti obrasce u podacima. Sloj pažnje rješava ovaj problem za modeliranje jezika.
Model obrađuje tekstove pomoću tokena, ali radi jednostavnosti, nazvat ćemo ih riječima. U LLM -u svaka riječ dobiva dodjelu vektora u visokoj dimenziji (recimo, tisuću dimenzija). Konceptualno, svaka dimenzija predstavlja koncept, poput vruće ili hladne, biti zelena, biti mekana, biti imenica. Riječ vektorski prikaz je njegovo značenje i vrijednosti prema svakoj dimenziji.
Međutim, naš jezik omogućuje drugim riječima da izmijene značenje svake riječi. Na primjer, jabuka ima značenje. Ali možemo imati zelenu jabuku kao modificiranu verziju. Ekstremniji primjer modifikacije bio bi da se jabuka u iPhone kontekstu razlikuje od jabuke u kontekstu livade. Kako dopustiti da naš sustav izmijeni vektorsko značenje riječi na temelju druge riječi? Tu dolazi pažnja.
Model pažnje dodjeljuje dva druga vektora svakoj riječi: ključ i upit. Upit predstavlja kvalitete značenja riječi koje se može izmijeniti, a ključ predstavlja vrstu modifikacija koje može pružiti drugim riječima. Na primjer, riječ ‘zelena’ može pružiti informacije o boji i zelenoj boji. Dakle, ključ riječi ‘zelena’ imat će visoku vrijednost u dimenziji ‘zelene boje’. S druge strane, riječ ‘jabuka’ može biti zelena ili ne, tako da bi vektor upita ‘jabuka’ također imala visoku vrijednost za dimenziju zelene boje. Ako uzmemo dot proizvod ključa ‘zelene’ s upitama ‘Apple,’ proizvod bi trebao biti relativno velik u usporedbi s proizvodom ključa ‘tablice’ i upita ‘Applea’. Sloj pažnje zatim dodaje mali dio vrijednosti riječi ‘zelena’ vrijednosti riječi ‘jabuka’. Na ovaj način, vrijednost riječi ‘Apple’ modificirana je kao malo zelenija.
Kad LLM generira tekst, to čini jednu riječ za drugom. Kad generira riječ, sve prethodno generirane riječi postaju dio njegovog konteksta. Međutim, ključevi i vrijednosti tih riječi već se izračunavaju. Kad se u kontekst doda druga riječ, njegovu vrijednost treba ažurirati na temelju njegovog upita i ključeva i vrijednosti svih prethodnih riječi. Zbog toga su sve te vrijednosti pohranjene u GPU memoriji. Ovo je KV predmemorija.
Deepseek je utvrdio da su ključ i vrijednost riječi povezani. Dakle, značenje riječi zeleno i njegova sposobnost da utječe na zelenilo očito su vrlo usko povezani. Dakle, moguće je komprimirati i jedan (i možda manji) vektor i dekomprimirati se dok vrlo lako obrađujete. Deepseek je otkrio da to utječe na njihov izvedbu na mjerilima, ali štedi puno GPU memorije.
DeepSeek primijenjen moe
Priroda neuronske mreže je u tome što cijelu mrežu treba procijeniti (ili izračunati) za svaki upit. Međutim, nije sve ovo korisno računanje. Poznavanje svijeta sjedi u utezima ili parametrima mreže. Znanje o Eiffelovoj kuli ne koristi se za odgovaranje na pitanja o povijesti južnoameričkih plemena. Znajući da je jabuka plod nije korisno dok odgovara na pitanja o općoj teoriji relativnosti. Međutim, kada se mreža izračunava, svi dijelovi mreže obrađuju se bez obzira. To ima ogromne troškove računanja tijekom stvaranja teksta koje bi se idealno trebalo izbjegavati. Ovdje dolazi ideja o mješavini preživljavanja (MOE).
U modelu MOE, neuronska mreža je podijeljena na više manjih mreža zvanih stručnjaci. Imajte na umu da ‘stručnjak’ u temi nije izričito definiran; Mreža to smatra tijekom treninga. Međutim, mreže dodjeljuju određenu ocjenu relevantnosti svakom upitu i samo aktiviraju dijelove s višim rezultatima podudaranja. To pruža ogromnu uštedu troškova u računanju. Imajte na umu da neka pitanja trebaju stručnost u više područja na koja se treba pravilno odgovoriti, a izvedba takvih upita bit će degradirana. Međutim, budući da su područja shvaćena iz podataka, broj takvih pitanja je minimiziran.
Važnost učenja pojačanja
LLM se uči razmišljati putem modela lanca, s tim da je model precizan da oponaša razmišljanje prije nego što je dostavio odgovor. Od modela se traži da verbalizira svoju misao (generiraj misao prije generiranja odgovora). Model se zatim procjenjuje i na misao i na odgovor, a obučava se za učenje pojačanja (nagrađen za ispravno podudaranje i kažnjeno za pogrešan podudaranje s podacima o treningu).
To zahtijeva skupe podatke o treningu s mislima. DeepSeek je samo zamolio sustav da generira misli između oznaka
DeepSeek koristi nekoliko dodatnih trikova za optimizaciju. Međutim, oni su vrlo tehnički, pa ih ovdje neću zaroniti.
Završne misli o Deepseeku i većem tržištu
U bilo kojem tehnološkom istraživanju prvo moramo vidjeti što je moguće prije poboljšanja učinkovitosti. Ovo je prirodni napredak. Deepseekov doprinos LLM krajoliku je fenomenalan. Akademski doprinos ne može se zanemariti, bez obzira na to jesu li ili ne obučeni pomoću OpenAi izlaza. Također može transformirati način na koji startupi djeluju. Ali nema razloga da OpenAi ili drugi američki divovi očaraju. Ovako djeluje istraživanje – jedna skupina ima koristi od istraživanja drugih skupina. Deepseek je zasigurno imao koristi od ranijih istraživanja koje su proveli Google, Openai i brojni drugi istraživači.
Međutim, ideja da će OpenAi dominirati u LLM svijetu neograničeno sada je vrlo malo vjerojatna. Nijedna količina regulatornog lobiranja ili usmjeravanja prsta neće sačuvati njihov monopol. Tehnologija je već u rukama mnogih i na otvorenom, što njegov napredak čini nezaustavljivim. Iako je ovo možda pomalo glavobolja za investitore OpenAi, to je u konačnici pobjeda za nas ostale. Iako budućnost pripada mnogima, uvijek ćemo biti zahvalni ranim suradnicima poput Googlea i Openaija.
Debasish Ray Chawdhuri je viši glavni inženjer u Talentica softver.
Web izvor