Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o AI pokrivenosti vodećoj u industriji. Saznajte više
Kako poduzeća nastavljaju usvajati velike jezične modele (LLM) u različitim aplikacijama, jedan od ključnih izazova s kojima se suočavaju je poboljšanje činjeničnog znanja o modelima i smanjenje halucinacija. U novom radu, istraživači na Meta AI predložiti “skalabilni memorijski slojevi”, što bi moglo biti jedno od nekoliko mogućih rješenja ovog problema.
Skalabilni memorijski slojevi dodaju više parametara LLM-ovima kako bi povećali njihov kapacitet učenja bez potrebe za dodatnim računalnim resursima. Arhitektura je korisna za aplikacije u kojima možete odvojiti dodatnu memoriju za činjenično znanje, ali također želite brzinu zaključivanja spretnijih modela.
Gusti i memorijski slojevi
Tradicionalni jezični modeli koriste “guste slojeve” za kodiranje ogromne količine informacija u svojim parametrima. U gustim slojevima, svi parametri se koriste u svom punom kapacitetu i uglavnom se aktiviraju u isto vrijeme tijekom zaključivanja. Gusti slojevi mogu naučiti složenije funkcije kako rastu, ali povećanje njihove veličine zahtijeva dodatne računalne i energetske resurse.
Nasuprot tome, za jednostavno činjenično znanje, puno jednostavniji slojevi s arhitekturom asocijativne memorije koja nalikuje tablicama pretraživanja bili bi učinkovitiji i razumljiviji. To rade memorijski slojevi. Oni koriste jednostavne rijetke aktivacije i mehanizme traženja ključa i vrijednosti za kodiranje i dohvaćanje znanja. Rijetki slojevi zauzimaju više memorije od gustih slojeva, ali koriste samo mali dio parametara odjednom, što ih čini računalno učinkovitijima.
Memorijski slojevi postoje već nekoliko godina, ali se rijetko koriste u modernim arhitekturama dubokog učenja. Nisu optimizirani za trenutne hardverske akceleratore.
Trenutačni granični LLM obično koriste neki oblik arhitekture “mješavine stručnjaka” (MoE), koja koristi mehanizam neodređeno sličan memorijskim slojevima. MoE modeli se sastoje od mnogo manjih stručnih komponenti koje su specijalizirane za specifične zadatke. U trenutku zaključivanja, mehanizam usmjeravanja određuje koji se stručnjak aktivira na temelju ulazne sekvence. PEER, arhitektura koju je nedavno razvio Google DeepMind, proširuje MoE na milijune stručnjaka, pružajući precizniju kontrolu nad parametrima koji se aktiviraju tijekom zaključivanja.
Nadogradnja memorijskih slojeva
Slojevi memorije su lagani za računanje, ali teški za memoriju, što predstavlja specifične izazove za trenutne hardverske i softverske okvire. U svom radu, istraživači Mete predlažu nekoliko modifikacija koje rješavaju te izazove i omogućuju njihovu široku upotrebu.
Prvo su istraživači konfigurirali memorijske slojeve za paralelizaciju, distribuirajući ih na nekoliko GPU-ova za pohranjivanje milijuna parova ključ-vrijednost bez mijenjanja drugih slojeva u modelu. Također su implementirali posebnu CUDA kernel za rukovanje operacijama velike propusnosti memorije. Također su razvili mehanizam za dijeljenje parametara koji podržava jedan skup memorijskih parametara na više memorijskih slojeva unutar modela. To znači da se ključevi i vrijednosti koji se koriste za traženje dijele među slojevima.
Ove izmjene omogućuju implementaciju memorijskih slojeva unutar LLM-ova bez usporavanja modela.
“Memorijski slojevi sa svojim rijetkim aktivacijama lijepo nadopunjuju guste mreže, pružajući povećani kapacitet za stjecanje znanja dok su malo računalni”, pišu istraživači. “Mogu se učinkovito skalirati i pružiti praktičarima atraktivan novi smjer za kompromis između memorije i računanja.”
Kako bi testirali memorijske slojeve, istraživači su modificirali Llama modele zamjenom jednog ili više gustih slojeva zajedničkim memorijskim slojem. Uspoređivali su modele poboljšane memorije s gustim LLM-ovima, kao i modelima MoE i PEER na nekoliko zadataka, uključujući činjenične odgovore na pitanja, znanstveno i zdravorazumsko poznavanje svijeta i kodiranje.
Njihovi nalazi pokazuju da se memorijski modeli značajno poboljšavaju u odnosu na guste osnovne linije i da se natječu s modelima koji koriste 2X do 4X više računanja. Također odgovaraju performansama MoE modela koji imaju isti računalni proračun i broj parametara. Učinkovitost modela posebno je zapažena na zadacima koji zahtijevaju poznavanje činjenica. Na primjer, pri odgovaranju na činjenična pitanja, memorijski model s 1,3 milijarde parametara približava se izvedbi Llama-2-7B, koja je obučena na dvostruko više tokena i 10X više računanja.
Štoviše, istraživači su otkrili da prednosti modela pamćenja ostaju u skladu s veličinom modela jer su skalirali svoje eksperimente sa 134 milijuna na 8 milijardi parametara.
“S obzirom na ove nalaze, snažno zagovaramo da se memorijski slojevi trebaju integrirati u sve sljedeće generacije AI arhitekture”, pišu istraživači, dodajući da još uvijek ima puno više prostora za poboljšanje. “Posebno se nadamo da se mogu razviti nove metode učenja kako bi se još više povećala učinkovitost ovih slojeva, omogućujući manje zaboravljanja, manje halucinacija i kontinuirano učenje.”
Web izvor



