Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Meta predlaže nove skalabilne memorijske slojeve koji poboljšavaju znanje, smanjuju halucinacije

Novosti

Meta predlaže nove skalabilne memorijske slojeve koji poboljšavaju znanje, smanjuju halucinacije

Tomšić Damjan 8. siječnja 2025


Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o AI pokrivenosti vodećoj u industriji. Saznajte više


Kako poduzeća nastavljaju usvajati velike jezične modele (LLM) u različitim aplikacijama, jedan od ključnih izazova s ​​kojima se suočavaju je poboljšanje činjeničnog znanja o modelima i smanjenje halucinacija. U novom radu, istraživači na Meta AI predložiti “skalabilni memorijski slojevi”, što bi moglo biti jedno od nekoliko mogućih rješenja ovog problema.

Skalabilni memorijski slojevi dodaju više parametara LLM-ovima kako bi povećali njihov kapacitet učenja bez potrebe za dodatnim računalnim resursima. Arhitektura je korisna za aplikacije u kojima možete odvojiti dodatnu memoriju za činjenično znanje, ali također želite brzinu zaključivanja spretnijih modela.

Sadržaj objave

  • 1 Gusti i memorijski slojevi
  • 2 Nadogradnja memorijskih slojeva
    • 2.1 Povezani sadržaji

Gusti i memorijski slojevi

Tradicionalni jezični modeli koriste “guste slojeve” za kodiranje ogromne količine informacija u svojim parametrima. U gustim slojevima, svi parametri se koriste u svom punom kapacitetu i uglavnom se aktiviraju u isto vrijeme tijekom zaključivanja. Gusti slojevi mogu naučiti složenije funkcije kako rastu, ali povećanje njihove veličine zahtijeva dodatne računalne i energetske resurse.

Nasuprot tome, za jednostavno činjenično znanje, puno jednostavniji slojevi s arhitekturom asocijativne memorije koja nalikuje tablicama pretraživanja bili bi učinkovitiji i razumljiviji. To rade memorijski slojevi. Oni koriste jednostavne rijetke aktivacije i mehanizme traženja ključa i vrijednosti za kodiranje i dohvaćanje znanja. Rijetki slojevi zauzimaju više memorije od gustih slojeva, ali koriste samo mali dio parametara odjednom, što ih čini računalno učinkovitijima.

Memorijski slojevi postoje već nekoliko godina, ali se rijetko koriste u modernim arhitekturama dubokog učenja. Nisu optimizirani za trenutne hardverske akceleratore.

Trenutačni granični LLM obično koriste neki oblik arhitekture “mješavine stručnjaka” (MoE), koja koristi mehanizam neodređeno sličan memorijskim slojevima. MoE modeli se sastoje od mnogo manjih stručnih komponenti koje su specijalizirane za specifične zadatke. U trenutku zaključivanja, mehanizam usmjeravanja određuje koji se stručnjak aktivira na temelju ulazne sekvence. PEER, arhitektura koju je nedavno razvio Google DeepMind, proširuje MoE na milijune stručnjaka, pružajući precizniju kontrolu nad parametrima koji se aktiviraju tijekom zaključivanja.

Nadogradnja memorijskih slojeva

Slojevi memorije su lagani za računanje, ali teški za memoriju, što predstavlja specifične izazove za trenutne hardverske i softverske okvire. U svom radu, istraživači Mete predlažu nekoliko modifikacija koje rješavaju te izazove i omogućuju njihovu široku upotrebu.

Slojevi memorije mogu pohraniti znanje paralelno na nekoliko GPU-a bez usporavanja modela (izvor: arXiv)

Prvo su istraživači konfigurirali memorijske slojeve za paralelizaciju, distribuirajući ih na nekoliko GPU-ova za pohranjivanje milijuna parova ključ-vrijednost bez mijenjanja drugih slojeva u modelu. Također su implementirali posebnu CUDA kernel za rukovanje operacijama velike propusnosti memorije. Također su razvili mehanizam za dijeljenje parametara koji podržava jedan skup memorijskih parametara na više memorijskih slojeva unutar modela. To znači da se ključevi i vrijednosti koji se koriste za traženje dijele među slojevima.

Ove izmjene omogućuju implementaciju memorijskih slojeva unutar LLM-ova bez usporavanja modela.

“Memorijski slojevi sa svojim rijetkim aktivacijama lijepo nadopunjuju guste mreže, pružajući povećani kapacitet za stjecanje znanja dok su malo računalni”, pišu istraživači. “Mogu se učinkovito skalirati i pružiti praktičarima atraktivan novi smjer za kompromis između memorije i računanja.”

Kako bi testirali memorijske slojeve, istraživači su modificirali Llama modele zamjenom jednog ili više gustih slojeva zajedničkim memorijskim slojem. Uspoređivali su modele poboljšane memorije s gustim LLM-ovima, kao i modelima MoE i PEER na nekoliko zadataka, uključujući činjenične odgovore na pitanja, znanstveno i zdravorazumsko poznavanje svijeta i kodiranje.

1.3B memorijski model (puna linija) obučen na 1 trilijun tokena približava se izvedbi modela 7B (isprekidana linija) na činjeničnim zadacima odgovaranja na pitanja jer mu je dano više memorijskih parametara (izvor: arxiv)

Njihovi nalazi pokazuju da se memorijski modeli značajno poboljšavaju u odnosu na guste osnovne linije i da se natječu s modelima koji koriste 2X do 4X više računanja. Također odgovaraju performansama MoE modela koji imaju isti računalni proračun i broj parametara. Učinkovitost modela posebno je zapažena na zadacima koji zahtijevaju poznavanje činjenica. Na primjer, pri odgovaranju na činjenična pitanja, memorijski model s 1,3 milijarde parametara približava se izvedbi Llama-2-7B, koja je obučena na dvostruko više tokena i 10X više računanja.

Štoviše, istraživači su otkrili da prednosti modela pamćenja ostaju u skladu s veličinom modela jer su skalirali svoje eksperimente sa 134 milijuna na 8 milijardi parametara.

“S obzirom na ove nalaze, snažno zagovaramo da se memorijski slojevi trebaju integrirati u sve sljedeće generacije AI arhitekture”, pišu istraživači, dodajući da još uvijek ima puno više prostora za poboljšanje. “Posebno se nadamo da se mogu razviti nove metode učenja kako bi se još više povećala učinkovitost ovih slojeva, omogućujući manje zaboravljanja, manje halucinacija i kontinuirano učenje.”

Dnevni uvidi u slučajeve poslovne upotrebe uz VB Daily

Ako želite impresionirati svog šefa, VB Daily vas pokriva. Dajemo vam uvid u to što tvrtke rade s generativnom umjetnom inteligencijom, od regulatornih promjena do praktičnih implementacija, tako da možete podijeliti uvide za maksimalni ROI.

Pročitajte našu Politiku privatnosti

Hvala što ste se pretplatili. Više VB biltena pogledajte ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Kako pokrenuti lokalni LLM kao AI sa sjedištem u pregledniku s ovim besplatnim proširenjem
  • Mistral launches Mistral 3, a family of open models designed to run on laptops, drones, and edge devicesMistral launches Mistral 3, a family of open models designed to run on laptops, drones, and edge devices
  • Prizemlje 2 slavi svoje izdanje s šansom da osvojite 10-metarski mrav Plushie koji možete upotrijebiti za uplašenje djetetaPrizemlje 2 slavi svoje izdanje s šansom da osvojite 10-metarski mrav Plushie koji možete upotrijebiti za uplašenje djeteta
  • Plan Bijele kuće signalizira eru “Prvo otvoreno”-a poduzeća trebaju nove zaštitne ogradePlan Bijele kuće signalizira eru “Prvo otvoreno”-a poduzeća trebaju nove zaštitne ograde
  • Uštedite do 400 USD na Razerovom najnovijem igračkom prijenosnom računalu-ovaj ugovor o ugovoru o školi neće dugo trajatiUštedite do 400 USD na Razerovom najnovijem igračkom prijenosnom računalu-ovaj ugovor o ugovoru o školi neće dugo trajati
  • Stanford’s AI indeks: 5 kritičkih uvida preoblikovanje tehnološke strategije poduzećaStanford’s AI indeks: 5 kritičkih uvida preoblikovanje tehnološke strategije poduzeća

Previous Article

Prva smrt od ptičje gripe u SAD-u ozbiljno je upozorenje

Next Article

CES 2025: QNX predstavlja prvi automobilski digitalni kokpit u industriji

Posljednje objave

Sve više dokaza koji sugeriraju da se Ubisoft doista sprema najaviti remake Assassin’s Creed 4: Black Flag

Sve više dokaza koji sugeriraju da se Ubisoft doista sprema najaviti remake Assassin’s Creed 4: Black Flag

Teksaški sudac odbacuje drugu tužbu zbog prekida rada CrowdStrikea

Teksaški sudac odbacuje drugu tužbu zbog prekida rada CrowdStrikea

Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici

Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici

Sadržaj

  • 1 Gusti i memorijski slojevi
  • 2 Nadogradnja memorijskih slojeva

Novosti

  • Sve više dokaza koji sugeriraju da se Ubisoft doista sprema najaviti remake Assassin’s Creed 4: Black Flag 15. siječnja 2026
  • Teksaški sudac odbacuje drugu tužbu zbog prekida rada CrowdStrikea 15. siječnja 2026
  • Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici 15. siječnja 2026
  • Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije 15. siječnja 2026
  • Ovaj popularni Bose zvučnik izgubit će softversku podršku 2026. – ali sada ima spas 14. siječnja 2026
  • Google Photos “Ask” pretraga još uvijek ima puno mrzitelja 14. siječnja 2026
  • Battlefield 6, 2. sezona odgođena je za veljaču, ali još sadržaja za 1. sezonu i događaja je na putu 14. siječnja 2026
  • Širokopojasna revolucija u Velikoj Britaniji ne pokazuje znakove usporavanja 14. siječnja 2026
  • Zašto Egnyte nastavlja zapošljavati mlađe inženjere unatoč porastu AI alata za kodiranje 14. siječnja 2026
  • Microsoft popušta pod pritiskom: Podatkovni centri trebali bi plaćati skuplju struju 14. siječnja 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice