Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Meta predlaže nove skalabilne memorijske slojeve koji poboljšavaju znanje, smanjuju halucinacije

Novosti

Meta predlaže nove skalabilne memorijske slojeve koji poboljšavaju znanje, smanjuju halucinacije

Tomšić Damjan 8. siječnja 2025


Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o AI pokrivenosti vodećoj u industriji. Saznajte više


Kako poduzeća nastavljaju usvajati velike jezične modele (LLM) u različitim aplikacijama, jedan od ključnih izazova s ​​kojima se suočavaju je poboljšanje činjeničnog znanja o modelima i smanjenje halucinacija. U novom radu, istraživači na Meta AI predložiti “skalabilni memorijski slojevi”, što bi moglo biti jedno od nekoliko mogućih rješenja ovog problema.

Skalabilni memorijski slojevi dodaju više parametara LLM-ovima kako bi povećali njihov kapacitet učenja bez potrebe za dodatnim računalnim resursima. Arhitektura je korisna za aplikacije u kojima možete odvojiti dodatnu memoriju za činjenično znanje, ali također želite brzinu zaključivanja spretnijih modela.

Sadržaj objave

  • 1 Gusti i memorijski slojevi
  • 2 Nadogradnja memorijskih slojeva
    • 2.1 Povezani sadržaji

Gusti i memorijski slojevi

Tradicionalni jezični modeli koriste “guste slojeve” za kodiranje ogromne količine informacija u svojim parametrima. U gustim slojevima, svi parametri se koriste u svom punom kapacitetu i uglavnom se aktiviraju u isto vrijeme tijekom zaključivanja. Gusti slojevi mogu naučiti složenije funkcije kako rastu, ali povećanje njihove veličine zahtijeva dodatne računalne i energetske resurse.

Nasuprot tome, za jednostavno činjenično znanje, puno jednostavniji slojevi s arhitekturom asocijativne memorije koja nalikuje tablicama pretraživanja bili bi učinkovitiji i razumljiviji. To rade memorijski slojevi. Oni koriste jednostavne rijetke aktivacije i mehanizme traženja ključa i vrijednosti za kodiranje i dohvaćanje znanja. Rijetki slojevi zauzimaju više memorije od gustih slojeva, ali koriste samo mali dio parametara odjednom, što ih čini računalno učinkovitijima.

Memorijski slojevi postoje već nekoliko godina, ali se rijetko koriste u modernim arhitekturama dubokog učenja. Nisu optimizirani za trenutne hardverske akceleratore.

Trenutačni granični LLM obično koriste neki oblik arhitekture “mješavine stručnjaka” (MoE), koja koristi mehanizam neodređeno sličan memorijskim slojevima. MoE modeli se sastoje od mnogo manjih stručnih komponenti koje su specijalizirane za specifične zadatke. U trenutku zaključivanja, mehanizam usmjeravanja određuje koji se stručnjak aktivira na temelju ulazne sekvence. PEER, arhitektura koju je nedavno razvio Google DeepMind, proširuje MoE na milijune stručnjaka, pružajući precizniju kontrolu nad parametrima koji se aktiviraju tijekom zaključivanja.

Nadogradnja memorijskih slojeva

Slojevi memorije su lagani za računanje, ali teški za memoriju, što predstavlja specifične izazove za trenutne hardverske i softverske okvire. U svom radu, istraživači Mete predlažu nekoliko modifikacija koje rješavaju te izazove i omogućuju njihovu široku upotrebu.

Slojevi memorije mogu pohraniti znanje paralelno na nekoliko GPU-a bez usporavanja modela (izvor: arXiv)

Prvo su istraživači konfigurirali memorijske slojeve za paralelizaciju, distribuirajući ih na nekoliko GPU-ova za pohranjivanje milijuna parova ključ-vrijednost bez mijenjanja drugih slojeva u modelu. Također su implementirali posebnu CUDA kernel za rukovanje operacijama velike propusnosti memorije. Također su razvili mehanizam za dijeljenje parametara koji podržava jedan skup memorijskih parametara na više memorijskih slojeva unutar modela. To znači da se ključevi i vrijednosti koji se koriste za traženje dijele među slojevima.

Ove izmjene omogućuju implementaciju memorijskih slojeva unutar LLM-ova bez usporavanja modela.

“Memorijski slojevi sa svojim rijetkim aktivacijama lijepo nadopunjuju guste mreže, pružajući povećani kapacitet za stjecanje znanja dok su malo računalni”, pišu istraživači. “Mogu se učinkovito skalirati i pružiti praktičarima atraktivan novi smjer za kompromis između memorije i računanja.”

Kako bi testirali memorijske slojeve, istraživači su modificirali Llama modele zamjenom jednog ili više gustih slojeva zajedničkim memorijskim slojem. Uspoređivali su modele poboljšane memorije s gustim LLM-ovima, kao i modelima MoE i PEER na nekoliko zadataka, uključujući činjenične odgovore na pitanja, znanstveno i zdravorazumsko poznavanje svijeta i kodiranje.

1.3B memorijski model (puna linija) obučen na 1 trilijun tokena približava se izvedbi modela 7B (isprekidana linija) na činjeničnim zadacima odgovaranja na pitanja jer mu je dano više memorijskih parametara (izvor: arxiv)

Njihovi nalazi pokazuju da se memorijski modeli značajno poboljšavaju u odnosu na guste osnovne linije i da se natječu s modelima koji koriste 2X do 4X više računanja. Također odgovaraju performansama MoE modela koji imaju isti računalni proračun i broj parametara. Učinkovitost modela posebno je zapažena na zadacima koji zahtijevaju poznavanje činjenica. Na primjer, pri odgovaranju na činjenična pitanja, memorijski model s 1,3 milijarde parametara približava se izvedbi Llama-2-7B, koja je obučena na dvostruko više tokena i 10X više računanja.

Štoviše, istraživači su otkrili da prednosti modela pamćenja ostaju u skladu s veličinom modela jer su skalirali svoje eksperimente sa 134 milijuna na 8 milijardi parametara.

“S obzirom na ove nalaze, snažno zagovaramo da se memorijski slojevi trebaju integrirati u sve sljedeće generacije AI arhitekture”, pišu istraživači, dodajući da još uvijek ima puno više prostora za poboljšanje. “Posebno se nadamo da se mogu razviti nove metode učenja kako bi se još više povećala učinkovitost ovih slojeva, omogućujući manje zaboravljanja, manje halucinacija i kontinuirano učenje.”

Dnevni uvidi u slučajeve poslovne upotrebe uz VB Daily

Ako želite impresionirati svog šefa, VB Daily vas pokriva. Dajemo vam uvid u to što tvrtke rade s generativnom umjetnom inteligencijom, od regulatornih promjena do praktičnih implementacija, tako da možete podijeliti uvide za maksimalni ROI.

Pročitajte našu Politiku privatnosti

Hvala što ste se pretplatili. Više VB biltena pogledajte ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • UK Altnets poziva da se širokopojasna mreža s punim vlaknima prioritet u industrijskoj strategiji
  • “Ni sigurno ni dostupno” – fanovi Final Fantasy 14 izrazili su veliku zabrinutost oko sljedećeg događanja US Fan Festa, tvrdeći da Square Enix riskira ponovno iznevjeriti igrače s invaliditetom“Ni sigurno ni dostupno” – fanovi Final Fantasy 14 izrazili su veliku zabrinutost oko sljedećeg događanja US Fan Festa, tvrdeći da Square Enix riskira ponovno iznevjeriti igrače s invaliditetom
  • Zašto preporučujem ovaj Google Pixel od 400 USD preko konkurentskih modela Samsung i OnePlusZašto preporučujem ovaj Google Pixel od 400 USD preko konkurentskih modela Samsung i OnePlus
  • Uzbuđenje od silupanja vidjelo je da je istodobni rekord Hollow Knight -a srušen iznova i iznova srušenUzbuđenje od silupanja vidjelo je da je istodobni rekord Hollow Knight -a srušen iznova i iznova srušen
  • AI konkurentnost maksimalno izvlači propusnost SAD -aAI konkurentnost maksimalno izvlači propusnost SAD -a
  • Kineske-domene-brojeviSkriveno značenje kineskih web stranica koje u sebi sadrže brojeve

Previous Article

Prva smrt od ptičje gripe u SAD-u ozbiljno je upozorenje

Next Article

CES 2025: QNX predstavlja prvi automobilski digitalni kokpit u industriji

Posljednje objave

Pixel 9 Pro rasprodaja zaliha stiže s cijenama niskim od 500 USD

Pixel 9 Pro rasprodaja zaliha stiže s cijenama niskim od 500 USD

Obožavatelji Fortnitea kažu “ne AI pomazi” nakon što su uočili ono za što vjeruju da su slike generirane umjetnom inteligencijom u igri

Obožavatelji Fortnitea kažu “ne AI pomazi” nakon što su uočili ono za što vjeruju da su slike generirane umjetnom inteligencijom u igri

Microsoft stvara okvir za sigurnu arhitekturu optičke mreže

Microsoft stvara okvir za sigurnu arhitekturu optičke mreže

Sadržaj

  • 1 Gusti i memorijski slojevi
  • 2 Nadogradnja memorijskih slojeva

Novosti

  • Pixel 9 Pro rasprodaja zaliha stiže s cijenama niskim od 500 USD 1. prosinca 2025
  • Obožavatelji Fortnitea kažu “ne AI pomazi” nakon što su uočili ono za što vjeruju da su slike generirane umjetnom inteligencijom u igri 30. studenoga 2025
  • Microsoft stvara okvir za sigurnu arhitekturu optičke mreže 30. studenoga 2025
  • Zašto je vidljiva umjetna inteligencija SRE sloj koji nedostaje tvrtkama za pouzdane LLM-ove 30. studenoga 2025
  • Lijek za mršavljenje Zepbound testira se kao lijek za dugi Covid 30. studenoga 2025
  • Koliko RAM-a vaše računalo zapravo treba 2025. godine? Stručnjak za Windows i Mac računa 30. studenoga 2025
  • Samsung daje 71% popusta na Galaxy Watch 8 30. studenoga 2025
  • Hollow Knight: Silksong dev misli da će Clair Obscur: Expedition 33 osvojiti igru ​​godine: “Iznimna je i široko ukusna” 29. studenoga 2025
  • RailTel modernizira međugradske optičke mreže metroa diljem Indije 29. studenoga 2025
  • Anthropic kaže da je riješio dugogodišnji problem AI agenta s novim Claude SDK-om za više sesija 29. studenoga 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice