Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Pogled ispod haube transfomera, motor koji pokreće AI model evolucije

Novosti

Pogled ispod haube transfomera, motor koji pokreće AI model evolucije

Tomšić Damjan 16. veljače 2025


Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više


Danas gotovo svaki vrhunski AI proizvod i model koristi arhitekturu transformatora. Modeli velikih jezika (LLMS) kao što su GPT-4O, LLAMA, Blizanci i Claude svi su temeljeni na transformatorima, a druge AI aplikacije, kao što su tekst-govor, automatsko prepoznavanje govora, stvaranje slike i modeli teksta-video-video imaju transformatore transformatore kao njihova temeljna tehnologija.

Budući da se hype oko AI -a neće uskoro usporiti, vrijeme je da transformatorima dospijevaju, zbog čega bih želio malo objasniti kako rade, zašto su toliko važni za rast skalabilnih rješenja i zašto Oni su okosnica LLMS -a.

Sadržaj objave

  • 1 Transformatori su više nego što susreću oko
  • 2 Važnost samostane u transformatorima
  • 3 Budućnost modela
    • 3.1 Povezani sadržaji

Transformatori su više nego što susreću oko

Ukratko, transformator je arhitektura neuronske mreže osmišljena za modeliranje sekvenci podataka, što ih čini idealnim za zadatke kao što su prijevod jezika, završetak rečenica, automatsko prepoznavanje govora i još mnogo toga. Transformatori su zaista postali dominantna arhitektura za mnoge od tih zadataka modeliranja sekvenci, jer se temeljni mehanizam pažnje može lako paralelizirati, omogućujući masovne razmjere prilikom treninga i izvođenja zaključaka.

Izvorno uveden u radu iz 2017. godine, „Pažnja je sve što trebate”Od istraživača na Googleu, transformator je predstavljen kao arhitektura enkoder-dekodera posebno dizajnirana za jezični prijevod. Sljedeće godine Google je objavio dvosmjerne reprezentacije kodera iz Transformers (BERT), koji bi se mogli smatrati jednim od prvih LLM -ova – iako se sada po današnjim standardima smatra malim.

Od tada – a posebno ubrzano s pojavom GPT modela iz OpenAi -a – trend je bio treniranje većih i većih modela s više podataka, više parametara i duljih kontekstnih prozora.

Da bi se olakšala ovaj evolucija, bilo je mnogo inovacija kao što su: napredniji GPU hardver i bolji softver za multi-GPU obuku; tehnike poput kvantizacije i mješavine stručnjaka (MOE) za smanjenje potrošnje memorije; novi optimizatori za trening, poput šampona i adamw -a; Tehnike za učinkovito računanje pažnje, poput flashAttencije i KV predmemoriranja. Trend će se vjerojatno nastaviti u doglednoj budućnosti.

Važnost samostane u transformatorima

Ovisno o aplikaciji, model transformatora slijedi arhitekturu dekodera enkodera. Komponenta kodera saznaje vektorski prikaz podataka koji se tada mogu koristiti za zadatke nizvodno poput klasifikacije i analize osjećaja. Komponenta dekodera uzima vektor ili latentni prikaz teksta ili slike i koristi ga za generiranje novog teksta, što ga čini korisnim za zadatke poput dovršetka rečenice i sažetka. Iz tog razloga, mnogi poznati najmoderniji modeli, takva GPT obitelj, samo su dekoder.

Modeli dekodera kodera kombiniraju obje komponente, što ih čini korisnim za prijevod i druge zadatke sekvence do sekvence. I za arhitekture enkodera i za dekoder, temeljna komponenta je sloj pažnje, jer to omogućava modelu da zadržava kontekst od riječi koje se pojavljuju mnogo ranije u tekstu.

Pozornost dolazi u dva okusa: samostalnoj i pohranjivanje. Samostalna se koristi za snimanje odnosa između riječi unutar istog slijeda, dok se za snimanje odnosa između dvije različite sekvence koristi unakrsna pažnja. Uskrsnica povezuje komponente kodera i dekodera u modelu i tijekom prijevoda. Na primjer, omogućuje engleskoj riječi “jagoda” da se odnosi na francusku riječ “flaise”. Matematički, i samostalno i unakrsna pažnja različiti su oblici množenja matrice, koji se mogu učiniti izuzetno učinkovito pomoću GPU-a.

Zbog sloja pažnje, transformatori mogu bolje uhvatiti odnose između riječi odvojenih dugim količinama teksta, dok prethodni modeli poput ponavljajućih neuronskih mreža (RNN) i dugotrajnih modela kratkotrajne memorije (LSTM) gube trag konteksta riječi s ranijih riječi u tekstu.

Budućnost modela

Trenutno su transformatori dominantna arhitektura za mnoge slučajeve upotrebe koji zahtijevaju LLMS i imaju koristi od najviše istraživanja i razvoja. Iako se čini da se to uskoro neće promijeniti, jedna različita klasa modela koja je nedavno stekla interes su modeli državnog prostora (SSMS) poput Mamba. Ovaj visoko učinkovit algoritam može podnijeti vrlo duge sekvence podataka, dok su transformatori ograničeni kontekstnim prozorom.

Za mene su najuzbudljivija primjena transformatorskih modela multimodalni modeli. OpenAi-ov GPT-4O, na primjer, sposoban je za rukovanje tekstom, zvukom i slikama-a drugi davatelji počinju pratiti. Multimodalne aplikacije vrlo su raznolike, u rasponu od videozapisa do kloniranja glasa do segmentacije slike (i više). Oni također pružaju priliku da AI postanu dostupniji onima s invaliditetom. Na primjer, slijepu osobu može se uvelike poslužiti sposobnošću interakcije kroz glasovne i audio komponente multimodalne primjene.

To je uzbudljiv prostor s puno potencijala za otkrivanje novih slučajeva upotrebe. No, zapamtite da je, barem u doglednoj budućnosti, u velikoj mjeri poduprijeti arhitektura transformatora.

Terrence Alsup je viši znanstvenik podataka u Finastra.

DatadecisionMakers

Dobrodošli u zajednicu VentureBeat!

DatadecisionMakers je mjesto gdje stručnjaci, uključujući tehničke ljude koji rade podatke, mogu dijeliti uvide i inovacije povezane s podacima.

Ako želite čitati o vrhunskim idejama i ažurnim informacijama, najboljim praksama i budućnosti podataka i tehnologije podataka, pridružite nam se u DatadecisionMakers.

Možda biste čak razmotrili doprinos vlastitom članku!

Pročitajte više od DatadecisionMakera



Web izvor

Povezani sadržaji

  • Orange, Synamedia udružite snage kako bi proširili doseg s više cdn
  • Microsoft otpušta 3% radne snage u najvećem krugu smanjenja od 2023. – IzvještajMicrosoft otpušta 3% radne snage u najvećem krugu smanjenja od 2023. – Izvještaj
  • Da, vaš iPhone može pratiti svako mjesto koje posjetite – evo kako ga isključitiDa, vaš iPhone može pratiti svako mjesto koje posjetite – evo kako ga isključiti
  • Evo vašeg znaka da prestanete koristiti Nova LauncherEvo vašeg znaka da prestanete koristiti Nova Launcher
  • Više Galaxy telefona tretirano listopadskom sigurnosnom zakrpomViše Galaxy telefona tretirano listopadskom sigurnosnom zakrpom
  • Da, Ciri iz The Witcher 4 je prerađenaDa, Ciri iz The Witcher 4 je prerađena

Previous Article

Za profitne tvrtke ne mogu lako zamijeniti NOAA-inu vještinu za vrijeme

Next Article

Vijetnamski upravljanje zračnim prometom Modernizira Comms radi poboljšane sigurnosti

Posljednje objave

Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici

Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici

Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije

Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije

Ovaj popularni Bose zvučnik izgubit će softversku podršku 2026. – ali sada ima spas

Sadržaj

  • 1 Transformatori su više nego što susreću oko
  • 2 Važnost samostane u transformatorima
  • 3 Budućnost modela

Novosti

  • Z.ai GLM-Image otvorenog koda pobjeđuje Googleov Nano Banana Pro u složenom prikazivanju teksta, ali ne i u estetici 15. siječnja 2026
  • Neuroznanstvenici dešifriraju odugovlačenje: moždani mehanizam objašnjava zašto ljudi ostavljaju određene zadatke za kasnije 15. siječnja 2026
  • Ovaj popularni Bose zvučnik izgubit će softversku podršku 2026. – ali sada ima spas 14. siječnja 2026
  • Google Photos “Ask” pretraga još uvijek ima puno mrzitelja 14. siječnja 2026
  • Battlefield 6, 2. sezona odgođena je za veljaču, ali još sadržaja za 1. sezonu i događaja je na putu 14. siječnja 2026
  • Širokopojasna revolucija u Velikoj Britaniji ne pokazuje znakove usporavanja 14. siječnja 2026
  • Zašto Egnyte nastavlja zapošljavati mlađe inženjere unatoč porastu AI alata za kodiranje 14. siječnja 2026
  • Microsoft popušta pod pritiskom: Podatkovni centri trebali bi plaćati skuplju struju 14. siječnja 2026
  • Top 10 PowerShell naredbi za korištenje u 2026 13. siječnja 2026
  • Čak i Linus Torvalds sada vibe kodira 13. siječnja 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice