Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Pogled ispod haube transfomera, motor koji pokreće AI model evolucije

Novosti

Pogled ispod haube transfomera, motor koji pokreće AI model evolucije

Tomšić Damjan 16. veljače 2025


Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više


Danas gotovo svaki vrhunski AI proizvod i model koristi arhitekturu transformatora. Modeli velikih jezika (LLMS) kao što su GPT-4O, LLAMA, Blizanci i Claude svi su temeljeni na transformatorima, a druge AI aplikacije, kao što su tekst-govor, automatsko prepoznavanje govora, stvaranje slike i modeli teksta-video-video imaju transformatore transformatore kao njihova temeljna tehnologija.

Budući da se hype oko AI -a neće uskoro usporiti, vrijeme je da transformatorima dospijevaju, zbog čega bih želio malo objasniti kako rade, zašto su toliko važni za rast skalabilnih rješenja i zašto Oni su okosnica LLMS -a.

Sadržaj objave

  • 1 Transformatori su više nego što susreću oko
  • 2 Važnost samostane u transformatorima
  • 3 Budućnost modela
    • 3.1 Povezani sadržaji

Transformatori su više nego što susreću oko

Ukratko, transformator je arhitektura neuronske mreže osmišljena za modeliranje sekvenci podataka, što ih čini idealnim za zadatke kao što su prijevod jezika, završetak rečenica, automatsko prepoznavanje govora i još mnogo toga. Transformatori su zaista postali dominantna arhitektura za mnoge od tih zadataka modeliranja sekvenci, jer se temeljni mehanizam pažnje može lako paralelizirati, omogućujući masovne razmjere prilikom treninga i izvođenja zaključaka.

Izvorno uveden u radu iz 2017. godine, „Pažnja je sve što trebate”Od istraživača na Googleu, transformator je predstavljen kao arhitektura enkoder-dekodera posebno dizajnirana za jezični prijevod. Sljedeće godine Google je objavio dvosmjerne reprezentacije kodera iz Transformers (BERT), koji bi se mogli smatrati jednim od prvih LLM -ova – iako se sada po današnjim standardima smatra malim.

Od tada – a posebno ubrzano s pojavom GPT modela iz OpenAi -a – trend je bio treniranje većih i većih modela s više podataka, više parametara i duljih kontekstnih prozora.

Da bi se olakšala ovaj evolucija, bilo je mnogo inovacija kao što su: napredniji GPU hardver i bolji softver za multi-GPU obuku; tehnike poput kvantizacije i mješavine stručnjaka (MOE) za smanjenje potrošnje memorije; novi optimizatori za trening, poput šampona i adamw -a; Tehnike za učinkovito računanje pažnje, poput flashAttencije i KV predmemoriranja. Trend će se vjerojatno nastaviti u doglednoj budućnosti.

Važnost samostane u transformatorima

Ovisno o aplikaciji, model transformatora slijedi arhitekturu dekodera enkodera. Komponenta kodera saznaje vektorski prikaz podataka koji se tada mogu koristiti za zadatke nizvodno poput klasifikacije i analize osjećaja. Komponenta dekodera uzima vektor ili latentni prikaz teksta ili slike i koristi ga za generiranje novog teksta, što ga čini korisnim za zadatke poput dovršetka rečenice i sažetka. Iz tog razloga, mnogi poznati najmoderniji modeli, takva GPT obitelj, samo su dekoder.

Modeli dekodera kodera kombiniraju obje komponente, što ih čini korisnim za prijevod i druge zadatke sekvence do sekvence. I za arhitekture enkodera i za dekoder, temeljna komponenta je sloj pažnje, jer to omogućava modelu da zadržava kontekst od riječi koje se pojavljuju mnogo ranije u tekstu.

Pozornost dolazi u dva okusa: samostalnoj i pohranjivanje. Samostalna se koristi za snimanje odnosa između riječi unutar istog slijeda, dok se za snimanje odnosa između dvije različite sekvence koristi unakrsna pažnja. Uskrsnica povezuje komponente kodera i dekodera u modelu i tijekom prijevoda. Na primjer, omogućuje engleskoj riječi “jagoda” da se odnosi na francusku riječ “flaise”. Matematički, i samostalno i unakrsna pažnja različiti su oblici množenja matrice, koji se mogu učiniti izuzetno učinkovito pomoću GPU-a.

Zbog sloja pažnje, transformatori mogu bolje uhvatiti odnose između riječi odvojenih dugim količinama teksta, dok prethodni modeli poput ponavljajućih neuronskih mreža (RNN) i dugotrajnih modela kratkotrajne memorije (LSTM) gube trag konteksta riječi s ranijih riječi u tekstu.

Budućnost modela

Trenutno su transformatori dominantna arhitektura za mnoge slučajeve upotrebe koji zahtijevaju LLMS i imaju koristi od najviše istraživanja i razvoja. Iako se čini da se to uskoro neće promijeniti, jedna različita klasa modela koja je nedavno stekla interes su modeli državnog prostora (SSMS) poput Mamba. Ovaj visoko učinkovit algoritam može podnijeti vrlo duge sekvence podataka, dok su transformatori ograničeni kontekstnim prozorom.

Za mene su najuzbudljivija primjena transformatorskih modela multimodalni modeli. OpenAi-ov GPT-4O, na primjer, sposoban je za rukovanje tekstom, zvukom i slikama-a drugi davatelji počinju pratiti. Multimodalne aplikacije vrlo su raznolike, u rasponu od videozapisa do kloniranja glasa do segmentacije slike (i više). Oni također pružaju priliku da AI postanu dostupniji onima s invaliditetom. Na primjer, slijepu osobu može se uvelike poslužiti sposobnošću interakcije kroz glasovne i audio komponente multimodalne primjene.

To je uzbudljiv prostor s puno potencijala za otkrivanje novih slučajeva upotrebe. No, zapamtite da je, barem u doglednoj budućnosti, u velikoj mjeri poduprijeti arhitektura transformatora.

Terrence Alsup je viši znanstvenik podataka u Finastra.

DatadecisionMakers

Dobrodošli u zajednicu VentureBeat!

DatadecisionMakers je mjesto gdje stručnjaci, uključujući tehničke ljude koji rade podatke, mogu dijeliti uvide i inovacije povezane s podacima.

Ako želite čitati o vrhunskim idejama i ažurnim informacijama, najboljim praksama i budućnosti podataka i tehnologije podataka, pridružite nam se u DatadecisionMakers.

Možda biste čak razmotrili doprinos vlastitom članku!

Pročitajte više od DatadecisionMakera



Web izvor

Povezani sadržaji

  • Opencua-ovi otvoreni koferni agenti suparnički modeli iz OpenAi-a i Anthropic
  • Frogwares ‘Lovecraft-nadahnut The Sinking City 2 pokreće crowdfunding ovog tjednaFrogwares ‘Lovecraft-nadahnut The Sinking City 2 pokreće crowdfunding ovog tjedna
  • GuardianGamer boosts child safety in digital playgrounds like Minecraft and Roblox | The DeanBeatGuardianGamer boosts child safety in digital playgrounds like Minecraft and Roblox | The DeanBeat
  • Ekstremni vremenski uvjeti koji su pokrenuli požare CarolineEkstremni vremenski uvjeti koji su pokrenuli požare Caroline
  • Odbor za cjepivo RFK Jr.Odbor za cjepivo RFK Jr.
  • Nakon što je radio svoju magiju na Zeldi i Splatoonu, ispada da je Monolith Soft također pomogao u razvoju Mario Kart WorldaNakon što je radio svoju magiju na Zeldi i Splatoonu, ispada da je Monolith Soft također pomogao u razvoju Mario Kart Worlda

Previous Article

Za profitne tvrtke ne mogu lako zamijeniti NOAA-inu vještinu za vrijeme

Next Article

Vijetnamski upravljanje zračnim prometom Modernizira Comms radi poboljšane sigurnosti

Posljednje objave

Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent

Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent

Sita otkriva prevlake za vlaknastim optičkim aerodromima

Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata

Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata

Sadržaj

  • 1 Transformatori su više nego što susreću oko
  • 2 Važnost samostane u transformatorima
  • 3 Budućnost modela

Novosti

  • Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent 14. listopada 2025
  • Sita otkriva prevlake za vlaknastim optičkim aerodromima 14. listopada 2025
  • Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata 14. listopada 2025
  • Kako učiniti STEM smiješnim – i idi virusno radeći 14. listopada 2025
  • 10 Windows aplikacija otvorenog koda ne mogu živjeti – i svi su besplatni 14. listopada 2025
  • Isprobao sam pametne naočale s XMEMS zvučnicima i aktivnim hlađenjem – i puni su obećanja 13. listopada 2025
  • Moramo se približiti pokretanju Galaxy XR 13. listopada 2025
  • Crni mith Wukong dobiva ažuriranje koje je tako veliko na PS5, možda ćete trebati izbrisati igru ​​i preusmjeriti je 13. listopada 2025
  • Platforma za e-trgovinu eBay nudi besplatan chatgpt trening i alati 13. listopada 2025
  • We keep talking about AI agents, but do we ever know what they are? 13. listopada 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice