Pogled ispod haube transfomera, motor koji pokreće AI model evolucije

Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više

Danas gotovo svaki vrhunski AI proizvod i model koristi arhitekturu transformatora. Modeli velikih jezika (LLMS) kao što su GPT-4O, LLAMA, Blizanci i Claude svi su temeljeni na transformatorima, a druge AI aplikacije, kao što su tekst-govor, automatsko prepoznavanje govora, stvaranje slike i modeli teksta-video-video imaju transformatore transformatore kao njihova temeljna tehnologija.

Budući da se hype oko AI -a neće uskoro usporiti, vrijeme je da transformatorima dospijevaju, zbog čega bih želio malo objasniti kako rade, zašto su toliko važni za rast skalabilnih rješenja i zašto Oni su okosnica LLMS -a.

Sadržaj objave

1 Transformatori su više nego što susreću oko
2 Važnost samostane u transformatorima
3 Budućnost modela
- 3.1 Povezani sadržaji

Transformatori su više nego što susreću oko

Ukratko, transformator je arhitektura neuronske mreže osmišljena za modeliranje sekvenci podataka, što ih čini idealnim za zadatke kao što su prijevod jezika, završetak rečenica, automatsko prepoznavanje govora i još mnogo toga. Transformatori su zaista postali dominantna arhitektura za mnoge od tih zadataka modeliranja sekvenci, jer se temeljni mehanizam pažnje može lako paralelizirati, omogućujući masovne razmjere prilikom treninga i izvođenja zaključaka.

Izvorno uveden u radu iz 2017. godine, „Pažnja je sve što trebate”Od istraživača na Googleu, transformator je predstavljen kao arhitektura enkoder-dekodera posebno dizajnirana za jezični prijevod. Sljedeće godine Google je objavio dvosmjerne reprezentacije kodera iz Transformers (BERT), koji bi se mogli smatrati jednim od prvih LLM -ova – iako se sada po današnjim standardima smatra malim.

Od tada – a posebno ubrzano s pojavom GPT modela iz OpenAi -a – trend je bio treniranje većih i većih modela s više podataka, više parametara i duljih kontekstnih prozora.

Da bi se olakšala ovaj evolucija, bilo je mnogo inovacija kao što su: napredniji GPU hardver i bolji softver za multi-GPU obuku; tehnike poput kvantizacije i mješavine stručnjaka (MOE) za smanjenje potrošnje memorije; novi optimizatori za trening, poput šampona i adamw -a; Tehnike za učinkovito računanje pažnje, poput flashAttencije i KV predmemoriranja. Trend će se vjerojatno nastaviti u doglednoj budućnosti.

Važnost samostane u transformatorima

Ovisno o aplikaciji, model transformatora slijedi arhitekturu dekodera enkodera. Komponenta kodera saznaje vektorski prikaz podataka koji se tada mogu koristiti za zadatke nizvodno poput klasifikacije i analize osjećaja. Komponenta dekodera uzima vektor ili latentni prikaz teksta ili slike i koristi ga za generiranje novog teksta, što ga čini korisnim za zadatke poput dovršetka rečenice i sažetka. Iz tog razloga, mnogi poznati najmoderniji modeli, takva GPT obitelj, samo su dekoder.

Modeli dekodera kodera kombiniraju obje komponente, što ih čini korisnim za prijevod i druge zadatke sekvence do sekvence. I za arhitekture enkodera i za dekoder, temeljna komponenta je sloj pažnje, jer to omogućava modelu da zadržava kontekst od riječi koje se pojavljuju mnogo ranije u tekstu.

Pozornost dolazi u dva okusa: samostalnoj i pohranjivanje. Samostalna se koristi za snimanje odnosa između riječi unutar istog slijeda, dok se za snimanje odnosa između dvije različite sekvence koristi unakrsna pažnja. Uskrsnica povezuje komponente kodera i dekodera u modelu i tijekom prijevoda. Na primjer, omogućuje engleskoj riječi “jagoda” da se odnosi na francusku riječ “flaise”. Matematički, i samostalno i unakrsna pažnja različiti su oblici množenja matrice, koji se mogu učiniti izuzetno učinkovito pomoću GPU-a.

Zbog sloja pažnje, transformatori mogu bolje uhvatiti odnose između riječi odvojenih dugim količinama teksta, dok prethodni modeli poput ponavljajućih neuronskih mreža (RNN) i dugotrajnih modela kratkotrajne memorije (LSTM) gube trag konteksta riječi s ranijih riječi u tekstu.

Budućnost modela

Trenutno su transformatori dominantna arhitektura za mnoge slučajeve upotrebe koji zahtijevaju LLMS i imaju koristi od najviše istraživanja i razvoja. Iako se čini da se to uskoro neće promijeniti, jedna različita klasa modela koja je nedavno stekla interes su modeli državnog prostora (SSMS) poput Mamba. Ovaj visoko učinkovit algoritam može podnijeti vrlo duge sekvence podataka, dok su transformatori ograničeni kontekstnim prozorom.

Za mene su najuzbudljivija primjena transformatorskih modela multimodalni modeli. OpenAi-ov GPT-4O, na primjer, sposoban je za rukovanje tekstom, zvukom i slikama-a drugi davatelji počinju pratiti. Multimodalne aplikacije vrlo su raznolike, u rasponu od videozapisa do kloniranja glasa do segmentacije slike (i više). Oni također pružaju priliku da AI postanu dostupniji onima s invaliditetom. Na primjer, slijepu osobu može se uvelike poslužiti sposobnošću interakcije kroz glasovne i audio komponente multimodalne primjene.

To je uzbudljiv prostor s puno potencijala za otkrivanje novih slučajeva upotrebe. No, zapamtite da je, barem u doglednoj budućnosti, u velikoj mjeri poduprijeti arhitektura transformatora.

Terrence Alsup je viši znanstvenik podataka u Finastra.

DatadecisionMakers

Dobrodošli u zajednicu VentureBeat!

DatadecisionMakers je mjesto gdje stručnjaci, uključujući tehničke ljude koji rade podatke, mogu dijeliti uvide i inovacije povezane s podacima.

Ako želite čitati o vrhunskim idejama i ažurnim informacijama, najboljim praksama i budućnosti podataka i tehnologije podataka, pridružite nam se u DatadecisionMakers.

Možda biste čak razmotrili doprinos vlastitom članku!

Pročitajte više od DatadecisionMakera

Web izvor