Poznata je činjenica da različite obitelji modela mogu koristiti različite tokenizatore. Međutim, postojala je ograničena analiza o tome kako je postupak “tokenizacija” Sama se razlikuje od ovih tokenizatora. Da li svi tokenizatori rezultiraju istim brojem tokena za određeni ulazni tekst? Ako ne, koliko su različiti generirani tokeni? Koliko su značajne razlike?
U ovom članku istražujemo ta pitanja i ispitujemo praktične implikacije varijabilnosti tokenizacije. Predstavljamo komparativnu priču o dvije pogranične obitelji modela: Openchatgpt vs AntropskiClaude. Iako su njihove reklamirane figure „troškova po cijenu po cijenu“ vrlo konkurentne, eksperimenti otkrivaju da antropski modeli mogu biti 20–30% skuplji od GPT modela.
Sadržaj objave
Cijene API-ja-Claude 3.5 sonet vs gpt-4o
Od lipnja 2024., struktura cijena za ova dva napredna granična modela vrlo je konkurentna. I Anthropic’s Claude 3.5 sonet i Openai’s GPT-4O imaju identične troškove za izlazne tokene, dok Claude 3,5 sonet nudi 40% niže troškove za ulazne tokene.
Izvor: Prekršaj
Skrivena “neučinkovitost tokenizatora”
Unatoč nižim stopama ulaznih tokena antropskog modela, primijetili smo da su ukupni troškovi pokretanja eksperimenata (na određenom skupu fiksnih upita) s GPT-4O mnogo jeftiniji u usporedbi s Claude Sonnet-3,5.
Zašto?
Antropski tokenizer ima tendenciju da razgradi isti ulaz na više tokena u usporedbi s OpenAijevim tokenizatorom. To znači da, za identične upute, antropski modeli proizvode znatno više tokena od svojih Openai kolega. Kao rezultat toga, iako je trošak po cijenom za unos soneta Claude 3.5 može biti niži, povećana tokenizacija može nadoknaditi ove uštede, što dovodi do većih ukupnih troškova u praktičnim slučajevima uporabe.
Ovaj skriveni trošak proizlazi iz načina na koji tokenizer Anthropic kodira informacije, često koristeći više tokena za predstavljanje istog sadržaja. Inflacija broja tokena ima značajan utjecaj na troškove i upotrebu prozora konteksta.
Neučinkovitost tokenizacije koja ovisi o domeni
Različite vrste sadržaja domene različito su tokenizirane tokenizatorom Anthropica, što dovodi do različitih razina povećanog broja tokena u usporedbi s OpenAijevim modelima. AI istraživačka zajednica primijetila je slične razlike u tokenizaciji ovdje. Testirali smo naša otkrića na tri popularne domene, naime: engleski članci, kod (python) i matematiku.
Domena | Unos modela | GPT tokeni | Claude tokeni | % Token režijski |
Engleski članci | 77 | 89 | ~ 16% | |
KOD (Python) | 60 | 78 | ~ 30% | |
Matematika | 114 | 138 | ~ 21% |
% Token Resears of Claude 3.5 tokenizatora soneta (u odnosu na GPT-4O) Izvor: Lavanya Gupta
Kada uspoređujete sonet Claude 3.5 s GPT-4O, stupanj neučinkovitosti tokenizatora značajno se razlikuje u domenama sadržaja. Za engleske članke, Claudeov tokenizer proizvodi otprilike 16% više tokena od GPT-4O za isti ulazni tekst. Taj se režijski troškovi naglo povećavaju s strukturiranijim ili tehničkim sadržajem: Za matematičke jednadžbe, režijski troškovi iznose 21%, a za Python kod, Claude generira 30% više tokena.
Ova varijacija nastaje zato što neke vrste sadržaja, poput tehničkih dokumenata i koda, često sadrže uzorke i simbole koje antropiji fragmenti tokenizatora u manje komade, što dovodi do većeg broja tokena. Suprotno tome, više prirodnog jezičnog sadržaja ima tendenciju da pokazuje niži token.
Ostale praktične implikacije neučinkovitosti tokenizatora
Osim izravne implikacije na troškove, također postoji neizravni utjecaj na upotrebu prozora konteksta. Dok antropski modeli tvrde da je veći kontekstni prozor od 200K tokena, za razliku od OpenAijevih 128K tokena, zbog verbosity -a, efektivni korisni prostor tokena može biti manji za antropske modele. Dakle, potencijalno bi mogla postojati mala ili velika razlika u veličinama prozora prozora “Oglašenih” u odnosu na veličine prozora “učinkovite” konteksta.
Provedba tokenizatora
GPT modeli koriste Byte par kodiranja (bpe)koji se često spajaju parovi znakova koji se javljaju kako bi formirali tokene. Konkretno, najnoviji GPT modeli koriste tokenizer otvorenog koda O200K_Base. Stvarni tokeni koje koristi GPT-4O (u Tiktoken Tokenizer) može se pogledati ovdje.
JSON
#reasoning
"o1-xxx": "o200k_base",
"o3-xxx": "o200k_base",
# chat
"chatgpt-4o-": "o200k_base",
"gpt-4o-xxx": "o200k_base", # e.g., gpt-4o-2024-05-13
"gpt-4-xxx": "cl100k_base", # e.g., gpt-4-0314, etc., plus gpt-4-32k
"gpt-3.5-turbo-xxx": "cl100k_base", # e.g, gpt-3.5-turbo-0301, -0401, etc.
Nažalost, ne može se puno reći o antropskim tokenizatorima jer njihov tokenizer nije tako izravno i lako dostupan kao GPT. Antropski Objavili API za brojanje tokena u prosincu 2024. Međutim, ubrzo je propala u verzijama kasnije 2025. godine.
Latenode Izvještava da “Anthropic koristi jedinstveni tokenizer sa samo 65 000 varijacija tokena, u usporedbi sa varijacijama tokena u 100.261 OpenAi za GPT-4.” Ovaj Colab bilježnica Sadrži Python kôd za analizu razlike u tokenizaciji između GPT i CLAUDE modela. Još alat To omogućava povezivanje s nekim uobičajenim, javno dostupnim tokenizerima potvrđuje naša otkrića.
Sposobnost proaktivnog procjene broja tokena (bez pozivanja na stvarne API modela) i proračunskih troškova ključna je za AI poduzeća.
Ključni poduhvat
- Konkurentne cijene Anthropica dolaze sa skrivenim troškovima:
Dok Anthropic’s Claude 3,5 sonet nudi 40% nižih troškova ulaza u odnosu na GPT-4O OpenAi, ova prividna prednost troškova može biti zabludu zbog razlika u tokokeniziranom tekstu. - Skrivena “neučinkovitost tokenizatora”:
Antropski modeli su inherentno više opširan. Za tvrtke koje obrađuju velike količine teksta, razumijevanje ove odstupanja je presudno prilikom procjene pravih troškova raspoređivanja modela. - Neučinkovitost tokenizatora ovisnog o domeni:
Pri odabiru između otvorenih i antropskih modela, Ocijenite prirodu svog ulaznog teksta. Za zadatke prirodnog jezika, razlika u troškovima može biti minimalna, ali tehničke ili strukturirane domene mogu dovesti do značajno većih troškova s antropskim modelima. - Efektivni prozor konteksta:
Zbog tokekenizatora Anthropic -a, njegov veći oglašeni prozor od 200K konteksta može ponuditi manje učinkovit upotrebljivi prostor od OpenAi’s 128K, što dovodi do a potencijal jaz između oglašenog i stvarnog prozora konteksta.
Anthropi nije odgovorio na zahtjeve VentureBeat -a za komentar prema vremenu tiska. Ažurirat ćemo priču ako odgovore.
Web izvor