Alibabin model razmišljanja Qwen s pitanjima nadmašuje o1-preview

Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o AI pokrivenosti vodećoj u industriji. Saznajte više

Kineski div e-trgovine Alibaba izbacio je najnoviji model u svojoj obitelji Qwen koja se neprestano širi. Ovaj je poznat kao Qwen s pitanjima (QwQ) i služi kao najnoviji open source konkurent OpenAI-jevom o1 modelu razmišljanja.

Kao i drugi veliki modeli rasuđivanja (LRM), QwQ koristi dodatne računske cikluse tijekom zaključivanja za pregled svojih odgovora i ispravljanje pogrešaka, što ga čini prikladnijim za zadatke koji zahtijevaju logično rasuđivanje i planiranje poput matematike i kodiranja.

Sadržaj objave

1 Što je Qwen s pitanjima (OwQ?) i može li se koristiti u komercijalne svrhe?
2 ‘Otkrili smo nešto dubokoumno’
3 Doba LLM-a ustupa mjesto LRM-ovima: Veliki modeli rasuđivanja
- 3.1 Povezani sadržaji

Što je Qwen s pitanjima (OwQ?) i može li se koristiti u komercijalne svrhe?

Alibaba je izdala verziju QwQ-a s 32 milijarde parametara s kontekstom od 32.000 tokena. Model je trenutno u fazi pregleda, što znači da će vjerojatno uslijediti verzija s boljim performansama.

Prema Alibabinim testovima, QwQ nadmašuje o1-preview na mjerilima AIME i MATH, koji ocjenjuju sposobnosti rješavanja matematičkih problema. Također nadmašuje o1-mini na GPQA, mjerilu za znanstveno zaključivanje. QwQ je inferioran u odnosu na o1 na mjerilima kodiranja LiveCodeBench, ali još uvijek nadmašuje druge granične modele kao što su GPT-4o i Claude 3.5 Sonnet.

Primjer izlaza Qwena s pitanjima

QwQ ne dolazi s pratećim dokumentom koji opisuje podatke ili proces korišten za treniranje modela, što otežava reproduciranje rezultata modela. Međutim, budući da je model otvoren, za razliku od OpenAI o1, njegov “proces razmišljanja” nije skriven i može se koristiti za razumijevanje načina na koji model razmišlja pri rješavanju problema.

Alibaba je također izdala model pod licencom Apache 2.0, što znači da se može koristiti u komercijalne svrhe.

‘Otkrili smo nešto dubokoumno’

Prema a post na blogu koji je objavljen zajedno s objavom modela, “Kroz duboko istraživanje i bezbrojna ispitivanja, otkrili smo nešto duboko: kada dobijemo vremena za razmišljanje, preispitivanje i promišljanje, modelovo razumijevanje matematike i programiranja procvjeta poput cvijeta koji se otvara suncu. … Ovaj proces pažljivog promišljanja i samoispitivanja vodi do izvanrednih pomaka u rješavanju složenih problema.”

Ovo je vrlo slično onome što znamo o tome kako funkcioniraju modeli rasuđivanja. Generiranjem više tokena i pregledom njihovih prethodnih odgovora, veća je vjerojatnost da će modeli ispraviti potencijalne pogreške. Marco-o1, još jedan model rezoniranja koji je nedavno objavila Alibaba također bi mogao sadržavati naznake o tome kako bi QwQ mogao funkcionirati. Marco-o1 koristi Pretraga stabla u Monte Carlu (MCTS) i samorefleksija u vrijeme zaključivanja za stvaranje različitih grana zaključivanja i odabir najboljih odgovora. Model je treniran na mješavini primjera lanca mišljenja (CoT) i sintetičkih podataka generiranih MCTS algoritmima.

Alibaba ističe da QwQ još uvijek ima ograničenja kao što je miješanje jezika ili zaglavljivanje u kružnim petljama razmišljanja. Model je dostupan za preuzimanje na Lice koje grli a online demo može se pronaći na Prostori za grljenje lica.

Doba LLM-a ustupa mjesto LRM-ovima: Veliki modeli rasuđivanja

Izdanje o1 potaknulo je rastući interes za stvaranje LRM-ova, iako se ne zna mnogo o tome kako model radi ispod haube osim korištenja vremenske skale zaključivanja za poboljšanje odgovora modela.

Sada postoji nekoliko kineskih konkurenata o1. Kineski AI laboratorij DeepSeek nedavno je izdao R1-Lite-Preview, svog o1 konkurenta, koji je trenutno dostupan samo putem mrežnog sučelja za chat tvrtke. R1-Lite-Preview navodno je bolji od o1 na nekoliko ključnih mjerila.

Još jedan nedavno objavljeni model je LLaVA-o1, koji su razvili istraživači s više sveučilišta u Kini, a koji donosi paradigmu zaključivanja vremena zaključivanja u modele jezika vizije otvorenog koda (VLM).

Fokus na LRM-ove dolazi u vrijeme neizvjesnosti o budućnosti zakona o skaliranju modela. izvješća pokazuju da laboratoriji umjetne inteligencije kao što su OpenAI, Google DeepMind i Anthropic ostvaruju sve manje povrate na obuku većih modela. A stvaranje većih količina kvalitetnih podataka za obuku postaje sve teže jer se modeli već obučavaju na trilijunima tokena prikupljenih s interneta.

U međuvremenu, vremenska skala zaključivanja nudi alternativu koja bi mogla pružiti sljedeći napredak u poboljšanju sposobnosti sljedeće generacije AI modela. Postoje izvješća da je OpenAI koristeći o1 za generiranje podataka o sintetičkom razmišljanju osposobiti sljedeću generaciju svojih LLM-a. Objavljivanje modela otvorenog razmišljanja vjerojatno će potaknuti napredak i učiniti prostor konkurentnijim.

VB Dnevnik

Budite u toku! Svakodnevno primajte najnovije vijesti u svoju pristiglu poštu

Pretplatom se slažete s Uvjetima pružanja usluge VentureBeata.

Hvala što ste se pretplatili. Više VB biltena pogledajte ovdje.

Došlo je do pogreške.

Web izvor