Manje je više: UC Berkeley i Google Otključavanje LLM potencijala jednostavnim uzorkovanjem

Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj na vodećim AI pokrivenosti. Saznati više

A novi papir od istraživača iz Google istraživanje i Sveučilište u Kaliforniji, Berkeley, Pokazuje da iznenađujuće jednostavan pristup skaliranju vremena može povećati sposobnosti rasuđivanja velikih jezičnih modela (LLMS). Ključ? Skaliranje pretraživanja na temelju uzorkovanja, tehnike koja se oslanja na generiranje više odgovora i korištenje samog modela kako bi ih provjerio.

Temeljni nalaz je da čak i minimalistička implementacija pretraživanja na temelju uzorkovanja, korištenjem nasumičnog uzorkovanja i samo-provjerenja, može podići obrazloženje modela poput Gimini 1.5 Pro izvan one O1-previesa na popularnim mjerilama. Nalazi mogu imati važne posljedice za poslovne aplikacije i osporiti pretpostavku da su visoko specijalizirana obuka ili složene arhitekture uvijek potrebne za postizanje vrhunskog učinka.

Sadržaj objave

1 Granice izračunavanja struje trenutnog ispitivanja
2 Kako funkcionira pretraživanje na temelju uzorkovanja
3 Kako se pretraživanje na temelju uzorkovanja uspoređuje s drugim tehnikama
4 Učinkovite strategije samoprovjerivanja
5 Implikacije na aplikacije u stvarnom svijetu

Granice izračunavanja struje trenutnog ispitivanja

Trenutna popularna metoda za skaliranje vremena ispitivanja u LLMS-u je osposobljavanje modela kroz učenje pojačanja kako bi se generirale dulje reakcije s tragovima lanca (COT). Ovaj se pristup koristi u modelima kao što su Openai O1 i DeepSeek-R1. Iako su korisne, ove metode obično zahtijevaju značajna ulaganja u fazu obuke.

Druga metoda skaliranja vremena je “samossistencija”, gdje model generira više odgovora na upit i odabire odgovor koji se češće pojavljuje. Samossistencija dostiže svoje granice prilikom rješavanja složenih problema, kao što je u tim slučajevima, najviše ponovljeni odgovor nije nužno ispravan.

Pretraživanje temeljeno na uzorkovima nudi jednostavniju i vrlo skalabilnu alternativu za skaliranje vremena ispitivanja: Neka model generira više odgovora i odaberite najbolji putem mehanizma za provjeru. Pretraživanje na temelju uzorkovanja može nadopuniti druge strategije izračunavanja vremena ispitivanja i, kako istraživači pišu u svom radu, “također ima jedinstvenu prednost što je neugodno paralelno i omogućava proizvoljno skaliranje: jednostavno uzorkovajte više odgovora.”

Što je još važnije, pretraživanje na temelju uzorkovanja može se primijeniti na bilo koji LLM, uključujući one koji nisu izričito obučeni za rasuđivanje.

Kako funkcionira pretraživanje na temelju uzorkovanja

Istraživači se usredotočuju na minimalističku implementaciju pretraživanja na temelju uzorkovanja, koristeći jezični model kako bi generirali odgovore kandidata i provjerili ih. Ovo je proces „samoodvijesnog“, gdje model procjenjuje vlastite rezultate bez oslanjanja na vanjske odgovore na zemaljsku istinu ili simboličke sustave provjere.

Kredit za uzorkovanje na temelju pretraživanja: VentureBeat

Algoritam djeluje u nekoliko jednostavnih koraka:

1 – Algoritam započinje generiranjem skupa kandidatskih rješenja za zadani problem pomoću jezičnog modela. To se postiže tako što će modelu više puta davati brzinu i pomoću postavke ne-nulte temperature kako bi se stvorio raznolik skup odgovora.

2 – Odgovor kandidata za svaki prolazi postupak provjere u kojem se LLM traži više puta kako bi se utvrdio je li odgovor točan. Ishodi provjere tada su prosječni kako bi se stvorio konačni rezultat provjere za odgovor.

3— Algoritam odabire odgovor s najviše ocjene kao konačni odgovor. Ako je više kandidata u neposrednoj blizini, LLM se traži da ih usporedi u paru i odabere najbolji. Odgovor koji pobijedi na najpopularnijim usporedbama odabran je kao konačni odgovor.

Istraživači su razmotrili dvije ključne osi za skaliranje vremena vremena:

Uzorkovanje: Broj odgovora koji model generira za svaki problem unosa.

Provjera: Broj rezultata provjere izračunate za svako generirano rješenje

Kako se pretraživanje na temelju uzorkovanja uspoređuje s drugim tehnikama

Studija je otkrila da se rak rasuđivanja i dalje poboljšava pretraživanjem uzorkovanja, čak i kada se izračunavanje vremena ispitivanja smanjuje daleko izvan točke gdje se samossistencija zasiće.

U dovoljnoj mjeri, ova minimalistička implementacija značajno povećava točnost obrazloženja na referentnim vrijednostima poput AIME i matematike. Na primjer, performanse Blizanca 1.5 Pro nadmašile su onu O1-PREVIEW, koja je izričito obučena za probleme s rezonovanjem, a Blizanci 1.5 Flash nadmašio je Blizanci 1.5 Pro.

“To ne samo da ističe važnost pretraživanja uzorkovanja za skaliranje sposobnosti, već također sugerira korisnost pretraživanja temeljenog na uzorkovanju kao jednostavnu osnovnu liniju na kojoj se može usporediti druge strategije izračunavanja vremena testnog vremena i mjeriti istinska poboljšanja u mogućnosti pretraživanja modela”, pišu istraživači.

Vrijedno je napomenuti da, iako su rezultati uzorkovanja na temelju pretraživanja impresivni, troškovi također mogu postati zabranjeni. Na primjer, s 200 uzoraka i 50 koraka provjere po uzorku, upit iz AIME -a stvorit će oko 130 milijuna tokena, što košta 650 dolara s Blizancima 1,5 Pro. Međutim, ovo je vrlo minimalistički pristup pretraživanju uzorkovanja i kompatibilan je s tehnikama optimizacije predloženim u drugim studijama. S pametnijim metodama uzorkovanja i provjere, troškovi zaključivanja mogu se značajno smanjiti korištenjem manjih modela i stvaranjem manje tokena. Na primjer, pomoću Blizanca 1.5 Flash za izvršavanje provjere, troškovi padaju na 12 USD po pitanju.

Učinkovite strategije samoprovjerivanja

U tijeku je rasprava o tome mogu li LLM -ovi potvrditi vlastite odgovore. Istraživači su identificirali dvije ključne strategije za poboljšanje samoprovjere koristeći računanje vremena ispitivanja:

Izravno uspoređivanje kandidata za odgovor: Neslaganja između rješenja kandidata snažno ukazuju na potencijalne pogreške. Davanjem verifikatora s više odgovora za usporedbu, model može bolje prepoznati pogreške i halucinacije, baveći se osnovnoj slabosti LLMS -a. Istraživači to opisuju kao primjer “implicitnog skaliranja”.

Prepisivanje specifično za zadatak: Istraživači predlažu da optimalni izlazni stil LLM -a ovisi o zadatku. Lanac razmišljanja učinkovit je za rješavanje zadataka obrazloženja, ali odgovore je lakše provjeriti kada su napisani u formalnijem, matematički konvencionalnom stilu. Verifiers mogu prije procjene prepisati odgovore kandidata u strukturiraniji format (npr. Teorem-lemma-otporni).

“Pretpostavljamo da će se mogućnosti samo-provjerenja modela u kratkom roku brzo poboljšati, jer modeli uče kako bi iskoristili principe implicitnog prikladnosti skaliranja i izlaznog stila i potaknuti poboljšane stope skaliranja za pretraživanje na temelju uzorkovanja”, pišu istraživači.

Implikacije na aplikacije u stvarnom svijetu

Studija pokazuje da relativno jednostavna tehnika može postići impresivne rezultate, potencijalno smanjujući potrebu za složenim i skupim arhitekturama modela ili režimima treninga.

Ovo je ujedno i skalabilna tehnika, koja omogućuje poduzećima da povećaju performanse dodjeljivanjem više resursa za uzorkovanje i provjeru. Također omogućuje programerima da guraju granične modele jezika izvan svojih ograničenja složenih zadataka.

„S obzirom na to da nadopunjuje druge strategije izračunavanja vremena ispitivanja, paraleliziraju se i omogućava proizvoljno skaliranje i priznaje jednostavne implementacije koje su dokazivo učinkovite, očekujemo da će pretraga temeljena na uzorkovima igrati ključnu ulogu jer su jezični modeli zaduženi za rješavanje sve složenijih problema sa sve većim računalnim proračunima“, pišu istraživači.

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.

Web izvor

Manje je više: UC Berkeley i Google Otključavanje LLM potencijala jednostavnim uzorkovanjem

ByTomšić Damjan

Granice izračunavanja struje trenutnog ispitivanja

Kako funkcionira pretraživanje na temelju uzorkovanja

Kako se pretraživanje na temelju uzorkovanja uspoređuje s drugim tehnikama

Učinkovite strategije samoprovjerivanja

Implikacije na aplikacije u stvarnom svijetu

By Tomšić Damjan

Rano sam pogledao ChatGPT Images 2.0 i impresivan je – uz jednu iznimku

Samsungov Galaxy S26 Ultra nastavlja dobivati nove popuste

Kreator Okami Hideki Kamiya dijeli posebnu poruku

You missed

Rano sam pogledao ChatGPT Images 2.0 i impresivan je – uz jednu iznimku

Samsungov Galaxy S26 Ultra nastavlja dobivati nove popuste

Kreator Okami Hideki Kamiya dijeli posebnu poruku

Treba li moj poduzetnički AI agent to učiniti? NanoClaw i Vercel pokreću lakše agentske postavke pravila i dijaloge za odobrenje u 15 aplikacija za slanje poruka

Manje je više: UC Berkeley i Google Otključavanje LLM potencijala jednostavnim uzorkovanjem

ByTomšić Damjan

Granice izračunavanja struje trenutnog ispitivanja

Kako funkcionira pretraživanje na temelju uzorkovanja

Kako se pretraživanje na temelju uzorkovanja uspoređuje s drugim tehnikama

Učinkovite strategije samoprovjerivanja

Implikacije na aplikacije u stvarnom svijetu

By Tomšić Damjan

Related Post

Rano sam pogledao ChatGPT Images 2.0 i impresivan je – uz jednu iznimku

Samsungov Galaxy S26 Ultra nastavlja dobivati ​​nove popuste

Kreator Okami Hideki Kamiya dijeli posebnu poruku

You missed

Rano sam pogledao ChatGPT Images 2.0 i impresivan je – uz jednu iznimku

Samsungov Galaxy S26 Ultra nastavlja dobivati ​​nove popuste

Kreator Okami Hideki Kamiya dijeli posebnu poruku

Treba li moj poduzetnički AI agent to učiniti? NanoClaw i Vercel pokreću lakše agentske postavke pravila i dijaloge za odobrenje u 15 aplikacija za slanje poruka

Samsungov Galaxy S26 Ultra nastavlja dobivati nove popuste

Samsungov Galaxy S26 Ultra nastavlja dobivati nove popuste