Nova studija koju je proveo Google sugerira da napredni modeli zaključivanja postižu visoku izvedbu simulacijom rasprava poput više agenata koje uključuju različite perspektive, osobine ličnosti i stručnost u domeni.
Njihovi eksperimenti pokazuju da ova unutarnja rasprava, koju nazivaju “društvo misli,” značajno poboljšava performanse modela u složenim zadacima razmišljanja i planiranja. Istraživači su otkrili da vodeći modeli razmišljanja kao što su DeepSeek-R1 i QwQ-32B, koji se obučavaju putem učenje s potkrepljenjem (RL), inherentno razvijaju ovu sposobnost uključivanja u društvene misaone razgovore bez eksplicitnih uputa.
Ovi nalazi nude putokaz za to kako programeri mogu izgraditi robusnije LLM aplikacije i kako poduzeća mogu trenirati superiorne modele koristeći svoje interne podatke.
Sadržaj objave
Što je društvo mišljenja?
Temeljna premisa društva mišljenja jest da modeli rasuđivanja nauče oponašati društvene dijaloge s više aktera kako bi poboljšali svoju logiku. Ova se hipoteza oslanja na kognitivnu znanost, posebno na ideju da se ljudski razum prvenstveno razvio kao društveni proces za rješavanje problema putem argumentacije i angažmana s različitim stajalištima.
Istraživači to pišu "kognitivna raznolikost, koja proizlazi iz varijacija u stručnosti i osobinama ličnosti, poboljšava rješavanje problema, osobito kada je popraćena autentičnim neslaganjem." Posljedično, sugeriraju da integracija različitih perspektiva omogućuje LLM-ima da razviju snažne strategije rezoniranja. Simuliranjem razgovora između različitih internih osoba, modeli mogu izvršiti bitne provjere (kao što su verifikacija i praćenje unatrag) koje pomažu u izbjegavanju uobičajenih zamki poput neželjenih pristranosti i ulizica.
U modelima poput DeepSeek-R1, ovo "društvo" očituje izravno unutar lanca misli. Istraživači primjećuju da vam nisu potrebni zasebni modeli ili upute za forsiranje ove interakcije; rasprava se javlja autonomno unutar procesa razmišljanja jedne instance modela.
Primjeri društva mišljenja
Studija pruža opipljive primjere kako ovo unutarnje trvenje dovodi do boljih ishoda. U jednom eksperimentu koji uključuje složeni problem organske kemijske sinteze, DeepSeek-R1 simulirao raspravu između višestrukih različitih unutarnjih perspektiva, uključujući a "Planer" i a "Kritični verifikator."
Planer je u početku predložio standardni put reakcije. Međutim, kritični verifikator (karakteriziran kao osoba s visokom savjesnošću i niskom prihvatljivošću) prekinuo je kako bi osporio pretpostavku i dao protuargument novim činjenicama. Kroz ovu kontradiktornu provjeru, model je otkrio pogrešku, pomirio proturječna stajališta i ispravio put sinteze.
Slična dinamika pojavila se iu kreativnim zadacima. Na upit da prepišete rečenicu, "Bacio sam svoju mržnju u goruću vatru," model je simulirao pregovore između a "Kreativni Idejator" i a "Provjera semantičke vjernosti." Nakon što je idejni tvorac predložio verziju pomoću riječi "duboko ukorijenjen," čekjuzer je uzvratio, "Ali to dodaje “duboko ukorijenjeno”, što nije bilo u izvorniku. Trebali bismo izbjegavati dodavanje novih ideja." Model se na kraju odlučio za kompromis koji je zadržao izvorno značenje uz poboljšanje stila.
Možda se najupečatljivija evolucija dogodila u "Igra odbrojavanja," matematička zagonetka u kojoj model mora koristiti određene brojeve kako bi postigao ciljnu vrijednost. Na početku obuke, model je pokušao riješiti problem koristeći se monološkim pristupom. Kako je saznao putem RL-a, spontano se podijelio u dvije različite osobe: a "Metodički rješavač problema" izvođenje proračuna i an "Istraživački mislilac" praćenje napretka, tko bi prekidao neuspješne staze primjedbama poput "Opet nema sreće… Možda možemo pokušati koristiti negativne brojeve," potičući metodičkog rješavača da promijeni strategije.
Ova otkrića dovode u pitanje pretpostavku da duži tokovi misli automatski rezultiraju većom točnošću. Umjesto toga, različita ponašanja kao što je promatranje odgovora kroz različite leće, provjera ranijih pretpostavki, vraćanje unatrag i istraživanje alternativa, pokreću poboljšanja u rasuđivanju. Istraživači su to pojačali umjetnim upravljanjem aktivacijskim prostorom modela kako bi izazvali iznenađenje razgovora; ova je intervencija aktivirala širi raspon značajki povezanih s osobnošću i stručnošću, udvostručivši točnost u složenim zadacima.
Implikacija je da se društveno rasuđivanje pojavljuje autonomno kroz RL kao funkcija poriva modela da proizvede točne odgovore, a ne kroz eksplicitni ljudski nadzor. Zapravo, modeli obuke na monolozima bili su lošiji od sirovog RL-a koji je prirodno razvio razgovore s više agenata. Suprotno tome, izvođenje nadzirano fino ugađanje (SFT) na višestranačkim razgovorima i raspravama značajno je nadmašio SFT na standardnim tokovima mišljenja.
Implikacije za AI poduzeća
Za programere i donositelje odluka u poduzećima, ovi uvidi nude praktične smjernice za izgradnju snažnijih AI aplikacija.
Brzi inženjering za ‘konflikt’
Programeri mogu poboljšati rasuđivanje u modelima opće namjene tako što će ih izričito potaknuti da usvoje strukturu mišljenja društva. Međutim, nije dovoljno jednostavno zamoliti modela da razgovara sam sa sobom.
"Nije dovoljno ‘imati raspravu’ već imati različite poglede i stavove koji raspravu čine neizbježnom i dopuštaju toj raspravi da istražuje i razlikuje alternative," James Evans, koautor rada, rekao je za VentureBeat.
Umjesto generičkih uloga, programeri bi trebali dizajnirati upute koje dodjeljuju suprotne dispozicije (npr. službenik za usklađenost sklon riziku nasuprot voditelju proizvoda usmjerenom na rast) kako bi natjerali model da razlikuje alternative. Čak i jednostavni znakovi koji potiču model na izražavanje "iznenađenje" može pokrenuti ove superiorne putove razmišljanja.
Dizajn za društveno skaliranje
Budući da programeri skaliraju računanje testnog vremena kako bi omogućili modelima "misliti" duže, trebali bi strukturirati ovo vrijeme kao društveni proces. Prijave bi trebale olakšati a "društvenog" proces gdje model koristi zamjenice poput "mi," postavlja si pitanja i eksplicitno raspravlja o alternativama prije nego što dođe do odgovora.
Ovaj se pristup također može proširiti na sustave s više agenata, gdje se različite osobnosti dodijeljene različitim agentima upuštaju u kritičku raspravu kako bi se donijele bolje odluke.
Prestanite dezinficirati svoje podatke o treningu
Možda najznačajnija implikacija leži u tome kako tvrtke treniraju ili fino podešavaju vlastite modele. Tradicionalno, podatkovni timovi čiste svoje skupove podataka kako bi ih stvorili "Zlatni odgovori" koji pružaju savršene, linearne putove do rješenja. Studija sugerira da bi to mogla biti pogreška.
Modeli fino podešeni na podacima iz razgovora (npr. transkripti rasprava i rješenja s više agenata) znatno brže poboljšavaju rasuđivanje od onih uvježbanih na čistim monolozima. Ima čak i vrijednosti u raspravama koje ne dovode do točnog odgovora.
"Trenirali smo na razgovornim skelama koje su dovele do pogrešnog odgovora, a zatim smo pojačali model i otkrili da se pokazao jednako dobrim kao i kod potvrđivanja ispravnog odgovora, sugerirajući da su razgovorne navike istraživanja rješenja najvažnije za nove probleme," rekao je Evans.
To znači da bi poduzeća trebala prestati odbacivati "neuredan" inženjerske zapisnike ili Slack niti gdje su problemi rješavani iterativno. The "neurednost" mjesto gdje model uči naviku istraživanja.
Razotkrivanje ‘crne kutije’ za povjerenje i reviziju
Za velike slučajeve korištenja u poduzećima, jednostavno dobivanje odgovora nije dovoljno. Evans tvrdi da korisnici moraju vidjeti unutarnje neslaganje kako bi vjerovali rezultatu, što sugerira promjenu u dizajnu korisničkog sučelja.
"Trebamo novo sučelje koje nam sustavno izlaže interne rasprave tako da ‘sudjelujemo’ u kalibraciji pravog odgovora," rekao je Evans. "Bolje idemo s raspravom; AI se bolje snalaze s raspravom; i bolje nam je kad smo izloženi raspravi umjetne inteligencije."
Strateški slučaj za otvorene utege
Ovi nalazi daju novi argument u "izgraditi protiv kupiti" rasprava o otvorenim modelima naspram vlasničkih API-ja. Mnogi vlasnički modeli razmišljanja skrivaju svoj lanac razmišljanja, tretirajući internu raspravu kao poslovnu tajnu ili sigurnosnu odgovornost.
Ali Evans to tvrdi "nitko prije nije stvarno pružio opravdanje za razotkrivanje ovog društva mišljenja," ali da vrijednost revizije ovih unutarnjih sukoba postaje neporeciva. Sve dok vlasnički pružatelji usluga ne ponude potpunu transparentnost, poduzeća u sektorima visoke usklađenosti mogu otkriti da otvoreni modeli nude jasnu prednost: mogućnost da se vidi neslaganje, a ne samo odluka.
"Vjerujem da će veliki, vlasnički modeli početi opsluživati (i licencirati) informacije kada shvate da u njima postoji vrijednost," rekao je Evans.
Istraživanje sugerira da se posao arhitekta umjetne inteligencije pomiče s čiste obuke modela na nešto što je bliže organizacijskoj psihologiji.
"Vjerujem da ovo otvara sasvim novu granicu male grupe i organizacijskog dizajna unutar i između modela koji će vjerojatno omogućiti nove klase izvedbe," rekao je Evans. "Moj tim radi na tome, a nadam se da i drugi rade."



