Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

AI modeli koji simuliraju unutarnju raspravu dramatično poboljšavaju točnost složenih zadataka

Novosti

AI modeli koji simuliraju unutarnju raspravu dramatično poboljšavaju točnost složenih zadataka

Tomšić Damjan 30. siječnja 2026

Nova studija koju je proveo Google sugerira da napredni modeli zaključivanja postižu visoku izvedbu simulacijom rasprava poput više agenata koje uključuju različite perspektive, osobine ličnosti i stručnost u domeni.

Njihovi eksperimenti pokazuju da ova unutarnja rasprava, koju nazivaju “društvo misli,” značajno poboljšava performanse modela u složenim zadacima razmišljanja i planiranja. Istraživači su otkrili da vodeći modeli razmišljanja kao što su DeepSeek-R1 i QwQ-32B, koji se obučavaju putem učenje s potkrepljenjem (RL), inherentno razvijaju ovu sposobnost uključivanja u društvene misaone razgovore bez eksplicitnih uputa.

Ovi nalazi nude putokaz za to kako programeri mogu izgraditi robusnije LLM aplikacije i kako poduzeća mogu trenirati superiorne modele koristeći svoje interne podatke.

Sadržaj objave

  • 1 Što je društvo mišljenja?
  • 2 Primjeri društva mišljenja
  • 3 Implikacije za AI poduzeća
    • 3.1 Brzi inženjering za ‘konflikt’
    • 3.2 Dizajn za društveno skaliranje
    • 3.3 Prestanite dezinficirati svoje podatke o treningu
    • 3.4 Razotkrivanje ‘crne kutije’ za povjerenje i reviziju
  • 4 Strateški slučaj za otvorene utege
    • 4.1 Povezani sadržaji

Što je društvo mišljenja?

Temeljna premisa društva mišljenja jest da modeli rasuđivanja nauče oponašati društvene dijaloge s više aktera kako bi poboljšali svoju logiku. Ova se hipoteza oslanja na kognitivnu znanost, posebno na ideju da se ljudski razum prvenstveno razvio kao društveni proces za rješavanje problema putem argumentacije i angažmana s različitim stajalištima.

Istraživači to pišu "kognitivna raznolikost, koja proizlazi iz varijacija u stručnosti i osobinama ličnosti, poboljšava rješavanje problema, osobito kada je popraćena autentičnim neslaganjem." Posljedično, sugeriraju da integracija različitih perspektiva omogućuje LLM-ima da razviju snažne strategije rezoniranja. Simuliranjem razgovora između različitih internih osoba, modeli mogu izvršiti bitne provjere (kao što su verifikacija i praćenje unatrag) koje pomažu u izbjegavanju uobičajenih zamki poput neželjenih pristranosti i ulizica.

U modelima poput DeepSeek-R1, ovo "društvo" očituje izravno unutar lanca misli. Istraživači primjećuju da vam nisu potrebni zasebni modeli ili upute za forsiranje ove interakcije; rasprava se javlja autonomno unutar procesa razmišljanja jedne instance modela.

Primjeri društva mišljenja

Studija pruža opipljive primjere kako ovo unutarnje trvenje dovodi do boljih ishoda. U jednom eksperimentu koji uključuje složeni problem organske kemijske sinteze, DeepSeek-R1 simulirao raspravu između višestrukih različitih unutarnjih perspektiva, uključujući a "Planer" i a "Kritični verifikator."

Planer je u početku predložio standardni put reakcije. Međutim, kritični verifikator (karakteriziran kao osoba s visokom savjesnošću i niskom prihvatljivošću) prekinuo je kako bi osporio pretpostavku i dao protuargument novim činjenicama. Kroz ovu kontradiktornu provjeru, model je otkrio pogrešku, pomirio proturječna stajališta i ispravio put sinteze.

Slična dinamika pojavila se iu kreativnim zadacima. Na upit da prepišete rečenicu, "Bacio sam svoju mržnju u goruću vatru," model je simulirao pregovore između a "Kreativni Idejator" i a "Provjera semantičke vjernosti." Nakon što je idejni tvorac predložio verziju pomoću riječi "duboko ukorijenjen," čekjuzer je uzvratio, "Ali to dodaje “duboko ukorijenjeno”, što nije bilo u izvorniku. Trebali bismo izbjegavati dodavanje novih ideja." Model se na kraju odlučio za kompromis koji je zadržao izvorno značenje uz poboljšanje stila.

Možda se najupečatljivija evolucija dogodila u "Igra odbrojavanja," matematička zagonetka u kojoj model mora koristiti određene brojeve kako bi postigao ciljnu vrijednost. Na početku obuke, model je pokušao riješiti problem koristeći se monološkim pristupom. Kako je saznao putem RL-a, spontano se podijelio u dvije različite osobe: a "Metodički rješavač problema" izvođenje proračuna i an "Istraživački mislilac" praćenje napretka, tko bi prekidao neuspješne staze primjedbama poput "Opet nema sreće… Možda možemo pokušati koristiti negativne brojeve," potičući metodičkog rješavača da promijeni strategije.

Ova otkrića dovode u pitanje pretpostavku da duži tokovi misli automatski rezultiraju većom točnošću. Umjesto toga, različita ponašanja kao što je promatranje odgovora kroz različite leće, provjera ranijih pretpostavki, vraćanje unatrag i istraživanje alternativa, pokreću poboljšanja u rasuđivanju. Istraživači su to pojačali umjetnim upravljanjem aktivacijskim prostorom modela kako bi izazvali iznenađenje razgovora; ova je intervencija aktivirala širi raspon značajki povezanih s osobnošću i stručnošću, udvostručivši točnost u složenim zadacima.

Implikacija je da se društveno rasuđivanje pojavljuje autonomno kroz RL kao funkcija poriva modela da proizvede točne odgovore, a ne kroz eksplicitni ljudski nadzor. Zapravo, modeli obuke na monolozima bili su lošiji od sirovog RL-a koji je prirodno razvio razgovore s više agenata. Suprotno tome, izvođenje nadzirano fino ugađanje (SFT) na višestranačkim razgovorima i raspravama značajno je nadmašio SFT na standardnim tokovima mišljenja.

Implikacije za AI poduzeća

Za programere i donositelje odluka u poduzećima, ovi uvidi nude praktične smjernice za izgradnju snažnijih AI aplikacija.

Brzi inženjering za ‘konflikt’

Programeri mogu poboljšati rasuđivanje u modelima opće namjene tako što će ih izričito potaknuti da usvoje strukturu mišljenja društva. Međutim, nije dovoljno jednostavno zamoliti modela da razgovara sam sa sobom.

"Nije dovoljno ‘imati raspravu’ već imati različite poglede i stavove koji raspravu čine neizbježnom i dopuštaju toj raspravi da istražuje i razlikuje alternative," James Evans, koautor rada, rekao je za VentureBeat.

Umjesto generičkih uloga, programeri bi trebali dizajnirati upute koje dodjeljuju suprotne dispozicije (npr. službenik za usklađenost sklon riziku nasuprot voditelju proizvoda usmjerenom na rast) kako bi natjerali model da razlikuje alternative. Čak i jednostavni znakovi koji potiču model na izražavanje "iznenađenje" može pokrenuti ove superiorne putove razmišljanja.

Dizajn za društveno skaliranje

Budući da programeri skaliraju računanje testnog vremena kako bi omogućili modelima "misliti" duže, trebali bi strukturirati ovo vrijeme kao društveni proces. Prijave bi trebale olakšati a "društvenog" proces gdje model koristi zamjenice poput "mi," postavlja si pitanja i eksplicitno raspravlja o alternativama prije nego što dođe do odgovora.

Ovaj se pristup također može proširiti na sustave s više agenata, gdje se različite osobnosti dodijeljene različitim agentima upuštaju u kritičku raspravu kako bi se donijele bolje odluke.

Prestanite dezinficirati svoje podatke o treningu

Možda najznačajnija implikacija leži u tome kako tvrtke treniraju ili fino podešavaju vlastite modele. Tradicionalno, podatkovni timovi čiste svoje skupove podataka kako bi ih stvorili "Zlatni odgovori" koji pružaju savršene, linearne putove do rješenja. Studija sugerira da bi to mogla biti pogreška.

Modeli fino podešeni na podacima iz razgovora (npr. transkripti rasprava i rješenja s više agenata) znatno brže poboljšavaju rasuđivanje od onih uvježbanih na čistim monolozima. Ima čak i vrijednosti u raspravama koje ne dovode do točnog odgovora.

"Trenirali smo na razgovornim skelama koje su dovele do pogrešnog odgovora, a zatim smo pojačali model i otkrili da se pokazao jednako dobrim kao i kod potvrđivanja ispravnog odgovora, sugerirajući da su razgovorne navike istraživanja rješenja najvažnije za nove probleme," rekao je Evans.

To znači da bi poduzeća trebala prestati odbacivati "neuredan" inženjerske zapisnike ili Slack niti gdje su problemi rješavani iterativno. The "neurednost" mjesto gdje model uči naviku istraživanja.

Razotkrivanje ‘crne kutije’ za povjerenje i reviziju

Za velike slučajeve korištenja u poduzećima, jednostavno dobivanje odgovora nije dovoljno. Evans tvrdi da korisnici moraju vidjeti unutarnje neslaganje kako bi vjerovali rezultatu, što sugerira promjenu u dizajnu korisničkog sučelja.

"Trebamo novo sučelje koje nam sustavno izlaže interne rasprave tako da ‘sudjelujemo’ u kalibraciji pravog odgovora," rekao je Evans. "Bolje idemo s raspravom; AI se bolje snalaze s raspravom; i bolje nam je kad smo izloženi raspravi umjetne inteligencije."

Strateški slučaj za otvorene utege

Ovi nalazi daju novi argument u "izgraditi protiv kupiti" rasprava o otvorenim modelima naspram vlasničkih API-ja. Mnogi vlasnički modeli razmišljanja skrivaju svoj lanac razmišljanja, tretirajući internu raspravu kao poslovnu tajnu ili sigurnosnu odgovornost.

Ali Evans to tvrdi "nitko prije nije stvarno pružio opravdanje za razotkrivanje ovog društva mišljenja," ali da vrijednost revizije ovih unutarnjih sukoba postaje neporeciva. Sve dok vlasnički pružatelji usluga ne ponude potpunu transparentnost, poduzeća u sektorima visoke usklađenosti mogu otkriti da otvoreni modeli nude jasnu prednost: mogućnost da se vidi neslaganje, a ne samo odluka.

"Vjerujem da će veliki, vlasnički modeli početi opsluživati ​​(i licencirati) informacije kada shvate da u njima postoji vrijednost," rekao je Evans.

Istraživanje sugerira da se posao arhitekta umjetne inteligencije pomiče s čiste obuke modela na nešto što je bliže organizacijskoj psihologiji.

"Vjerujem da ovo otvara sasvim novu granicu male grupe i organizacijskog dizajna unutar i između modela koji će vjerojatno omogućiti nove klase izvedbe," rekao je Evans. "Moj tim radi na tome, a nadam se da i drugi rade."

Web izvor

Povezani sadržaji

  • Zoom pokreće AI Companion 3.0 s agentskim tijekovima radaZoom pokreće AI Companion 3.0 s agentskim tijekovima rada
  • AT&T tvrdi da je rekord brzine vlakana na daljinu vlakanaAT&T tvrdi da je rekord brzine vlakana na daljinu vlakana
  • Kako stvoriti Linux Bash skriptu – i što možete učiniti s njomKako stvoriti Linux Bash skriptu – i što možete učiniti s njom
  • Istaknite bitan sadržaj web stranica ovim besplatnim online alatimaIstaknite bitan sadržaj web stranica ovim besplatnim online alatima
  • Tvorac Dragon Agea raspravlja o borbi protiv Inquisition’s Cassandre nakon što je izvorni pisac otišao usred zlostavljanjaTvorac Dragon Agea raspravlja o borbi protiv Inquisition’s Cassandre nakon što je izvorni pisac otišao usred zlostavljanja
  • Sve se u glasovnoj umjetnoj inteligenciji upravo promijenilo: kako proizvođači umjetne inteligencije u poduzećima mogu imati koristiSve se u glasovnoj umjetnoj inteligenciji upravo promijenilo: kako proizvođači umjetne inteligencije u poduzećima mogu imati koristi

Previous Article

Ovaj kineski startup želi izgraditi novo sučelje mozak-računalo — nije potreban implantat

Posljednje objave

AI modeli koji simuliraju unutarnju raspravu dramatično poboljšavaju točnost složenih zadataka

AI modeli koji simuliraju unutarnju raspravu dramatično poboljšavaju točnost složenih zadataka

Ovaj kineski startup želi izgraditi novo sučelje mozak-računalo — nije potreban implantat

Ovaj kineski startup želi izgraditi novo sučelje mozak-računalo — nije potreban implantat

Zašto je Francuska upravo odbacila Teams i Zoom zbog domaćih videokonferencija

Sadržaj

  • 1 Što je društvo mišljenja?
  • 2 Primjeri društva mišljenja
  • 3 Implikacije za AI poduzeća
    • 3.1 Brzi inženjering za ‘konflikt’
    • 3.2 Dizajn za društveno skaliranje
    • 3.3 Prestanite dezinficirati svoje podatke o treningu
    • 3.4 Razotkrivanje ‘crne kutije’ za povjerenje i reviziju
  • 4 Strateški slučaj za otvorene utege

Novosti

  • AI modeli koji simuliraju unutarnju raspravu dramatično poboljšavaju točnost složenih zadataka 30. siječnja 2026
  • Ovaj kineski startup želi izgraditi novo sučelje mozak-računalo — nije potreban implantat 30. siječnja 2026
  • Zašto je Francuska upravo odbacila Teams i Zoom zbog domaćih videokonferencija 30. siječnja 2026
  • Ovaj pročišćivač zraka za kućne ljubimce mi je učinkovito zamijenio lijek protiv alergije – evo kako radi 29. siječnja 2026
  • (bez naslova) 29. siječnja 2026
  • Ovo su naše mjesečne igre za PS Plus za veljaču 29. siječnja 2026
  • Britansko regulatorno tijelo za tržišno natjecanje istražuje Googleovu AI pretragu 29. siječnja 2026
  • Factify želi preskočiti PDF i .docx dajući digitalnim dokumentima vlastiti mozak 29. siječnja 2026
  • Sat Sudnjeg dana sada je 85 sekundi do ponoći. Evo što to znači 28. siječnja 2026
  • Najjača sigurnosna značajka vašeg Android telefona isključena je prema zadanim postavkama i skrivena – uključite je sada 28. siječnja 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice