Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

AI modeli koji simuliraju unutarnju raspravu dramatično poboljšavaju točnost složenih zadataka

Novosti

AI modeli koji simuliraju unutarnju raspravu dramatično poboljšavaju točnost složenih zadataka

Tomšić Damjan 30. siječnja 2026

Nova studija koju je proveo Google sugerira da napredni modeli zaključivanja postižu visoku izvedbu simulacijom rasprava poput više agenata koje uključuju različite perspektive, osobine ličnosti i stručnost u domeni.

Njihovi eksperimenti pokazuju da ova unutarnja rasprava, koju nazivaju “društvo misli,” značajno poboljšava performanse modela u složenim zadacima razmišljanja i planiranja. Istraživači su otkrili da vodeći modeli razmišljanja kao što su DeepSeek-R1 i QwQ-32B, koji se obučavaju putem učenje s potkrepljenjem (RL), inherentno razvijaju ovu sposobnost uključivanja u društvene misaone razgovore bez eksplicitnih uputa.

Ovi nalazi nude putokaz za to kako programeri mogu izgraditi robusnije LLM aplikacije i kako poduzeća mogu trenirati superiorne modele koristeći svoje interne podatke.

Sadržaj objave

  • 1 Što je društvo mišljenja?
  • 2 Primjeri društva mišljenja
  • 3 Implikacije za AI poduzeća
    • 3.1 Brzi inženjering za ‘konflikt’
    • 3.2 Dizajn za društveno skaliranje
    • 3.3 Prestanite dezinficirati svoje podatke o treningu
    • 3.4 Razotkrivanje ‘crne kutije’ za povjerenje i reviziju
  • 4 Strateški slučaj za otvorene utege
    • 4.1 Povezani sadržaji

Što je društvo mišljenja?

Temeljna premisa društva mišljenja jest da modeli rasuđivanja nauče oponašati društvene dijaloge s više aktera kako bi poboljšali svoju logiku. Ova se hipoteza oslanja na kognitivnu znanost, posebno na ideju da se ljudski razum prvenstveno razvio kao društveni proces za rješavanje problema putem argumentacije i angažmana s različitim stajalištima.

Istraživači to pišu "kognitivna raznolikost, koja proizlazi iz varijacija u stručnosti i osobinama ličnosti, poboljšava rješavanje problema, osobito kada je popraćena autentičnim neslaganjem." Posljedično, sugeriraju da integracija različitih perspektiva omogućuje LLM-ima da razviju snažne strategije rezoniranja. Simuliranjem razgovora između različitih internih osoba, modeli mogu izvršiti bitne provjere (kao što su verifikacija i praćenje unatrag) koje pomažu u izbjegavanju uobičajenih zamki poput neželjenih pristranosti i ulizica.

U modelima poput DeepSeek-R1, ovo "društvo" očituje izravno unutar lanca misli. Istraživači primjećuju da vam nisu potrebni zasebni modeli ili upute za forsiranje ove interakcije; rasprava se javlja autonomno unutar procesa razmišljanja jedne instance modela.

Primjeri društva mišljenja

Studija pruža opipljive primjere kako ovo unutarnje trvenje dovodi do boljih ishoda. U jednom eksperimentu koji uključuje složeni problem organske kemijske sinteze, DeepSeek-R1 simulirao raspravu između višestrukih različitih unutarnjih perspektiva, uključujući a "Planer" i a "Kritični verifikator."

Planer je u početku predložio standardni put reakcije. Međutim, kritični verifikator (karakteriziran kao osoba s visokom savjesnošću i niskom prihvatljivošću) prekinuo je kako bi osporio pretpostavku i dao protuargument novim činjenicama. Kroz ovu kontradiktornu provjeru, model je otkrio pogrešku, pomirio proturječna stajališta i ispravio put sinteze.

Slična dinamika pojavila se iu kreativnim zadacima. Na upit da prepišete rečenicu, "Bacio sam svoju mržnju u goruću vatru," model je simulirao pregovore između a "Kreativni Idejator" i a "Provjera semantičke vjernosti." Nakon što je idejni tvorac predložio verziju pomoću riječi "duboko ukorijenjen," čekjuzer je uzvratio, "Ali to dodaje “duboko ukorijenjeno”, što nije bilo u izvorniku. Trebali bismo izbjegavati dodavanje novih ideja." Model se na kraju odlučio za kompromis koji je zadržao izvorno značenje uz poboljšanje stila.

Možda se najupečatljivija evolucija dogodila u "Igra odbrojavanja," matematička zagonetka u kojoj model mora koristiti određene brojeve kako bi postigao ciljnu vrijednost. Na početku obuke, model je pokušao riješiti problem koristeći se monološkim pristupom. Kako je saznao putem RL-a, spontano se podijelio u dvije različite osobe: a "Metodički rješavač problema" izvođenje proračuna i an "Istraživački mislilac" praćenje napretka, tko bi prekidao neuspješne staze primjedbama poput "Opet nema sreće… Možda možemo pokušati koristiti negativne brojeve," potičući metodičkog rješavača da promijeni strategije.

Ova otkrića dovode u pitanje pretpostavku da duži tokovi misli automatski rezultiraju većom točnošću. Umjesto toga, različita ponašanja kao što je promatranje odgovora kroz različite leće, provjera ranijih pretpostavki, vraćanje unatrag i istraživanje alternativa, pokreću poboljšanja u rasuđivanju. Istraživači su to pojačali umjetnim upravljanjem aktivacijskim prostorom modela kako bi izazvali iznenađenje razgovora; ova je intervencija aktivirala širi raspon značajki povezanih s osobnošću i stručnošću, udvostručivši točnost u složenim zadacima.

Implikacija je da se društveno rasuđivanje pojavljuje autonomno kroz RL kao funkcija poriva modela da proizvede točne odgovore, a ne kroz eksplicitni ljudski nadzor. Zapravo, modeli obuke na monolozima bili su lošiji od sirovog RL-a koji je prirodno razvio razgovore s više agenata. Suprotno tome, izvođenje nadzirano fino ugađanje (SFT) na višestranačkim razgovorima i raspravama značajno je nadmašio SFT na standardnim tokovima mišljenja.

Implikacije za AI poduzeća

Za programere i donositelje odluka u poduzećima, ovi uvidi nude praktične smjernice za izgradnju snažnijih AI aplikacija.

Brzi inženjering za ‘konflikt’

Programeri mogu poboljšati rasuđivanje u modelima opće namjene tako što će ih izričito potaknuti da usvoje strukturu mišljenja društva. Međutim, nije dovoljno jednostavno zamoliti modela da razgovara sam sa sobom.

"Nije dovoljno ‘imati raspravu’ već imati različite poglede i stavove koji raspravu čine neizbježnom i dopuštaju toj raspravi da istražuje i razlikuje alternative," James Evans, koautor rada, rekao je za VentureBeat.

Umjesto generičkih uloga, programeri bi trebali dizajnirati upute koje dodjeljuju suprotne dispozicije (npr. službenik za usklađenost sklon riziku nasuprot voditelju proizvoda usmjerenom na rast) kako bi natjerali model da razlikuje alternative. Čak i jednostavni znakovi koji potiču model na izražavanje "iznenađenje" može pokrenuti ove superiorne putove razmišljanja.

Dizajn za društveno skaliranje

Budući da programeri skaliraju računanje testnog vremena kako bi omogućili modelima "misliti" duže, trebali bi strukturirati ovo vrijeme kao društveni proces. Prijave bi trebale olakšati a "društvenog" proces gdje model koristi zamjenice poput "mi," postavlja si pitanja i eksplicitno raspravlja o alternativama prije nego što dođe do odgovora.

Ovaj se pristup također može proširiti na sustave s više agenata, gdje se različite osobnosti dodijeljene različitim agentima upuštaju u kritičku raspravu kako bi se donijele bolje odluke.

Prestanite dezinficirati svoje podatke o treningu

Možda najznačajnija implikacija leži u tome kako tvrtke treniraju ili fino podešavaju vlastite modele. Tradicionalno, podatkovni timovi čiste svoje skupove podataka kako bi ih stvorili "Zlatni odgovori" koji pružaju savršene, linearne putove do rješenja. Studija sugerira da bi to mogla biti pogreška.

Modeli fino podešeni na podacima iz razgovora (npr. transkripti rasprava i rješenja s više agenata) znatno brže poboljšavaju rasuđivanje od onih uvježbanih na čistim monolozima. Ima čak i vrijednosti u raspravama koje ne dovode do točnog odgovora.

"Trenirali smo na razgovornim skelama koje su dovele do pogrešnog odgovora, a zatim smo pojačali model i otkrili da se pokazao jednako dobrim kao i kod potvrđivanja ispravnog odgovora, sugerirajući da su razgovorne navike istraživanja rješenja najvažnije za nove probleme," rekao je Evans.

To znači da bi poduzeća trebala prestati odbacivati "neuredan" inženjerske zapisnike ili Slack niti gdje su problemi rješavani iterativno. The "neurednost" mjesto gdje model uči naviku istraživanja.

Razotkrivanje ‘crne kutije’ za povjerenje i reviziju

Za velike slučajeve korištenja u poduzećima, jednostavno dobivanje odgovora nije dovoljno. Evans tvrdi da korisnici moraju vidjeti unutarnje neslaganje kako bi vjerovali rezultatu, što sugerira promjenu u dizajnu korisničkog sučelja.

"Trebamo novo sučelje koje nam sustavno izlaže interne rasprave tako da ‘sudjelujemo’ u kalibraciji pravog odgovora," rekao je Evans. "Bolje idemo s raspravom; AI se bolje snalaze s raspravom; i bolje nam je kad smo izloženi raspravi umjetne inteligencije."

Strateški slučaj za otvorene utege

Ovi nalazi daju novi argument u "izgraditi protiv kupiti" rasprava o otvorenim modelima naspram vlasničkih API-ja. Mnogi vlasnički modeli razmišljanja skrivaju svoj lanac razmišljanja, tretirajući internu raspravu kao poslovnu tajnu ili sigurnosnu odgovornost.

Ali Evans to tvrdi "nitko prije nije stvarno pružio opravdanje za razotkrivanje ovog društva mišljenja," ali da vrijednost revizije ovih unutarnjih sukoba postaje neporeciva. Sve dok vlasnički pružatelji usluga ne ponude potpunu transparentnost, poduzeća u sektorima visoke usklađenosti mogu otkriti da otvoreni modeli nude jasnu prednost: mogućnost da se vidi neslaganje, a ne samo odluka.

"Vjerujem da će veliki, vlasnički modeli početi opsluživati ​​(i licencirati) informacije kada shvate da u njima postoji vrijednost," rekao je Evans.

Istraživanje sugerira da se posao arhitekta umjetne inteligencije pomiče s čiste obuke modela na nešto što je bliže organizacijskoj psihologiji.

"Vjerujem da ovo otvara sasvim novu granicu male grupe i organizacijskog dizajna unutar i između modela koji će vjerojatno omogućiti nove klase izvedbe," rekao je Evans. "Moj tim radi na tome, a nadam se da i drugi rade."

Web izvor

Povezani sadržaji

  • Kako su 4Patriots i My Patriot Supply zaradili na pripremama za apokalipsuKako su 4Patriots i My Patriot Supply zaradili na pripremama za apokalipsu
  • Ugradite željene fontove u Word i Powerpoint
  • Kako izvesti SharePoint ili Microsoft Lists podatke u Excel ili CSV – Nate Chamberlain, Microsoft MCTKako izvesti SharePoint ili Microsoft Lists podatke u Excel ili CSV – Nate Chamberlain, Microsoft MCT
  • Lumen cilja na uska grla umjetne inteligencije s pristupnikom u oblaku i širenjem metroaLumen cilja na uska grla umjetne inteligencije s pristupnikom u oblaku i širenjem metroa
  • Kako izbrisati obrazac ili kviz u Microsoft Forms – Nate Chamberlain, Microsoft MCTKako izbrisati obrazac ili kviz u Microsoft Forms – Nate Chamberlain, Microsoft MCT
  • Može li brana hidroelektrane doista produžiti dane?Može li brana hidroelektrane doista produžiti dane?

Previous Article

Ovaj kineski startup želi izgraditi novo sučelje mozak-računalo — nije potreban implantat

Next Article

Intervju: ManageEngine udvostručuje suverenitet podataka s pokretanjem podatkovnog centra UAE

Posljednje objave

Best Buy već prodaje MacBook Neo po sniženju – a kvaka i nije tako loša

AT&T lansira novu aplikaciju s AI podrškom koju stalno tražite

AT&T lansira novu aplikaciju s AI podrškom koju stalno tražite

Igra obrane tornja Tangy TD zaradila je više od 250 tisuća dolara od lansiranja početkom ožujka na Steamu, zbog čega je njen solo razvijač već dva puta briznuo u plač

Igra obrane tornja Tangy TD zaradila je više od 250 tisuća dolara od lansiranja početkom ožujka na Steamu, zbog čega je njen solo razvijač već dva puta briznuo u plač

Sadržaj

  • 1 Što je društvo mišljenja?
  • 2 Primjeri društva mišljenja
  • 3 Implikacije za AI poduzeća
    • 3.1 Brzi inženjering za ‘konflikt’
    • 3.2 Dizajn za društveno skaliranje
    • 3.3 Prestanite dezinficirati svoje podatke o treningu
    • 3.4 Razotkrivanje ‘crne kutije’ za povjerenje i reviziju
  • 4 Strateški slučaj za otvorene utege

Novosti

  • Best Buy već prodaje MacBook Neo po sniženju – a kvaka i nije tako loša 19. ožujka 2026
  • AT&T lansira novu aplikaciju s AI podrškom koju stalno tražite 19. ožujka 2026
  • Igra obrane tornja Tangy TD zaradila je više od 250 tisuća dolara od lansiranja početkom ožujka na Steamu, zbog čega je njen solo razvijač već dva puta briznuo u plač 19. ožujka 2026
  • Ofcom postavlja propise za guranje gigabitnog širokopojasnog interneta u Velikoj Britaniji u ‘završnu fazu’ 19. ožujka 2026
  • Novi MiniMax M2.7 vlasnički AI model se ‘samorazvija’ i može izvesti 30-50% tijeka istraživanja učenja za potkrepljivanje 18. ožujka 2026
  • Kvantni skok za Turingovu nagradu 18. ožujka 2026
  • Oupes Mega 1 recenzija: Napokon sam pronašao prijenosnu električnu stanicu koju mogu spremiti u svoj kamion 18. ožujka 2026
  • RIP, Galaxy Z TriFold 18. ožujka 2026
  • “Stvarno smo obavili dobar posao… sa Starfieldom smo se mučili” – šef Bethesde Todd Howard nudi kratko ažuriranje The Elder Scrolls 6, ovaj put nagovještavajući učinkovitiji razvoj 18. ožujka 2026
  • Tehnologija koja ubrzava kriminal, povećava slučajeve za nacionalnu policijsku službu, kaže šef NCA-a 18. ožujka 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice