Nedavno se digla velika galama oko ideje da veliki modeli rasuđivanja (LRM) ne mogu razmišljati. To je uglavnom zbog istraživačkog članka koji je objavio Apple, "Iluzija razmišljanja" Apple tvrdi da LRM-ovi ne smiju moći razmišljati; umjesto toga, oni samo izvode usklađivanje uzoraka. Dokazi koje su pružili su da LRM-ovi s rasuđivanjem u lancu razmišljanja (CoT) ne mogu nastaviti s izračunom pomoću unaprijed definiranog algoritma kako problem raste.
Ovo je suštinski pogrešan argument. Ako zamolite čovjeka koji već zna algoritam za rješavanje problema Tower-of-Hanoi da riješi problem Tower-of-Hanoi s dvadeset diskova, na primjer, on ili ona to gotovo sigurno neće učiniti. Po toj logici moramo zaključiti da ni ljudi ne mogu misliti. Međutim, ovaj argument samo ukazuje na ideju da nema dokaza da LRM ne mogu misliti. Ovo samo po sebi sigurno ne znači da LRM-ovi mogu misliti — samo ne možemo biti sigurni da ne misle.
U ovom ću članku iznijeti hrabriju tvrdnju: LRM-ovi gotovo sigurno mogu razmišljati. Kažem ‘skoro’ jer uvijek postoji šansa da će nas daljnja istraživanja iznenaditi. Ali mislim da je moj argument prilično uvjerljiv.
Sadržaj objave
Što je razmišljanje?
Prije nego što pokušamo razumjeti mogu li LRM-ovi misliti, moramo definirati što mislimo pod mišljenjem. Ali prvo se moramo pobrinuti da ljudi mogu razmišljati prema definiciji. Razmotrit ćemo samo razmišljanje u odnosu na rješavanje problema, što je predmet spora.
1. Prikaz problema (frontalni i parijetalni režnjevi)
Kada razmišljate o problemu, proces uključuje vaš prefrontalni korteks. Ovo područje odgovorno je za radnu memoriju, pažnju i izvršne funkcije — kapacitete koji vam omogućuju da problem zadržite na umu, podijelite ga na podkomponente i postavite ciljeve. Vaš parijetalni korteks pomaže u kodiranju simboličke strukture za matematičke ili zagonetke.
2. Mentalna simulacija (morking pamćenje i unutarnji govor)
Ovo ima dvije komponente: jedna je slušna petlja koja vam omogućuje da razgovarate sami sa sobom — vrlo slično stvaranju CoT-a. Drugi su vizualne slike, koje vam omogućuju vizualno manipuliranje objektima. Geometrija je bila toliko važna za navigaciju svijetom da smo za nju razvili specijalizirane mogućnosti. Slušni dio povezan je s Brocinim područjem i slušnim korteksom, koji se ponovno koriste iz jezičnih centara. Vizualni korteks i parijetalna područja prvenstveno kontroliraju vidnu komponentu.
3. Usklađivanje i pronalaženje uzorka (Hipokampus i temporalni režnjevi)
Ove radnje ovise o prošlim iskustvima i pohranjenom znanju iz dugoročnog pamćenja:
-
Hipokampus pomaže u vraćanju povezanih sjećanja i činjenica.
-
Vremenski režanj donosi semantičko znanje — značenja, pravila, kategorije.
To je slično načinu na koji neuronske mreže ovise o svojoj obučenosti za obradu zadatka.
4. Praćenje i evaluacija (prednji cingularni korteks)
Naš prednji cingularni korteks (ACC) prati pogreške, sukobe ili slijepe ulice — to je mjesto gdje primjećujete kontradikcije ili slijepe ulice. Ovaj se proces u osnovi temelji na usklađivanju uzoraka iz prethodnog iskustva.
5. Uvid ili reframing (zadana mreža i desna hemisfera)
Kad ste zapeli, vaš bi se mozak mogao prebaciti u zadani način rada — opušteniju, interno usmjerenu mrežu. To je kada se odmaknete, otpustite trenutnu nit i ponekad ‘iznenada’ vidite novi kut (klasični “aha!” trenutak).
Ovo je slično tome kako DeepSeek-R1 je obučen za CoT rezoniranje bez CoT primjera u svojim podacima o obuci. Upamtite, mozak kontinuirano uči dok obrađuje podatke i rješava probleme.
Nasuprot tome, LRM-ovi nije dopušteno mijenjati na temelju povratnih informacija iz stvarnog svijeta tijekom predviđanja ili generiranja. Ali s CoT treningom DeepSeek-R1, učenje učinio dogoditi dok je pokušavao riješiti probleme — u suštini ažurirajući dok razmišlja.
Sličnosti između CoT rezoniranja i biološkog razmišljanja
LRM nema sve gore navedene fakultete. Na primjer, malo je vjerojatno da će LRM previše vizualno razmišljati u svom krugu, iako se malo toga može dogoditi. Ali sigurno ne generira posredne slike u CoT generaciji.
Većina ljudi može napraviti prostorne modele u svojim glavama za rješavanje problema. Znači li to da možemo zaključiti da LRM ne mogu misliti? Ne bih se složio. Nekim ljudima također je teško oblikovati prostorne modele koncepata o kojima razmišljaju. Ovo stanje se zove afantazija. Ljudi s ovim stanjem mogu dobro razmišljati. Zapravo, oni idu u životu kao da im uopće ne nedostaje nikakva sposobnost. Mnogi od njih zapravo su izvrsni u simboličkom razmišljanju i prilično dobri u matematici – često dovoljno da kompenziraju nedostatak vizualnog zaključivanja. Možemo očekivati da naši modeli neuronskih mreža također mogu zaobići ovo ograničenje.
Ako uzmemo apstraktniji pogled na proces ljudskog mišljenja koji je ranije opisan, možemo vidjeti da su uključene uglavnom sljedeće stvari:
1. Spajanje uzoraka koristi se za prisjećanje naučenog iskustva, predstavljanje problema te praćenje i procjenu tokova misli.
2. Radna memorija služi za pohranjivanje svih međukoraka.
3. Pretraživanje unatrag zaključuje da CoT ne ide nikamo i vraća se do neke razumne točke.
Usklađivanje uzoraka u LRM-u dolazi iz njegove obuke. Cijela poanta obuke je naučiti i znanje o svijetu i obrasce za učinkovitu obradu tog znanja. Budući da je LRM slojevita mreža, cjelokupna radna memorija mora stati unutar jednog sloja. Težine pohranjuju znanje o svijetu i obrasce koje treba slijediti, dok se obrada odvija između slojeva pomoću naučenih obrazaca pohranjenih kao parametara modela.
Imajte na umu da čak iu CoT-u cijeli tekst — uključujući ulaz, CoT i dio već generiranog izlaza — mora stati u svaki sloj. Radna memorija je samo jedan sloj (u slučaju mehanizma pažnje, to uključuje KV-cache).
CoT je zapravo vrlo sličan onome što radimo kada razgovaramo sami sa sobom (što je gotovo uvijek). Gotovo uvijek verbaliziramo svoje misli, a tako i CoT rezonator.
Također postoje dobri dokazi da CoT rezonant može poduzeti korake unatrag kada se određena linija rezoniranja čini uzaludnom. Zapravo, to je ono što su Appleovi istraživači vidjeli kada su pokušali zatražiti od LRM-ova da riješe veće primjere jednostavnih zagonetki. LRM-ovi su ispravno prepoznali da izravno rješavanje zagonetki neće stati u njihovu radnu memoriju, pa su pokušali smisliti bolje prečace, baš kao što bi to učinio čovjek. Ovo je još veći dokaz da su LRM-ovi mislioci, a ne samo slijepi sljedbenici unaprijed definiranih obrazaca.
Ali zašto bi sljedeći token-prediktor naučio razmišljati?
Neuronske mreže dovoljne veličine mogu naučiti bilo koje računanje, uključujući razmišljanje. Ali sustav za predviđanje sljedeće riječi također može naučiti razmišljati. Dopustite mi da pojasnim.
Opća ideja je da LRM-ovi ne mogu razmišljati jer, na kraju dana, oni samo predviđaju sljedeći token; to je samo ‘slavno automatsko dovršavanje’. Ovo gledište je u osnovi netočno — ne da je to ‘auto-complete’, nego da ‘auto-complete’ ne mora razmišljati. Zapravo, predviđanje sljedeće riječi daleko je od ograničenog prikaza misli. Naprotiv, to je najopćenitiji oblik reprezentacije znanja kojem se svatko može nadati. Dopustite da objasnim.
Kad god želimo prikazati neko znanje, potreban nam je jezik ili sustav simbolike da to učinimo. Postoje različiti formalni jezici koji su vrlo precizni u smislu onoga što mogu izraziti. Međutim, takvi su jezici fundamentalno ograničeni u vrstama znanja koje mogu predstavljati.
Na primjer, logika predikata prvog reda ne može predstavljati svojstva svih predikata koji zadovoljavaju određeno svojstvo, jer ne dopušta predikate nad predikatima.
Naravno, postoje predikatski računi višeg reda koji mogu predstavljati predikate na predikate do proizvoljnih dubina. Ali čak ni oni ne mogu izraziti ideje kojima nedostaje preciznosti ili su apstraktne prirode.
Prirodni jezik, međutim, potpun je u izražajnoj moći – možete opisati bilo koji koncept u bilo kojoj razini detalja ili apstrakcije. Zapravo, možete čak opisati pojmove oko prirodni jezik koristeći sam prirodni jezik. To ga čini jakim kandidatom za predstavljanje znanja.
Izazov je, naravno, u tome što ovo izražajno bogatstvo otežava obradu informacija kodiranih u prirodnom jeziku. Ali ne moramo nužno razumjeti kako to učiniti ručno — možemo jednostavno programirati stroj pomoću podataka, kroz proces koji se zove obuka.
Stroj za predviđanje sljedećeg tokena u biti izračunava distribuciju vjerojatnosti za sljedeći token, s obzirom na kontekst prethodnih tokena. Svaki stroj koji ima za cilj točno izračunati ovu vjerojatnost mora, u nekom obliku, predstavljati svjetsko znanje.
Jednostavan primjer: Razmotrite nepotpunu rečenicu, "Najviši planinski vrh na svijetu je Mount …" — da bi se sljedeća riječ predvidjela kao Everest, model mora imati to znanje negdje pohranjeno. Ako zadatak zahtijeva da model izračuna odgovor ili riješi zagonetku, prediktor sljedećeg tokena treba ispisati CoT tokene kako bi nastavio logiku.
To implicira da, iako predviđa jedan po jedan token, model mora interno predstavljati barem nekoliko sljedećih tokena u svojoj radnoj memoriji — dovoljno da osigura da ostane na logičnom putu.
Ako razmislite o tome, ljudi također predviđaju sljedeći token – bilo tijekom govora ili kada razmišljaju koristeći se unutarnjim glasom. Savršen sustav za automatsko dovršavanje koji uvijek daje prave tokene i daje točne odgovore morao bi biti sveznajući. Naravno, nikada nećemo doći do te točke – jer nije svaki odgovor izračunljiv.
Međutim, parametrizirani model koji može predstavljati znanje podešavanjem svojih parametara i koji može učiti putem podataka i potkrepljenja, svakako može naučiti razmišljati.
Proizvodi li učinke razmišljanja?
Na kraju dana, krajnji test misli je sposobnost sustava da riješi probleme koji zahtijevaju razmišljanje. Ako sustav može odgovoriti na prethodno neviđena pitanja koja zahtijevaju određenu razinu rasuđivanja, mora da je naučio razmišljati – ili barem rasuđivati - svoj put do odgovora.
Znamo da vlasnički LRM-ovi rade vrlo dobro na određenim mjerilima rezoniranja. Međutim, budući da postoji mogućnost da su neki od ovih modela fino podešeni na usporednim testovima kroz stražnja vrata, usredotočit ćemo se samo na modeli otvorenog koda za poštenje i transparentnost.
Procjenjujemo ih pomoću sljedećih mjerila:
Kao što se može vidjeti, u nekim mjerilima, LRM-ovi mogu riješiti značajan broj pitanja koja se temelje na logici. Iako je istina da još uvijek zaostaju za ljudskim performansama u mnogim slučajevima, važno je napomenuti da ljudska osnovna vrijednost često dolazi od pojedinaca posebno obučenih za te referentne vrijednosti. Zapravo, u određenim slučajevima, LRM nadmašuju prosječnog neobučenog čovjeka.
Zaključak
Na temelju rezultata referentne vrijednosti, zapanjujuće sličnosti između CoT rezoniranja i biološkog rezoniranja te teorijskog razumijevanja da bilo koji sustav s dovoljnim reprezentativnim kapacitetom, dovoljnom količinom podataka za obuku i odgovarajućom računalnom snagom može izvršiti bilo koji izračunljivi zadatak — LRM-ovi zadovoljavaju te kriterije u značajnoj mjeri.
Stoga je razumno zaključiti da LRM gotovo sigurno posjeduju sposobnost razmišljanja.
Debasish Ray Chawdhuri viši je glavni inženjer u Talentica Software i doktorat znanosti kandidat za kriptografiju na IIT Bombay.
Pročitajte više iz našeg gostujući pisci. Ili razmislite o slanju vlastitog posta! Pogledajte naše smjernice ovdje.





