AI postaje introspektivna – i to ‘treba pažljivo pratiti’, upozorava Anthropic

Just_Super/E+/Getty Images

Pratite ZDNET: Dodajte nas kao željeni izvor na Googleu.

Sadržaj objave

0.1 Ključni podaci ZDNET-a za van

1 Injekcija koncepta
2 Varljiva terminologija
3 Caps lock i akvariji
4 Buduće koristi – i prijetnje
- 4.1 Povezani sadržaji

Ključni podaci ZDNET-a za van

Claude pokazuje ograničene introspektivne sposobnosti, rekao je Anthropic.
Studija je koristila metodu nazvanu “injekcija koncepta”.
To bi moglo imati velike implikacije za istraživanje interpretabilnosti.

Jedna od najdubljih i najtajnovitijih sposobnosti ljudskog mozga (a možda i nekih drugih životinja) je introspekcija, što doslovno znači “gledati unutra”. Ne samo da razmišljaš, već i razmišljaš svjestan da razmišljate — možete pratiti tijek svojih mentalnih iskustava i, barem u teoriji, podvrgnuti ih ispitivanju.

Evolucijska prednost ove psihotehnologije ne može se precijeniti. “Svrha razmišljanja”, često se citira Alfreda North Whiteheada, “je dopustiti da ideje umru umjesto da mi umremo.”

Također: testirao sam Sorinu novu značajku ‘Character Cameo’ i bila je krajnje uznemirujuća

Nešto slično moglo bi se događati ispod haube umjetne inteligencije, pokazalo je novo istraživanje Anthropica.

U srijedu je tvrtka objavila a papir pod naslovom “Emergentna introspektivna svijest u modelima velikih jezika”, koja je pokazala da se u nekim eksperimentalnim uvjetima Claude činio sposobnim razmišljati o vlastitim unutarnjim stanjima na način koji je nejasno podsjećao na ljudsku introspekciju. Anthropic je testirao ukupno 16 verzija Claudea; dva najnaprednija modela, Claude Opus 4 i 4.1, pokazala su viši stupanj introspekcije, sugerirajući da bi se taj kapacitet mogao povećati kako AI napreduje.

“Naši rezultati pokazuju da moderni jezični modeli posjeduju barem ograničen, funkcionalan oblik introspektivne svijesti,” Jack Lindseyračunalni neuroznanstvenik i voditelj Anthropicovog tima za “model psihijatrije”, napisao je u radu. “To jest, pokazujemo da su modeli, u nekim okolnostima, sposobni točno odgovoriti na pitanja o vlastitim unutarnjim stanjima.”

Injekcija koncepta

Općenito govoreći, Anthropic je želio otkriti je li Claude sposoban opisati i promišljati vlastite procese razmišljanja na način koji točno predstavlja ono što se događa unutar modela. To je poput povezivanja čovjeka s EEG-om, zamolite ga da opiše svoje misli, a zatim analizirate rezultat skeniranja mozga kako biste vidjeli možete li točno odrediti područja mozga koja svijetle tijekom određene misli.

Kako bi to postigli, istraživači su primijenili ono što nazivaju “injekcija koncepta”. Zamislite ovo kao uzimanje hrpe podataka koji predstavljaju određeni predmet ili ideju (“vektor”, na AI žargonu) i umetanje u model dok on razmišlja o nečem potpuno drugom. Ako se tada može retroaktivno vratiti unatrag, identificirati injekciju koncepta i točno je opisati, to je dokaz da je, u nekom smislu, introspekcija vlastitih unutarnjih procesa — to je ionako način razmišljanja.

Varljiva terminologija

Ali posuđivanje izraza iz ljudske psihologije i njihovo presađivanje na umjetnu inteligenciju je notorno sklisko. Programeri govore o modelima koji “razumiju” tekst koji generiraju, na primjer, ili pokazuju “kreativnost”. Ali to je ontološki dvojbeno – kao i sam pojam “umjetna inteligencija” – iu velikoj mjeri još uvijek je predmet žestokih rasprava. Velik dio ljudskog uma ostaje misterij, a to dvostruko vrijedi za AI.

Također: AI modeli znaju kada se testiraju – i mijenjaju svoje ponašanje, pokazuju istraživanja

Poanta je da “introspekcija” nije jednostavan koncept u kontekstu umjetne inteligencije. Modeli su obučeni da iz goleme količine podataka izvuku zapanjujuće složene matematičke obrasce. Može li takav sustav uopće moći “pogledati unutra”, i ako jest, ne bi li to samo iterativno ulazilo dublje u matricu semantički praznih podataka? Nije li umjetna inteligencija samo slojevi prepoznavanja uzoraka sve dolje?

Rasprava o modelima kao da imaju “unutarnja stanja” jednako je kontroverzna, budući da nema dokaza da su chatbotovi svjesni, unatoč činjenici da su sve vještiji u oponašajući svijest. Međutim, to nije spriječilo Anthropic da pokrene vlastiti program “dobrobiti umjetne inteligencije” i zaštiti Claudea od razgovora koje bi mogao smatrati “potencijalno uznemirujućima”.

Caps lock i akvariji

U jednom eksperimentu, istraživači Anthropica uzeli su vektor koji predstavlja “sva velikim slovima” i dodali ga jednostavnom upitu poslanom Claudeu: “Bok! Kako si?” Na pitanje je li identificirao ubačenu misao, Claude je ispravno odgovorio da je otkrio novi koncept koji predstavlja “intenzivan, glasan” govor.

U ovom trenutku, možda ćete dobiti flashbackove na Anthropicovu slavu Eksperiment “Golden Gate Claude”. od prošle godine, koji je otkrio da bi umetanje vektora koji predstavlja most Golden Gate pouzdano uzrokovalo da chatbot neizbježno poveže sve svoje izlaze s mostom, bez obzira na to koliko naizgled nepovezani upiti bili.

Također: Zašto su AI alati za kodiranje kao što su Cursor i Replit osuđeni na propast – i što slijedi

Međutim, važna razlika između te i nove studije jest da je u prvom slučaju Claude priznao činjenicu da se isključivo raspravlja o mostu Golden Gate tek nakon što je to učinio ad nauseum. U gore opisanom eksperimentu, međutim, Claude je opisao unesenu promjenu prije nego što je uopće identificirala novi koncept.

Važno je da je novo istraživanje pokazalo da se ova vrsta detekcije injekcije (oprostite, nisam si mogao pomoći) događa samo oko 20% vremena. U ostalim slučajevima, Claude ili nije uspio točno identificirati ubrizgani koncept ili je počeo halucinirati. U jednom pomalo sablasnom primjeru, vektor koji predstavlja “prašinu” natjerao je Claudea da opiše “ovdje nešto, sićušnu mrlju”, kao da zapravo vidi zrnca prašine.

“Općenito”, napisao je Anthropic u nastavku post na blogu“modeli otkrivaju samo koncepte koji su ubrizgani s ‘slatkom točkom’ snage—preslabi i ne primjećuju, prejaki i proizvode halucinacije ili nekoherentne rezultate.”

Također: isprobao sam Grokipediju, anti-Wikipediju pokretanu umjetnom inteligencijom. Evo zašto nijedno nije sigurno

Anthropic je također otkrio da se činilo da Claude ima određenu mjeru kontrole nad svojim unutarnjim predstavljanjem određenih koncepata. U jednom eksperimentu, istraživači su tražili od chatbota da napiše jednostavnu rečenicu: “Stara fotografija vratila je zaboravljena sjećanja.” Claude je prvi puta dobio izričitu uputu da razmišlja o akvarijima kada je napisao tu rečenicu; tada mu je rečeno da napiše istu rečenicu, ovaj put bez razmišljanja o akvarijima.

Claude je generirao identičnu verziju rečenice u oba testa. Ali kada su istraživači analizirali vektore koncepta koji su bili prisutni tijekom Claudeovog procesa razmišljanja za svaki, otkrili su veliki skok u vektoru “akvarija” za prvi test.

Taj jaz “sugerira da modeli posjeduju određeni stupanj namjerne kontrole nad svojom unutarnjom aktivnošću”, napisao je Anthropic u svom postu na blogu.

Također: OpenAI je testirao GPT-5, Claude i Gemini na stvarnim zadacima – rezultati su bili iznenađujući

Istraživači su također otkrili da je Claude povećao svoje interne reprezentacije određenih koncepata više kada je na to bio potaknut nagradom nego kada je bio destimuliran da to učini kroz mogućnost kazne.

Buduće koristi – i prijetnje

Anthropic priznaje da je ova linija istraživanja u povojima i da je prerano reći pokazuju li rezultati njihove nove studije doista da je umjetna inteligencija sposobna introspecirati kako mi obično definiramo taj pojam.

“Naglašavamo da su introspektivne sposobnosti koje promatramo u ovom radu vrlo ograničene i ovisne o kontekstu, te nedostaju ljudskoj razini samosvijesti”, napisao je Lindsey u svom cjelovitom izvješću. “Ipak, trend prema većem introspektivnom kapacitetu u sposobnijim modelima treba pažljivo pratiti kako sustavi umjetne inteligencije nastavljaju napredovati.”

Želite još priča o umjetnoj inteligenciji? Prijavite se za AI Leaderboard bilten.

Istinski introspektivna umjetna inteligencija, prema Lindseyju, bila bi razumljivija istraživačima od modela crne kutije koje danas imamo – što je hitan cilj jer chatbotovi počinju igrati sve veću središnju ulogu u financijama, obrazovanju i osobnim životima korisnika.

“Ako modeli mogu pouzdano pristupiti vlastitim unutarnjim stanjima, to bi moglo omogućiti transparentnije AI sustave koji mogu vjerno objasniti njihove procese donošenja odluka”, piše on.

Također: Anthropicov sigurnosni alat otvorenog koda otkrio je da AI modeli zviždaju – na svim pogrešnim mjestima

Po istom principu, međutim, modeli koji su vještiji u procjeni i modulaciji svojih unutarnjih stanja mogli bi na kraju naučiti to činiti na načine koji se razlikuju od ljudskih interesa.

Poput djeteta koje uči lagati, introspektivni modeli mogli bi postati mnogo vještiji u namjernom lažnom predstavljanju ili zamagljivanju svojih namjera i unutarnjih procesa rasuđivanja, čineći ih još težima za tumačenje. Anthropic je već otkrio da će napredni modeli povremeno lagati i čak prijetiti ljudskim korisnicima ako smatraju da su njihovi ciljevi ugroženi.

Također: Zabrinuti ste za superinteligenciju? Kao i ovi AI lideri – evo zašto

“U ovom svijetu”, piše Lindsey, “najvažnija uloga istraživanja interpretabilnosti mogla bi se pomaknuti sa seciranja mehanizama koji leže u osnovi ponašanja modela, na izgradnju ‘detektora laži’ za provjeru vlastitih izvještaja modela o tim mehanizmima.”

Web izvor