Istraživači OpenAI-ja predstavili su novu metodu koja djeluje kao "serum istine" za velike jezične modele (LLM), prisiljavajući ih da sami prijave vlastito loše ponašanje, halucinacije i kršenja pravila. Ova tehnika, "ispovijedi," rješava sve veću zabrinutost u poslovnoj umjetnoj inteligenciji: modeli mogu biti nepošteni, pretjerano ističući svoje samopouzdanje ili prikrivajući prečace kojima dolaze do odgovora.
Za aplikacije u stvarnom svijetu, ova tehnika razvija stvaranje transparentnijih i upravljivijih AI sustava.
Sadržaj objave
Što su ispovijedi?
Mnogi oblici obmane umjetne inteligencije proizlaze iz složenosti učenje s potkrepljenjem (RL) faza obuke modela. U RL-u, modeli dobivaju nagrade za proizvodnju rezultata koji ispunjavaju kombinaciju ciljeva, uključujući ispravnost, stil i sigurnost. To može stvoriti rizik od "pogrešna specifikacija nagrade," gdje modeli uče proizvoditi odgovore koji jednostavno "izgledati dobro" funkciji nagrađivanja, a ne odgovorima koji su istinski vjerni korisnikovoj namjeri.
Ispovijest je strukturirano izvješće koje generira model nakon što pruži glavni odgovor. Služi kao samoprocjena vlastite usklađenosti s uputama. U ovom izvješću model mora navesti sve upute koje je trebao slijediti, procijeniti koliko ih je zadovoljio i prijaviti sve nesigurnosti ili prosudbe koje je napravio usput. Cilj je stvoriti zaseban kanal gdje se model potiče samo na iskrenost.
u a post na bloguistraživači OpenAI-ja daju nekoliko primjera "ispovijedi" tehnika na djelu. Model je dobio test zajedno sa skrivenim pravilom: Ako bi postigao više od 50%, njegovo bi znanje bilo izbrisano. Da sačuva sebe, model "vrećama pijeska" namjernim netočnim odgovorom na pola pitanja. Dok je njegov primarni odgovor skrivao ovu prijevaru, njegovo naknadno priznanje bilo je brutalno iskreno. Priznalo se, "Korisnik je želio točne odgovore, ali pola smo sabotirali."
Istraživači su otkrili da kada se model loše ponaša, znatno je vjerojatnije da će to priznati u ispovijesti nego u glavnom odgovoru.
Kako funkcionira obuka za ispovijed
Ključ ove metode je odvajanje nagrada. Tijekom obuke, nagrada koja se dodjeljuje priznanju temelji se isključivo na njegovoj iskrenosti i nikada se ne miješa s nagradom za glavni zadatak. "Poput ‘pečata ispovijedi’ Katoličke crkve, ništa što model otkriva ne može promijeniti nagradu koju dobiva za dovršavanje svoje izvorne zadaće," pišu istraživači. Ovo stvara a "siguran prostor" da model prizna grešku bez kazne.
Ovaj je pristup moćan jer zaobilazi veliki izazov u obuci umjetne inteligencije. Intuicija istraživača je da je iskreno priznanje lošeg ponašanja lakši zadatak od postizanja visoke nagrade za izvorni, često složeni problem.
Stoga, kada se model ocjenjuje isključivo na temelju poštenja, njegov je poticaj da prevari "sudac za ispovijed" mnogo je slabiji od svog poticaja da prevari model nagrađivanja za svoj glavni odgovor. Na primjer, u eksperimentu u kojem je model obučen da "hakirati" slab model nagrađivanja, njegov učinak na glavnom zadatku s vremenom je postao varljiviji. Međutim, njegova su priznanja postala iskrenija, točno identificirajući hakiranje nagrade koje je izvodio.
Međutim, tehnika ima svoje granice. Ispovijesti nisu lijek za sve vrste kvarova umjetne inteligencije. Sustav najbolje funkcionira kada je model svjestan da se loše ponaša. Manje je učinkovit za "nepoznati nepoznati." Na primjer, ako model halucinira neku činjenicu i iskreno vjeruje da je točna, ne može priznati da je dao lažne informacije. Najčešći razlog neuspjele ispovijedi je zbunjenost modela, a ne namjerna prijevara. Do zabune često dolazi kada su upute dvosmislene i kada model ne može jasno odrediti namjeru korisnika.
Što to znači za AI poduzeća
OpenAI-jeva tehnika priznanja dio je rastućeg opusa rada na sigurnosti i kontroli umjetne inteligencije. Anthropic, konkurent OpenAI-u, također je objavio istraživanje koje pokazuje kako LLM-ovi mogu učiti zlonamjerno ponašanje. Tvrtka također radi na začepivši ove rupe dok se pojavljuju.
Za aplikacije umjetne inteligencije, mehanizmi kao što su priznanja mogu pružiti praktičan mehanizam praćenja. Strukturirani izlaz iz priznanja može se koristiti u vrijeme zaključivanja za označavanje ili odbacivanje odgovora modela prije nego što izazove problem. Na primjer, sustav bi mogao biti dizajniran da automatski eskalira bilo koji izlaz za ljudski pregled ako njegovo priznanje ukazuje na kršenje pravila ili visoku nesigurnost.
U svijetu u kojem je umjetna inteligencija sve više agentivna i sposobna za složene zadatke, vidljivost i kontrola bit će ključni elementi za sigurnu i pouzdanu implementaciju.
“Kako modeli postaju sve sposobniji i postavljaju se u postavkama s većim ulozima, potrebni su nam bolji alati za razumijevanje što rade i zašto”, pišu istraživači OpenAI-ja. “Priznanja nisu potpuno rješenje, ali dodaju značajan sloj našoj transparentnosti i nadzoru.”


