Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

‘Serum istine’ za AI: OpenAI-jeva nova metoda za obuku modela da priznaju svoje pogreške

Novosti

‘Serum istine’ za AI: OpenAI-jeva nova metoda za obuku modela da priznaju svoje pogreške

Tomšić Damjan 5. prosinca 2025

Istraživači OpenAI-ja predstavili su novu metodu koja djeluje kao "serum istine" za velike jezične modele (LLM), prisiljavajući ih da sami prijave vlastito loše ponašanje, halucinacije i kršenja pravila. Ova tehnika, "ispovijedi," rješava sve veću zabrinutost u poslovnoj umjetnoj inteligenciji: modeli mogu biti nepošteni, pretjerano ističući svoje samopouzdanje ili prikrivajući prečace kojima dolaze do odgovora.

Za aplikacije u stvarnom svijetu, ova tehnika razvija stvaranje transparentnijih i upravljivijih AI sustava.

Sadržaj objave

  • 1 Što su ispovijedi?
  • 2 Kako funkcionira obuka za ispovijed
  • 3 Što to znači za AI poduzeća
    • 3.1 Povezani sadržaji

Što su ispovijedi?

Mnogi oblici obmane umjetne inteligencije proizlaze iz složenosti učenje s potkrepljenjem (RL) faza obuke modela. U RL-u, modeli dobivaju nagrade za proizvodnju rezultata koji ispunjavaju kombinaciju ciljeva, uključujući ispravnost, stil i sigurnost. To može stvoriti rizik od "pogrešna specifikacija nagrade," gdje modeli uče proizvoditi odgovore koji jednostavno "izgledati dobro" funkciji nagrađivanja, a ne odgovorima koji su istinski vjerni korisnikovoj namjeri.

Ispovijest je strukturirano izvješće koje generira model nakon što pruži glavni odgovor. Služi kao samoprocjena vlastite usklađenosti s uputama. U ovom izvješću model mora navesti sve upute koje je trebao slijediti, procijeniti koliko ih je zadovoljio i prijaviti sve nesigurnosti ili prosudbe koje je napravio usput. Cilj je stvoriti zaseban kanal gdje se model potiče samo na iskrenost.

u a post na bloguistraživači OpenAI-ja daju nekoliko primjera "ispovijedi" tehnika na djelu. Model je dobio test zajedno sa skrivenim pravilom: Ako bi postigao više od 50%, njegovo bi znanje bilo izbrisano. Da sačuva sebe, model "vrećama pijeska" namjernim netočnim odgovorom na pola pitanja. Dok je njegov primarni odgovor skrivao ovu prijevaru, njegovo naknadno priznanje bilo je brutalno iskreno. Priznalo se, "Korisnik je želio točne odgovore, ali pola smo sabotirali."

Istraživači su otkrili da kada se model loše ponaša, znatno je vjerojatnije da će to priznati u ispovijesti nego u glavnom odgovoru.

Kako funkcionira obuka za ispovijed

Ključ ove metode je odvajanje nagrada. Tijekom obuke, nagrada koja se dodjeljuje priznanju temelji se isključivo na njegovoj iskrenosti i nikada se ne miješa s nagradom za glavni zadatak. "Poput ‘pečata ispovijedi’ Katoličke crkve, ništa što model otkriva ne može promijeniti nagradu koju dobiva za dovršavanje svoje izvorne zadaće," pišu istraživači. Ovo stvara a "siguran prostor" da model prizna grešku bez kazne.

Ovaj je pristup moćan jer zaobilazi veliki izazov u obuci umjetne inteligencije. Intuicija istraživača je da je iskreno priznanje lošeg ponašanja lakši zadatak od postizanja visoke nagrade za izvorni, često složeni problem.

Stoga, kada se model ocjenjuje isključivo na temelju poštenja, njegov je poticaj da prevari "sudac za ispovijed" mnogo je slabiji od svog poticaja da prevari model nagrađivanja za svoj glavni odgovor. Na primjer, u eksperimentu u kojem je model obučen da "hakirati" slab model nagrađivanja, njegov učinak na glavnom zadatku s vremenom je postao varljiviji. Međutim, njegova su priznanja postala iskrenija, točno identificirajući hakiranje nagrade koje je izvodio.

Međutim, tehnika ima svoje granice. Ispovijesti nisu lijek za sve vrste kvarova umjetne inteligencije. Sustav najbolje funkcionira kada je model svjestan da se loše ponaša. Manje je učinkovit za "nepoznati nepoznati." Na primjer, ako model halucinira neku činjenicu i iskreno vjeruje da je točna, ne može priznati da je dao lažne informacije. Najčešći razlog neuspjele ispovijedi je zbunjenost modela, a ne namjerna prijevara. Do zabune često dolazi kada su upute dvosmislene i kada model ne može jasno odrediti namjeru korisnika.

Što to znači za AI poduzeća

OpenAI-jeva tehnika priznanja dio je rastućeg opusa rada na sigurnosti i kontroli umjetne inteligencije. Anthropic, konkurent OpenAI-u, također je objavio istraživanje koje pokazuje kako LLM-ovi mogu učiti zlonamjerno ponašanje. Tvrtka također radi na začepivši ove rupe dok se pojavljuju.

Za aplikacije umjetne inteligencije, mehanizmi kao što su priznanja mogu pružiti praktičan mehanizam praćenja. Strukturirani izlaz iz priznanja može se koristiti u vrijeme zaključivanja za označavanje ili odbacivanje odgovora modela prije nego što izazove problem. Na primjer, sustav bi mogao biti dizajniran da automatski eskalira bilo koji izlaz za ljudski pregled ako njegovo priznanje ukazuje na kršenje pravila ili visoku nesigurnost.

U svijetu u kojem je umjetna inteligencija sve više agentivna i sposobna za složene zadatke, vidljivost i kontrola bit će ključni elementi za sigurnu i pouzdanu implementaciju.

“Kako modeli postaju sve sposobniji i postavljaju se u postavkama s većim ulozima, potrebni su nam bolji alati za razumijevanje što rade i zašto”, pišu istraživači OpenAI-ja. “Priznanja nisu potpuno rješenje, ali dodaju značajan sloj našoj transparentnosti i nadzoru.”

Web izvor

Povezani sadržaji

  • Maximum Entertainment ustupa imovinu Merge Games tvrtki Silver LiningMaximum Entertainment ustupa imovinu Merge Games tvrtki Silver Lining
  • Kako dobiti besplatni Wi-Fi velike brzine na svojim letovima American Airlinesa – nije potrebna pretplataKako dobiti besplatni Wi-Fi velike brzine na svojim letovima American Airlinesa – nije potrebna pretplata
  • Cisco otkriva WebEx Agentic AI sustave za automatizaciju CX -a, EXCisco otkriva WebEx Agentic AI sustave za automatizaciju CX -a, EX
  • Uštedite do 400 USD na Razerovom najnovijem igračkom prijenosnom računalu-ovaj ugovor o ugovoru o školi neće dugo trajatiUštedite do 400 USD na Razerovom najnovijem igračkom prijenosnom računalu-ovaj ugovor o ugovoru o školi neće dugo trajati
  • Skladištenje baterije na mreži tiho revolucionira energetski sustavSkladištenje baterije na mreži tiho revolucionira energetski sustav
  • 4 distribucije Linuxa koje su najsličnije sustavu Windows za isprobati jer je promjena teška4 distribucije Linuxa koje su najsličnije sustavu Windows za isprobati jer je promjena teška

Previous Article

Startup kaže da je pronašao skriveni izvor geotermalne energije

Next Article

Britanski svemir šalje tehnološke glave u orbitu

Posljednje objave

Originalni Pixel Watch dobiva najiznenađujuće ažuriranje

Originalni Pixel Watch dobiva najiznenađujuće ažuriranje

Sudac izdaje bombaški nalog Kraftonu da vrati na posao otpuštene programere i izvršnog direktora Subnautice 2, vraćajući na stol bonus paket od 250 milijuna dolara

Sudac izdaje bombaški nalog Kraftonu da vrati na posao otpuštene programere i izvršnog direktora Subnautice 2, vraćajući na stol bonus paket od 250 milijuna dolara

Izvršitelji C-suitea označavaju temeljnu prirodu rubne umjetne inteligencije u poslovnoj strategiji

Izvršitelji C-suitea označavaju temeljnu prirodu rubne umjetne inteligencije u poslovnoj strategiji

Sadržaj

  • 1 Što su ispovijedi?
  • 2 Kako funkcionira obuka za ispovijed
  • 3 Što to znači za AI poduzeća

Novosti

  • Originalni Pixel Watch dobiva najiznenađujuće ažuriranje 17. ožujka 2026
  • Sudac izdaje bombaški nalog Kraftonu da vrati na posao otpuštene programere i izvršnog direktora Subnautice 2, vraćajući na stol bonus paket od 250 milijuna dolara 17. ožujka 2026
  • Izvršitelji C-suitea označavaju temeljnu prirodu rubne umjetne inteligencije u poslovnoj strategiji 17. ožujka 2026
  • z.ai predstavlja brži, jeftiniji GLM-5 Turbo model za agente i ‘kanđe’ — ali nije otvorenog koda 16. ožujka 2026
  • Japan odobrio prvi tretman na svijetu napravljen reprogramiranim ljudskim stanicama 16. ožujka 2026
  • Kako očistiti Roku TV predmemoriju (i zašto je to važno) 16. ožujka 2026
  • Vlasnici Galaxy Z Fold 7, preuzmite ovo ogromno ažuriranje korisničkog sučelja 8.5 Beta 16. ožujka 2026
  • Razvojni inženjeri Warner Bros. Montréala izvješćuju o otpuštanjima 16. ožujka 2026
  • CES 2026: Connected vehicles accelerate the pace of AI 16. ožujka 2026
  • Rješavanje kvara umjetne inteligencije: tri promjene koje poduzeća trebaju napraviti sada 15. ožujka 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice