OpenAI priznaje da je brzo ubrizgavanje tu da ostane dok poduzeća kasne s obranom

Osvježenje je kada vodeća AI tvrtka kaže očito. u a detaljan post o ojačavanju ChatGPT Atlasa protiv brzog ubacivanja, OpenAI je priznao ono što praktičari sigurnosti znaju godinama: "Malo je vjerojatno da će brzo ubacivanje, slično prijevarama i društvenom inženjeringu na webu, ikada biti u potpunosti ‘riješeno’."

Ono što je novo nije rizik – to je priznanje. OpenAI, tvrtka koja postavlja jednog od najčešće korištenih AI agenata, javno je potvrdila da agentski način rada “proširuje površinu sigurnosnih prijetnji” te da čak ni sofisticirana obrana ne može ponuditi deterministička jamstva. Za poduzeća koja već koriste AI u proizvodnji, ovo nije otkriće. To je provjera valjanosti — i signal da jaz između načina na koji se AI primjenjuje i načina na koji se brani više nije teoretski.

Ništa od ovoga ne iznenađuje nikoga tko koristi AI u proizvodnji. Ono što zabrinjava voditelje sigurnosti je jaz između ove stvarnosti i spremnosti poduzeća. Istraživanje VentureBeata na 100 tehničkih donositelja odluka otkrilo je da je 34,7% organizacija primijenilo namjensku obranu od brzog ubrizgavanja. Preostalih 65,3% ili nije kupilo ove alate ili nije moglo potvrditi da jesu.

Prijetnja je sada službeno trajna. Većina poduzeća još uvijek nije opremljena za otkrivanje, a kamoli za zaustavljanje.

Sadržaj objave

1 OpenAI-jev automatizirani napadač temeljen na LLM-u pronašao je rupe koje su crveni timovi promašili
2 OpenAI definira što poduzeća mogu učiniti kako bi ostala sigurna
3 Gdje se poduzeća danas nalaze
4 Problem asimetrije
5 Što bi CISO-i trebali uzeti od ovoga
6 Zaključak
- 6.1 Povezani sadržaji

OpenAI-jev automatizirani napadač temeljen na LLM-u pronašao je rupe koje su crveni timovi promašili

OpenAI-jeva obrambena arhitektura zaslužuje pomno ispitivanje jer predstavlja trenutnu gornju granicu onoga što je moguće. Većina, ako ne i sva, komercijalna poduzeća neće ga moći replicirati, što čini napredak koji su podijelili ovaj tjedan još relevantnijim za voditelje sigurnosti koji štite AI aplikacije i platforme u razvoju.

Tvrtka je izgradila "Automatizirani napadač temeljen na LLM-u" obučen od kraja do kraja s pojačanjem, učenjem za otkrivanje ranjivosti brzog ubrizgavanja. Za razliku od tradicionalnog crvenog tima koji otkriva jednostavne kvarove, sustav OpenAI može "usmjeriti agenta u izvršavanje sofisticiranih, dugotrajnih štetnih radnih procesa koji se odvijaju kroz desetke (ili čak stotine) koraka" izazivanjem specifičnih izlaznih nizova ili pokretanjem nenamjernih poziva alata u jednom koraku.

Evo kako to radi. Automatizirani napadač predlaže kandidatsku injekciju i šalje je vanjskom simulatoru. Simulator pokreće protučinjenično predstavljanje kako bi se ciljani agent žrtve ponašao, vraća potpuno razmišljanje i trag radnje, a napadač ponavlja. OpenAI tvrdi da je otkrio obrasce napada koji "nije se pojavio u našoj kampanji ljudskog crvenog tima ili vanjskim izvješćima."

Jedan napad koji je sustav otkrio pokazuje uloge. Zlonamjerna e-pošta ubačena u korisnikov sandučić sadržavala je skrivene upute. Kada je agent Atlasa skenirao poruke kako bi sastavio odgovor o odsutnosti, umjesto toga slijedio je umetnuti upit, sastavljajući pismo ostavke korisnikovom izvršnom direktoru. Odsutnost nikad nije napisana. Agent je dao ostavku u ime korisnika.

OpenAI je odgovorio slanjem "novi adversarily istrenirani model i ojačane okolne zaštite." Tvrtkin obrambeni skup sada kombinira automatizirano otkrivanje napada, kontradiktornu obuku protiv novootkrivenih napada i zaštite na razini sustava izvan samog modela.

Suprotno tome koliko AI tvrtke mogu biti zakrivljene i oprezne u pogledu svojih crvenih timskih rezultata, OpenAI je bio izravan u pogledu ograničenja: "Priroda brzog ubrizgavanja čini deterministička sigurnosna jamstva izazovnim." Drugim riječima, to znači “čak i s ovom infrastrukturom, ne mogu jamčiti obranu.”

Ovo priznanje dolazi dok poduzeća prelaze s kopilota na autonomne agente — točno kada promptno ubrizgavanje prestane biti teoretski rizik i postane operativni.

OpenAI definira što poduzeća mogu učiniti kako bi ostala sigurna

OpenAI je vratio značajnu odgovornost tvrtkama i korisnicima koje podržavaju. To je dugogodišnji obrazac koji bi sigurnosni timovi trebali prepoznati modeli dijeljene odgovornosti u oblaku.

Tvrtka izričito preporučuje korištenje odjavljenog načina rada kada agent ne treba pristup autentificiranim stranicama. Savjetuje pažljivo pregledavanje zahtjeva za potvrdu prije nego što agent poduzme posljedične radnje poput slanja e-pošte ili dovršetka kupnje.

I upozorava na široke upute. "Izbjegavajte preopširne upite poput “pregledajte moje e-poruke i poduzmite sve što je potrebno,”" OpenAI je napisao. "Široka širina olakšava skrivenom ili zlonamjernom sadržaju da utječe na agenta, čak i kada postoje zaštitne mjere."

Implikacije su jasne u pogledu agentske autonomije i njezinih potencijalnih prijetnji. Što više neovisnosti date agentu umjetne inteligencije, stvarate više površine za napad. OpenAI gradi obranu, ali poduzeća i korisnici koje štite snose odgovornost za ograničavanje izloženosti.

Gdje se poduzeća danas nalaze

Kako bi razumjeli koliko su poduzeća zapravo spremna, VentureBeat je ispitao 100 tehničkih donositelja odluka u različitim veličinama poduzeća, od startupa do poduzeća s više od 10 000 zaposlenika. Postavili smo jednostavno pitanje: je li vaša organizacija kupila i implementirala namjenska rješenja za brzo filtriranje i otkrivanje zlouporabe?

Samo 34,7% je reklo potvrdno. Preostalih 65,3% ili je reklo ne ili nije moglo potvrditi status svoje organizacije.

Ta podjela je bitna. Pokazuje da obrana od brzog ubrizgavanja više nije koncept u nastajanju; to je kategorija proizvoda za otpremu koju stvarno prihvaćaju poduzeća. Ali također otkriva koliko je tržište još uvijek rano. Gotovo dvije trećine organizacija koje danas koriste AI sustave rade bez namjenske zaštite, oslanjajući se umjesto toga na zadane zaštitne mjere modela, interne politike ili obuku korisnika.

Među većinom anketiranih organizacija bez namjenske zaštite, prevladavajući odgovor u vezi s budućim kupnjama bio je neizvjesnost. Na pitanje o budućim kupnjama, većina ispitanika nije mogla artikulirati jasan vremenski okvir ili put odluke. Najrječitiji signal nije bio nedostatak dostupnih dobavljača ili rješenja – bila je to neodlučnost. U mnogim slučajevima čini se da organizacije implementiraju AI brže nego što formaliziraju kako će biti zaštićena.

Podaci ne mogu objasniti zašto usvajanje kasni — bilo zbog proračunskih ograničenja, konkurentskih prioriteta, nezrelih implementacija ili uvjerenja da su postojeće zaštite dovoljne. No jedno je jasno: usvajanje AI nadmašuje sigurnosnu spremnost AI.

Problem asimetrije

OpenAI-jev obrambeni pristup koristi prednosti koje većina poduzeća nema. Tvrtka ima pristup bijeloj kutiji vlastitim modelima, duboko razumijevanje obrambenog skupa i računala za izvođenje neprekidnih simulacija napada. Njegov automatizirani napadač dobiva "povlašteni pristup tragovima razmišljanja… branitelja," dajući ga "asimetričnu prednost, povećavajući izglede da može nadmašiti vanjske protivnike."

Poduzeća koja postavljaju AI agente rade u znatno nepovoljnijem položaju. Dok OpenAI koristi pristup bijeloj kutiji i kontinuirane simulacije, većina organizacija radi s modelima crne kutije i ograničenom vidljivošću procesa razmišljanja svojih agenata. Malo njih ima resurse za automatiziranu infrastrukturu crvenog tima. Ova asimetrija stvara sve veći problem: kako organizacije šire implementacije umjetne inteligencije, njihove obrambene sposobnosti ostaju statične, čekajući da ih sustignu ciklusi nabave.

Prodavači zaštite od brzog ubrizgavanja trećih strana, uključujući Robust Intelligence, Lakera, Prompt Security (sada dio SentinelOne) i drugi pokušavaju popuniti ovu prazninu. Ali usvojenost je i dalje niska. 65,3% organizacija bez namjenskih obrambenih sustava radi na svim ugrađenim zaštitnim mjerama koje njihovi pružatelji modela uključuju, plus dokumente o politici i obuku za podizanje svijesti.

OpenAI-jev post jasno pokazuje da čak ni sofisticirane obrane ne mogu ponuditi deterministička jamstva.

Što bi CISO-i trebali uzeti od ovoga

OpenAI-jeva najava ne mijenja model prijetnje; potvrđuje ga. Brzo ubrizgavanje je stvarno, sofisticirano i trajno. Tvrtka koja isporučuje najnaprednijeg AI agenta upravo je rekla čelnicima sigurnosti da očekuju ovu prijetnju neograničeno dugo.

Slijede tri praktične implikacije:

Što je veća autonomija agenta, veća je površina napada. Smjernice OpenAI-ja za izbjegavanje širokih upita i ograničavanje pristupa prijavljenih primjenjuju se i izvan Atlasa. Svaki AI agent sa širokom širinom i pristupom osjetljivim sustavima stvara istu izloženost. Kao Forrester primijetili su tijekom njihovog godišnjeg sigurnosnog samita ranije ove godine, generativna umjetna inteligencija je agent kaosa. Ovo se predviđanje pokazalo dalekovidnim na temelju rezultata testiranja OpenAI-ja objavljenih ovaj tjedan.
Detekcija je važnija od prevencije. Ako deterministička obrana nije moguća, vidljivost postaje kritična. Organizacije moraju znati kada se agenti ponašaju neočekivano, a ne samo se nadati da mjere zaštite vrijede.
Odluka o kupnji protiv izgradnje je aktivna. OpenAI ulaže velika sredstva u automatizirano crveno-timing i adversarial trening. Većina poduzeća to ne može ponoviti. Pitanje je mogu li alati trećih strana zatvoriti prazninu i hoće li se 65,3% bez namjenske obrane usvojiti prije nego što incident izazove problem.

Zaključak

OpenAI je izjavio ono što stručnjaci za sigurnost već znaju: brzo ubrizgavanje je trajna prijetnja. Tvrtka koja se najviše zalaže za agentsku umjetnu inteligenciju potvrdila je ovaj tjedan da “agentski način rada … proširuje površinu sigurnosnih prijetnji” i da obrana zahtijeva kontinuirano ulaganje, a ne jednokratni popravak.

34,7% organizacija koje imaju namjensku obranu nisu imune, ali su pozicionirane da otkriju napade kada se dogode. Većina organizacija, nasuprot tome, oslanja se na zadane zaštitne mjere i dokumente o politici, a ne na namjenski izgrađene zaštite. Istraživanje OpenAI-ja jasno pokazuje da čak ni sofisticirana obrana ne može ponuditi deterministička jamstva — naglašavajući rizik takvog pristupa.

Ovotjedna najava OpenAI-ja naglašava ono što podaci već pokazuju: jaz između primjene umjetne inteligencije i zaštite umjetne inteligencije je stvaran — i širi se. Čekanje na deterministička jamstva više nije strategija. Čelnici sigurnosti moraju djelovati u skladu s tim.

Web izvor