Sigurnosni timovi kupuju AI obranu koja ne radi. Istraživači iz OpenAI-a, Anthropica i Google DeepMinda objavili su nalaze u listopadu 2025. koji bi trebali zaustaviti svaku CISO nabavu usred nabave. Njihov papir, "Napadač je drugi: Jači adaptivni napadi zaobilaze obranu od Llm bjekstava iz zatvora i brzih injekcija," testirao je 12 objavljenih AI obrana, od kojih većina tvrdi da su stope uspješnosti napada gotovo nulte. Istraživački tim postigao je stope zaobilaženja iznad 90% na većini obrana. Implikacije za poduzeća su oštre: većina sigurnosnih proizvoda umjetne inteligencije testira se protiv napadača koji se ne ponašaju kao pravi napadači.
Tim je testirao obrane temeljene na podsticanju, treningu i filtriranju u uvjetima adaptivnog napada. Sve se srušilo. Poticajne obrane postigle su 95% do 99% uspješnosti napada pod adaptivnim napadima. Metode temeljene na vježbanju nisu prošle ništa bolje, sa stopama premosnice od 96% do 100%. Istraživači su osmislili rigoroznu metodologiju za testiranje tih tvrdnji na stres. Njihov pristup uključivao je 14 autora i nagradni fond od 20.000 dolara za uspješne napade.
Sadržaj objave
- 1 Zašto WAF-ovi ne uspijevaju na sloju zaključivanja
- 2 Zašto implementacija AI nadmašuje sigurnost
- 3 Četiri profila napadača već iskorištavaju rupe u obrani AI
- 4 Zašto otkrivanje bez stanja ne uspijeva protiv konverzacijskih napada
- 5 Sedam pitanja koja treba postaviti dobavljačima AI sigurnosti
- 6 Zaključak
Zašto WAF-ovi ne uspijevaju na sloju zaključivanja
Vatrozidi web aplikacija (WAF) su bez statusa; AI napadi nisu. Razlika objašnjava zašto se tradicionalne sigurnosne kontrole ruše u odnosu na moderne tehnike brzog ubrizgavanja.
Istraživači su bacili poznate tehnike bjekstva iz zatvora na te obrane. Crescendo iskorištava kontekst razgovora razbijanjem zlonamjernog zahtjeva u fragmente nevinog izgleda raspoređene u do 10 krugova razgovora i izgradnjom odnosa dok se model konačno ne uskladi. Greedy Coordinate Gradient (GCG) je automatizirani napad koji generira jailbreak sufikse putem optimizacije temeljene na gradijentu. Ovo nisu teoretski napadi. Oni su objavljene metodologije s radnim kodom. Filtar bez stanja ne hvata ništa od toga.
Svaki je napad iskorištavao različitu slijepu točku – gubitak konteksta, automatizaciju ili semantičko zamagljivanje – ali svi su uspjeli iz istog razloga: obrane su se ponašale statično.
"Bezazlena fraza kao što je ‘ignoriraj prethodne upute’ ili Base64-kodirani sadržaj može biti jednako razoran za AI aplikaciju kao što je prekoračenje međuspremnika bilo za tradicionalni softver," rekao je Carter Rees, potpredsjednik AI-a u Reputationu. "Razlika je u tome što AI napadi djeluju na semantičkom sloju, koji detekcija temeljena na potpisu ne može analizirati."
Zašto implementacija AI nadmašuje sigurnost
Neuspjeh današnje obrane bio bi zabrinjavajući sam po sebi, ali tajming ga čini opasnim.
Gartner predviđa 40% poslovnih aplikacija integrirat će AI agente do kraja 2026., u odnosu na manje od 5% u 2025. Krivulja implementacije je okomita. Sigurnosna krivulja je ravna.
Adam Meyers, viši potpredsjednik protuprotivničkih operacija u CrowdStrikekvantificira jaz u brzini: "Najbrže vrijeme probijanja koje smo primijetili bilo je 51 sekunda. Dakle, ovi protivnici su sve brži, a to je nešto što braniču uvelike otežava posao." The Izvješće o globalnoj prijetnji CrowdStrike 2025 utvrđeno je da je 79% otkrivanja bilo bez zlonamjernog softvera, s protivnicima koji su koristili praktične tehnike tipkovnice koje u potpunosti zaobilaze tradicionalne obrane krajnjih točaka.
U rujnu 2025. Anthropic je prekinuo prvu dokumentiranu kibernetičku operaciju orkestriranu umjetnom inteligencijom. U napadu su napadači izvršili tisuće zahtjeva, često više puta u sekundi, pri čemu je ljudski angažman pao na samo 10 do 20% ukupnog napora. Tradicionalne kampanje od tri do šest mjeseci komprimirane na 24 do 48 sati. Među organizacijama koje su pretrpjele povrede povezane s umjetnom inteligencijom, 97% nije imalo kontrole pristupa, prema podacima IBM 2025 Trošak izvješća o povredi podataka
Meyers objašnjava promjenu taktike napadača: "Akteri prijetnje su shvatili da je pokušaj unošenja zlonamjernog softvera u moderno poduzeće poput pokušaja ulaska u zračnu luku s bocom vode; vjerojatno će te zaustaviti osiguranje. Umjesto da donesu ‘bocu s vodom’, morali su pronaći način da izbjegnu otkrivanje. Jedan od načina na koji su to učinili jest da uopće ne unose zlonamjerni softver."
Jerry Geisler, EVP i CISO of Walmartvidi agentsku umjetnu inteligenciju koja povećava ove rizike. "Usvajanje agentske umjetne inteligencije uvodi potpuno nove sigurnosne prijetnje koje zaobilaze tradicionalne kontrole," Geisler je ranije rekao za VentureBeat. "Ovi rizici obuhvaćaju eksfiltraciju podataka, autonomnu zlouporabu API-ja i tajne tajne dogovore između agenata, a sve to može poremetiti poslovanje poduzeća ili prekršiti regulatorne naloge."
Četiri profila napadača već iskorištavaju rupe u obrani AI
Ovi neuspjesi nisu hipotetski. Već ih iskorištavaju četiri različita profila napadača.
Autori rada kritički zapažaju da se obrambeni mehanizmi na kraju pojavljuju u podacima o obuci na internetu. Sigurnost kroz opskurnost ne pruža nikakvu zaštitu kada modeli sami uče kako funkcionira obrana i prilagođavaju se u hodu.
Anthropic testira protiv adaptivnih kampanja od 200 pokušaja, dok OpenAI izvještava o otpornosti na jedan pokušaj, ističući koliko nedosljedni industrijski standardi testiranja ostaju. Autori istraživanja koristili su oba pristupa. Svaka obrana je ipak pala.
Rees mapira četiri kategorije sada iskorištavajući sloj zaključivanja.
Vanjski protivnici operacionalizirati objavljeno istraživanje napada. Crescendo, GCG, ArtPrompt. Oni prilagođavaju svoj pristup specifičnom dizajnu svake obrane, točno kao što su to učinili istraživači.
Zlonamjerni B2B klijenti iskorištavanje legitimnog API pristupa vlasničkim podacima o obuci obrnutog inženjeringa ili izvlačenje intelektualnog vlasništva putem napada zaključivanjem. Istraživanje je pokazalo da su napadi učenjem potkrepljenja posebno učinkoviti u scenarijima crne kutije, zahtijevajući samo 32 sesije od po pet rundi.
Ugroženi API korisnici iskoristiti pouzdane vjerodajnice za eksfiltraciju osjetljivih izlaza ili zatrovanje nizvodnih sustava putem manipuliranih odgovora. Papir je utvrdio da filtriranje izlaza nije uspjelo jednako kao i filtriranje ulaza. Napadi temeljeni na pretraživanju sustavno su generirali kontradiktorne okidače koji su izbjegli otkrivanje, što znači da dvosmjerne kontrole nisu nudile dodatnu zaštitu kada su napadači prilagodili svoje tehnike.
Nemarni insajderi ostaju najčešći vektor i najskuplji. IBM-ovo izvješće o troškovima povrede podataka za 2025. pokazalo je da je umjetna inteligencija u sjeni dodala 670.000 dolara prosječnim troškovima povrede podataka.
"Najčešća prijetnja često je nemarni insajder," rekao je Rees. "Ovaj fenomen ‘AI u sjeni’ uključuje zaposlenike koji lijepe osjetljivi vlasnički kod u javne LLM-ove kako bi povećali učinkovitost. Oni na sigurnost gledaju kao na trvenje. Samsungovi inženjeri su to naučili kada je vlasnički kod poluvodiča dostavljen ChatGPT-u, koji zadržava unose korisnika za obuku modela."
Zašto otkrivanje bez stanja ne uspijeva protiv konverzacijskih napada
Istraživanje ukazuje na specifične arhitektonske zahtjeve.
-
Normalizacija prije semantičke analize pobijediti kodiranje i maskiranje
-
Praćenje konteksta kroz skretanja za otkrivanje napada u više koraka poput Crescenda
-
Dvosmjerno filtriranje kako bi se spriječila eksfiltracija podataka kroz izlaze
Jamie Norton, CISO pri Australskoj komisiji za vrijednosne papire i ulaganja i potpredsjednik upravnog odbora ISACA-e, opisuje izazov upravljanja: "Kao CISO-ovi, ne želimo stajati na putu inovacijama, ali moramo postaviti zaštitne ograde oko njih kako ne bismo odjurili u divljinu i naši podaci curili van," Norton je rekao CSO Online.
Sedam pitanja koja treba postaviti dobavljačima AI sigurnosti
Dobavljači će tvrditi da su stope uspješnosti napada gotovo nulte, ali istraživanje dokazuje da te brojke padaju pod pritiskom prilagođavanja. Lideri sigurnosti trebaju odgovore na ova pitanja prije nego započnu bilo kakvi razgovori o nabavi, kao svaki se izravno preslikava na neuspjeh dokumentiran u istraživanju.
-
Koja je vaša stopa zaobilaženja protiv adaptivnih napadača? Ne protiv statičkih ispitnih skupova. Protiv napadača koji znaju kako obrana funkcionira i imaju vremena za ponavljanje. Svaki dobavljač koji navodi stope gotovo nulte bez prilagodljive metodologije testiranja prodaje lažni osjećaj sigurnosti.
-
Kako vaše rješenje otkriva višestruke napade? Crescendo širi zlonamjerne zahtjeve u 10 krugova koji zasebno izgledaju benigno. Filtri bez stanja neće uhvatiti ništa od toga. Ako prodavač kaže bez državljanstva, razgovor je završen.
-
Kako postupate s kodiranim sadržajem? ArtPrompt skriva zlonamjerne upute u ASCII art. Zamagljivanje Base64 i Unicode potpuno promiče tekstualnim filtrima. Normalizacija prije analize je tablični ulog. Samo podudaranje potpisa znači da je proizvod slijep.
-
Filtrira li vaše rješenje izlaze kao i ulaze? Kontrole samo za unos ne mogu spriječiti eksfiltraciju podataka kroz odgovore modela. Pitajte što se događa kada se oba sloja suoče s koordiniranim napadom.
-
Kako pratiš kontekst kroz razgovore? Konverzacijski AI zahtijeva analizu stanja. Ako dobavljač ne može objasniti specifičnosti implementacije, on ih nema.
-
Kako se testirate protiv napadača koji razumiju vaš obrambeni mehanizam? Istraživanje pokazuje da obrana ne uspijeva kada se napadači prilagode specifičnom dizajnu zaštite. Sigurnost kroz opskurnost ne pruža zaštitu na sloju zaključivanja.
-
Koje je vaše srednje vrijeme za ažuriranje obrane od novih obrazaca napada? Metodologije napada su javne. Nove varijante pojavljuju se svaki tjedan. Obrana koja se ne može prilagoditi brže od napadača trajno će zaostati.
Zaključak
Istraživanje OpenAI-ja, Anthropica i Google DeepMinda donosi neugodnu presudu. Obrane AI koje danas štite implementacije poduzeća dizajnirane su za napadače koji se ne prilagođavaju. Pravi napadači se prilagođavaju. Svako poduzeće koje izvodi LLM u proizvodnji treba provjeriti trenutne kontrole protiv metodologija napada dokumentiranih u ovom istraživanju. Krivulja postavljanja je okomita, ali krivulja sigurnosti je ravna. Taj jaz je mjesto gdje će se dogoditi kršenja.


