Zašto agenti za kodiranje umjetne inteligencije nisu spremni za proizvodnju: krhki kontekstni prozori, pokvareni refaktori, nedostatak operativne svijesti

Sjećate se ovog Quora komentara (koji je također postao meme)?

(Izvor: Quora)

U eri Stack Overflowa prije modela velikog jezika (LLM), izazov je bio razborit koji isječke koda usvojiti i učinkovito prilagoditi. Sada, dok je generiranje koda postalo trivijalno jednostavno, dublji izazov leži u pouzdanom identificiranju i integraciji visokokvalitetnog koda poslovne razine u proizvodna okruženja.

Ovaj će članak ispitati praktične zamke i ograničenja uočena kada inženjeri koriste moderne agente za kodiranje za stvarni poslovni rad, baveći se složenijim pitanjima oko integracije, skalabilnosti, pristupačnosti, razvoja sigurnosnih praksi, privatnosti podataka i mogućnosti održavanja u operativnim postavkama uživo. Nadamo se da ćemo uravnotežiti hype i pružiti tehnički utemeljeniji pogled na mogućnosti agenata za kodiranje AI.

Sadržaj objave

1 Ograničeno razumijevanje domene i ograničenja usluge
2 Nedostatak hardverskog konteksta i upotrebe
3 Halucinacije su gotove ponovljeno akcije
4 Nedostatak prakse kodiranja na razini poduzeća
5 Usklađivanje pristranosti potvrde
6 Stalna potreba za čuvanjem djece
7 Zaključak
- 7.1 Povezani sadržaji

Ograničeno razumijevanje domene i ograničenja usluge

Agenti umjetne inteligencije imaju velike probleme s projektiranjem skalabilnih sustava zbog ogromne eksplozije izbora i kritičnog nedostatka konteksta specifičnog za poduzeće. Da opišemo problem u širokim crtama, velike poslovne baze kodova i monoreposi često su preveliki da agenti iz njih mogu izravno učiti, a ključno znanje može često biti fragmentirano kroz internu dokumentaciju i individualnu stručnost.

Točnije, mnogi popularni agenti za kodiranje nailaze na ograničenja usluge koja ometaju njihovu učinkovitost u okruženjima velikih razmjera. Značajke indeksiranja mogu zakazati ili smanjiti kvalitetu za repozitorije koji premašuju 2500 datoteka ili zbog ograničenja memorije. Nadalje, datoteke veće od 500 KB često su isključene iz indeksiranja/pretraživanja, što utječe na etablirane proizvode s desetljećima starim, većim kodnim datotekama (iako se noviji projekti s tim mogu suočavati rjeđe).

Za složene zadatke koji uključuju opsežne kontekste datoteka ili refaktoriranje, od programera se očekuje da osiguraju relevantne datoteke i istovremeno eksplicitno definiraju proceduru refaktoriranja i okolne sekvence izgradnje/naredbi za provjeru valjanosti implementacije bez uvođenja regresija značajki.

Nedostatak hardverskog konteksta i upotrebe

Agenti umjetne inteligencije pokazali su kritičan nedostatak svijesti o instalacijama OS stroja, naredbenog retka i okruženja (conda/venv). Ovaj nedostatak može dovesti do frustrirajućih iskustava, kao što je agent koji pokušava izvršiti Linux naredbe na PowerShell-u, što može stalno rezultirati pogreškama “neprepoznate naredbe”. Nadalje, agenti često pokazuju nedosljednu ‘toleranciju na čekanje’ na izlaze naredbi za čitanje, prerano objavljujući nemogućnost čitanja rezultata (i krećući se naprijed za ponovni pokušaj/preskakanje) prije nego što naredba uopće završi, posebno na sporijim strojevima.

Ovdje se ne radi samo o cjepidlačenje značajke; nego je vrag u tim praktičnim detaljima. Ove praznine u iskustvu manifestiraju se kao stvarne točke trvenja i zahtijevaju stalnu ljudsku budnost za praćenje aktivnosti agenta u stvarnom vremenu. Inače, agent bi mogao zanemariti informacije o početnom pozivu alata i prerano prestati ili nastaviti s polugotovim rješenjem koje zahtijeva poništavanje nekih/svih promjena, ponovno pokretanje upita i trošenje tokena. Slanje upita u petak navečer i očekivanje ažuriranja koda prilikom provjere u ponedjeljak ujutro nije zajamčeno.

Halucinacije su gotove ponovljeno akcije

Rad s agentima za kodiranje umjetne inteligencije često predstavlja dugogodišnji izazov halucinacija ili netočnih ili nepotpunih dijelova informacija (kao što su mali isječci koda) unutar većeg skupa promjena za koje se očekuje da će ih programer popraviti uz trivijalan do mali napor. Međutim, ono što postaje posebno problematično je nekorektno ponašanje ponovljeno unutar jedne niti, prisiljavajući korisnike da započnu novu nit i ponovno pruže sav kontekst ili interveniraju ručno kako bi “deblokirali” agenta.

Na primjer, tijekom postavljanja koda funkcije Python, agent zadužen za implementaciju složenih promjena spremnosti za proizvodnju naišao je na datoteku (vidi dolje) koji sadrži posebne znakove (zagrade, točku, zvjezdicu). Ovi su znakovi vrlo česti u informatici za označavanje verzije softvera.

(Slika izrađena ručno pomoću standardnog koda. Izvor: Microsoft Learn i Uređivanje Host datoteke aplikacije (host.json) na Azure portalu)

Agent je ovo netočno označio kao nesigurnu ili štetnu vrijednost, zaustavljajući cijeli proces generiranja. Ova pogrešna identifikacija kontradiktornog napada ponovila se 4 do 5 puta usprkos različitim upitima za pokušaj ponovnog pokretanja ili nastavka izmjene. Format ove verzije zapravo je predložak, prisutan u predlošku Python HTTP-okidačkog koda. Jedino uspješno rješenje uključivalo je davanje uputa agentu da ne pročitajte datoteku i umjesto toga zatražite da jednostavno pruži željenu konfiguraciju i uvjerite ga da će ga programer ručno dodati u tu datoteku, potvrdite i zamolite ga da nastavi s preostalim izmjenama koda.

Nemogućnost izlaska iz opetovano neispravne izlazne petlje agenta unutar iste niti naglašava praktično ograničenje koje značajno gubi vrijeme razvoja. U biti, programeri sada obično troše vrijeme na otklanjanje pogrešaka/pročišćavanje koda generiranog umjetnom inteligencijom, a ne na isječke koda Stack Overflowa ili vlastite.

Nedostatak prakse kodiranja na razini poduzeća

Najbolje sigurnosne prakse: Agenti za kodiranje često koriste manje sigurne metode provjere autentičnosti kao što je provjera autentičnosti temeljena na ključu (tajne klijenta), a ne moderna rješenja temeljena na identitetu (kao što su Entra ID ili federalne vjerodajnice). Ovaj nadzor može uvesti značajne ranjivosti i povećati troškove održavanja, budući da su upravljanje ključem i rotacija složeni zadaci koji se sve više ograničavaju u poslovnim okruženjima.

Zastarjeli SDK-ovi i ponovno otkrivanje kotača: Agenti možda neće dosljedno koristiti najnovije SDK metode, umjesto toga generirajući detaljnije implementacije koje je teže održavati. Koristeći primjer Azure funkcije, agenti su ispisali kod koristeći već postojeći v1 SDK za operacije čitanja/pisanja, umjesto mnogo čistijeg i jednostavnijeg za održavanje v2 SDK koda. Programeri moraju istražiti najnovije najbolje prakse na mreži kako bi imali mentalnu mapu ovisnosti i očekivane implementacije koja osigurava dugoročnu mogućnost održavanja i smanjuje napore nadolazeće tehnološke migracije.

Ograničeno prepoznavanje namjere i kod koji se ponavlja: Čak i za modularne zadatke manjeg opsega (koji se obično potiču kako bi se smanjile halucinacije ili vrijeme zastoja u otklanjanju pogrešaka) poput proširenja postojeće definicije funkcije, agenti mogu slijediti upute doslovno i proizvesti logiku koja se gotovo ponavlja, bez predviđanja nadolazećeg ili neartikuliran potrebe programera. Odnosno, u ovim modularnim zadacima agent možda neće automatski identificirati i refaktorirati sličnu logiku u zajedničke funkcije ili poboljšati definicije klasa, što dovodi do tehnološkog duga i baza kodova kojima je teže upravljati, posebno s vibe kodiranjem ili lijenim programerima.

Jednostavno rečeno, ti virusni YouTube rolati koji prikazuju brzi razvoj aplikacija od nula do jedan iz odziva u jednoj rečenici jednostavno ne uspijevaju obuhvatiti nijansirane izazove softvera proizvodne razine, gdje su sigurnost, skalabilnost, mogućnost održavanja i dizajn arhitekture otporne na budućnost najvažniji.

Usklađivanje pristranosti potvrde

Pristranost potvrde je značajan problem, budući da LLM često potvrđuju korisničke premise čak i kada korisnik izrazi sumnju i traži od agenta da pročisti svoje razumijevanje ili predloži alternativne ideje. Ova tendencija, gdje se modeli usklađuju s onim što percipiraju da korisnik želi čuti, dovodi do smanjene ukupne izlazne kvalitete, posebno za objektivnije/tehničke zadatke poput kodiranja.

Postoji obilna literatura da sugerira da ako model započne izlazom tvrdnje poput “Apsolutno si u pravu!”, ostatak izlaznih tokena ima tendenciju opravdavanja ove tvrdnje.

Stalna potreba za čuvanjem djece

Unatoč privlačnosti autonomnog kodiranja, stvarnost AI agenata u razvoju poduzeća često zahtijeva stalnu ljudsku budnost. Slučajevi poput agenta koji pokušava izvršiti Linux naredbe na PowerShell-u, lažno pozitivne sigurnosne oznake ili uvođenje netočnosti zbog razloga specifičnih za domenu ističu kritične nedostatke; programeri jednostavno ne mogu odstupiti. Naprotiv, moraju stalno nadzirati proces razmišljanja i razumjeti dodatke koda s više datoteka kako bi izbjegli gubljenje vremena na neispravne odgovore.

Najgore moguće iskustvo s agentima je da programer prihvaća ažuriranja koda s više datoteka prožeta greškama, a zatim isparava vrijeme u otklanjanju pogrešaka zbog toga kako kod naizgled ‘lijepo’ izgleda. To čak može dovesti do zabluda o nepovratnim troškovima nadajući se da će kôd raditi nakon samo nekoliko popravaka, posebno kada su ažuriranja u više datoteka u složenoj/nepoznatoj bazi kodova s vezama na više neovisnih usluga.

To je slično suradnji s 10-godišnjim čudom koje je upamtilo dovoljno znanja i čak se bavi svakom djelićem korisničke namjere, ali prioritet daje pokazivanje tog znanja umjesto rješavanja stvarnog problema, a nedostaje mu predviđanje potrebno za uspjeh u slučajevima korištenja u stvarnom svijetu.

Ovaj "čuvanje djece" zahtjev, zajedno s frustrirajućim ponavljanjem halucinacija, znači da vrijeme potrošeno na otklanjanje pogrešaka koda generiranog umjetnom inteligencijom može zasjeniti uštedu vremena predviđenu korištenjem agenta. Nepotrebno je reći da programeri u velikim tvrtkama moraju biti vrlo namjerni i strateški u upravljanju modernim agentskim alatima i slučajevima korištenja.

Zaključak

Nema sumnje da su agenti za kodiranje AI bili ništa manje od revolucionarnih, ubrzavajući izradu prototipa, automatizirajući standardno kodiranje i transformirajući način na koji programeri grade. Pravi izazov sada nije generiranje koda, već znati što poslati, kako to osigurati i gdje to skalirati. Pametni timovi uče filtrirati hype, strateški koristiti agente i udvostručiti inženjersku prosudbu.

Kao izvršni direktor GitHuba Thomas Dohmke je nedavno primijetio: Najnapredniji programeri “prešli su s pisanja koda na arhitekturu i provjeru rada na implementaciji koji provode AI agenti.” U eri agenata, uspjeh ne pripada onima koji mogu promptirati kod, već onima koji mogu projektirati sustave koji traju.

Rahul Raja je zaposleni softverski inženjer na LinkedInu.

Advitya Gemawat je inženjer strojnog učenja (ML) u Microsoftu.

Napomena urednika: Mišljenja izražena u ovom članku osobna su mišljenja autora i ne odražavaju mišljenja njihovih poslodavaca.

Web izvor