Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Referentne vrijednosti koda koje se sami pozivaju pomažu vam da odlučite koje LLM-ove koristiti za svoje zadatke programiranja

Novosti

Referentne vrijednosti koda koje se sami pozivaju pomažu vam da odlučite koje LLM-ove koristiti za svoje zadatke programiranja

Tomšić Damjan 10. siječnja 2025


Pridružite se našim dnevnim i tjednim biltenima za najnovija ažuriranja i ekskluzivni sadržaj o vodećoj pokrivenosti umjetne inteligencije u industriji. Saznajte više


Kako se veliki jezični modeli (LLM) nastavljaju poboljšavati u kodiranju, referentne vrijednosti koje se koriste za procjenu njihove izvedbe postaju sve manje korisne.

To je zato što iako mnogi LLM-ovi imaju slične visoke rezultate na tim mjerilima, može biti teško razumjeti koje od njih koristiti na određenim projektima razvoja softvera i poduzećima.

Novi rad Sveučilišta Yale i Sveučilišta Tsinghua predstavlja novu metodu za testiranje sposobnosti modela da se pozabave “samopozivno generiranje koda” problemi koji zahtijevaju razmišljanje, generiranje koda i ponovno korištenje postojećeg koda u rješavanju problema.

Samopozivno generiranje koda puno je sličnije realističnim programskim scenarijima nego benchmark testovi i pruža bolje razumijevanje sposobnosti trenutnih LLM-ova da riješe probleme kodiranja u stvarnom svijetu.

Sadržaj objave

  • 1 Samopozivno generiranje koda
  • 2 LLM-i imaju loše rezultate kod generiranja koda koji se sami pozivaju
  • 3 Složen krajolik
    • 3.1 Povezani sadržaji

Samopozivno generiranje koda

Dva popularna mjerila koja se koriste za procjenu sposobnosti kodiranja LLM-a su HumanEval i MBPP (Uglavnom osnovni problemi s Pythonom). Ovo su skupovi podataka ručno izrađenih problema koji zahtijevaju da model napiše kod za jednostavne zadatke.

Međutim, ova mjerila pokrivaju samo podskup izazova s ​​kojima se programeri softvera suočavaju u stvarnom svijetu. U praktičnim scenarijima, programeri softvera ne pišu samo novi kod — oni također moraju razumjeti i ponovno upotrijebiti postojeći kod te stvoriti komponente koje se mogu ponovno koristiti za rješavanje složenih problema.

“Sposobnost razumijevanja i kasnijeg iskorištavanja vlastitog generiranog koda, [in other words] samopozivno generiranje koda, igra važnu ulogu za LLM-ove u iskorištavanju svojih sposobnosti razmišljanja za generiranje koda koji trenutna mjerila ne uspijevaju obuhvatiti,” pišu istraživači.

Kako bi testirali sposobnost LLM-a u samopozivanju generiranja koda, istraživači su stvorili dva nova mjerila, HumanEval Pro i MBPP Prokoji proširuju postojeće skupove podataka. Svaki problem u HumanEval Pro i MBPP Pro nadograđuje se na postojeći primjer u izvornom skupu podataka i uvodi dodatne elemente koji zahtijevaju da model riješi osnovni problem i pozove to rješenje za rješavanje složenijeg problema.

Samopozivno generiranje koda (izvor: arXiv)

Na primjer, izvorni problem može biti nešto jednostavno, poput pisanja funkcije koja zamjenjuje sva pojavljivanja danog znaka u nizu s novim znakom.

Prošireni problem bio bi napisati funkciju koja mijenja pojavljivanje više znakova u nizu s njihovim danim zamjenama. Ovo bi zahtijevalo da model napiše novu funkciju koja poziva prethodnu funkciju koju je generirao u jednostavnom problemu.

“Ova procjena generiranja samopozivnog koda nudi dublji uvid u mogućnosti programiranja LLM-a, proširujući se izvan opsega generiranja koda s jednim problemom”, pišu istraživači.

LLM-i imaju loše rezultate kod generiranja koda koji se sami pozivaju

Istraživači su testirali HumanEval Pro i MBPP Pro na više od 20 otvorenih i privatnih modela, uključujući GPT-4o, OpenAI o1-mini i Claude 3.5 Sonnet, kao i serije Qwen, DeepSeek i Codestral.

Njihovi nalazi pokazuju značajan nesrazmjer između tradicionalnih referentnih vrijednosti kodiranja i zadataka generiranja koda koji se sami pozivaju. „Iako se prednji LLM-ovi ističu u generiranju pojedinačnih isječaka koda, često se bore da učinkovito [utilize] vlastiti generirani kod za rješavanje složenijih problema”, pišu istraživači.

Na primjer, s jednom generacijom (pass@1), o1-mini postiže 96,2% na HumanEval, ali samo 76,2% na HumanEval Pro.

Još jedno zanimljivo otkriće je da, iako fino podešavanje instrukcija pruža značajna poboljšanja kod jednostavnih zadataka kodiranja, ono pokazuje smanjene povrate kod generiranja koda koji se sam poziva. Istraživači primjećuju da su “trenutni pristupi finog podešavanja temeljeni na uputama nedovoljno učinkoviti za složenije zadatke generiranja koda koji se sami pozivaju”, što sugerira da moramo ponovno razmisliti o tome kako obučavamo osnovne modele za zadatke kodiranja i razmišljanja.

Kako bi se unaprijedilo istraživanje generiranja samopozivnog koda, istraživači predlažu tehniku ​​za automatsku prenamjenu postojećih referentnih vrijednosti kodiranja za generiranje samopozivnog koda. Pristup koristi granične LLM-ove za generiranje problema koji se sami pozivaju na temelju izvornih problema. Zatim generiraju rješenja kandidata i provjeravaju njihovu ispravnost izvršavanjem koda i pokretanjem testnih slučajeva na njima. Cjevovod minimizira potrebu za ručnim pregledom koda kako bi pomogao u stvaranju više primjera uz manje napora.

Problemi s automatskim generiranjem samopozivnog generiranja koda (izvor: arXiv)

Složen krajolik

Ova nova obitelj mjerila dolazi u vrijeme kada stare referentne vrijednosti kodiranja brzo osvajaju granični modeli. Trenutačni granični modeli kao što su GPT-4o, o1 i Claude 3.5 Sonnet već imaju vrlo visoke rezultate na HumanEval i MBPP, kao i na njihovim naprednijim verzijama, HumanEval+ i MBPP+.

U isto vrijeme, postoje i složeniji benchmarkovi kao što su SWE-Klupakoji procjenjuju mogućnosti modela u end-to-end zadacima softverskog inženjeringa koji zahtijevaju širok raspon vještina kao što je korištenje vanjskih biblioteka i datoteka te upravljanje DevOps alatima. SWE-Bench je vrlo teško mjerilo i čak i najnapredniji modeli pokazuju samo skromne performanse. Na primjer, OpenAI o1 nije dosljedan na SWE-Bench Verified.

Iznenađujuće otkriće: OpenAI-jev O1 – visoko obrazloženje dosegao je samo 30% na SWE-Bench Verified – daleko ispod njihove tvrdnje od 48,9%. Još zanimljivije: Claude postiže 53% u istom okviru. Nešto nije u redu s O1-ovim “poboljšanim razmišljanjem”…?1/8 pic.twitter.com/ADLXNuKpPP

— Alejandro Cuadron (@Alex_Cuadron) 5. siječnja 2025

Samopozivno generiranje koda nalazi se negdje između jednostavnih mjerila i SWE-Bench-a. Pomaže u procjeni vrlo specifične vrste sposobnosti zaključivanja: korištenje postojećeg koda unutar modula za rješavanje složenih problema. Referentne vrijednosti koda koje se sami pozivaju mogu se pokazati kao vrlo praktična zamjena za korisnost LLM-ova u stvarnim okruženjima, gdje ljudski programeri imaju kontrolu, a AI kopiloti im pomažu u ispunjavanju specifičnih zadataka kodiranja u procesu razvoja softvera.

“HumanEval Pro i MBPP Pro pozicionirani su da služe kao vrijedna mjerila za evaluacije vezane uz kod i da nadahnu budući razvoj LLM-a rasvjetljavajući trenutne nedostatke modela i potičući inovacije u metodologijama obuke,” pišu istraživači.

Dnevni uvidi u slučajeve poslovne upotrebe uz VB Daily

Ako želite impresionirati svog šefa, VB Daily vas pokriva. Dajemo vam uvid u to što tvrtke rade s generativnom umjetnom inteligencijom, od regulatornih promjena do praktičnih implementacija, tako da možete podijeliti uvide za maksimalni ROI.

Pročitajte našu Politiku privatnosti

Hvala što ste se pretplatili. Više VB biltena pogledajte ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Upoznajte freelancing i pronađite posao
  • Kako preuzeti označene Facebook fotografije?
  • WordPress problem sa BOM znakom
  • Tvorac Dragon Agea raspravlja o borbi protiv Inquisition’s Cassandre nakon što je izvorni pisac otišao usred zlostavljanjaTvorac Dragon Agea raspravlja o borbi protiv Inquisition’s Cassandre nakon što je izvorni pisac otišao usred zlostavljanja
  • CycleQD tvrtke Sakana AI nadmašuje tradicionalne metode finog podešavanja za jezične modele s više vještinaCycleQD tvrtke Sakana AI nadmašuje tradicionalne metode finog podešavanja za jezične modele s više vještina
  • Ako ste spremni za nešto drugačije, preporučujem ovu distribuciju Linuxa početnicima i stručnjacimaAko ste spremni za nešto drugačije, preporučujem ovu distribuciju Linuxa početnicima i stručnjacima

Previous Article

Kako dim požara utječe na vaše zdravlje—i kako se zaštititi

Next Article

Openreach koristi Nokiju za uvođenje optičkog umrežavanja temeljenog na namjeri u Ujedinjenom Kraljevstvu

Posljednje objave

Njemačka država zamjenjuje Microsoft Exchange i Outlook e-poštom otvorenog koda

Samsung nudi 100 dolara trenutačne ponude novim korisnicima XR slušalica prije nego što je Upakiran

Google fotografije stvaranje kolaža dobiva velika poboljšanja

Google fotografije stvaranje kolaža dobiva velika poboljšanja

Sadržaj

  • 1 Samopozivno generiranje koda
  • 2 LLM-i imaju loše rezultate kod generiranja koda koji se sami pozivaju
  • 3 Složen krajolik

Novosti

  • Njemačka država zamjenjuje Microsoft Exchange i Outlook e-poštom otvorenog koda 15. listopada 2025
  • Samsung nudi 100 dolara trenutačne ponude novim korisnicima XR slušalica prije nego što je Upakiran 15. listopada 2025
  • Google fotografije stvaranje kolaža dobiva velika poboljšanja 14. listopada 2025
  • Assassin’s Creed Franchise olovo ostavlja Ubisoft nakon formiranja podružnice Tencent 14. listopada 2025
  • Sita otkriva prevlake za vlaknastim optičkim aerodromima 14. listopada 2025
  • Jezični modeli koji se samo usavršavaju postaju stvarnost s MIT-ovom ažuriranom tehnikom pečata 14. listopada 2025
  • Kako učiniti STEM smiješnim – i idi virusno radeći 14. listopada 2025
  • 10 Windows aplikacija otvorenog koda ne mogu živjeti – i svi su besplatni 14. listopada 2025
  • Isprobao sam pametne naočale s XMEMS zvučnicima i aktivnim hlađenjem – i puni su obećanja 13. listopada 2025
  • Moramo se približiti pokretanju Galaxy XR 13. listopada 2025

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice