Oblak Znanja

  • Home
  • Novosti
  • Učionica
    • Informatika 5
    • Informatika 6
    • Informatika 7
    • Informatika 8
    • Logo jezik
    • WordPress
    • Microsoft Office
  • Vodiči
    • Online vodiči
    • Kratki savjeti
    • Korisne aplikacije
    • Društvene mreže
    • Multimedija
    • Zanimljivosti
✕

Samo dodajte ljude: Oxford Medical Study naglašava vezu koja nedostaje u chatbot testiranju

Novosti

Samo dodajte ljude: Oxford Medical Study naglašava vezu koja nedostaje u chatbot testiranju

Tomšić Damjan 14. lipnja 2025


Pridružite se događaju kojima vjeruje čelnici poduzeća gotovo dva desetljeća. VB Transform okuplja ljude koji grade pravu strategiju Enterprise AI. Saznati više


Naslovi ga puštaju već godinama: veliki jezični modeli (LLMS) ne mogu samo položiti ispite za medicinsku dozvolu, već i nadmašiti ljude. GPT-4 mogao bi ispravno odgovoriti na američka pitanja za licenciranje medicinskih pregleda 90% vremena, čak i u prapovijesnim AI danima 2023. godine. Od tada, LLMS je našao najbolje Stanovnici polažu te ispite i licencirani liječnici.

Pomaknite se, doktore Google, napravite mjesto za chatgpt, MD, ali možda ćete poželjeti više od diplome iz LLM -a koji implementirate za pacijente. Poput studenta medicine Ace koji može odbiti ime svake kosti u ruci, ali onesvijesti se na prvi pogled prave krvi, LLM -ovo majstorstvo medicine ne prevodi uvijek izravno u stvarni svijet.

A papir od strane istraživača na Sveučilište u Oxfordu otkrili su da iako LLM -ovi mogu ispravno identificirati relevantne uvjete 94,9% vremena kada je izravno predstavljeno sa scenarijima testa, ljudski sudionici koji koriste LLMS za dijagnosticiranje istih scenarija identificirali su ispravne uvjete manje od 34,5% vremena.

Možda još više, pacijenti koji su koristili LLM -ove izveli su još gore od kontrolne skupine koja je samo bila upućena da se dijagnosticiraju koristeći “bilo koje metode koje obično koriste kod kuće”. Grupa je prepuštena vlastitim uređajima imala je 76% veću vjerojatnost da će identificirati ispravne uvjete od grupe koju pomažu LLMS.

Studija u Oxfordu postavlja pitanja o prikladnosti LLMS -a za medicinski savjet i referentnim vrijednostima koje koristimo za procjenu razmještanja chatbota za različite primjene.

Sadržaj objave

  • 1 Pogodite svoju bolest
  • 2 Igra telefona
  • 3 Ljudska varijabla
  • 4 Bolji mjerilo
  • 5 Korištenje AI za testiranje AI
  • 6 Ne krivite korisnika
    • 6.1 Povezani sadržaji

Pogodite svoju bolest

Predvođeni dr. Adamom Mahdijem, istraživači iz Oxforda regrutirali su 1.298 sudionika kako bi se predstavili kao pacijenti na LLM. Imali su zadatak da pokušaju shvatiti što ih je izričilo i odgovarajuću razinu skrbi kako bi to tražili, u rasponu od brige o sebi do pozivanja hitne pomoći.

Svaki je sudionik dobio detaljan scenarij, koji predstavlja uvjete od upale pluća do obične prehlade, zajedno s općim životnim detaljima i povijesti bolesti. Na primjer, jedan scenarij opisuje 20-godišnjeg studenta inženjerstva koji razvija osakaćenu glavobolju u noćnom izlasku s prijateljima. Uključuje važne medicinske detalje (bolno je gledati dolje) i crvene herrings (on je redoviti pijač, dijeli stan sa šest prijatelja i upravo je završio stresne ispite).

Studija je testirala tri različita LLM -ova. Istraživači su odabrali GPT-4O zbog svoje popularnosti, LLAMA 3 zbog svojih otvorenih utega i zapovjedništva R+ za svoje sposobnosti za pronalaženje generacije (RAP), što mu omogućava da pretraži Otvoreni web za pomoć.

Sudionici su zamoljeni da komuniciraju s LLM-om barem jednom koristeći pružene detalje, ali mogli su ga koristiti onoliko puta koliko su htjeli doći do svoje dijagnoze i namjeravanja.

Iza kulisa, tim liječnika jednoglasno je odlučio o “zlatnim standardnim” uvjetima koje su tražili u svakom scenariju i odgovarajućem tijeku akcije. Naš student inženjerstva, na primjer, pati od subarahnoidnog krvarenja, što bi trebalo podrazumijevati neposredni posjet ER -u.

Igra telefona

Iako biste mogli pretpostaviti da bi LLM koji može preispitivati ​​medicinski pregled bio bi savršen alat koji će pomoći običnim ljudima da se samo dijagnosticiraju i shvate što da rade, to nije uspjelo na taj način. “Sudionici koji su koristili LLM identificirali su relevantne uvjete manje dosljedno od onih u kontrolnoj skupini, identificirajući barem jedan relevantni uvjet u najviše 34,5% slučajeva u usporedbi s 47,0% za kontrolu”, navodi se u studiji. Također nisu uspjeli zaključiti ispravan tijek djelovanja, odabirom samo 44,2% vremena, u usporedbi s 56,3% za LLM koji djeluje neovisno.

Što je pošlo po zlu?

Osvrnuvši se na transkripte, istraživači su otkrili da su sudionici dali nepotpune informacije LLMS -u i LLMS pogrešno protumačili njihove upute. Na primjer, jedan korisnik koji je trebao pokazati simptome žučnih kamenaca samo je rekao LLM -u: “Dobivam jake bolove u želucu koji traju do sat vremena, to me može natjerati da povraćam i čini se da se podudara s polaganjem”, izostavljajući mjesto boli, ozbiljnosti i učestalosti. Naredba R+ pogrešno je sugerirala da sudionik doživljava probavu, a sudionik je pogrešno pogodio to stanje.

Čak i kad su LLMS dostavili točne informacije, sudionici nisu uvijek slijedili njegove preporuke. Studija je utvrdila da je 65,7% razgovora GPT-4O predložilo barem jedan relevantni uvjet za scenarij, ali nekako manje od 34,5% konačnih odgovora sudionika odražavalo je te relevantne uvjete.

Ljudska varijabla

Ova je studija korisna, ali nije iznenađujuća, prema Nathalie Volkheimer, stručnjakinja za korisničko iskustvo u Renesansni računalni institut (RENCI)Sveučilište Sjeverne Karoline na brdu Chapel.

“Za one od nas koji su dovoljno stari da se sjećaju ranih dana pretraživanja interneta, ovo je déjà vu”, kaže ona. “Kao alat, veliki jezični modeli zahtijevaju da se upisuju upita s određenim stupnjem kvalitete, posebno kada očekujete kvalitetan izlaz.”

Ona ističe da netko tko doživljava zasljepljujuću bol ne bi ponudio sjajne upute. Iako sudionici u laboratorijskom eksperimentu nisu izravno imali simptome, nisu prenosili svaki detalj.

“Također postoji razlog zašto su kliničari koji se bave pacijentima na prvoj liniji osposobljeni da postavljaju pitanja na određeni način i određenu ponavljanje”, nastavlja Volkheimer. Pacijenti izostavljaju informacije jer ne znaju što je relevantno, ili u najgorem slučaju, lažu jer su neugodno ili sram.

Mogu li chatboti biti bolje dizajnirani kako bi im se obratili? “Ne bih stavio naglasak na strojeve ovdje”, upozorava Volkheimer. “Razmotrio bih da bi naglasak trebao biti na interakciji s ljudskom tehnologijom.” Automobil je, analizira, izgrađen kako bi ljude od točke A do B, ali mnogi drugi faktori igraju ulogu. “Riječ je o vozaču, cestama, vremenu i općoj sigurnosti rute. To nije samo do stroja.”

Bolji mjerilo

Studija u Oxfordu ističe jedan problem, ne s ljudima ili čak LLM -ovima, već s načinom na koji ih ponekad mjerimo – u vakuumu.

Kad kažemo da LLM može položiti test za medicinsku dozvolu, ispit za licenciranje nekretnina ili državni odvjetnički ispit, proučavamo dubine njegove baze znanja koristeći alate namijenjene procjeni ljudi. Međutim, ove mjere nam govore vrlo malo o tome kako će uspješno ovi chatboti komunicirati s ljudima.

“Uputi su bili udžbenik (kako su potvrdili izvor i medicinska zajednica), ali život i ljudi nisu udžbenik”, objašnjava dr. Volkheimer.

Zamislite poduzeće koje će implementirati podršku chatbota obučenog na svojoj internoj bazi znanja. Jedan naizgled logičan način za testiranje da bi BOT mogao jednostavno biti isti test koji tvrtka koristi za polaznike za korisničku podršku: odgovaranje na unaprijed napisana pitanja o podršci „kupca“ i odabir odgovora s više izbora. Točnost od 95% sigurno bi izgledala prilično obećavajuće.

Zatim dolazi implementacija: stvarni kupci koriste nejasne izraze, izražavaju frustraciju ili opisuju probleme na neočekivane načine. LLM, referentno samo na jasnim pitanjima, zbunjuje se i daje pogrešne ili beskorisne odgovore. Nije obučena ili procijenjena u deeskalacijskim situacijama ili učinkovito traženje pojašnjenja. Ljute kritike gomilaju se. Pokretanje je katastrofa, unatoč LLM -u koji plovi testovima koji su izgledali snažno zbog svojih ljudskih kolega.

Ova studija služi kao kritični podsjetnik za AI inženjere i stručnjake za orkestraciju: Ako je LLM dizajniran za interakciju s ljudima, oslanjanje isključivo na neinteraktivne referentne vrijednosti može stvoriti opasan lažni osjećaj sigurnosti u vezi s njegovim sposobnostima u stvarnom svijetu. Ako dizajnirate LLM za interakciju s ljudima, morate ga testirati s ljudima – a ne testovima za ljude. Ali postoji li bolji način?

Korištenje AI za testiranje AI

Istraživači u Oxfordu zaposlili su gotovo 1300 ljudi za svoje studij, ali većina poduzeća nema bazen testnih predmeta koji su sjedili okolo i čekali da se igraju s novim agentom LLM -a. Pa zašto jednostavno ne zamijeniti AI testere za ljudske testere?

Mahdi i njegov tim pokušali su i to sa simuliranim sudionicima. “Vi ste pacijent”, potaknuli su LLM, odvojeno od onog koji bi dao savjet. “Morate samoprocjenjivati ​​svoje simptome iz dane vinjete slučaja i pomoć iz AI modela. Pojednostavite terminologiju koja se koristi u danom odlomku na jeziku laika i držite svoja pitanja ili izjave razumno kratke.” LLM je također upućen da ne koristi medicinsko znanje ili generira nove simptome.

Ovi simulirani sudionici tada su razgovarali s istim LLM -ovima koje su ljudski sudionici koristili. Ali oni su izveli puno bolje. U prosjeku, simulirani sudionici koristeći iste LLM alate prikupili su relevantne uvjete 60,7% vremena, u usporedbi s ispod 34,5% kod ljudi.

U ovom slučaju, ispada da LLM-ovi igraju ljepše s drugim LLM-ovima nego ljudi, što ih čini lošim prediktorom izvedbe u stvarnom životu.

Ne krivite korisnika

S obzirom na to da bi Scores LLM -ovi mogli postići sami, možda bi bilo primamljivo kriviti sudionike ovdje. Uostalom, u mnogim su slučajevima primili prave dijagnoze u razgovorima s LLMS -om, ali još uvijek nisu uspjeli ispravno pogoditi. Ali to bi bio glupo zaključak za bilo koji posao, upozorava Volkheimer.

“U svakom okruženju kupca, ako vaši kupci ne rade ono što želite, posljednja stvar koju radite je kriviti kupca”, kaže Volkheimer. “Prvo što učinite je pitati zašto. A ne” zašto “s vrha glave: već dubok istražni, specifični, antropološki, psihološki, ispitao” zašto “. To je tvoje polazište. “

Morate razumjeti svoju publiku, njihove ciljeve i korisničko iskustvo prije raspoređivanja chatbota, predlaže Volkheimer. Sve će to obavijestiti temeljitu, specijaliziranu dokumentaciju koja će u konačnici učiniti LLM korisnom. Bez pažljivo kuriranih materijala za trening, “ispljusnuti će neki generički odgovor koji svi mrze, zbog čega ljudi mrze chatbote”, kaže ona. Kad se to dogodi, “to nije zato što su chatboti užasni ili zato što s njima nešto tehnički nije u redu. To je zato što su stvari koje su ušli u njih loše.”

“Ljudi koji dizajniraju tehnologiju, razvijaju informacije koje će ući tamo, a procesi i sustavi su, dobro, ljudi”, kaže Volkheimer. “Oni također imaju pozadinu, pretpostavke, nedostatke i slijepe spot, kao i snage. A sve te stvari mogu se ugraditi u bilo koje tehnološko rješenje.”

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.



Web izvor

Povezani sadržaji

  • Why Meta bought Manus — and what it signals for your enterprise AI agent strategy
  • T-Mobile će vam dati besplatan iPhone 17, nije potrebna zamjena – evo kako ga dobitiT-Mobile će vam dati besplatan iPhone 17, nije potrebna zamjena – evo kako ga dobiti
  • AI koja je postigla 95% — dok konzultanti nisu saznali da je to AIAI koja je postigla 95% — dok konzultanti nisu saznali da je to AI
  • USB memorijaBrzim odspajanjem sigurno uklonite USB memoriju [SAVJET]
  • Era agentske umjetne inteligencije zahtijeva strukturu podataka, a ne bolje upute
  • MX vlakna proširuju gigabitni pristup širom jugoistočnog Meksika s optičkom mrežomMX vlakna proširuju gigabitni pristup širom jugoistočnog Meksika s optičkom mrežom

Previous Article

Drvene mlinice peleta sklone su vatri. Zašto ih graditi u Kaliforniji?

Next Article

Salesforce Marketing Cloud Next zapošljava više agenata, CDP

Posljednje objave

Ova nova Linux radna površina radi poput aplikacije na vašoj postojećoj radnoj površini – i toplo je preporučujem

Ovaj Bluetooth Auracast prijamnik natjerao me da svoje postavljanje kućnog kina shvatim mnogo ozbiljnije

Odaberite Samsung račune Pogledajte Crazy Good Galaxy Watch 8 ponude

Odaberite Samsung račune Pogledajte Crazy Good Galaxy Watch 8 ponude

Sadržaj

  • 1 Pogodite svoju bolest
  • 2 Igra telefona
  • 3 Ljudska varijabla
  • 4 Bolji mjerilo
  • 5 Korištenje AI za testiranje AI
  • 6 Ne krivite korisnika

Novosti

  • Ova nova Linux radna površina radi poput aplikacije na vašoj postojećoj radnoj površini – i toplo je preporučujem 7. veljače 2026
  • Ovaj Bluetooth Auracast prijamnik natjerao me da svoje postavljanje kućnog kina shvatim mnogo ozbiljnije 7. veljače 2026
  • Odaberite Samsung račune Pogledajte Crazy Good Galaxy Watch 8 ponude 7. veljače 2026
  • Segin film The House Of The Dead dobio je The Last of Us glavnu ulogu 7. veljače 2026
  • Virgin Media O2 ubrzava automatizaciju u mobilnoj mreži 6. veljače 2026
  • Kako je prijevara pri zapošljavanju pretvorila IAM u oblaku u površinu za napad od 2 milijarde dolara 6. veljače 2026
  • Zaposlenici u javnom zdravstvu daju otkaz zbog posla u Guantánamo 6. veljače 2026
  • Nakon desetljeća na Linuxu, FreeBSD mi je konačno dao razlog da promijenim operativni sustav 6. veljače 2026
  • Sony protiv Bosea nije neriješeno kada su u pitanju otvorene slušalice – evo po čemu se razlikuju 6. veljače 2026
  • Samsung se smije Galaxy Z Fold 7 zaradi s 400 USD popusta 6. veljače 2026

O nama

Oblak Znanja je blog edukativnog karaktera i namijenjen je svima koji žele unaprijediti svoje znanje iz područja računala i interneta.

Naš cilj je edukacija i pisanje zanimljivih objava kojima ćemo zajedno učiti i informirati se o svijetu informatike.

Na ovom blogu zabranjeno je svako kopiranje sadržaja bez dozvole autora.

Oblak Znanja

Oznake

besplatni powerpoint predlošci društvene mreže excel facebook firefox gmail google+ Google Chrome halloween halloween walpapers internet kartice linkedin profil linux microsoft Mozilla Firefox ms powerpoint oblak znanja office 2007 office savjeti online kupovina pick powerpoint powerpoint predložak powerpoint savjeti rastući niz savjet slike za radnu površinu spremanje datoteka strani jezik tipkovnicke kratice twitter twitter alati uređivanje slika wallpaper clock web preglednik windows windows 7 windows aplikacije windows vista word word 2007 word savjeti youtube savjeti youtube tipkovničke kratice