Samo dodajte ljude: Oxford Medical Study naglašava vezu koja nedostaje u chatbot testiranju

Pridružite se događaju kojima vjeruje čelnici poduzeća gotovo dva desetljeća. VB Transform okuplja ljude koji grade pravu strategiju Enterprise AI. Saznati više

Naslovi ga puštaju već godinama: veliki jezični modeli (LLMS) ne mogu samo položiti ispite za medicinsku dozvolu, već i nadmašiti ljude. GPT-4 mogao bi ispravno odgovoriti na američka pitanja za licenciranje medicinskih pregleda 90% vremena, čak i u prapovijesnim AI danima 2023. godine. Od tada, LLMS je našao najbolje Stanovnici polažu te ispite i licencirani liječnici.

Pomaknite se, doktore Google, napravite mjesto za chatgpt, MD, ali možda ćete poželjeti više od diplome iz LLM -a koji implementirate za pacijente. Poput studenta medicine Ace koji može odbiti ime svake kosti u ruci, ali onesvijesti se na prvi pogled prave krvi, LLM -ovo majstorstvo medicine ne prevodi uvijek izravno u stvarni svijet.

A papir od strane istraživača na Sveučilište u Oxfordu otkrili su da iako LLM -ovi mogu ispravno identificirati relevantne uvjete 94,9% vremena kada je izravno predstavljeno sa scenarijima testa, ljudski sudionici koji koriste LLMS za dijagnosticiranje istih scenarija identificirali su ispravne uvjete manje od 34,5% vremena.

Možda još više, pacijenti koji su koristili LLM -ove izveli su još gore od kontrolne skupine koja je samo bila upućena da se dijagnosticiraju koristeći “bilo koje metode koje obično koriste kod kuće”. Grupa je prepuštena vlastitim uređajima imala je 76% veću vjerojatnost da će identificirati ispravne uvjete od grupe koju pomažu LLMS.

Studija u Oxfordu postavlja pitanja o prikladnosti LLMS -a za medicinski savjet i referentnim vrijednostima koje koristimo za procjenu razmještanja chatbota za različite primjene.

Sadržaj objave

1 Pogodite svoju bolest
2 Igra telefona
3 Ljudska varijabla
4 Bolji mjerilo
5 Korištenje AI za testiranje AI
6 Ne krivite korisnika
- 6.1 Povezani sadržaji

Pogodite svoju bolest

Predvođeni dr. Adamom Mahdijem, istraživači iz Oxforda regrutirali su 1.298 sudionika kako bi se predstavili kao pacijenti na LLM. Imali su zadatak da pokušaju shvatiti što ih je izričilo i odgovarajuću razinu skrbi kako bi to tražili, u rasponu od brige o sebi do pozivanja hitne pomoći.

Svaki je sudionik dobio detaljan scenarij, koji predstavlja uvjete od upale pluća do obične prehlade, zajedno s općim životnim detaljima i povijesti bolesti. Na primjer, jedan scenarij opisuje 20-godišnjeg studenta inženjerstva koji razvija osakaćenu glavobolju u noćnom izlasku s prijateljima. Uključuje važne medicinske detalje (bolno je gledati dolje) i crvene herrings (on je redoviti pijač, dijeli stan sa šest prijatelja i upravo je završio stresne ispite).

Studija je testirala tri različita LLM -ova. Istraživači su odabrali GPT-4O zbog svoje popularnosti, LLAMA 3 zbog svojih otvorenih utega i zapovjedništva R+ za svoje sposobnosti za pronalaženje generacije (RAP), što mu omogućava da pretraži Otvoreni web za pomoć.

Sudionici su zamoljeni da komuniciraju s LLM-om barem jednom koristeći pružene detalje, ali mogli su ga koristiti onoliko puta koliko su htjeli doći do svoje dijagnoze i namjeravanja.

Iza kulisa, tim liječnika jednoglasno je odlučio o “zlatnim standardnim” uvjetima koje su tražili u svakom scenariju i odgovarajućem tijeku akcije. Naš student inženjerstva, na primjer, pati od subarahnoidnog krvarenja, što bi trebalo podrazumijevati neposredni posjet ER -u.

Igra telefona

Iako biste mogli pretpostaviti da bi LLM koji može preispitivati medicinski pregled bio bi savršen alat koji će pomoći običnim ljudima da se samo dijagnosticiraju i shvate što da rade, to nije uspjelo na taj način. “Sudionici koji su koristili LLM identificirali su relevantne uvjete manje dosljedno od onih u kontrolnoj skupini, identificirajući barem jedan relevantni uvjet u najviše 34,5% slučajeva u usporedbi s 47,0% za kontrolu”, navodi se u studiji. Također nisu uspjeli zaključiti ispravan tijek djelovanja, odabirom samo 44,2% vremena, u usporedbi s 56,3% za LLM koji djeluje neovisno.

Što je pošlo po zlu?

Osvrnuvši se na transkripte, istraživači su otkrili da su sudionici dali nepotpune informacije LLMS -u i LLMS pogrešno protumačili njihove upute. Na primjer, jedan korisnik koji je trebao pokazati simptome žučnih kamenaca samo je rekao LLM -u: “Dobivam jake bolove u želucu koji traju do sat vremena, to me može natjerati da povraćam i čini se da se podudara s polaganjem”, izostavljajući mjesto boli, ozbiljnosti i učestalosti. Naredba R+ pogrešno je sugerirala da sudionik doživljava probavu, a sudionik je pogrešno pogodio to stanje.

Čak i kad su LLMS dostavili točne informacije, sudionici nisu uvijek slijedili njegove preporuke. Studija je utvrdila da je 65,7% razgovora GPT-4O predložilo barem jedan relevantni uvjet za scenarij, ali nekako manje od 34,5% konačnih odgovora sudionika odražavalo je te relevantne uvjete.

Ljudska varijabla

Ova je studija korisna, ali nije iznenađujuća, prema Nathalie Volkheimer, stručnjakinja za korisničko iskustvo u Renesansni računalni institut (RENCI)Sveučilište Sjeverne Karoline na brdu Chapel.

“Za one od nas koji su dovoljno stari da se sjećaju ranih dana pretraživanja interneta, ovo je déjà vu”, kaže ona. “Kao alat, veliki jezični modeli zahtijevaju da se upisuju upita s određenim stupnjem kvalitete, posebno kada očekujete kvalitetan izlaz.”

Ona ističe da netko tko doživljava zasljepljujuću bol ne bi ponudio sjajne upute. Iako sudionici u laboratorijskom eksperimentu nisu izravno imali simptome, nisu prenosili svaki detalj.

“Također postoji razlog zašto su kliničari koji se bave pacijentima na prvoj liniji osposobljeni da postavljaju pitanja na određeni način i određenu ponavljanje”, nastavlja Volkheimer. Pacijenti izostavljaju informacije jer ne znaju što je relevantno, ili u najgorem slučaju, lažu jer su neugodno ili sram.

Mogu li chatboti biti bolje dizajnirani kako bi im se obratili? “Ne bih stavio naglasak na strojeve ovdje”, upozorava Volkheimer. “Razmotrio bih da bi naglasak trebao biti na interakciji s ljudskom tehnologijom.” Automobil je, analizira, izgrađen kako bi ljude od točke A do B, ali mnogi drugi faktori igraju ulogu. “Riječ je o vozaču, cestama, vremenu i općoj sigurnosti rute. To nije samo do stroja.”

Bolji mjerilo

Studija u Oxfordu ističe jedan problem, ne s ljudima ili čak LLM -ovima, već s načinom na koji ih ponekad mjerimo – u vakuumu.

Kad kažemo da LLM može položiti test za medicinsku dozvolu, ispit za licenciranje nekretnina ili državni odvjetnički ispit, proučavamo dubine njegove baze znanja koristeći alate namijenjene procjeni ljudi. Međutim, ove mjere nam govore vrlo malo o tome kako će uspješno ovi chatboti komunicirati s ljudima.

“Uputi su bili udžbenik (kako su potvrdili izvor i medicinska zajednica), ali život i ljudi nisu udžbenik”, objašnjava dr. Volkheimer.

Zamislite poduzeće koje će implementirati podršku chatbota obučenog na svojoj internoj bazi znanja. Jedan naizgled logičan način za testiranje da bi BOT mogao jednostavno biti isti test koji tvrtka koristi za polaznike za korisničku podršku: odgovaranje na unaprijed napisana pitanja o podršci „kupca“ i odabir odgovora s više izbora. Točnost od 95% sigurno bi izgledala prilično obećavajuće.

Zatim dolazi implementacija: stvarni kupci koriste nejasne izraze, izražavaju frustraciju ili opisuju probleme na neočekivane načine. LLM, referentno samo na jasnim pitanjima, zbunjuje se i daje pogrešne ili beskorisne odgovore. Nije obučena ili procijenjena u deeskalacijskim situacijama ili učinkovito traženje pojašnjenja. Ljute kritike gomilaju se. Pokretanje je katastrofa, unatoč LLM -u koji plovi testovima koji su izgledali snažno zbog svojih ljudskih kolega.

Ova studija služi kao kritični podsjetnik za AI inženjere i stručnjake za orkestraciju: Ako je LLM dizajniran za interakciju s ljudima, oslanjanje isključivo na neinteraktivne referentne vrijednosti može stvoriti opasan lažni osjećaj sigurnosti u vezi s njegovim sposobnostima u stvarnom svijetu. Ako dizajnirate LLM za interakciju s ljudima, morate ga testirati s ljudima – a ne testovima za ljude. Ali postoji li bolji način?

Korištenje AI za testiranje AI

Istraživači u Oxfordu zaposlili su gotovo 1300 ljudi za svoje studij, ali većina poduzeća nema bazen testnih predmeta koji su sjedili okolo i čekali da se igraju s novim agentom LLM -a. Pa zašto jednostavno ne zamijeniti AI testere za ljudske testere?

Mahdi i njegov tim pokušali su i to sa simuliranim sudionicima. “Vi ste pacijent”, potaknuli su LLM, odvojeno od onog koji bi dao savjet. “Morate samoprocjenjivati svoje simptome iz dane vinjete slučaja i pomoć iz AI modela. Pojednostavite terminologiju koja se koristi u danom odlomku na jeziku laika i držite svoja pitanja ili izjave razumno kratke.” LLM je također upućen da ne koristi medicinsko znanje ili generira nove simptome.

Ovi simulirani sudionici tada su razgovarali s istim LLM -ovima koje su ljudski sudionici koristili. Ali oni su izveli puno bolje. U prosjeku, simulirani sudionici koristeći iste LLM alate prikupili su relevantne uvjete 60,7% vremena, u usporedbi s ispod 34,5% kod ljudi.

U ovom slučaju, ispada da LLM-ovi igraju ljepše s drugim LLM-ovima nego ljudi, što ih čini lošim prediktorom izvedbe u stvarnom životu.

Ne krivite korisnika

S obzirom na to da bi Scores LLM -ovi mogli postići sami, možda bi bilo primamljivo kriviti sudionike ovdje. Uostalom, u mnogim su slučajevima primili prave dijagnoze u razgovorima s LLMS -om, ali još uvijek nisu uspjeli ispravno pogoditi. Ali to bi bio glupo zaključak za bilo koji posao, upozorava Volkheimer.

“U svakom okruženju kupca, ako vaši kupci ne rade ono što želite, posljednja stvar koju radite je kriviti kupca”, kaže Volkheimer. “Prvo što učinite je pitati zašto. A ne” zašto “s vrha glave: već dubok istražni, specifični, antropološki, psihološki, ispitao” zašto “. To je tvoje polazište. “

Morate razumjeti svoju publiku, njihove ciljeve i korisničko iskustvo prije raspoređivanja chatbota, predlaže Volkheimer. Sve će to obavijestiti temeljitu, specijaliziranu dokumentaciju koja će u konačnici učiniti LLM korisnom. Bez pažljivo kuriranih materijala za trening, “ispljusnuti će neki generički odgovor koji svi mrze, zbog čega ljudi mrze chatbote”, kaže ona. Kad se to dogodi, “to nije zato što su chatboti užasni ili zato što s njima nešto tehnički nije u redu. To je zato što su stvari koje su ušli u njih loše.”

“Ljudi koji dizajniraju tehnologiju, razvijaju informacije koje će ući tamo, a procesi i sustavi su, dobro, ljudi”, kaže Volkheimer. “Oni također imaju pozadinu, pretpostavke, nedostatke i slijepe spot, kao i snage. A sve te stvari mogu se ugraditi u bilo koje tehnološko rješenje.”

Dnevni uvidi u slučajeve poslovne uporabe s VB dnevno

Ako želite impresionirati svog šefa, VB Daily vas je pokrivao. Dajemo vam unutarnju lopaticu o tome što tvrtke rade s generativnim AI, od regulatornih pomaka do praktičnih razmještaja, tako da možete dijeliti uvide za maksimalni ROI.

Pročitajte našu politiku privatnosti

Hvala na pretplati. Pogledajte više VB biltena ovdje.

Došlo je do pogreške.

Web izvor