Fisher nije dobro preuzeo Neyman i Pearsonove kritike. Kao odgovor, njihove metode nazvao je “djetinjastim” i “apsurdno akademskim”. Konkretno, Fisher se nije složio s idejom da odluči između dvije hipoteze, umjesto da izračuna “značaj” dostupnih dokaza, kao što je predložio. Dok je odluka konačna, njegovi testovi značaja dali su samo privremeno mišljenje, koje bi se moglo kasnije revidirati. Unatoč tome, Fisherova privlačnost za otvorenim znanstvenim umom bila je donekle potkopana njegovim inzistiranjem da bi istraživači trebali upotrijebiti odsječak od 5 posto za “značajnu” p-vrijednost i njegovu tvrdnju da će “u potpunosti zanemariti sve rezultate koji ne uspije dostići ovu razinu”.
Acrimonija bi ustupila mjesto desetljećima dvosmislenosti, jer su udžbenici postupno zbrkali Fisherovu nultu testiranje hipoteza s Neymanom i Pearsonovim pristupom utemeljenim na odluci. Nijansirana rasprava o tome kako protumačiti dokaze, raspravom o statističkom rasuđivanju i dizajnu eksperimenata, umjesto toga postala je skup fiksnih pravila za studente.
Glavna znanstvena istraživanja oslanjala bi se na pojednostavljene pragove p-vrijednosti i odluke istinitosti ili lagane o hipotezama. U ovom svijetu učenje, eksperimentalni učinci bili su prisutni ili nisu bili. Lijekovi su ili radili ili nisu. Tek 1980 -ih, glavni medicinski časopisi konačno su se počeli raspadati od ovih navika.
Ironično je da se velik dio pomaka može pratiti do ideje koju je Neyman skovao početkom 1930 -ih. Budući da se gospodarstva bore u velikoj depresiji, primijetio je da postoji sve veća potražnja za statističkim uvidom u živote stanovništva. Nažalost, na raspolaganju su ograničeni resursi za vlade za proučavanje ovih problema. Političari su željeli rezultate u mjesecima – ili čak tjednima – i nije bilo dovoljno vremena ili novca za sveobuhvatnu studiju. Kao rezultat toga, statističari su se morali osloniti na uzorkovanje malog podskupina stanovništva. Ovo je bila prilika za razvoj nekih novih statističkih ideja. Pretpostavimo da želimo procijeniti određenu vrijednost, poput udjela stanovništva koji imaju djecu. Ako smo nasumično uzorkovali 100 odraslih osoba i nijedan od njih nije roditelji, što to sugerira u vezi s zemljom? Ne možemo definitivno reći da nitko nema dijete, jer ako bismo uzorkovali drugu skupinu od 100 odraslih, možda ćemo naći neke roditelje. Stoga nam treba način mjerenja koliko bismo trebali biti sigurni u svoju procjenu. Ovdje je ušla Neymanova inovacija. Pokazao je da možemo izračunati “interval pouzdanosti” za uzorak koji nam govori koliko često bismo trebali očekivati da će istinska vrijednost populacije ležati u određenom rasponu.
Intervali pouzdanosti mogu biti sklizak koncept, s obzirom na to da zahtijevaju da tumačimo opipljive podatke iz stvarnog života zamišljajući mnoge druge hipotetičke uzorke koji se prikupljaju. Kao i one tipa I i Tip II, Neymanovi intervali pouzdanosti bave se važnim pitanjem, samo na način koji često zbunjuje studente i istraživače. Unatoč tim konceptualnim preprekama, postoji vrijednost u mjerenju koje u studiji može uhvatiti nesigurnost. Često je primamljivo – posebno u medijima i politici – da se usredotoči na jednu prosječnu vrijednost. Jedna vrijednost može se osjećati samouvjerenije i preciznije, ali u konačnici je to iluzorni zaključak. U nekim od naših epidemiološke analize okrenute javnosti, moji kolege i ja smo odlučili prijaviti samo intervale pouzdanosti, kako bi se izbjegla pogrešna pažnja koja je pala na određene vrijednosti.
Od 1980-ih, medicinski časopisi stavljaju više usredotočenosti na intervale pouzdanosti, a ne na samostalne tvrdnje istinitosti ili lagane. Međutim, navike se može teško slomiti. Odnos između intervala pouzdanosti i p-vrijednosti nije pomogao. Pretpostavimo da je naša nulta hipoteza da tretman ima nulti učinak. Ako naš procijenjeni interval pouzdanosti od 95 posto za učinak ne sadrži nulu, tada će p-vrijednost biti manja od 5 posto, a na temelju Fisherovog pristupa, odbacit ćemo nultu hipotezu. Kao rezultat toga, medicinski papiri često su manje zainteresirani za sam interval neizvjesnosti, a umjesto toga više zainteresirani za vrijednosti koje to čini – ili to ne sastoji. Medicina se možda pokušava nadići Fisher, ali utjecaj njegovog proizvoljnog odsjeka od 5 posto ostaje.
Odlomak prilagođen iz Dokaz: neizvjesna znanost o sigurnosti,, autor Adam Kucharski. Objavio Profile Books 20. ožujka 2025. u Velikoj Britaniji.


