Kas yra Simpsono paradoksas statistikoje?

A paradoksas yra teiginys ar reiškinys, kuris paviršiuje atrodo prieštaringas. Paradoksai padeda atskleisti pagrindinę tiesą, kas atrodo absurdiška. Statistikos srityje Simpsono paradoksas parodo, kokių problemų kyla derinant kelių grupių duomenis.

Turėdami visus duomenis, turime būti atsargūs. Iš kur jis atsirado? Kaip jis buvo gautas? Ir ką tai iš tikrųjų sako? Tai visi geri klausimai, kuriuos turėtume užduoti pateikdami duomenis. Labai nustebęs Simpsono paradokso atvejis mums parodo, kad kartais tai, kas atrodo, kad duomenys sakomi, iš tikrųjų nėra.

Paradokso apžvalga

Tarkime, mes stebime kelias grupes ir užmezgame ryšį arba koreliacija kiekvienai iš šių grupių. Simpsono paradoksas sako, kad kai sujungsime visas grupes kartu ir žiūrėsime į duomenis apibendrinta forma, koreliacija, kurią pastebėjome anksčiau, gali pasikeisti. Dažniausiai taip yra dėl paslėptų kintamųjų, į kuriuos nebuvo atsižvelgta, tačiau kartais taip yra dėl skaitinių duomenų verčių.

Pavyzdys

Norėdami šiek tiek labiau suprasti Simpsono paradoksą, pažvelkime į šį pavyzdį. Tam tikroje ligoninėje dirba du chirurgai. A chirurgas operuoja 100 pacientų, 95 išgyvena. B chirurgas operuojamas 80 pacientų ir 72 išgyvena. Mes svarstome, ar šioje ligoninėje būtų galima atlikti operaciją, o išgyventi po operacijos yra kažkas, kas yra svarbu. Mes norime pasirinkti geresnį iš dviejų chirurgų.

instagram viewer

Peržiūrime duomenis ir naudojame juos apskaičiuodami, koks procentas chirurgo A pacientų išgyveno po operacijų, ir palyginkime juos su chirurgo B pacientų išgyvenamumu.

  • 95 pacientai iš 100 išgyveno kartu su chirurgu A, taigi 95/100 = 95% iš jų išgyveno.
  • 72 pacientai iš 80 išgyveno su chirurgu B, taigi 72/80 = 90% jų išgyveno.

Remiantis šia analize, kurį chirurgą turėtume pasirinkti, kad mus gydytų? Atrodytų, kad chirurgas A yra saugesnis statymas. Bet ar tai tikrai tiesa?

O kas, jei mes atliktume papildomą duomenų tyrimą ir išsiaiškintume, kad iš pradžių ligoninė svarstė dviejų skirtingų tipų operacijas, bet tada visus duomenis kartu pateikite ir pateikite apie kiekvieną iš jų chirurgai. Ne visos operacijos yra lygios, kai kurios buvo laikomos didelės rizikos skubios chirurgijos operacijomis, o kitos buvo įprastesnio pobūdžio, kuri buvo suplanuota iš anksto.

Iš 100 pacientų, gydytų chirurgu A, 50 buvo didelės rizikos, iš kurių trys mirė. Kiti 50 buvo laikomi įprastiniais, o iš jų 2 mirė. Tai reiškia, kad atliekant įprastinę operaciją chirurgo A gydomo paciento išgyvenamumas yra 48/50 = 96%.

Dabar atidžiau žiūrime į chirurgo B duomenis ir nustatėme, kad iš 80 pacientų iš 40 buvo didelė rizika, iš kurių septyni mirė. Kiti 40 buvo įprasti ir tik vienas mirė. Tai reiškia, kad paciento išgyvenamumas 39/40 = 97,5% atliekant įprastinę operaciją su chirurgu B.

Dabar kuris chirurgas atrodo geresnis? Jei jūsų operacija turi būti įprasta, tada chirurgas B iš tikrųjų yra geresnis chirurgas. Jei pažiūrėsime į visas chirurgų atliekamas operacijas, A yra geriau. Tai gana prieštaringa. Tokiu atveju paslėptas operacijos tipo kintamasis turi įtakos jungtiniams chirurgų duomenims.

Simpsono paradokso istorija

Simpsono paradoksas pavadintas Edvardo Simpsono, kuris pirmą kartą aprašė šį paradoksą 1951 m. Karališkosios statistikos draugijos žurnalas. Pearsonas ir Yule kiekvienas pastebėjo panašų paradoksą pusmečiu anksčiau nei Simpsonas, todėl Simpsono paradoksas kartais dar vadinamas Simpson-Yule efektu.

Yra daugybė įvairių paradokso taikymo sričių, tokių kaip sporto statistika ir kt nedarbo duomenys. Bet kada, kai duomenys kaupiami, stebėkite, ar pasirodys šis paradoksas.