Vieną dieną per pietus jauna moteris suvalgė didelį dubenį ledų, o kolegės dėstytojas nuėjo prie jos ir pasakė: „Geriau būk atsargus, statistiniskoreliacija tarp ledų ir skandinimo. “ Ji turėjo atrodyti supainiota, kai jis dar detalizavo. „Dienos, kuriose parduodama daugiausia ledų, nuskęsta daugiausia žmonių“.
Kai ji baigė gaminti mano ledus, du kolegos aptarė faktą, kad vien todėl, kad vienas kintamasis yra statistiškai susijęs su kitu, dar nereiškia, kad vienas yra kito priežastis. Kartais fone slepiasi kintamasis. Šiuo atveju duomenyse slepiasi metų diena. Karščiomis vasaros dienomis parduodama daugiau ledų nei žiemą snieguotų. Daugiau žmonių maudosi vasarą, taigi vasarą labiau nuskęsta nei žiemą.
Saugokitės paslėptų kintamųjų
Aukščiau pateiktas anekdotas yra puikus to, kas vadinama klastingu kintamuoju, pavyzdys. Kaip rodo jo pavadinimas, paslėptas kintamasis gali būti nemandagus ir sunkiai aptinkamas. Kai pastebime, kad du skaitmeniniai duomenų rinkiniai yra stipriai koreliuojami, visada turėtume paklausti: „Ar gali būti kažkas kito, kas sukelia šiuos ryšius?“
Šie pavyzdžiai rodo stiprią koreliaciją, kurią sukelia paslėptas kintamasis:
- Vidutinis kompiuteris, tenkantis vienam asmeniui šalyje, ir vidutinė gyvenimo trukmė toje šalyje.
- Gaisrininkų skaičius gaisro metu ir gaisro padaryta žala.
- Pradinių klasių mokinio ūgis ir jo skaitymo lygis.
Visais šiais atvejais ryšys tarp kintamųjų yra labai stiprus. Paprastai tai žymima a koreliacijos koeficientas kurios vertė artima 1 arba -1. Nesvarbu, koks artimas šis koreliacijos koeficientas yra 1 ar -1, ši statistika negali parodyti, kad vienas kintamasis yra kito kintamojo priežastis.
Paslėptų kintamųjų aptikimas
Dėl savo pobūdžio apgaulingus kintamuosius sunku nustatyti. Viena iš strategijų, jei tokių yra, yra ištirti, kas su duomenimis atsitinka bėgant laikui. Tai gali atskleisti sezonines tendencijas, tokias kaip ledų pavyzdys, kurios tampa neaiškios, kai kaupiami duomenys. Kitas metodas yra pažvelgti pašaliniai ir pabandykite nustatyti, kuo jie skiriasi nuo kitų duomenų. Kartais tai pateikia užuominą į tai, kas vyksta užkulisiuose. Geriausias būdas yra būti iniciatyviam; klauskite prielaidų ir atidžiai eksperimentuokite.
Kodėl tai svarbu?
Atidarymo scenarijuje tarkime, kad geranoriška, tačiau statistiškai neinformuota kongresmenė pasiūlė uždrausti visus ledus, kad būtų išvengta nuskendimo. Toks įstatymas sukeltų nepatogumų dideliems gyventojų sluoksniams, priverstų keletą bendrovių bankrutuoti ir panaikintų tūkstančius darbo vietų, kai šalies ledų pramonė būtų uždaryta. Nepaisant geriausių ketinimų, šis įstatymo projektas nesumažins skęstančių mirčių skaičiaus.
Jei šis pavyzdys atrodo šiek tiek per daug patrauklus, pagalvokite apie tai, kas iš tikrųjų atsitiko. Šeštojo dešimtmečio pradžioje gydytojai pastebėjo, kad kai kurie kūdikiai mįslingai miršta miegant nuo suvokiamų kvėpavimo problemų. Tai buvo vadinama lovelės mirtimi ir dabar žinoma kaip SIDS. Nuo SIDS mirusių asmenų skrodimų nepaisė padidėjęs užkrūčio liauka, krūtinėje esanti liauka. Remdamiesi SIDS kūdikių padidėjusių užkrūčio liaukų koreliacija, gydytojai padarė prielaidą, kad neįprastai didelis užkrūčio liauka sukėlė netinkamą kvėpavimą ir mirtį.
Siūlomas sprendimas buvo sutraukti užkrūčio ląstą dideliu radiacijos laipsniu arba visiškai pašalinti liauką. Šios procedūros turėjo aukštą mirtingumą ir lėmė dar daugiau mirčių. Liūdna tik tai, kad šios operacijos nebūtinai turėjo būti atliktos. Vėliau atlikti tyrimai parodė, kad šie gydytojai klydo savo prielaidose ir kad užkrūčio liauka nėra atsakinga už SIDS.
Koreliacija nereiškia priežasties
Tai, kas išdėstyta pirmiau, turėtų priversti mus padaryti pertrauką, kai manome, kad statistiniai įrodymai yra naudojami tokiems dalykams kaip medicininis režimas, įstatymai ir švietimo pasiūlymai pateisinti. Svarbu, kad interpretuojant duomenis būtų padaryta daug pastangų, ypač jei rezultatai, susiję su koreliacija, paveiks kitų gyvenimus.
Kai kas nors pareiškia: „Tyrimai rodo, kad A yra B priežastis, o kai kurie statistiniai duomenys tai sukuria“, būkite pasirengę atsakymas: „koreliacija nereiškia priežastinio ryšio“. Visada stebėkite, kas slypi po duomenys.