Daugybę kartų tyrinėdami grupę, mes iš tikrųjų lyginame dvi populiacijas. Priklausomai nuo parametras Yra keli būdai šios grupės, kuri mus domina, ir sąlygų, su kuriomis susiduriame, yra keletas metodų. Statistinis išvados procedūros, susijusios su dviejų populiacijų palyginimu, paprastai negali būti taikomos trims ar daugiau populiacijų. Norėdami ištirti daugiau nei dvi populiacijas vienu metu, mums reikia įvairių tipų statistinių priemonių. Dispersijos analizė, arba ANOVA, yra statistinių trukdžių metodas, leidžiantis mums susidoroti su keliomis populiacijomis.
Priemonių palyginimas
Norėdami pamatyti, kokios problemos kyla ir kodėl mums reikalinga ANOVA, nagrinėsime pavyzdį. Tarkime, kad mes bandome nustatyti, ar reiškia Žali, raudoni, mėlyni ir oranžiniai „M&M“ saldainių svoriai skiriasi. Mes nurodysime vidutinį kiekvienos iš šių populiacijų svorį, μ1, μ2, μ3 μ4 ir atitinkamai. Mes galime naudoti atitinkamą hipotezės testas kelis kartus ir išbandykite C (4,2) arba šešis skirtingus niekinės hipotezės:
- H0: μ1 = μ2 patikrinti, ar vidutinis raudonųjų saldainių populiacijos svoris skiriasi nuo vidutinio mėlynųjų saldainių populiacijos svorio.
- H0: μ2 = μ3 patikrinti, ar vidutinis mėlynių saldainių populiacijos svoris skiriasi nuo žaliųjų saldainių populiacijos vidutinio svorio.
- H0: μ3 = μ4 patikrinti, ar žaliųjų saldainių populiacijos vidutinis svoris skiriasi nuo oranžinių saldainių populiacijos vidutinio svorio.
- H0: μ4 = μ1 patikrinti, ar vidutinis oranžinių saldainių populiacijos svoris skiriasi nuo raudonųjų saldainių populiacijos vidutinio svorio.
- H0: μ1 = μ3 patikrinti, ar vidutinis raudonųjų saldainių populiacijos svoris skiriasi nuo žaliųjų saldainių populiacijos vidutinio svorio.
- H0: μ2 = μ4 norėdami patikrinti, ar vidutinis mėlynių saldainių gyventojų svoris skiriasi nuo vidutinio oranžinių saldainių populiacijos svorio.
Su tokia analize yra daug problemų. Turėsime šešis pvertės. Net jei kiekvienas galime išbandyti 95 proc. pasitikėjimo lygis, mūsų pasitikėjimas visu procesu yra mažesnis nei šis, nes tikimybės dauginasi: .95 x .95 x .95 x .95 x .95 x .95 yra maždaug .74 arba 74% pasitikėjimo lygiu. Taigi padidėjo I tipo klaidų tikimybė.
Svarbesniame lygmenyje negalime palyginti visų šių keturių parametrų, palygindami juos du vienu metu. Raudonos ir mėlynos spalvos M & Ms reikšmė gali būti reikšminga, o raudonos spalvos vidutinis svoris yra santykinai didesnis už vidutinį mėlynos spalvos svorį. Tačiau kai atsižvelgsime į visų keturių rūšių saldainių vidutinį svorį, reikšmingo skirtumo gali nebūti.
Dispersijos analizė
Norėdami susidoroti su situacijomis, kuriose turime atlikti daugybę palyginimų, naudojame ANOVA. Šis testas leidžia mums atsižvelgti į kelių populiacijų parametrus vienu metu, neįsigilinant į kai kurias problemas, su kuriomis susiduriame atliekant hipotezinius testus dviem parametrais vienu metu.
Norėdami atlikti ANOVA naudodami aukščiau pateiktą M&M pavyzdį, patikrintume niekinę H hipotezę0:μ1 = μ2 = μ3= μ4. Tai teigia, kad nėra skirtumo tarp raudonos, mėlynos ir žalios M & Ms vidutinio svorio. Alternatyvi hipotezė yra, kad yra šiek tiek skiriasi raudonos, mėlynos, žalios ir oranžinės spalvos M & Ms vidutinis svoris. Ši hipotezė iš tikrųjų yra kelių teiginių derinys Ha:
- Raudonųjų saldainių populiacijos vidutinis svoris nėra lygus mėlynųjų saldainių populiacijos vidutiniam svoriui, OR
- Vidutinis mėlynių saldainių populiacijos svoris nėra lygus žalių saldainių populiacijos vidutiniam svoriui, ARBA
- Vidutinis žalių saldainių populiacijos svoris nėra lygus oranžinių saldainių populiacijos vidutiniam svoriui, ARBA
- Vidutinis žalių saldainių populiacijos svoris nėra lygus raudonųjų saldainių populiacijos vidutiniam svoriui, ARBA
- Vidutinis mėlynių saldainių populiacijos svoris nėra lygus oranžinių saldainių populiacijos vidutiniam svoriui, OR
- Vidutinis mėlynių saldainių populiacijos svoris nėra lygus raudonųjų saldainių populiacijos vidutiniam svoriui.
Šiuo konkrečiu atveju norėdami gauti savo p vertę, mes panaudosime a tikimybės pasiskirstymas žinomas kaip F paskirstymas. Skaičiavimus, susijusius su ANOVA F testu, galima atlikti rankiniu būdu, tačiau paprastai jie apskaičiuojami naudojant statistinę programinę įrangą.
Keli palyginimai
ANOVA nuo kitų statistinių metodų išskiria tai, kad jis naudojamas keliems palyginimams. Tai yra įprasta visoje statistikoje, nes daug kartų norime palyginti ne tik dvi grupes. Paprastai bendras testas rodo, kad yra kokių nors skirtumų tarp mūsų tiriamų parametrų. Tada atliksime šį testą su kita analize, kad nuspręstume, kuris parametras skiriasi.