Tinkamo tinkamumo testo pavyzdys

chi-kvadrato tinkamumo testas yra naudinga palyginti a teorinis modelis į stebimus duomenis. Šis testas yra bendro pobūdžio chi-kvadrato testas. Kaip ir bet kurioje matematikos ar statistikos temoje, gali būti naudinga pasitelkti pavyzdį, kad suprastum, kas vyksta, pateikdamas chi-kvadrato tinkamumo testo pavyzdį.

Apsvarstykite standartinį pieno šokolado „M & Ms“ paketą. Yra šešios skirtingos spalvos: raudona, oranžinė, geltona, žalia, mėlyna ir ruda. Tarkime, kad mums įdomu paskirstyti šias spalvas ir paklauskite, ar visos šešios spalvos pasireiškia lygiomis dalimis? Tai yra klausimas, į kurį galima atsakyti atlikus tinkamumo testą.

Nustatymas

Pirmiausia atkreipiame dėmesį į nustatymą ir kodėl tinkamumo testas yra tinkamas. Mūsų spalvos kintamasis yra kategoriškas. Yra du šio kintamojo lygiai, atitinkantys šešias galimas spalvas. Mes manysime, kad M & Ms, kuriuos mes skaičiuojame, bus paprasta atsitiktinė imtis iš visų M & Ms populiacijos.

Nulinė ir alternatyvi hipotezės

niekinės ir alternatyvios hipotezės

instagram viewer
mūsų tinkamumo testas atspindi prielaidą, kurią darome dėl gyventojų. Kadangi mes tikrinome, ar spalvos pasireiškia lygiomis proporcijomis, mūsų niekinė hipotezė bus, kad visos spalvos atsiranda vienodomis proporcijomis. Formaliau, jei p1 yra raudonųjų saldainių populiacijos dalis, p2 yra oranžinių saldainių populiacijos dalis ir pan., tada niekinė hipotezė yra p1 = p2 =... = p6 = 1/6.

Alternatyvi hipotezė yra tai, kad bent viena populiacijos proporcija nėra lygi 1/6.

Faktinis ir numatomas skaičius

Faktinis skaičius yra kiekvienos iš šešių spalvų saldainių skaičius. Tikėtinas skaičius nurodo tai, ko mes tikėtumėmės, jei niekinė hipotezė būtų teisinga. Mes leisime n būti mūsų imties dydis. Tikimasi raudonų saldainių skaičiaus p1 n arba n/6. Tiesą sakant, šiame pavyzdyje laukiamas saldainių skaičius kiekvienai iš šešių spalvų yra tiesiog n laikai pi, arba n/6.

„Chi-square“ fitneso gerumo statistika

Dabar mes apskaičiuosime chi-kvadrato statistiką konkrečiam pavyzdžiui. Tarkime, kad turime paprastą atsitiktinį 600 „M&M“ saldainių pavyzdį su tokiu paskirstymu:

  • 212 saldainių yra mėlynos spalvos.
  • 147 saldainiai yra oranžiniai.
  • 103 saldainiai yra žali.
  • 50 saldainių yra raudoni.
  • 46 saldainiai yra geltoni.
  • 42 saldainiai yra rudi.

Jei niekinė hipotezė būtų teisinga, kiekvienos iš šių spalvų tikėtinas skaičius būtų (1/6) x 600 = 100. Dabar tai naudojame apskaičiuodami chi-kvadrato statistiką.

Mes apskaičiuojame kiekvienos spalvos indėlį į mūsų statistiką. Kiekvienas iš jų yra formos (faktinis - laukiamas)2/Expected.:

  • Mes turime mėlynos spalvos (212–100)2/100 = 125.44
  • Oranžinę turime (147–100)2/100 = 22.09
  • Žaliajai mes turime (103–100)2/100 = 0.09
  • Raudonųjų turime (50–100)2/100 = 25
  • Geltonos spalvos turime (46–100)2/100 = 29.16
  • Dėl rudos spalvos turime (42–100)2/100 = 33.64

Tada mes susumuojame visus šiuos įnašus ir nustatome, kad mūsų chi-kvadrato statistika yra 125,44 + 22,09 + 0,09 + 25 +29,16 + 33,64 = 235,42.

Laisvės laipsniai

Skaičius laisvės laipsniai tinkamumo testas yra tiesiog vienu mažesnis už mūsų kintamojo lygių skaičių. Kadangi buvo šešios spalvos, turime 6 - 1 = 5 laisvės laipsnius.

Chi-square lentelė ir P vertė

Chi-kvadrato statistika 235,42, kurią mes apskaičiavome, atitinka konkrečią vietą chi-kvadrato skirstinyje su penkiais laisvės laipsniais. Dabar mums reikia p reikšmė, norint nustatyti tikimybę gauti bandymo statistiką, kuri yra ne mažesnė kaip 235,42, darant prielaidą, kad niekinė hipotezė yra teisinga.

Šiam skaičiavimui gali būti naudojama „Microsoft Excel“. Mes nustatėme, kad mūsų bandymo statistikos su penkiais laisvės laipsniais p vertė yra 7,29 x 10-49. Tai yra labai maža p vertė.

Sprendimo taisyklė

Remdamiesi p-vertės dydžiu, mes priimame sprendimą atmesti niekinę hipotezę. Kadangi p reikšmė yra labai maža, mes atmetame nulinę hipotezę. Mes darome išvadą, kad M & Ms nėra tolygiai paskirstytos tarp šešių skirtingų spalvų. Tolesnė analizė galėtų būti naudojama nustatant pasitikėjimo intervalą vienos konkrečios spalvos populiacijos daliai.