Kartais statistikoje naudinga pamatyti parengtus problemų pavyzdžius. Šie pavyzdžiai gali mums padėti išsiaiškinti panašias problemas. Šiame straipsnyje mes apžvelgsime įtaigos statistikos, susijusios su rezultatais, susijusiais su dviem populiacijos ištekliais, tvarkymo procesą. Mes ne tik matysime, kaip atlikti a hipotezės testas apie dviejų gyventojų skaičių skirtumą taip pat sukonstruosime a pasitikėjimo intervalas už šį skirtumą. Mūsų naudojami metodai kartais vadinami dviejų imčių t testu ir dviejų imčių t pasikliovimo intervalu.
Problemos teiginys
Tarkime, mes norime išbandyti klasės moksleivių matematinius gabumus. Vienas klausimas, kuris gali kilti, yra tas, ar aukštesnio lygio testų vidurkis yra aukštesnis.
Paprastam atsitiktiniam 27 trečiosios klasės mokinių pavyzdžiui suteikiamas matematikos testas, įvertinami jų atsakymai ir nustatoma, kad rezultatų vidurkis yra 75 balai su mėginio standartinis nuokrypis iš 3 taškų.
Paprastam atsitiktiniam 20 penktosios klasės atstovų pavyzdžiui atliekamas tas pats matematikos testas ir įvertinami jų atsakymai. Vidutinis penktosios klasės atstovų balas yra 84 taškai, imties standartinis nuokrypis - 5 balai.
Atsižvelgiant į šį scenarijų, mes užduodame šiuos klausimus:
- Ar imties duomenys suteikia įrodymų, kad visų penktų klasių populiacijų vidutinis testų rodiklis viršija visų trečiųjų klasių populiacijos bandymų balų vidurkį?
- Koks yra 95% pasikliovimo intervalas, kai skiriasi trečiųjų ir penktųjų greiderių populiacijų vidutiniai bandymo balai?
Sąlygos ir tvarka
Turime pasirinkti, kurią procedūrą naudoti. Atlikdami tai turime įsitikinti ir patikrinti, ar įvykdytos šios procedūros sąlygos. Mūsų prašoma palyginti dvi populiacijos priemones. Vienas metodų, kurie gali būti naudojami tai padaryti, rinkinys yra dviejų pavyzdžių t-procedūros.
Norėdami naudoti šias t-procedūras dviem pavyzdžiams, turime įsitikinti, kad laikomasi šių sąlygų:
- Turime du paprastus atsitiktinius pavyzdžius iš dviejų dominančių populiacijų.
- Mūsų paprasti atsitiktiniai mėginiai sudaro ne daugiau kaip 5% populiacijos.
- Du mėginiai yra vienas nuo kito nepriklausomi ir tiriamieji nesutampa.
- Paprastai kintamasis pasiskirsto.
- Abiejų populiacijų populiacijos vidurkis ir standartinis nuokrypis nežinomi.
Matome, kad dauguma šių sąlygų yra įvykdytos. Mums buvo pasakyta, kad turime paprastus atsitiktinius pavyzdžius. Studijuojame labai daug gyventojų, nes tokiose klasėse yra milijonai studentų.
Sąlyga, kurios negalime prisiimti automatiškai, yra ta, kad paprastai paskirstomi testų rezultatai. Kadangi turime pakankamai didelę imtį, dėl t-procedūrų patikimumo mums nebūtinai reikia kintamojo, kad jis būtų paprastai paskirstomas.
Kadangi sąlygos tenkinamos, atliekame keletą išankstinių skaičiavimų.
Standartinė klaida
Standartinė paklaida yra standartinio nuokrypio įvertinimas. Prie šios statistikos pridedame mėginių imties dispersiją ir imame kvadratinę šaknį. Taip gaunama formulė:
(s1 2 / n1 + s22 / n2)1/2
Naudodamiesi aukščiau pateiktomis vertėmis, pamatome, kad standartinės paklaidos vertė yra
(32 / 27+ 52 / 20)1/2 =(1 / 3 + 5 / 4 )1/2 = 1.2583
Laisvės laipsniai
Savo atžvilgiu galime naudoti konservatyvų apytikslį laisvės laipsniai. Tai gali nuvertinti laisvės laipsnių skaičių, tačiau tai apskaičiuoti yra daug lengviau nei naudojant Welcho formulę. Mes naudojame mažesnįjį iš dviejų pavyzdžių dydžių, tada iš šio skaičiaus atimkime vieną.
Mūsų pavyzdyje mažesnis iš dviejų pavyzdžių yra 20. Tai reiškia, kad laisvės laipsnių skaičius yra 20 - 1 = 19.
Hipotezės testas
Norime patikrinti hipotezę, kad penktos klasės mokinių vidutinis testų balas yra didesnis nei trečiųjų klasių mokinių vidurkis. Tegul μ1 būti visų penktų greiderių populiacijos vidurkis. Panašiai leidžiame μ2 būti visų trečiųjų greiderių populiacijos vidurkis.
Hipotezės yra šios:
- H0: μ1 - μ2 = 0
- Ha: μ1 - μ2 > 0
Testo statistika yra skirtumas tarp imties vidurkio, kuris tada padalijamas iš standartinės paklaidos. Kadangi populiacijos standartiniam nuokrypiui įvertinti naudojame standartinius standartinius nuokrypius, bandymo statistika iš t paskirstymo.
Testo statistikos vertė yra (84 - 75) / 1,2583. Tai yra maždaug 7.15.
Dabar nustatome, kokia yra šios hipotezės testo p vertė. Mes pažiūrime į testo statistikos vertę ir kur ji yra ties t paskirstymu, turinčiu 19 laisvės laipsnių. Šiam paskirstymui turime 4,2 x 10-7 kaip mūsų p vertė. (Vienas iš būdų tai nustatyti yra naudoti „T.DIST.RT“ funkciją „Excel“.)
Kadangi turime tokią mažą p reikšmę, mes atmetame nulinę hipotezę. Daroma išvada, kad penktųjų klasių klasių testų vidurkis yra didesnis už trečiųjų klasių testų balų vidurkį.
Pasitikėjimo intervalas
Kadangi nustatėme, kad balų vidurkiai skiriasi, dabar nustatome skirtumo tarp šių dviejų vidurkių patikimumo intervalą. Mes jau turime daug to, ko mums reikia. Paskirties patikimumo intervalas turi būti ir įvertis, ir paklaida.
Įvertinti dviejų vidurkių skirtumą yra nesunku. Mes paprasčiausiai nustatome imties priemonių skirtumą. Šis imties vidurkio skirtumas įvertina populiacijos vidurkio skirtumą.
Mūsų duomenimis, imties vidurkio skirtumas yra nuo 84 iki 75 = 9.
Klaidą yra šiek tiek sunkiau apskaičiuoti. Tam reikia padauginti atitinkamą statistiką iš standartinės paklaidos. Mums reikalinga statistika randama ieškant lentelės arba statistinės programinės įrangos.
Vėlgi naudodami konservatyvųjį apytikslį, turime 19 laisvės laipsnių. 95% pasikliovimo intervalu matome, kad t* = 2.09. Mes galėtume naudoti T.INV funkcija Excel apskaičiuoti šią vertę.
Dabar viską sudėjome ir pamatėme, kad mūsų paklaida yra 2,09 x 1,2583, tai yra maždaug 2,63. Pasikliautinasis intervalas yra 9 ± 2,63. Testas, kurį pasirinko penktasis ir trečiasis klasifikatoriai, yra nuo 6,37 iki 11,63 balo.