Santraukos statistika, tokia kaip mediana, pirmasis ir trečiasis kvartilis yra padėties matavimai. Taip yra todėl, kad šie skaičiai rodo, kur yra konkreti duomenų paskirstymo dalis. Pavyzdžiui, mediana yra tiriamų duomenų vidurinė padėtis. Pusės duomenų vertės yra mažesnės nei mediana. Panašiai 25% duomenų vertės yra mažesnės nei pirmojo kvartilio, o 75% duomenų vertės yra mažesnės nei trečiojo kvartilio.
Šią sąvoką galima apibendrinti. Vienas iš būdų tai padaryti yra apsvarstyti procentiliai. 90-asis procentilis nurodo tašką, kuriame 90% procentų duomenų vertės yra mažesnės už šį skaičių. Apskritai pdešimtoji procentilė yra skaičius n kuriam p% duomenų yra mažesni nei n.
Nuolatiniai atsitiktiniai kintamieji
Nors vidutinės, pirmosios ir trečiosios kvartilių eiliškumo statistika paprastai pateikiama a nustatant atskirą duomenų rinkinį, šią statistiką taip pat galima apibrėžti kaip nenutrūkstamą atsitiktinį kintamasis. Kadangi mes dirbame su nuolatiniu paskirstymu, mes naudojame integralą. pdešimtoji procentilė yra skaičius n toks, kad:
∫-₶nf ( x ) dx = p/100.
Čia f ( x ) yra tikimybės tankio funkcija. Taigi mes galime gauti bet kurią procentilę, kurios norime a tęstinis paskirstymas.
Karantinai
Tolesnis apibendrinimas yra tai, kad užsakymų statistika dalija paskirstymą, su kuriuo mes dirbame. Vidutinė duomenų dalis dalijama per pusę, o ištisinio pasiskirstymo mediana arba 50-oji procentilė pasiskirsto per pusę pagal plotą. Pirmasis kvartilas, mediana ir trečiasis kvartilis padalija mūsų duomenis į keturias dalis su kiekvienu tuo pačiu skaičiumi. Aukščiau pateiktą integralą galime naudoti, kad gautume 25-ą, 50-ą ir 75-ą procentines dalis ir ištisinį paskirstymą padalintume į keturias vienodo ploto dalis.
Mes galime apibendrinti šią procedūrą. Klausimas, nuo kurio galime pradėti, yra natūralus n, kaip galima padalinti kintamojo pasiskirstymą į n vienodo dydžio gabalus? Tai tiesiogiai susijusi su kvantų idėja.
n duomenų rinkinio kvantai randami apytiksliai suskirstant duomenis eilės tvarka ir po to suskaidžius n - 1 taškas vienodais intervalais.
Jei turime nuolatinio atsitiktinio kintamojo tikimybės tankio funkciją, kvantoms surasti naudojame aukščiau pateiktą integralą. Dėl n kvantų, mes norime:
- Pirmieji, turintys 1 /n paskirstymo ploto kairėje nuo jo.
- Antrasis turi 2 /n paskirstymo ploto kairėje nuo jo.
- rTu turi r/n paskirstymo ploto kairėje nuo jo.
- Paskutinisn - 1)/n paskirstymo ploto kairėje nuo jo.
Mes matome, kad bet kuris natūralusis skaičius n, n kvantos atitinka 100r/ndešimtosios procentilės, kur r gali būti bet koks natūralus skaičius nuo 1 iki n - 1.
Dažni karantinai
Tam tikros rūšies kvantai naudojami pakankamai dažnai, kad būtų konkretūs pavadinimai. Žemiau pateiktas sąrašas:
- 2 kvantilė vadinama mediana
- 3 kvantai vadinami tercilais
- 4 kvantai vadinami kvartiliais
- 5 kvantės vadinamos kvintilais
- 6 kvantai vadinami sekstilais
- 7 kvantai vadinami septyniais
- 8 kvantai vadinami oktiliais
- 10 kvantų vadinami decilais
- 12 kvantų vadinami duodecilais
- 20 kvantų vadinami vigintilais
- 100 kvantų vadinamos procentilėmis
- 1000 kvantų vadinamos permilėmis
Be abejo, aukščiau esančiame sąraše egzistuoja ir kiti kvantai. Daugybė kartų naudojama konkreti kvantilė atitinka ištisinio bandinio dydį paskirstymas.
Karantino naudojimas
Be to, kad nurodoma duomenų rinkinio padėtis, kvantai yra naudingi ir kitais būdais. Tarkime, kad turime paprastą atsitiktinę imtį iš populiacijos, o populiacijos pasiskirstymas nežinomas. Norėdami padėti nustatyti, ar toks modelis, kaip normalus pasiskirstymas ar Weibull pasiskirstymas, yra tinkamas populiacijai, iš kurios mes buvome atrinkti, galime pažvelgti į savo duomenų ir modelio kiekantus.
Suderindami mūsų pavyzdžių duomenų kvantus su tam tikro kvantiliais tikimybės pasiskirstymas, rezultatas yra suporuotų duomenų rinkinys. Šiuos duomenis nubraižome scattergale, vadinamame kvantilės-kvantilės grafiku arba q-q grafiku. Jei gautas sklaidos plotas yra maždaug tiesinis, tada modelis yra tinkamas mūsų duomenims.