Kaip rasti vidinę ir išorinę tvoras

Viena iš duomenų rinkinio ypatybių, kurią svarbu nustatyti, yra ta, ar joje yra pašalinių reikšmių. Kritinės vertės intuityviai laikomos vertybėmis mūsų duomenų rinkinyje, kurios labai skiriasi nuo daugumos kitų duomenų. Žinoma, šis pašalinių dalykų supratimas yra dviprasmiškas. Kiek vertė turėtų skirtis nuo likusių duomenų, jei tai laikoma pašaline? Ar tai, ką vienas tyrėjas vadina pašaline, sutaps su kito tyrinėtoju? Tam, kad būtų užtikrintas tam tikras nuoseklumas ir kiekybinis matas nuokrypiams nustatyti, mes naudojame vidinę ir išorinę tvoras.

Norėdami rasti duomenų rinkinio vidinę ir išorinę tvoras, pirmiausia reikia kelių kitų aprašomoji statistika. Pradėsime skaičiuodami kvartilius. Tai lems tarpkvartilinį diapazoną. Galiausiai atlikdami šiuos skaičiavimus mes galėsime nustatyti vidinę ir išorinę tvoras.

Kvartilai

pirmoji ir trečioji kvartilai yra dalis penkių skaičių santrauka bet kokių kiekybinių duomenų rinkinio. Pirmiausia surandame duomenų vidurinį arba vidurio tašką, kai visos vertės yra išvardytos didėjančia tvarka. Mažesnės nei mediana vertės atitinka maždaug pusę duomenų. Mes randame šios pusės duomenų rinkinio vidurkį, ir tai yra pirmoji kvartilė.

instagram viewer

Panašiu būdu mes dabar atsižvelgiame į viršutinę duomenų rinkinio pusę. Jei rastume šios pusės duomenų mediana, tada turėtume trečiąjį kvartilį. Šios kvartilai savo vardą gauna iš to, kad suskaidė duomenų rinkinį į keturias vienodo dydžio dalis arba ketvirčius. Kitaip tariant, maždaug 25% visų duomenų verčių yra mažiau nei pirmoji kvartilė. Panašiu būdu maždaug 75% duomenų verčių yra mažiau nei trečiąjį kvartilį.

Tarpkvartilinis diapazonas

Toliau turime rasti tarpkvartalinis diapazonas (IQR). Tai lengviau apskaičiuoti nei pirmąjį kvartilį q1 ir trečiąjį kvartilį q3. Viskas, ką turime padaryti, yra atsižvelgti į šių dviejų kvartilių skirtumą. Tai suteikia mums formulę:

IQR = Q3 - Q1

IQR mums nurodo, kokia yra vidutinė mūsų duomenų rinkinio pusė.

Raskite vidines tvoras

Dabar galime rasti vidines tvoras. Mes pradedame nuo IQR ir padauginame šį skaičių iš 1,5. Tada mes atimame šį skaičių iš pirmojo kvartilio. Šį skaičių taip pat pridedame prie trečiojo kvartilio. Šie du skaičiai sudaro mūsų vidinę tvorą.

Raskite išorines tvoras

Dėl išorinių tvorų pradedame nuo IQR ir padauginame šį skaičių iš 3. Tada mes atimame šį skaičių iš pirmojo kvartilio ir pridedame jį prie trečiojo kvartilio. Šie du skaičiai yra mūsų išorinės tvoros.

Nuokrypių aptikimas

Aptikti pašaliniai dabar tampa taip paprasta, kaip nustatyti duomenų, kurie sutampa su vidine ir išorine tvoromis, vertes. Jei viena duomenų vertė yra ekstremali nei bet kuri iš mūsų išorinių tvorų, tai yra pašalinė reikšmė ir kartais vadinama stipria pašaline verte. Jei mūsų duomenų reikšmė yra tarp atitinkamos vidinės ir išorinės tvoros, tada ši vertė yra įtariama, kad pašalinė ar švelni. Pažiūrėsime, kaip tai veikia toliau pateiktas pavyzdys.

Pavyzdys

Tarkime, kad mes apskaičiavome pirmąjį ir trečiąjį savo duomenų kvartilius ir nustatėme, kad šios vertės yra atitinkamai 50 ir 60. Tarpkvartilinis intervalas IQR = 60 - 50 = 10. Toliau matome, kad 1,5 x IQR = 15. Tai reiškia, kad vidinės tvoros yra ties 50 - 15 = 35 ir 60 + 15 = 75. Tai yra 1,5 x IQR mažiau nei pirmasis kvartilis ir daugiau nei trečias kvartilas.

Dabar mes apskaičiuojame 3 x IQR ir matome, kad tai yra 3 x 10 = 30. Išorinės tvoros yra 3 x IQR labiau ekstremalios nei pirmoji ir trečioji kvartiliai. Tai reiškia, kad išorinės tvoros yra 50 - 30 = 20 ir 60 + 30 = 90.

Bet kurios duomenų vertės, mažesnės nei 20 arba didesnės nei 90, laikomos pašalinėmis. Įtariama, kad bet kokia duomenų vertė yra nuo 29 iki 35 arba nuo 75 iki 90.