Išskirtinės vertės yra duomenų vertės, kurios labai skiriasi nuo daugumos duomenų rinkinio. Šios vertės nepatenka į bendrą tendenciją, nurodytą duomenyse. Kruopštus duomenų rinkinio ištyrimas siekiant pašalinti pašalinius dalykus sukelia tam tikrų sunkumų. Nors nesunku pastebėti, galbūt naudojant stemplotą, kad kai kurios vertės skiriasi nuo kitų duomenų, kiek skirtinga vertė turi būti laikoma pašaline? Mes pažvelgsime į konkretų matavimą, kuris suteiks mums objektyvų standartą, kas sudaro pašalinę vertę.
Tarpkvartilinis diapazonas
tarpkvartalinis diapazonas būtent tai galime naudoti norėdami nustatyti, ar kraštutinė vertybė iš tikrųjų yra pašalinė. Tarpkvartilinis diapazonas yra pagrįstas dalimi penkių skaičių santrauka duomenų rinkinio, būtent pirmasis ir trečiasis kvartilis. Tarpkvartilinio diapazono apskaičiavimas apima vieną aritmetinę operaciją. Viskas, ką turime padaryti, kad rastume tarpkvartilinį diapazoną, yra atimti pirmąjį kvartilį iš trečiojo kvartilio. Gautas skirtumas parodo, kokia yra vidutinė mūsų duomenų pusė.
Nuokrypių nustatymas
Padauginus tarpkvartalinį diapazoną (IQR) iš 1,5, gausime būdą nustatyti, ar tam tikra reikšmė yra pašalinė. Jei iš pirmojo kvartilio atimtume 1,5 x IQR, visos duomenų vertės, mažesnės už šį skaičių, laikomos nuokrypėmis. Panašiai, jei prie trečiojo kvartilio pridedame 1,5 x IQR, visos duomenų vertės, didesnės už šį skaičių, laikomos nuokrypėmis.
Stiprūs nuokrypiai
Kai kurie nuokrypiai rodo didelį nukrypimą nuo kitų duomenų rinkinio. Tokiais atvejais mes galime žengti veiksmus iš viršaus, pakeisdami tik skaičių, kurį padauginame iš IQR, ir apibrėždami tam tikro tipo pašalinę vertę. Jei iš pirmojo kvartilio atimtume 3,0 x IQR, bet kuris taškas, esantis žemiau šio skaičiaus, vadinamas stipriu išvestiniu. Tuo pačiu būdu, pridėjus 3,0 x IQR į trečiąjį kvartilį, galima apibrėžti stipriąsias nuokrypius, žiūrint į taškus, kurie yra didesni už šį skaičių.
Silpni dalykai
Be stiprių nuokrypių, yra ir kita pašalinių asmenų kategorija. Jei duomenų vertė yra pašalinė, bet ne stipri, tada sakome, kad vertė yra silpna. Mes pažvelgsime į šias sąvokas ištyrę keletą pavyzdžių.
1 pavyzdys
Pirmiausia tarkime, kad turime {1, 2, 2, 3, 3, 4, 5, 5, 9} duomenų rinkinį. Skaičius 9 tikrai atrodo, kad tai gali būti pašalinis dalykas. Jis yra daug didesnis nei bet kuri kita vertė iš likusio rinkinio. Norėdami objektyviai nustatyti, ar 9 yra pašalinė reikšmė, naudojame aukščiau pateiktus metodus. Pirmasis kvartilis yra 2, o trečiasis kvartilas yra 5, tai reiškia, kad tarpkvartilinis diapazonas yra 3. Tarpkvartilinį diapazoną padauginame iš 1,5, gaudami 4,5, o tada pridedame šį skaičių į trečiąjį kvartilį. Rezultatas 9,5 yra didesnis nei bet kuri mūsų duomenų vertė. Todėl nėra jokių pašalinių reikšmių.
2 pavyzdys
Dabar žiūrime į tą patį duomenų rinkinį, kaip ir anksčiau, išskyrus tai, kad didžiausia vertė yra 10, o ne 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Pirmasis kvartilas, trečiasis kvartilis ir tarpkvartilis yra identiški 1 pavyzdyje. Kai trečiąjį kvartilį pridedame 1,5 x IQR = 4,5, suma yra 9,5. Kadangi 10 yra didesnis nei 9,5, jis laikomas pašaliniu.
Ar 10 yra stiprios ar silpnos išeities? Tam reikia pažiūrėti į 3 x IQR = 9. Kai pridedame 9 prie trečiojo kvartilio, mes gauname 14 sumą. Kadangi 10 yra ne didesnis kaip 14, tai nėra stipri išeitis. Taigi darome išvadą, kad 10 yra silpna išeitis.
Priežastys, dėl kurių nustatomos pašalinės vertės
Mes visada turime ieškoti pašalinių asmenų. Kartais juos sukelia klaida. Kitu atveju ribinės vertės nurodo anksčiau nežinomą reiškinį. Kita priežastis, dėl kurios turime būti atidūs tikrindami pašalinius dalykus, yra dėl visų šių priežasčių aprašomoji statistika kurie yra jautrūs pašaliniams dalykams. Vidutinis, standartinis nuokrypis ir koreliacijos koeficientas suporuoti duomenys yra tik keli iš šių statistikos tipų.