Žvelgiant į „scatterplot“ yra daug klausimų. Vienas iš dažniausiai pasitaikančių klausimų yra klausimas, ar tiesė tiksliai suderina duomenis. Kad būtų lengviau atsakyti į tai, yra aprašomoji statistika, vadinama koreliacijos koeficientu. Pamatysime, kaip apskaičiuoti šią statistiką.
Koreliacijos koeficientas
koreliacijos koeficientas, žymimas r, nurodo, kaip tiksliai duomenys a išsklaidyti kristi tiesia linija. Kuo arčiau to absoliučiąja verte apie r yra vienas, tuo geriau, kad duomenys apibūdinami tiesine lygtimi. Jei r = 1 arba r = -1 tada duomenų rinkinys yra puikiai suderintas. Duomenų rinkiniai, kurių vertės yra r artimas nuliui parodo, kad tiesmukiniai santykiai yra labai maži.
Dėl ilgų skaičiavimų geriausia apskaičiuoti r naudojant skaičiuotuvą ar statistinę programinę įrangą. Tačiau visada verta pasistengti žinoti, ką daro jūsų skaičiuoklė, kai skaičiuoja. Toliau koreliacijos koeficientas apskaičiuojamas daugiausia rankomis, naudojant įprastus aritmetinius veiksmus naudojamą skaičiuoklę.
Skaičiavimo veiksmai r
Pradėsime išvardydami koreliacijos koeficiento apskaičiavimo veiksmus. Duomenų, su kuriais mes dirbame, yra suporuoti duomenys, kurių kiekviena pora bus žymima (xi, yi).
- Mes pradedame nuo kelių išankstinių skaičiavimų. Šių skaičiavimų kiekiai bus naudojami tolesniuose mūsų skaičiavimo etapuose r:
- Apskaičiuokite x̄, reiškia visų pirmųjų duomenų koordinačių xi.
- Apskaičiuokite ȳ, visų antrųjų duomenų koordinačių vidurkį
- yi.
- Apskaičiuoti s x pavyzdys standartinis nuokrypis visų pirmųjų duomenų koordinačių xi.
- Apskaičiuoti s y visų antrųjų duomenų koordinačių standartinis nuokrypis yi.
- Naudokite formulę (zx)i = (xi - x̄) / s x ir apskaičiuokite kiekvienos standartinę vertę xi.
- Naudokite formulę (zy)i = (yi – ȳ) / s y ir apskaičiuokite kiekvienos standartinę vertę yi.
- Padauginkite atitinkamas standartizuotas vertes: (zx)i(zy)i
- Pridėkite paskutinio žingsnio produktus kartu.
- Padalinkite sumą iš ankstesnio žingsnio n - 1, kur n yra bendras taškų skaičius mūsų suporuotų duomenų rinkinyje. Visa tai lemia koreliacijos koeficientas r.
Šis procesas nėra sunkus ir kiekvienas žingsnis yra gana įprastas, tačiau visų šių veiksmų rinkimas yra gana įdomus. Vien tik standartinio nuokrypio apskaičiavimas yra pakankamai nuobodus. Tačiau koreliacijos koeficiento apskaičiavimas apima ne tik du standartinius nuokrypius, bet ir daugybę kitų operacijų.
Pavyzdys
Norėdami tiksliai pamatyti, kokia yra r yra gautas mes pažvelgti į pavyzdį. Vėlgi, svarbu pažymėti, kad praktinėms reikmėms norėtume naudoti savo skaičiuoklę ar statistinę programinę įrangą r mums.
Mes pradedame nuo suporuotų duomenų sąrašo: (1, 1), (2, 3), (4, 5), (5,7). Vidutinis x reikšmių, 1, 2, 4 ir 5 vidurkis yra x̄ = 3. Mes taip pat turime, kad ȳ = 4. Standartinis
x vertybės yra sx = 1,83 ir sy = 2.58. Žemiau esančioje lentelėje apibendrinti kiti reikalingi skaičiavimai r. Produktų, esančių dešiniame dešiniajame stulpelyje, suma yra 2.969848. Kadangi iš viso yra keturi taškai ir 4 - 1 = 3, produktų sumą padalijame iš 3. Tai suteikia mums koreliacijos koeficientą r = 2.969848/3 = 0.989949.
Koreliacijos koeficiento apskaičiavimo pavyzdžių lentelė
x | y | zx | zy | zxzy |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1.161894958 | 1.272792057 |
2 | 3 | -0.547722515 | -0.387298319 | 0.212132009 |
4 | 5 | 0.547722515 | 0.387298319 | 0.212132009 |
5 | 7 | 1.09544503 | 1.161894958 | 1.272792057 |