Kartais skaitmeniniai duomenys pateikiami poromis. Galbūt a paleontologas matuojamas šlaunikaulio (kojos kaulas) ir žastikaulio (rankos kaulas) ilgis penkiose tos pačios dinozaurų rūšies fosilijose. Gali būti prasminga atsižvelgti į rankos ilgį atskirai nuo kojų ilgio ir apskaičiuoti tokius dalykus kaip vidurkis arba standartinis nuokrypis. O kas, jei tyrėjui įdomu sužinoti, ar yra ryšys tarp šių dviejų matavimų? Neužtenka vien žiūrėti į rankas atskirai nuo kojų. Vietoj to paleontologas turėtų suporuoti kiekvieno skeleto kaulų ilgį ir naudoti plotą statistika žinomas kaip koreliacija.
Kas yra koreliacija? Aukščiau pateiktame pavyzdyje tarkime, kad tyrėjas ištyrė duomenis ir pasiekė nelabai ką Dėl to dinozaurų fosilijos su ilgesnėmis rankomis taip pat turėjo ilgesnes kojas, o fosilijos su trumpesnėmis rankomis trumpesnės kojos. Išskaidytas duomenų bruožas parodė, kad visi duomenų taškai buvo suskirstyti tiesia linija. Tada tyrėjas pasakytų, kad yra tvirtas tiesinis ryšys, arba koreliacija
, tarp rankos kaulų ir kojų kaulų iškasenos. Norint pasakyti, koks stiprus ryšys yra, reikia dar šiek tiek padirbėti.Koreliacija ir sklaidos plotai
Kadangi kiekvienas duomenų taškas žymi du skaičius, vizualizuojant duomenis labai padeda dvimatis scatterblot. Tarkime, kad mes iš tikrųjų turime duomenų apie dinozaurų duomenis, o penkios fosilijos turi tokius matavimus:
- Šlaunikaulis 50 cm, žastikaulis 41 cm
- Šlaunikaulis 57 cm, žastikaulis 61 cm
- Šlaunikaulis 61 cm, žastikaulis 71 cm
- Šlaunikaulis 66 cm, žastikaulis 70 cm
- Šlaunikaulis 75 cm, žastikaulis 82 cm
Duomenų išskaidymas, įvertinant šlaunikaulį horizontalia kryptimi, o šlaunikaulis vertikalia kryptimi, gaunamas aukščiau pateiktoje diagramoje. Kiekvienas taškas parodo vieno iš skeletų išmatavimus. Pavyzdžiui, kairėje apačioje esantis taškas atitinka Nr. 1 skeletą. Viršutiniame dešiniajame kampe yra 5 skeletas.
Neabejotinai atrodo, kad galėtume nubrėžti tiesią liniją, kuri būtų labai artima visiems taškams. Bet kaip mes galime tiksliai pasakyti? Žiūrimumas akivaizdoje yra akylas. Kaip mes žinome, kad mūsų „artumo“ apibrėžimai sutampa su kuo nors kitu? Ar yra koks nors būdas įvertinti šį artumą?
Koreliacijos koeficientas
Norėdami objektyviai išmatuoti, kiek arti duomenys turi būti tiesia linija, gelbsti koreliacijos koeficientas. koreliacijos koeficientas, paprastai žymimas r, yra realusis skaičius nuo -1 iki 1. Vertė r matuoja koreliacijos, pagrįstos formule, stiprumą, pašalindamas bet kokį subjektyvumą procese. Aiškinant vertę reikia atsiminti keletą gairių r.
- Jei r = 0, tada taškai yra visiški trūkumai, absoliučiai nesusiejant tiesių linijų tarp duomenų.
- Jei r = -1 arba r = 1, tada visi duomenų taškai puikiai išsidėsto ties linija.
- Jei r yra vertė, išskyrus šiuos kraštutinumus, tada rezultatas yra mažiau nei tobulas tiesios linijos pritaikymas. Realių duomenų rinkiniuose tai dažniausiai pasitaikantis rezultatas.
- Jei r yra teigiamas, tada linija eina aukštyn su teigiamas nuolydis. Jei r yra neigiama, tada linija eina žemyn su neigiamu nuolydžiu.
Koreliacijos koeficiento apskaičiavimas
Koreliacijos koeficiento formulė r kaip čia galima pastebėti, yra sudėtinga. Formulės sudedamosios dalys yra abiejų skaitinių duomenų rinkinių vidurkiai ir standartiniai nuokrypiai, taip pat duomenų taškų skaičius. Daugumai praktinių pritaikymų r yra nuobodus skaičiuoti ranka. Jei mūsų duomenys buvo įvesti į skaičiuoklę ar skaičiuoklės programą naudojant statistinės komandos, tada paprastai yra integruota funkcija skaičiuoti r.
Koreliacijos apribojimai
Nors koreliacija yra galinga priemonė, ją naudojant yra keletas apribojimų:
- Koreliacija nevisiškai mums pasako viską apie duomenis. Priemonės ir standartiniai nuokrypiai tebėra svarbūs.
- Duomenys gali būti apibūdinti sudėtingesne kreive nei tiesė, tačiau tai nebus parodyta apskaičiuojant r.
- Šalutinės vertės daro didelę įtaką koreliacijos koeficientui. Jei savo duomenyse pastebime pašalinius dalykus, turėtume būti atsargūs, kokias išvadas darome remdamiesi verte r.
- Tiesiog todėl, kad du duomenų rinkiniai yra koreliuojami, dar nereiškia, kad vienas yra tas sukelti iš kitų.