Kas yra mažiausių kvadratų regresijos linija?

„Scatterplot“ yra grafiko tipas, naudojamas vaizduoti suporuoti duomenys. Paaiškinamasis kintamasis brėžiamas išilgai horizontalios ašies, o atsako kintamasis yra nubraižytas išilgai vertikalios ašies. Viena iš tokio tipo grafikų naudojimo priežasčių yra ieškoti sąsajų tarp kintamųjų.

Pats paprasčiausias modelis, kurio reikia ieškoti suporuotų duomenų rinkinyje, yra tiesi linija. Per bet kuriuos du taškus galime nubrėžti tiesią liniją. Jei mūsų paskirstymo taške yra daugiau nei du taškai, dažniausiai nebegalėsime nubrėžti linijos, einančios per kiekvieną tašką. Vietoj to, mes nubrėžime liniją, einančią per taškų vidurį ir parodančią bendrą linijinę duomenų tendenciją.

Kai žiūrime į savo grafiko taškus ir norime nubrėžti liniją per šiuos taškus, kyla klausimas. Kurią liniją turėtume nubrėžti? Galima nubrėžti begalę linijų. Pažvelgus vien į akis, akivaizdu, kad kiekvienas žmogus, žvelgiantis į skardinę plotmę, gali sukurti šiek tiek kitokią liniją. Šis dviprasmiškumas yra problema. Norime, kad visiems būtų tiksliai apibrėžtas būdas gauti tą pačią liniją. Tikslas yra turėti matematiškai tikslų aprašymą, kurią liniją reikėtų nubrėžti. Mažiausiai kvadratų

instagram viewer
regresijos linija yra viena tokių linijų per mūsų duomenų taškus.

Mažiausiai kvadratų

Mažiausių kvadratų eilutės pavadinimas paaiškina, ką ji daro. Mes pradedame nuo taškų su koordinatėmis, kurias pateikė (xi, yi). Bet kuri tiesė eis tarp šių taškų ir eis aukščiau arba žemiau kiekvieno iš šių taškų. Atstumą nuo šių taškų iki linijos galime apskaičiuoti pasirinkdami reikšmę x ir tada atimant stebėtą y tai atitinkanti koordinatė x nuo y mūsų linijos koordinatė.

Skirtingos linijos per tą patį taškų rinkinį duotų skirtingą atstumų rinkinį. Mes norime, kad šie atstumai būtų kuo mažesni. Tačiau yra problema. Kadangi mūsų atstumai gali būti teigiami arba neigiami, suma iš visų šių atstumų panaikins vienas kitą. Atstumų suma visada bus lygi nuliui.

Šios problemos sprendimas yra pašalinti visus neigiamus skaičius dalijant atstumus tarp taškų ir linijos. Tai suteikia neneigiamų skaičių kolekciją. Tikslas, kurį turėjome rasti geriausiai tinkančią liniją, yra tas pats, kaip padaryti kuo mažesnę šių kvadratinių atstumų sumą. Čia į pagalbą ateina kalkulis. Skaičiavimo diferencijavimo procesas leidžia sumažinti kvadratinių atstumų nuo tam tikros linijos sumą. Tai paaiškina frazę „mažiausias kvadratas“ mūsų pavadinime šiai eilutei.

„Best Fit“ eilutė

Kadangi mažiausių kvadratų linija sumažina atstumus tarp linijos ir mūsų taškų kvadratu, galime manyti, kad ši linija geriausiai tinka mūsų duomenims. Štai kodėl mažiausių kvadratų linija taip pat žinoma kaip geriausiai tinkanti linija. Iš visų galimų linijų, kurias būtų galima nubrėžti, mažiausių kvadratų linija yra arčiausiai viso duomenų rinkinio. Tai gali reikšti, kad mūsų linija nepataikys į bet kurį mūsų duomenų rinkinio tašką.

Mažiausių kvadratų linijos ypatybės

Yra keletas bruožų, kuriuos turi kiekviena mažiausių kvadratų eilutė. Pirmasis dominantis punktas susijęs su mūsų linijos nuolydžiu. Nuolydis turi ryšį su koreliacijos koeficientas mūsų duomenų. Tiesą sakant, linijos nuolydis yra lygus r (sy/ sx). Čia s x žymi standartinį x koordinatės ir s y standartinis nuokrypis y mūsų duomenų koordinatės. Koreliacijos koeficiento ženklas yra tiesiogiai susijęs su mūsų mažiausių kvadratų linijos nuolydžio ženklu.

Kitas mažiausių kvadratų linijos bruožas yra susijęs su tašku, kurį ji kerta. Kol y mažiausių kvadratų linijos perėmimas statistiniu požiūriu gali būti neįdomus, yra vienas taškas, kuris yra. Kiekviena mažiausių kvadratų linija eina per duomenų vidurinį tašką. Šis vidurinis taškas turi x koordinuoti, tai yra reiškiax vertybes ir a y koordinuoti, tai yra y vertybes.

instagram story viewer