Tiesinė regresija yra statistinė technika, naudojama daugiau sužinoti apie ryšį tarp nepriklausomo (numatytojo) kintamojo ir priklausomo (kriterijaus) kintamojo. Kai analizėje turite daugiau nei vieną nepriklausomą kintamąjį, tai vadinama daugybine tiesine regresija. Apskritai, regresija leidžia tyrėjui užduoti bendrą klausimą „koks yra geriausias prognozės dalykas?“
Pvz., Tarkime, mes tyrėme šių ligų priežastis nutukimas, išmatuotas pagal kūno masės indeksą (KMI). Visų pirma norėjome išsiaiškinti, ar šie kintamieji yra reikšmingi asmens KMI numatytojai: greito maisto kiekis per savaitę suvalgytas maistas, per savaitę žiūrėtų televizijos valandų skaičius, mankštai praleistų minučių skaičius per savaitę ir tėvų “ KMI. Linijinė regresija būtų gera šios analizės metodika.
Regresijos lygtis
Kai atliekate regresijos analizę su vienu nepriklausomu kintamuoju, regresijos lygtis yra Y = a + b * X, kur Y yra priklausomas kintamasis, X yra nepriklausomas kintamasis, a yra konstanta (arba kirtis), ir b yra
regresijos linijos nuolydis. Pvz., Tarkime, kad GPA geriausiai prognozuojama pagal regresijos lygtį 1 + 0,02 * IQ. Jei studento IQ būtų 130, tada jo arba jos GPA būtų 3,6 (1 + 0,02 * 130 = 3,6).Kai atliekate regresinę analizę, kurioje turite daugiau nei vieną nepriklausomą kintamąjį, regresijos lygtis yra Y = a + b1 * X1 + b2 * X2 +… + bp * Xp. Pvz., Jei norėtume į savo GPA analizę įtraukti daugiau kintamųjų, tokių kaip motyvacijos ir savidisciplinos matavimai, mes tai panaudotume lygtis.
R kvadratas
R-kvadratas, dar žinomas kaip nustatymo koeficientas, yra dažniausiai naudojama statistika vertinant regresijos lygties modelio atitikimą. T. y., Kaip gerai visi jūsų nepriklausomi kintamieji numato jūsų priklausomą kintamąjį? R-kvadrato vertė svyruoja nuo 0,0 iki 1,0 ir gali būti padauginta iš 100, norint gauti procentą dispersija paaiškino. Pvz., Grįžtant prie mūsų GPA regresijos lygties tik su vienu nepriklausomu kintamuoju (IQ)... Tarkime, kad mūsų R lygtis buvo lygi 0,4. Galėtume tai suprasti taip, kad 40% GPA skirtumų paaiškina: IQ. Jei pridėsime kitus du kintamuosius (motyvacija ir savidisciplina) ir R kvadratas padidės iki 0,6, tai reiškia, kad IQ, motyvacija ir savidisciplina kartu paaiškina 60% GPA dispersijos balai.
Regresinė analizė paprastai atliekama naudojant statistinę programinę įrangą, tokią kaip SPSS ar SAS, taigi jums apskaičiuojamas R kvadratas.
Regresijos koeficientų aiškinimas (b)
Aukščiau pateiktų lygčių b koeficientai parodo ryšių tarp nepriklausomų ir priklausomų kintamųjų stiprumą ir kryptį. Jei pažvelgsime į GPA ir IQ lygtis, 1 + 0,02 * 130 = 3,6, 0,02 yra kintamojo IQ regresijos koeficientas. Tai mums sako, kad santykių kryptis yra teigiama, taigi, didėjant IQ, didėja ir GPA. Jei lygtis būtų 1 - 0,02 * 130 = Y, tai reikštų, kad santykis tarp IQ ir GPA buvo neigiamas.
Prielaidos
Yra keletas prielaidų, susijusių su duomenimis, kurių reikia laikytis, norint atlikti tiesinę regresinę analizę:
- Tiesiškumas: Manoma, kad ryšys tarp nepriklausomų ir priklausomų kintamųjų yra tiesinis. Nors šios prielaidos niekada negalima visiškai patvirtinti, pažvelgus į a išsklaidyti iš jūsų kintamųjų gali padėti tai nulemti. Jei santykiuose yra kreivė, galite apsvarstyti galimybę pakeisti kintamuosius arba aiškiai leisti netiesinius komponentus.
- Normalumas: Manoma, kad likučiai jūsų kintamieji paprastai yra paskirstomi. T. y., Y vertės (priklausomo kintamojo) vertės numatymo klaidos pasiskirsto taip, kad artėtų prie įprastos kreivės. Galite pažiūrėti histogramos arba normalios tikimybės brėžiniai, skirti patikrinti jūsų kintamųjų pasiskirstymą ir jų likutines vertes.
- Nepriklausomybė: Manoma, kad visos Y vertės numatymo klaidos yra viena nuo kitos nepriklausomos (nesusijusios).
- Homoscedasticity: Manoma, kad dispersija aplink regresijos liniją yra vienoda visoms nepriklausomų kintamųjų reikšmėms.
Šaltinis
- „StatSoft“: Elektroninės statistikos vadovėlis. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.