Duomenų valymas yra svarbi duomenų analizės dalis, ypač kai renkate savo kiekybinius duomenis. Surinkę duomenis turite įvesti juos į tokią kompiuterio programą kaip SAS, SPSS arba Excel. Šio proceso metu, nesvarbu, ar tai atliekama rankomis, ar kompiuterio skaitytuvas, bus klaidų. Nesvarbu, kaip kruopščiai duomenys buvo įvesti, klaidos neišvengiamos. Tai gali reikšti neteisingą kodavimą, neteisingą parašytų kodų skaitymą, neteisingą pajuodusių ženklų suvokimą, trūkstamus duomenis ir pan. Duomenų valymas yra šių kodavimo klaidų nustatymo ir ištaisymo procesas.
Duomenų rinkiniai turi būti valomi dviem būdais. Tai yra galimas kodinis valymas ir nenumatytų atvejų valymas. Abu šie elementai yra labai svarbūs duomenų analizės procese, nes jei jų nepaisysite, beveik visada pateiksite klaidinančius tyrimų duomenis.
Galimas kodo valymas
Bet kuris kintamasis turės nurodytą atsakymų pasirinkimo rinkinį ir kodus, kad atitiktų kiekvieną atsakymo pasirinkimą. Pavyzdžiui, kintamasis Lytis turės tris pasirinkimo variantus ir kodus kiekvienam: 1 vyrui, 2 moteriai ir 0, jei nebus atsakymo. Jei turite respondentą, šiam kintamajam koduotą 6, akivaizdu, kad padaryta klaida, nes tai nėra galimas atsakymo kodas. Galimas kodo valymas yra tikrinimo procesas, siekiant įsitikinti, kad duomenų faile rodomi tik kodai, skirti kiekvieno atsakymo pasirinkimo variantui (galimi kodai).
Kai kurios kompiuterio programos ir statistinės programinės įrangos paketai, galimi duomenų įvedimui, tikrina, ar nėra šių tipų klaidų, kai duomenys įvedami. Čia vartotojas nustato galimus kiekvieno klausimo kodus prieš įvesdami duomenis. Tada, jei įvedamas skaičius, nepriklausantis nustatytoms galimybėms, pasirodo klaidos pranešimas. Pvz., Jei vartotojas bandė įvesti lytį 6, kompiuteris gali pypsėti ir atsisakyti kodo. Kitos kompiuterinės programos yra skirtos patikrinti neteisėtus kodus užpildomuose duomenų failuose. Tai yra, jei jie nebuvo patikrinti duomenų įvedimo proceso metu, kaip ką tik aprašyta, yra būdų, kaip patikrinti failus, ar nėra kodavimo klaidų po to, kai duomenys įvesti.
Jei duomenų įvedimo metu nenaudojate kompiuterio programos, tikrinančios kodavimo klaidas, kai kurias klaidas galite rasti tiesiog ištyrę atsakymų į kiekvieną duomenų elementą pasiskirstymą rinkinys. Pvz., Galite sudaryti kintamojo dažnio lentelę Lytis ir čia pamatysite skaičių 6, kuris buvo neteisingai įvestas. Tada galėtumėte ieškoti šio įrašo duomenų faile ir jį ištaisyti.
Nepaprastosios padėties valymas
Antrasis tipas duomenys valymas vadinamas valymu nenumatytais atvejais ir yra šiek tiek sudėtingesnis nei įmanomas valymas pagal kodą. Dėl loginės duomenų struktūros gali būti tam tikros ribos tam tikrų respondentų atsakymams ar tam tikriems kintamiesiems. Nepaprastosios padėties valymas yra patikrinimas, ar iš tikrųjų tokius duomenis turi tik tie atvejai, kai turėtų būti duomenų apie tam tikrą kintamąjį. Pvz., Tarkime, kad turite klausimyną, kuriame paklausiate respondentų, kiek kartų jie buvo nėščios. Visos moterys respondentės turėtų turėti atsakymą, užkoduotą duomenyse. Vyrai turėtų būti palikti tušti arba turėti specialų kodą, jei neatsakytų. Pavyzdžiui, jei kuris nors iš duomenų yra užregistruotas kaip turintis 3 nėštumus, žinote, kad yra klaida, ir ją reikia ištaisyti.
Nuorodos
Babbie, E. (2001). Socialinių tyrimų praktika: 9-asis leidimas. Belmontas, Kalifornija: Wadsworthas Thomsonas.