Histogramų klasės: informacija ir pavyzdžiai

Tikrai nėra taisyklės, kiek klasių turėtų būti. Yra keli dalykai, į kuriuos reikia atsižvelgti, atsižvelgiant į klasių skaičių. Jei būtų tik viena klasė, visi duomenys patektų į šią klasę. Mūsų histograma būtų tiesiog vienas stačiakampis, kurio aukštis būtų nurodytas pagal elementų skaičių mūsų duomenų rinkinyje. Tai nepadarytų labai naudingo ar naudinga histograma.

Kitame kraštutinume galėtume turėti daugybę klasių. Dėl to atsiras daugybė juostų, nė viena iš jų greičiausiai nebus labai aukšta. Naudojant šio tipo histogramą būtų sunku nustatyti bet kokias skiriamąsias charakteristikas iš duomenų.

Norėdami apsisaugoti nuo šių dviejų kraštutinumų, turime nykščio taisyklę, kurią naudodamiesi nustatome histogramos klasių skaičių. Kai turime palyginti nedidelį duomenų rinkinį, paprastai naudojame tik maždaug penkias klases. Jei duomenų rinkinys yra palyginti didelis, mes naudojame maždaug 20 klasių.

Dar kartą pabrėžkime, kad tai nykščio taisyklė, o ne absoliutus statistikos principas. Gali būti rimtų priežasčių, kad duomenų klasė būtų skirtinga. Mes matysime to pavyzdį žemiau.

instagram viewer

Prieš nagrinėdami keletą pavyzdžių, pamatysime, kaip nustatyti, kas yra klasės. Mes pradedame šį procesą suradę diapazonas mūsų duomenų. Kitaip tariant, mes atimame mažiausią duomenų vertę iš didžiausios duomenų vertės.

Kai duomenų rinkinys yra palyginti mažas, diapazoną padalijame iš penkių. Santykis yra mūsų histogramos klasių plotis. Šiame procese tikriausiai reikės šiek tiek apvalinti, o tai reiškia, kad bendras klasių skaičius gali būti ne penki.

Kai duomenų rinkinys yra palyginti didelis, diapazoną padalijame iš 20. Kaip ir anksčiau, ši padalijimo problema suteikia mums histogramos klasių plotį. Be to, kaip mes matėme anksčiau, mūsų apvalinimas gali sudaryti šiek tiek daugiau arba šiek tiek mažiau nei 20 klasių.

Bet kuriuo iš didelių ar mažų duomenų rinkinių, mes nustatome, kad pirmoji klasė prasideda taške, kuris yra šiek tiek mažesnis už mažiausią duomenų vertę. Turime tai padaryti taip, kad pirmoji duomenų vertė patektų į pirmąją klasę. Kitos paskesnės klasės nustatomos pagal plotį, kuris buvo nustatytas, kai padalijome diapazoną. Mes žinome, kad esame paskutinėje klasėje, kai šioje klasėje yra didžiausia mūsų duomenų vertė.

Pavyzdžiui, mes nustatysime tinkamą klasės plotį ir klases duomenų rinkiniui: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.

Matome, kad mūsų rinkinyje yra 27 duomenų taškai. Tai palyginti nedidelis rinkinys, todėl diapazoną padalinsime iš penkių. Diapazonas yra 19,2–1,1 = 18,1. Padalijame 18,1 / 5 = 3,62. Tai reiškia, kad būtų tinkamas 4 klasės plotis. Mažiausia mūsų duomenų vertė yra 1,1, todėl pirmą klasę pradedame mažesniame taške. Kadangi mūsų duomenys susideda iš teigiamų skaičių, prasminga būtų, kad pirmoji klasė būtų nuo 0 iki 4.

Tarkime, kad yra vienas pavyzdys su atsakymų variantais su 35 klausimais, o testą laiko 1000 aukštųjų mokyklų studentų. Mes norime suformuoti histogramą, nurodančią studentų skaičių, kurie testą pasiekė tam tikrais balais. Matome, kad 35/5 = 7 ir kad 35/20 = 1,75. Nepaisant mūsų nykščio taisyklės, pagal kurią histogramai galime pasirinkti 2 arba 7 pločio klases, gali būti geriau, jei 1 pločio klasės. Šie užsiėmimai atitiktų kiekvieną klausimą, į kurį mokinys teisingai atsakė testo metu. Pirmasis iš jų būtų pažymėtas 0, o paskutinis - 35.