Statistikas on kõrvalekalle andmepunkt, mis erineb oluliselt teistest valimi andmepunktidest. Sageli võivad andmekogumi kõrvalekalded hoiatada statistikuid katseliste kõrvalekallete või tehtud mõõtmiste vigade eest, mille tõttu nad võivad andmekogust kõrvalekaldeid välja jätta. Kui nad jätavad oma andmekogumist kõrvalekalded välja, võivad uuringust tehtud järeldused oluliselt muutuda. Seetõttu on statistiliste andmete õige mõistmise tagamiseks oluline teada, kuidas arvutada ja hinnata kõrvalekaldeid.
1
Õppige ära tundma võimalikke kõrvalekaldeid. Enne kui otsustada, kas jätta kõrvalekalduvad väärtused antud andmekogumist välja või mitte, peame ilmselgelt esmalt tuvastama andmekogumi võimalikud kõrvalekalded. Üldiselt on kõrvalekalded andmepunktid, mis erinevad oluliselt teiste andmekogumis olevate väärtuste poolt väljendatud trendist – teisisõnu, need asuvad teistest väärtustest väljaspool. Tavaliselt on seda lihtne tuvastada andmetabelitelt või (eriti) graafikutelt. Kui andmekogum on graafikul visuaalselt väljendatud, on äärmised punktid teistest väärtustest “kaugel”. Kui näiteks suurem osa andmehulga punkte moodustab sirge joone, ei saa äärmuslikke väärtusi joonele vastavaks mõistlikult tõlgendada. Vaatleme andmekogumit, mis esindab 12 erineva objekti temperatuure. tuba. Kui 11 objekti temperatuur jääb mõne kraadi vahemikku 70 kraadi Fahrenheiti (21 kraadi Celsiuse järgi), kuid kaheteistkümnendal objektil, ahjul, on temperatuur 300 kraadi Fahrenheiti (150 kraadi Celsiuse järgi), võib pealiskaudne uurimine öelda, et ahi on tõenäoliselt kõrvalekalle..
2
Järjesta kõik andmepunktid madalaimast kõrgeimani. Andmekogumi kõrvalekallete arvutamise esimene samm on andmestiku mediaanväärtuse (keskmise) leidmine. See ülesanne on oluliselt lihtsustatud, kui andmekogumi väärtused on järjestatud väikseimast suurimani. Nii et enne jätkamist sortige oma andmekogumi väärtused sel viisil. Jätkame ülaltoodud näitega. Siin on meie andmekogum, mis esindab ruumis olevate mitme objekti temperatuure: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Kui järjestame andmestiku väärtused madalaimast suurimani, on meie uus väärtuste kogum: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
3
Arvutage andmekogumi mediaan. Andmekogumi mediaan on andmepunkt, millest kõrgemal asuvad pooled andmetest ja millest allpool pool andmetest – sisuliselt on see andmekogumi “keskmine” punkt. Kui andmekogumis on paaritu arv punkte, on seda lihtne leida – mediaan on punkt, mille kohal on sama palju punkte kui selle all. Kui aga punkte on paarisarv, siis kuna ühtset keskpunkti pole, tuleks mediaani leidmiseks 2 keskpunkti keskmistada. Pange tähele, et kõrvalekallete arvutamisel määratakse mediaanile tavaliselt muutuja Q2 – see on tingitud sellest, et see asub Q1 ja Q3 vahel, alumise ja ülemise kvartiili vahel, mille määratleme hiljem. Ärge laske end segadusse lasta paarisarvudega andmekogumitest punktidest – kahe keskmise punkti keskmine on sageli arv, mida andmekogumis endas ei kuvata – see on OK. Kui aga kaks keskmist punkti on samad, on keskmine ilmselt ka see arv, mis on samuti OK. Meie näites on meil 12 punkti. Kaks keskmist terminit on punktid 6 ja 7 – vastavalt 70 ja 71. Seega on meie andmekogumi mediaan nende kahe punkti keskmine: ((70 + 71) / 2), = 70,5.
4
Arvutage alumine kvartiil. See punkt, millele omistame muutuja Q1, on andmepunkt, millest allapoole jääb 25 protsenti (ehk veerand) vaatlustest. Teisisõnu, see on teie andmekogumi mediaani all olevate punktide poolpunkt. Kui mediaanist allpool on paarisarv väärtusi, peate Q1 leidmiseks veel kord keskmistama kaks keskmist väärtust, täpselt samamoodi nagu oleksite pidanud tegema mediaani enda leidmiseks. Meie näites on 6 punkti mediaani kohal ja 6 punkti on selle all. See tähendab, et alumise kvartiili leidmiseks peame arvutama keskmise kuue alumise punkti kaks keskmist punkti. Alumise 6 punktid 3 ja 4 on mõlemad võrdsed 70-ga. Seega on nende keskmine ((70 + 70) / 2), = 70. 70 on meie väärtus Q1 jaoks
5
Arvutage ülemine kvartiil. See punkt, millele on määratud muutuja Q3, on andmepunkt, millest kõrgemal asub 25 protsenti andmetest. Q3 leidmine on peaaegu identne Q1 leidmisega, välja arvatud see, et sel juhul võetakse arvesse mediaanist kõrgemal, mitte sellest madalamal olevad punktid. Jätkates ülaltoodud näitega, on 6 mediaani kohal oleva punkti kaks keskmist punkti 71 ja 72. Nende 2 punkti keskmistamine annab ((71 + 72) / 2), = 71,5. 71,5 on meie kolmanda kvartali väärtus.
6
Leidke interkvartiilne vahemik. Nüüd, kui oleme määratlenud Q1 ja Q3, peame arvutama nende kahe muutuja vahelise kauguse. Kaugus Q1-st Q3-ni leitakse, lahutades Q3-st Q1. Kvartiilidevahelise vahemiku jaoks saadud väärtus on teie andmekogumi mittekõrvalpunktide piiride määramisel ülioluline. Meie näites on meie Q1 ja Q3 väärtused vastavalt 70 ja 71,5. Kvartiilidevahelise vahemiku leidmiseks lahutame Q3 – Q1: 71,5 – 70 = 1,5. Pange tähele, et see toimib isegi siis, kui Q1, Q3 või mõlemad on negatiivsed arvud. Näiteks kui meie Q1 väärtus oli –70, oleks meie kvartiilide vahemik 71,5 – (-70) = 141,5, mis on õige.
7
Leidke andmekogumi “sisemised piirded”. Kõrvalekalded tuvastatakse, hinnates, kas need langevad arvuliste piiride hulka, mida nimetatakse “sisetarade” ja “välisteks taradeks”. Punkt, mis jääb väljapoole andmekogumi sisepiirdeid, liigitatakse väiksemaks kõrvalekaldeks, samas kui see, mis jääb väljapoole välispiirdeid, liigitatakse suuremaks kõrvalekaldeks. Andmekogumi sisemiste piirete leidmiseks korrutage esmalt kvartiilide vahemik 1,5-ga. Seejärel lisage tulemus Q3-sse ja lahutage see Q1-st. Kaks saadud väärtust on teie andmekogumi sisemiste piirete piirid. Meie näites on kvartiilide vahemik (71,5–70) või 1,5. Korrutades selle 1,5-ga, saadakse 2,25. Lisame selle arvu Q3-le ja lahutame selle Q1-st, et leida sisepiirete piire järgmiselt: 71,5 + 2,25 = 73,7570 – 2,25 = 67,75 Seega on meie sisetara piirid 67,75 ja 73,75. Ainult meie andmekogus ahju temperatuur – 300 kraadi – jääb sellest vahemikust välja ja võib seega olla kerge kõrvalekalle. Kuid me peame veel kindlaks tegema, kas see temperatuur on suur kõrvalekalle, nii et ärgem tehkem järeldusi enne, kui oleme seda teinud.
8
Leidke andmekogumi “välispiirded”. Seda tehakse samamoodi nagu sisepiirdeid, välja arvatud see, et kvartiilide vahemik korrutatakse 1,5 asemel 3-ga. Seejärel lisatakse tulemus Q3-le ja lahutatakse Q1-st, et leida välimise piirde ülemine ja alumine piir. Meie näites korrutatakse ülaltoodud kvartiilide vahemik 3-ga (1,5 * 3) või 4,5. Välisaia piirid leiame samamoodi nagu varem: 71,5 + 4,5 = 7670 – 4,5 = 65,5 Meie välisaia piirid on 65,5 ja 76. Kõiki andmepunkte, mis asuvad väljaspool välispiirdeid, loetakse suuremateks kõrvalekalleteks. Selles näites jääb ahju temperatuur 300 kraadi välispiiretest tunduvalt kaugemale, seega on see kindlasti suur kõrvalekalle.
9
Kasutage kvalitatiivset hindamist, et teha kindlaks, kas kõrvalekalded “välja visata”. Kasutades ülalkirjeldatud metoodikat, on võimalik kindlaks teha, kas teatud punktid on väikesed kõrvalekalded, suured kõrvalekalded või üldse mitte. Kuid ärge tehke viga – punkti tuvastamine kõrvalekaldena märgib selle ainult kui andmekogust väljajätmise kandidaadi, mitte kui punkti, mis tuleb välja jätta. Põhjus, miks kõrvalekalle erineb ülejäänud andmekogumi punktidest, on otsustava tähtsusega, et otsustada, kas kõrvalekalle välja jätta või mitte. Üldjuhul jäetakse välja kõrvalekalded, mida võib seostada mingisuguse veaga – näiteks viga mõõtmisel, salvestamisel või katseprojektis. Teisest küljest ei jäeta tavaliselt välja kõrvalekaldeid, mida ei seostata veaga ja mis paljastavad uut teavet või suundumusi, mida ei ennustatud. Veel üks kriteerium, mida tuleb arvestada, on see, kas kõrvalekalded mõjutavad oluliselt andmekogumi keskmist (keskmist) viisil, mis moonutab seda või muudab selle eksitavaks. Seda on eriti oluline arvestada, kui kavatsete teha järeldusi oma andmekogumi keskmise põhjal. Hindame oma näidet. Kuna meie näite puhul on väga ebatõenäoline, et ahi saavutas mingi ettenägematu loodusjõu tõttu temperatuuri 300 kraadini, võime peaaegu kindlalt järeldada, et ahi jäeti kogemata sisse, mille tulemuseks oli ebanormaalne kõrge temperatuuri näit. Samuti, kui me ei jäta kõrvalekaldeid välja, on meie andmestiku keskmine (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 kraadi, samas kui keskmine väärtus, kui jätame kõrvalekalde välja, on (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55. Kuna kõrvalekalde võib seostada inimliku veaga ja kuna see on ebatäpne Kui öelda, et selle ruumi keskmine temperatuur oli peaaegu 90 kraadi, peaksime valima oma kõrvalekalde väljajätmise.
10
Mõistke kõrvalekallete (mõnikord) säilitamise tähtsust. Kuigi mõned kõrvalekalded tuleks andmekogumitest välja jätta, kuna need tulenevad vigadest ja/või ebatäpsed või eksitavad tulemuste moonutused, tuleks mõned kõrvalekalded säilitada. Kui näiteks näib, et kõrvalekaldumine on tõesti saadud (st mitte vea tulemus) ja/või annab mõõdetavast nähtusest uue ülevaate, ei tohiks neid kohe ära jätta. Teaduslikud katsed on eriti tundlikud olukorrad kõrvalekallete käsitlemisel – ekslikult kõrvalekalde väljajätmine võib tähendada uut suundumust või avastust tähistava teabe väljajätmist. Näiteks oletame, et me kavandame uut ravimit kalade suuruse suurendamiseks kalas. talu. Kasutame oma vana andmekogumit ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), välja arvatud seekord, et iga punkt tähistab kala massi (grammides) pärast sünnist saati ravi erineva eksperimentaalse ravimiga. Ehk siis esimene ravim andis ühe kala massiks 71 grammi, teine ravim andis erineva kala massiks 70 grammi jne. Selles olukorras on 300 endiselt suur kõrvalekalle, kuid me ei tohiks seda välja jätta, sest eeldades, et see ei ole tingitud veast, on see meie katses oluline edu. Ravim, mis andis 300 grammi kala, toimis paremini kui kõik teised ravimid, seega on see punkt meie andmekogumis tegelikult kõige olulisem, mitte kõige vähem.