Kuidas andmetes kõrvalekaldumisi tagasi lükata

Kõrvalväärtused on andmepunktid, mis jäävad tavapärasest andmevahemikust välja. Need on palju suuremad või väiksemad arvud kui teie ülejäänud andmed. Katseandmete põhjal sisuliste järelduste tegemiseks peate oma andmeid uurima kõrvalekallete suhtes ja otsustama, kas need kõrvaldada või mitte.

1
Jälgige oma andmeid. Otsige numbreid, mis on palju suuremad või madalamad kui enamik teie andmepunkte. Kujutagem ette, et olete istutanud kümmekond päevalille ja jälgite igal nädalal nende kõrgust. Kõik teie lilled olid 24 tolli kõrgused. Enamik teie lilli kasvas umbes 8–12 tolli pikkuseks, seega on nad praegu umbes 32–36 tolli pikkused. Kuid naaberlaps viskas kogemata oma palli teie õue ja kui ta seda tooma jooksis, purustas ta ühe teie päevalille !Kui mõõdate oma lilli nädala lõpus, on purustatud lill maapinnast vaid umbes 3 tolli kõrgusel. Kuna teised on palju kõrgemad, võiksite seda purustatud lille pidada kõrvalekaldeks.

2
Kirjutage oma andmed järjekorras. See aitab teil hiljem leida mediaani või keskpunkti. Teie päevalille kõrgus tollides on järjekorras 3, 32, 32, 33, 33, 33, 34, 34, 35, 35, 36, 36.

3
Leidke oma andmete poolik punkt. Päevalille näite puhul on pooltee 33 ja 34 vahel.

4
Leidke esimene kvartiil ehk Q1. Q1 leidmiseks määrake oma andmete esimese poole mediaanarv. Mediaan on arv, mis jääb andmete keskele. Meie päevalille näite puhul on andmete esimene pool 3, 32, 32, 33, 33, 33. Keskmine on 32 ja 33 vahel, seega on mediaan 32.5.Nimeta seda Q1.Q1=32.5

5
Leidke kolmas kvartiil ehk Q3. Q3 leidmiseks määrake oma andmete teises pooles mediaanarv. Meie päevalille näite puhul on andmete teine ​​pool 34, 34, 35, 35, 36, 36. Keskmine on vahemikus 35 kuni 35, seega mediaan on 35. Nimetage see Q3.Q3=35

6
Lahutage Q1 Q3-st. See arv on interkvartiilne vahemik (IQR). Q3-Q1=IQR35-32.5=2.5IQR=2.5

7
Tehke kindlaks, kas teil on ülempiirist suurem kõrvalekalle. Kõrvalekalded on kõik arvud, mis on suuremad kui Q3+1,5(IQR) või väiksemad kui Q1-1,5(IQR). Alustage oma ülemisest piirist. Q3+1,5(IQR)35+1,5(2,5)35+3,75=38,7538,75 on teie ülempiir. Iga arv, mis on suurem kui 38,75, on kõrvalekalle. Päevalilleandmete kogumis ei ole ükski arv ülemisest piirist suurem.

8
Tehke kindlaks, kas teil on alampiirist suurem kõrvalekalle. Protsess sarnaneb ülemise piiri ületavate kõrvalekallete leidmisega, kuid valem on veidi erinev. Q1-1,5(IQR)32,5-1,5(2,5)32,5-3,75=28,7528,75 on teie alumine piir. Iga arv, mis on väiksem kui 28,75, on kõrvalekalle. Päevalille andmekogus on 3 väiksem kui 28,75, seega on see kõrvalekalle. Saate põhjendada oma otsust see oma andmete hulgast eemaldada.

9
Tehke mõned kiired arvutused. See aitab teil kindlaks teha, kas kõrvalekalded põhjustavad teie andmetega probleeme. Võib-olla on teie 10 päevalille kõrgused tollides: 34, 32, 33, 33, 34, 3, 35, 35, 36, 36, 33 ja 32.Kui lisate 3, on teie päevalillede keskmine kõrgus 31,3 tolli. Kui jätate 3 tähelepanuta, on teie päevalillede keskmine kõrgus 33,9 tolli. Kui soovite oma lillede, päevalillede kohta teha üldistusi (nt keskmise koguse arvutamine et need kasvasid üle nädala), võiksite kõrvalekalded tagasi lükata.

10
Tehke kindlaks oma kõrvalekallete põhjus. Kui inimlik eksitus põhjustas väga kõrge või väga väikese arvu (nagu päevalille näites), pole see andmepunkt teile eriti kasulik. Küsige endalt, kas see arv on tõesti osa andmestikust, mida kavatsesite uurida. Kuna keegi astus teie päevalillele peale, ei ütle äärmine andmepunkt teile tegelikult midagi teie päevalillede kasvamise kohta.

11
Otsustage, kas kõrvaldate oma kõrvalekalded või mitte. Otsustage, kas numbri lisamine andmekogumisse annab teile kasulikku teavet või mitte. Purustatud päevalille puhul lükkaksite tõenäoliselt tagasi 3-tollise päevalille. Samuti võite kõrvalekaldumised tagasi lükata, kui arvate, et mõõtsite valesti või kirjutasite üles. vale number.Teisest küljest, kui teie päevalill oli teistest palju lühem, kuna see istutati kohta, kus see ei saanud otsest päikesevalgust, võite otsustada, et see on kasulik teave, ja lisada see number oma andmekogumisse.

12
Lükake kõrvalekaldumine tagasi. Eemaldage see number oma andmetest. Sellest hetkest alates tehke oma arvutused ilma selle numbrita.

13
Kaitske oma otsust. Kõrvalväärtuste tagasilükkamine muudab teie andmed “ebapuhtaks”. Andmepunktid tuleks tagasi lükata ainult siis, kui teil on väga mõjuv põhjus. Kui teil on vaja koostada oma andmetest aruanne, olge valmis selgitama, miks te kõrvalekalded tagasi lükkasite, kasutades valemeid Q3. +1,5 (IQR) ja Q1-1,5 (IQR).