Mis on statistiline andmekaeve?

Statistiline andmekaeve, tuntud ka kui teadmised või andmete avastamine, on teabe kogumise ja analüüsimise arvutipõhine meetod. Andmekaevandamise tööriist võtab andmeid ja liigitab teabe, et avastada mustreid või korrelatsioone, mida saab kasutada olulistes rakendustes, nagu meditsiin, arvutiprogrammeerimine, äri edendamine ja robotite disain. Statistilised andmekaevetehnikad kasutavad analüüsi loomiseks keerulist matemaatikat ja keerulisi statistilisi protsesse.

Andmekaeve hõlmab viit peamist sammu. Esimene andmekaeverakendus kogub statistilisi andmeid ja paigutab teabe laotüüpi programmi. Järgmiseks korrastatakse andmed laos ja luuakse juhtimissüsteem. Järgmine samm loob võimaluse hallatavatele andmetele juurde pääseda. Seejärel töötatakse neljandas etapis välja tarkvara andmete analüüsimiseks, mida nimetatakse ka andmekaeve regressiooniks, samas kui viimane samm hõlbustab statistiliste andmete praktilist kasutamist või tõlgendamist.

Üldiselt integreerivad andmekaevetehnikad analüütilisi ja tehingute andmesüsteeme. Analüütiline tarkvara sorteerib avatud kasutajaküsimuste abil läbi mõlemat tüüpi andmesüsteemide. Avatud küsimused võimaldavad lugematul hulgal vastuseid, nii et programmeerijad ei mõjuta sortimise tulemusi. Programmeerijad koostavad küsimuste loendeid, mis aitavad teavet üldise fookuse alusel kategoriseerida.

Sorteerimine põhineb seejärel andmeklasside ja -klastrite väljatöötamisel, andmetes leiduvatel seostel ning katsetel määratleda seoste põhjal mustreid ja suundumusi. Näiteks kogub Google teavet kasutajate ostuharjumuste kohta, et aidata Internetis reklaamida. Ostjaandmete sortimiseks kasutatavad avatud küsimused keskenduvad Interneti-kasutajate ostueelistustele või vaatamisharjumustele.
Arvutiteadlased ja programmeerijad keskenduvad kogutavate statistiliste andmete analüüsile. Otsustuspuude, tehisnärvivõrkude, lähima naabri meetodi, reegli induktsiooni, andmete visualiseerimise ja geneetiliste algoritmide loomine kasutavad kõik statistiliselt kaevandatud andmeid. Need klassifikatsioonisüsteemid aitavad tõlgendada analüütiliste andmeprogrammide poolt avastatud seoseid. Statistiline andmekaeve hõlmab väikeseid projekte, mida saab teha väikeses mahus koduarvutis, kuid enamik andmekaeve seoste komplekte on nii suured ja andmekaeve regressioon nii keeruline, et selleks on vaja superarvutit või kiirete arvutite võrku.
Statistiline andmekaeve kogub kolme üldist tüüpi andmeid, sealhulgas operatiivandmeid, mittetoimivaid andmeid ja metaandmeid. Rõivapoes on tegevusandmed põhiandmed, mida kasutatakse ettevõtte juhtimiseks, nagu raamatupidamine, müük ja laoseisu kontroll. Mittetegevuslikud andmed, mis on kaudselt äriga seotud, sisaldavad hinnanguid tulevase müügi kohta ja üldist teavet riikliku rõivaturu kohta. Metaandmed puudutavad andmeid endid. Kui need andmed koguti, võib metaandmeid kasutav programm sortida kaupluse kliendid rõivaostjate soo või geograafilise asukoha või klientide lemmikvärvi alusel klassifikaatoritesse.
Andmekaeverakendus võib olla äärmiselt keerukas ja statistilisel andmekaevetööriistal võib olla laialt levinud praktilisi rakendusi. Üks näide on haiguspuhangute uurimine. 2000. aasta andmekaevandamise projekt analüüsis Kanadas Ontarios toimunud krüptosporiidiumi haiguspuhangut, et teha kindlaks haigusjuhtude sagenemise põhjused. Andmekaevandamise tulemused aitasid seostada bakterite puhangut kohalike veetingimustega ja nõuetekohase munitsipaalveepuhastuse puudumisega. Valdkond nimega “bioseire” kasutab epidemioloogilist andmekaevet, et tuvastada ühe haiguse puhanguid.
Arvutiprogrammeerijad ja disainerid kasutavad masinate ja arvutiprogrammide väljatöötamiseks ka tõenäosusuuringut ja statistilist andmete analüüsi. Google’i Interneti-otsingumootor loodi statistilise andmekaeve abil. Google jätkab andmete kogumist ja kasutamist programmivärskenduste ja rakenduste loomiseks.