Mis on andmekaevandamise protsess?

Andmekaeveprotsess on tööriist suure hulga andmete statistiliselt oluliste mustrite avastamiseks. Tavaliselt hõlmab see viit põhietappi, mis hõlmavad ettevalmistamist, andmete uurimist, mudeli koostamist, juurutamist ja ülevaatamist. Protsessi iga etapp hõlmab erinevaid tehnikaid, kuid enamik neist kasutab mingit statistilist analüüsi.

Enne andmekaeveprotsessi algust seavad teadlased tavaliselt uurimiseesmärgid. See ettevalmistusetapp määrab tavaliselt kindlaks, millist tüüpi andmeid tuleb uurida, milliseid andmekaevetehnikaid tuleks kasutada ja millisel kujul tulemused saadakse. See protsessi esimene samm võib olla kasuliku teabe kogumisel otsustava tähtsusega.

Andmekaeveprotsessi järgmine samm on uurimine. See samm hõlmab tavaliselt vajalike andmete kogumist teabelaost või kogumisüksusest. Seejärel valmistavad kaevanduseksperdid tavaliselt algandmekogumid analüüsiks ette. See samm hõlmab tavaliselt kõigi andmete kogumist, puhastamist, korrastamist ja vigade kontrollimist.

Need ettevalmistatud andmed sisenevad tavaliselt andmekaeveprotsessi kolmandasse etappi, mudelite loomisse. Selle saavutamiseks võtavad teadlased tavaliselt väikesed andmeproovid ja rakendavad nende jaoks mitmesuguseid andmekaevetehnikaid. Modelleerimisetappi kasutatakse sageli soovitud tulemuste saavutamiseks vajaliku statistilise analüüsi parima meetodi kindlaksmääramiseks.

Andmekaeveprotsessis saab rakendada nelja peamist tehnikat. Esimene on klassifitseerimine, mis korraldab andmed eelnevalt määratletud rühmadesse või kategooriatesse. Teises tehnikas, mida nimetatakse klastriteks, lubavad teadlased arvutil korraldada andmed vastavalt oma valikule rühmadesse. Kolmas andmekaevetehnika otsib seoseid muutujate vahel. Neljas otsib tavaliselt andmetest järjestikuseid mustreid, mida saab kasutada tulevaste suundumuste ennustamiseks.
Andmekaeveprotsessi viimane etapp on juurutamine. Selleks rakendatakse mudelis valitud tehnikaid suuremale andmekogumile ning analüüsitakse tulemusi. Sellest etapist koosnev aruanne näitab tavaliselt kogu protsessis leitud mustreid, sealhulgas andmekogumis olemasolevaid klassifikatsioone, klastreid, seoseid või järjestikuseid mustreid.
Läbivaatamine on sageli oluline viimane samm. Protsessi see etapp hõlmab tavaliselt kaevandamismudelite kordamist uue andmekogumiga, et veenduda, et põhikomplekt esindab kogu andmekogumit. Tulemused ei suuda ennustada suundumusi suuremas populatsioonis, kui andmevalim seda täpselt ei esinda.