Mis on andmekaeve tööriistad?

Andmekaevandamise tööriistad on tarkvarakomponendid ja teooriad, mis võimaldavad kasutajatel andmetest teavet hankida. Tööriistad annavad üksikisikutele ja ettevõtetele võimaluse koguda suuri andmeid ja kasutada neid konkreetse kasutaja või kasutajarühmade kohta otsuste tegemiseks. Mõned andmekaevandamise tööriistade levinumad kasutusalad on turunduse, pettustevastase kaitse ja järelevalve valdkonnad.

Andmete käsitsi ekstraheerimine on eksisteerinud sadu aastaid. Andmekaeve automatiseerimine on aga olnud kõige levinum arvutiajastu algusest peale. 20. sajandi jooksul tekkisid erinevad arvutiteadused, mis aitasid toetada andmekaevetööriistade väljatöötamise kontseptsiooni. Tööriistade kasutamise üldine eesmärk on paljastada peidetud mustrid. Näiteks kui turundusettevõte leiab, et inimene võtab igakuise reisi New Yorgist Los Angelesse, on sellel ettevõttel kasulik reklaamida üksikisikule sihtkoha üksikasju.

Andmekaevetööstuses on kehtestatud standardid andmekaevetööriistade kasutamise parameetrite määratlemiseks. Arvutusmasinate assotsiatsiooni teadmiste avastamise ja andmekaeve erihuvirühm (SIGKDD) korraldab igal aastal koosoleku, et teha kindlaks, milliseid protsesse kasutatakse. Sama rühm vastutab ka üksikisikute ja ettevõtete andmete analüüsi eetiliste mõjude hindamise eest. Rühm annab välja kaks korda aastas ilmuvat ajakirja pealkirjaga SIGKDD Explorations.

Kõige levinum andmekaevandamisel kasutatav tööriist on protsess nimega Knowledge Discovery in Databases (KDD). KDD töötas välja 1989. aastal Gregory Piatetsky-Shapiro. Seda andmekaevetööriista kasutades saavad kasutajad töödelda algandmeid, kaevandada andmeid teabe saamiseks ja tõlgendada erinevaid tulemusi teabehalduse vormis.

21. sajandil kasutatakse terrorismivastases võitluses üht kõige olulisemat andmekaevandamise vahendit. Ameerika Ühendriikides kasutab National Research Council kontseptsioone mustrite kaevandamine ja subjektipõhine andmekaeve, et tuvastada terroristlikku tegevust suures teabekogumis üle maailma. Mustri kaevandamine on määratletud mustrite asukoha määramise protsessiga suures andmemahus. Subjektipõhine andmekaeve püüab tuvastada üksikisikute vahelisi suhteid. Mõlemat tehnikat saab kasutada ka üldises äripraktikas, määratledes kliendibaasi mõtteviisi ja klientidevahelise interaktiivse suhte.