Millised on erinevad andmekaevemeetodid?

Nii tarkvaravalikutes kui ka teoreetilistes kontseptsioonides kasutatakse mitmesuguseid andmekaevemeetodeid. Need võimaldavad kasutajatel saada teavet üksikisikute ja ettevõtete kogutud andmetest, kasutades erinevaid tööriistu. Ühe subjekti või erinevate ainete erinevate tegurite määramiseks saab kasutada suuri andmemahtusid. Neid andmekaeve meetodeid kasutatakse kõige sagedamini pettustevastase kaitse, turunduse ja järelevalve valdkonnas.

Andmekaeve meetodeid on uuritavatelt teabe ammutamiseks kasutatud sadu aastaid. Kaasaegsed tehnikad kasutavad aga automatiseeritud kontseptsioone, et pakkuda arvutipõhiste ressursside kaudu olulisi andmeid. Kui arvutiteadused tekkisid 20. sajandil, arenes välja andmekaevemeetodite kontseptsioon, püüdes ületada varjatud mustreid suurtes kogutud andmetes. Hea näide sellest on see, kui reklaamifirma analüüsib veebikliendi ostumustreid. See ettevõte saab seejärel turustada teatud tooteid, mille ostmisest üksikisik võib olla huvitatud.

Ühte tööstuses tavaliselt kasutatavat andmekaeve tehnikat nimetatakse teadmiste avastamiseks andmebaasides (KDD). Gregory Piatetsky-Shapiro poolt 1989. aastal välja töötatud KDD võimaldab kasutajatel töödelda töötlemata andmeid, analüüsida teavet vajalike andmete saamiseks ja tõlgendada tulemusi. See meetod võimaldab kasutajatel leida algoritmides mustreid, kuid üldandmed ei ole alati täpsed ja neid saab kompromiteerivalt kokku panna. Seda tuntakse kui liigne paigaldamist.

Põhilised andmekaevemeetodid hõlmavad nelja kindlat tüüpi ülesandeid: klassifitseerimine, rühmitamine, regressioon ja seostamine. Klassifitseerimine võtab olemasoleva teabe ja liidab selle määratletud rühmitustesse. Klasterdamine eemaldab määratletud rühmitused ja võimaldab andmetel end sarnaste üksuste järgi klassifitseerida. Regressioon keskendub teabe funktsioonile, modelleerides andmeid kontseptsiooni alusel. Lõplik andmekaevemeetod, assotsiatsioon, püüab leida seoseid erinevate andmevoogude vahel.

Erinevate andmekaevemeetodite kasutamisel kasutatakse teatud standardeid, et määrata, milliseid parameetreid protsessis kasutada saab. Arvutusmasinate assotsiatsiooni teadmiste avastamise ja andmekaeve erihuvirühm (SIGKDD) korraldab iga-aastase koosoleku, et otsustada, millised protsessid on sobivad. Eraisikute ja ettevõtete kohta parima teabe leidmiseks kaalutakse eetilisi tegureid koos praktiliste rakendustega. See teave on avaldatud tööstuse ajakirjas nimega SIGKDD Explorations.