Millised on kõige olulisemad andmekaevandamise kontseptsioonid?

Kõige olulisemaid andmekaeve kontseptsioone kasutatakse kogutud teabe analüüsimiseks, eelkõige käitumise jälgimiseks. Andmete vahelisi tundmatuid koostoimeid uuritakse erinevatel viisidel, et teha kindlaks subjektide ja koondatud teabe vahelised kriitilised suhted. Üks andmekaevandamise väljakutse on see, et tegelik kogutud teave ei pruugi kogu domeeni meenutada. Selle asjaoluga tegelemiseks saab andmete vahelisi korrelatsioone metoodiliselt kontrollida erinevate andmekaevandamise kontseptsioonidega.

Andmekaeve kontseptsioonide standardeid jõustab Arvutusmasinate Ühingu teadmiste avastamise ja andmekaeve erihuvirühm (SIGKDD). See organisatsioon annab välja ajakirja “International Journal of Information Technology and Decision Making” ja ajakirja SIGKDD Explorations. Andmekaeve eetika ja põhiprintsiipide jõustamine hoiab tööstuse tõhusana ja piiratud juriidiliste probleemidega.

Teabe eeltöötlemine on andmekaeve üks olulisemaid aspekte. Algandmed tuleb kaevandada ja tõlgendada. Selle toimingu sooritamiseks tuleb määrata protsess, koondada sihtandmed ja leida mustrid. Protsessi nimetatakse andmebaasides teadmiste avastamiseks ja selle töötas välja Gregory Piatetsky-Shapiro 1989. aastal.

Neli erinevat andmekaevandamise kontseptsiooni klassi võimaldavad protsessil toimuda. Klasterdamine kasutab andmete kaevandamise protsessis loodud algoritmi, et koondada elemendid sarnastesse rühmadesse. Erinevalt klasterdamisest toimub teabe klassifitseerimine siis, kui andmed koondatakse eelnevalt määratletud rühmadesse ja analüüsitakse. Seos üritab leida seoseid muutujate vahel, määrates kindlaks, millised andmerühmad on tavaliselt seotud. Viimane andmekaevandamise tüüp on regressioon, mis põhineb funktsiooni tuvastamise meetodil andmekogumis.

Teabe kinnitamine on viimane samm andmekaeverakenduse sisu väljaselgitamisel. Kui kõik algoritmid ei esita kehtivat andmekogumit, võivad esinevad mustrid põhjustada olukorra, mida nimetatakse ülepaigutamiseks. Selle probleemi lahendamiseks võrreldakse andmeid testkomplektiga. See on kontseptsioon, mille puhul mõõtmised on joondatud algoritmide seeriaga, mis annaks usaldusväärse andmekogumi. Kui saadud teave ei vasta testkomplektile, peavad andmetes oletatud mustrid olema ebatäpsed.

Mõned kõige olulisemad andmekaeve kontseptsioonid esinevad erinevates tööstusharudes. Andmekaevandamise tehnikaid kasutavad kõik mängud, äri, turundus, teadus, inseneritöö ja järelevalve. Neid meetodeid kasutades saab iga valdkond määrata parimad tavad või paremad viisid tulemuste leidmiseks.