Mis on andmekaeve?

Andmekaevandamine kasutab suhteliselt suurt arvutusvõimsust, mis töötab suurel andmehulgal, et määrata andmepunktide vahelisi seaduspärasusi ja seoseid. Suurte andmebaaside automaatseks otsimiseks kasutatakse algoritme, mis kasutavad statistika, masinõppe ja mustrituvastuse tehnikaid. Andmekaeve on tuntud ka kui Knowledge-Discovery in Databases (KDD).

Nagu termin tehisintellekt, on andmekaevandamine katustermin, mida saab rakendada paljude erinevate tegevuste jaoks. Ettevõtlusmaailmas kasutatakse andmekaevet kõige sagedamini trendide suuna määramiseks ja tuleviku ennustamiseks. Seda kasutatakse mudelite ja otsustustoetussüsteemide loomiseks, mis annavad inimestele teavet, mida nad saavad kasutada. Andmekaevandamine on terrorismivastases võitluses esirinnas. Seda kasutati väidetavalt 9. septembri rünnakute liidri kindlaksmääramiseks.

Andmekaevurid on statistikud, kes kasutavad tehnikaid selliste nimetustega nagu lähinaabrite mudelid, k-keskmiste rühmitamine, hoidmismeetod, k-kordne ristvalideerimine, üks väljajätmise meetod ja nii edasi. Regressioonitehnikaid kasutatakse ebaoluliste mustrite lahutamiseks, jättes alles ainult kasulikku teavet. Mõistet Bayesi kasutatakse valdkonnas sageli, viidates järeldustehnikate klassile, mis ennustavad tulevaste sündmuste tõenäosust, kombineerides eelnevaid ja tingimuslikel sündmustel põhinevaid tõenäosusi. Rämpsposti filtreerimine on vaieldamatult andmekaevandamise vorm, mis toob automaatselt pinnale asjakohased sõnumid kaootilisest andmepüügikatsete merest ja Viagra reklaamidest.

Otsustuspuid kasutatakse andmete mägede filtreerimiseks. Otsustuspuus läbivad kõik andmed sissepääsusõlme, kus need on silmitsi filtriga, mis eraldab andmed sõltuvalt nende omadustest voogudeks. Näiteks tarbijakäitumise andmed filtreeritakse tõenäoliselt demograafiliste tegurite põhjal. Andmekaevandamine ei seisne peamiselt väljamõeldud graafikutes ja visualiseerimistehnikates, vaid kasutab neid leitud leidu näitamiseks. On teada, et suudame visuaalselt absorbeerida rohkem statistilist teavet kui verbaalselt ning see esitlusvorm võib olla väga veenev ja võimas, kui seda õiges kontekstis kasutada.

Kuna meie tsivilisatsioon muutub üha enam andmetega küllastumaks ja andureid levitatakse massiliselt meie kohalikesse keskkondadesse, avastame kogemata asju, mis võivad esimesel ülekäigul kahe silma vahele jääda. Andmekaevandamine võimaldab meil need vead parandada ja avastada uusi teadmisi, mis põhinevad varasematel andmetel, andes meile andmesalvestuse rahale rohkem paugu.