Mis on korrelatsiooniklaster?

Korrelatsiooniklastrid viiakse läbi andmebaasides ja muudes suurtes andmeallikates, et rühmitada kokku sarnased andmekogumid, hoiatades samal ajal kasutajat erinevate andmekogumite eest. Seda saab mõnel graafikul suurepäraselt teha, samas kui teistel esineb vigu, kuna sarnaseid andmeid on raske eristada erinevatest andmetest. Viimase puhul aitab korrelatsioonirühmitamine vigu automaatselt vähendada. Seda kasutatakse sageli andmete kaevandamiseks või raskete andmete sarnasuste otsimiseks. Erinevad andmed tavaliselt kustutatakse või paigutatakse eraldi klastrisse.

Kui kasutatakse korrelatsiooniklastri funktsiooni, otsib see andmeid kasutaja juhiste alusel. Kasutaja ütleb programmile, mida otsida ja kui see leitakse, kuhu andmed paigutada. Seda rakendatakse tavaliselt väga suurte andmeallikate puhul, kui andmete käsitsi otsimine on võimatu või võtab liiga palju tunde. Võib esineda täiuslikku või ebatäiuslikku rühmitamist.

Ideaalne stsenaarium on täiuslik rühmitamine. See tähendab, et andmeid on ainult kahte tüüpi ja üks on see, mida kasutaja otsib, samas kui teine ​​pole vajalik. Kõik positiivsed või vajalikud andmed paigutatakse ühte klastrisse, samas kui teised andmed kustutatakse või teisaldatakse. Selle stsenaariumi korral pole segadust ja kõik toimib ideaalselt.

Enamik keerukaid graafikuid ei võimalda täiuslikku rühmitamist ja on selle asemel ebatäiuslikud. Näiteks graafikul on kolm muutujat: X, Y ja Z. X,Y on sarnane, X,Z on sarnane, kuid Y,Z on erinev. Kolm muutujaklastrit on aga nii sarnased, et täiuslikku korrelatsiooniklastrit on võimatu saavutada. Programm töötab positiivsete korrelatsioonide arvu maksimeerimiseks, kuid see nõuab siiski kasutajalt käsitsi otsimist.

Andmekaevanduses, eriti kui tegemist on suurte andmekogumitega, kasutatakse sarnaste andmete ja sarnaste andmetega rühmitamiseks korrelatsiooniklastrit. Näiteks kui ettevõte kaevandab andmeid suure veebisaidi või andmebaasi jaoks ja soovib teada ainult konkreetse aspekti kohta, kulub selle aspekti kõigi andmete otsimine igavesti. Klasterdamisvalemit kasutades jäetakse andmed õigeks analüüsiks kõrvale.

Erinevat teavet käsitletakse ainult kasutaja juhiste alusel. Kasutaja saab valida erinevatele klastritele erinevate andmete saatmise, kuna teave võib olla kasulik muude projektide jaoks. Kui andmed on ebavajalikud ja raiskavad lihtsalt mälu, visatakse erinev teave välja. Ebatäiusliku klastrite puhul on võimalik, et mõnda erinevat teavet ei visata välja, kuna see on nii sarnane andmetega, mida kasutaja otsib.