Mis on biklusterdamine?

Biklaster on andmekaevetehnika, mis sorteerib teabe maatriksiks, määrates maatriksi read ja veerud samaaegselt. Selle tehnika keskmes on tõhusus, mis võimaldab arvutil läbi sõeluda ja sortida suure hulga andmeid lühema aja jooksul, võrreldes üksikute klastrite meetoditega. Biklaster on lihtsalt ühe konkreetse andmekaevetehnikate klassi üldpealkiri; sellesse kategooriasse võib kuuluda palju erinevaid algoritme, sealhulgas plokkide rühmitamine, Plaidi mudel, seotud kahesuunaline rühmitamine ja omavahel seotud kahesuunaline rühmitamine.

Selleks, et mõista biklastri olulisust, tuleb esmalt mõista andmekaeve üldist kontseptsiooni. Andmekaevandamine võtab suure hulga andmeid (nt ettevõtte põhiandmebaasist välja võetud teave) ja sorteerib seda, et tuvastada suundumusi ja muid kasulikke mustreid. Seda tüüpi analüüsi saab kasutada selliste mustrite kindlakstegemiseks, mis muidu juhusliku uuringuga ei ilmneks, näiteks tarbijate ostutrendid ja aktsiaturgude kõikumised. Andmekaeve võib läbi viia käsitsi inimanalüütiku poolt või elektrooniliselt, kasutades teatud tüüpi andmekaeve algoritmi; see on koht, kus tuleb mängu kahevärvilisus.

Andmekaeve käigus proovib analüüsi teostav arvuti omavahel seotud infokilde sorteerida. Seda protsessi nimetatakse “klastriks”. Klasterdamine võimaldab arvutil oma tehisintellekti paindlikult muuta, tuvastades, kui kaks või enam teavet on üksteisega seotud, asetades need maatriksisse. Tavaliselt täidetakse maatriksi read või veerud, kuid ainult ükshaaval.

Biklaster kaotab selle piiranguga, võimaldades arvutil täita korraga nii ridu kui ka veerge. See parandab klastrite moodustamise protsessi tõhusust, kuid selle tulemuseks võivad olla erinevalt paigutatud maatriksid, olenevalt konkreetsest kasutatavast algoritmist. Näiteks, kui arvuti järjestab pidevalt ühtivate väärtustega asju ridadesse, versus arvuti, mis järjestab veergudesse paigutatud konstantsete väärtustega asju, genereerib täpselt samu väärtusi kasutades erineva välimusega maatriksid. Andmete rühmitamiseks pole üht “õiget” viisi; kõik sõltub konkreetsest olukorrast ja andmekaeve teostava isiku eelistustest.