Mis on struktuurikaevandamine?

Struktuurikaevandamine on andmekaeve tüüp, mille käigus skannitakse poolstruktureeritud andmeallikat ning avastatakse ja tõstetakse esile selle struktuuri elemendid. Poolstruktureeritud andmeallikas on selline, mis ei kasuta traditsioonilist tabelite andmebaasistruktuuri, kuid sisaldab semantilist elementi, mis eraldab teabe siltide ja markerite kaudu. Struktuuride kaevandamist saab kasutada andmebaaside, veebisaitide ja paljude muude arvutiteabe kaevandamiseks, et avastada struktuuri elemente. See aitab kasutajatel mõista, kuidas osad üksteisega suhtlevad või kuidas teatud siltide alt teavet leida. Seda kaevandamist saab kasutada ka kasutaja kirjutatud reeglite põhjal, et ennustada, mis on üksus.

Andmekaeve on palju erinevaid ja enamik neist on seotud traditsiooniliselt struktureeritud allika kaevandamisega. See hõlmab kõiki allikaid, mis kasutavad enamiku andmebaaside jaoks tüüpilisi tabeleid ja sõlme. Struktuurikaevandamisel kasutatakse ainult poolstruktureeritud andmeid. Sel juhul pärinevad andmed veebisaitidelt või lihtsatest andmebaasidest, millel on struktuur, kuid mis ei vasta traditsioonilistele andmebaasireeglitele. Andmete nõuetekohaseks kaevandamiseks on vaja silte või markereid, mis eristavad iga üksust.

Poolstruktureeritud andmekogumit lugedes suudab struktuuride kaevandamine avastada, kuidas struktuur interakteerub. Näiteks on igal veebisaidil navigeerimismudel ja see mudel määrab ära, kuidas lehed omavahel suhtlevad. Struktuuri kaevandamisel saab kasutaja avastada, kuidas see navigeerimine töötab, mis võib aidata luua sarnase navigeerimisskeemi.

Struktuurikaevandamist saab kasutada ka üksuste leidmiseks, kirjutades reeglid kaevandusprogrammi. Näiteks kui on olemas raamatuandmekogum, saab kasutaja kirjutada reegli, et kõik ilma registrita raamatud peaksid tagastama ilukirjandusena ja need, millel on register, mitteilukirjandusena. Enamikul ilukirjanduslikel raamatutel puudub register, seega ennustab see reegel suure täpsusega, millised andmed on. See aitab kasutajatel vaadata poolstruktureeritud komplekti, millel on organisatsiooniline meetod, kuid mis ei vasta kasutaja otsitavale.

Pärast poolstruktureeritud üksuse struktuuri välja selgitamist võrdleb kasutaja seda tavaliselt mõne teise poolstruktureeritud üksusega. Kui kasutajal on ettevõtte veebisait, saab ta navigeerimiseks ja linkimiseks kaevandada teise ettevõtte veebisaidi ning vaadata, kuidas tema veebisait sarnaneb. Kaevandatud teavet võrreldes võib kasutaja leida võimalusi konstruktsiooni efektiivsuse tõstmiseks.