Mis on andmekaeve klassifikatsioon?

Andmekaeve klassifitseerimine on üks samm andmekaeve protsessis. Seda kasutatakse üksuste rühmitamiseks teatud põhiomaduste alusel. Andmekaeve klassifitseerimiseks kasutatakse mitmeid tehnikaid, sealhulgas lähima naabri klassifikatsioon, otsustuspuu õppimine ja tugivektori masinad.

Andmekaeve on meetod, mida teadlased kasutavad andmetest mustrite eraldamiseks. Üldjuhul valitakse andmete kogumist esinduslik valim ning seejärel manipuleeritakse ja analüüsitakse mustrite leidmiseks. Lisaks andmete kaevandamise klassifikatsioonile võivad teadlased andmete analüüsimiseks kasutada ka klasterdamist, regressiooni ja reeglite õppimist.

Andmekaeve klassifitseerimisel saab kasutada mitmeid algoritme. Lähima naabri klassifikatsioon on üks lihtsamaid andmekaeve klassifitseerimisalgoritme. See tugineb treeningkomplektile. Treeningkomplekt on andmete kogum, mida kasutatakse arvuti õpetamiseks pöörama tähelepanu teatud muutujatele. Lähima naabri klassifikatsioonis klassifitseerib arvuti lihtsalt kõik andmed osana rühmast, mis sisaldab sisendile kõige lähemal olevaid andmeid.

Otsustuspuu õppimine kasutab andmete klassifitseerimiseks hargnemismudelit. Põhimõtteliselt esitab arvuti andmete kohta rea ​​küsimusi. Kui vastus esimesele küsimusele on tõene, esitatakse küsimus 2a. Kui vastus on vale, esitab see küsimuse 2b. Väljatõmmatuna moodustab see meetod hargnevate radade puu.

Naiivne Bayesi klassifikatsioon põhineb tõenäosusel. See esitab iga andmeosa kohta rea ​​küsimusi ja kasutab seejärel vastuseid, et määrata kindlaks tõenäosus, et andmed kuuluvad teatud klassifikatsiooni. See erineb otsustuspuu õppimisest, kuna vastus esimesele küsimusele ei mõjuta seda, millist küsimust järgmisena esitatakse.

Keerulisemad andmekaeve klassifitseerimise meetodid hõlmavad närvivõrke ja tugivektori masinaid. Need meetodid on arvutipõhised mudelid, mida oleks raske käsitsi teha. Närvivõrke kasutatakse sageli tehisintellekti programmeerimisel, kuna need jäljendavad inimese aju. See filtreerib teavet sõlmede seeria kaudu, mis leiavad mustrid ja seejärel klassifitseerivad teabe.
Tugivektorimasinad kasutavad koolitusnäidiseid, et koostada mudel, mis klassifitseerib teavet, mida tavaliselt visualiseeritakse hajuvusdiagrammina, millel on suur kategooriatevaheline ruum. Kui masinasse sisestatakse uus teave, kantakse see graafikule. Seejärel klassifitseeritakse andmed selle alusel, millisele kategooriale teave graafikul kõige lähemal on. See meetod töötab ainult siis, kui valida on kahe valiku vahel.