Mis on dokumentide klassifikatsioon?

Nii nagu veebibrauser peab korraldama andmeid, et kasutajad saaksid otsingutulemusi, võimaldab dokumentide klassifikatsioon organisatsioonidel muuta olulise teabe leidmise lihtsaks. Dokumentide kategoriseerimine toimub teisiti kui otsingumootori algoritme kasutades, kuna konkreetsetel märksõnadel võib olla erinev tähendus. Selline meetod peab suutma hinnata konkreetsete äridokumentide konteksti. Järelevalvega dokumentide klassifikatsiooniga märgistab kasutaja dokumentide komplekti, mida automatiseeritud süsteem saab kasutada mudelina. Järelevalveta meetodi korral korraldatakse need matemaatiliselt sarnaste sõnade ja fraaside põhjal.

Reeglipõhise klassifikatsiooni kasutamisel on kasutajal dokumentide klassifitseerimise üle kõige suurem kontroll. Kontekst, kategooriad ja reeglid luuakse vastavalt käsitsi sisestatule. Dokumentide otsimise käigus kategoriseeritakse kõik kasutaja määratud täpsete reeglite järgi. Kategooriad tuleb määrata ka juhendatava meetodi käigus. Reeglite väljakirjutamise samm, mida otsingusüsteem peaks järgima, lõpeb aga automaatselt.

Dokumentide klastritega, mida nimetatakse ka järelevalveta klassifitseerimiseks, tehakse rühmitamine ja kategooriad kõik automaatselt. Reeglite käsitsi sisestamine puudub, mis võib olla nii kasulik kui ka ebasoodne. See protsess säästab aega, kuna reegleid pole vaja kirjutada ja sageli leitakse sarnaseid dokumente, mida algselt sarnaseks ei peetud. Negatiivne külg on see, et dokumendid võivad ilmuda koos, mis ei olnud algselt mõeldud samasse kategooriasse. Automatiseeritum lähenemine koormab ka arvutisüsteeme rohkem.

Tasakaalu leidmiseks kahe erineva meetodi vahel on arvutispetsialistid välja töötanud pooljärelevalvega dokumentide klassifitseerimise meetodi. Käsitsi kategoriseeritud dokumendid kombineeritakse märgistamata dokumendikomplektidega. Programmid, mis suudavad mõlemalt saadud teavet seostada, kasutavad andmeid iga dokumendi klassifitseerimise õppimiseks. Teabe otsimisele aitab kaasa teatud kontroll klassifitseerimisprotsessi üle. Dokumentide rühmitamine muutub tõhusamaks, kui nende rühmitamiseks saab kasutada fraase (nt sufiksipuu rühmitamine), eriti veebis salvestatud dokumentide puhul.

Infoteadus on uurinud erinevaid võimalusi andmekaeve tõhusamaks muutmiseks. Enamik ettevõtteid on Internetiga ühendatud, nii et veebikaevandamine peab asjakohaste dokumentide leidmiseks olema võimalikult vähe aeganõudev. Arvutiteadlased on loonud ka mitu erinevat algoritmi dokumentide hierarhiliseks korraldamiseks. Igaüks neist on omal moel tõhus ning dokumentide klassifikatsiooni uuritakse ja määratletakse jätkuvalt erinevate tarkvaraprogrammide ja kohandatud ettevõtte meetodite abil.