Mis on kontrollitud sõnavara?

Kontrollitud sõnavara on arvutiteaduse ja arvutiprogrammeerimise mõiste, mis hõlmab ainult eelnevalt kokkulepitud või heakskiidetud terminite kasutamist relatsiooniandmebaaside, otsitavate metaandmete või muude süsteemide koostamisel, milles kasutatakse inimloetavaid sõnu teabe märgistamiseks hilisemaks otsimiseks. Kontrollitud sõnavara kasutamise metoodika teabe klassifitseerimiseks on otseses vastuolus loomuliku keele sõnavara kontseptsiooniga, mille puhul puuduvad kokkulepitud terminid ja kõik kasutatavad sõnad on seotud kaalutud suhetega. Lisaks kontrollitud sõnavaras kasutatavatele tippsõnadele saab kasutada ka tugisõnu, nii et sünonüümid või muud tipptaseme terminiga tugevalt seotud terminid võivad käivitada tipptaseme sõna kasutamise. Peamised erinevused, mida loomuliku keele süsteemide ja kontrollitud sõnavarasüsteemide vahel mõõdetakse, on sõnu kasutades tehtud päringu tulemuste asjakohasus, tagastatava teabe maht ja süsteemi üldine kasutatavus.

On palju juhtumeid, kus sõnade või terminite kogumit kasutatakse meelevaldse, pidevalt muutuva või korrastamata teabe kasutajatele kättesaadavamaks muutmiseks. Otsinguterminid Interneti-otsingumootoris, ettevõtte teabeandmebaasis ja isegi digitaalses uurimisraamatukogus on kõik näited rakendustest, mille kaudu saab teavet kategoriseerida metaandmete terminitega, mitte range hierarhilise struktuuriga. Sõnad, mida sellistes olukordades objekti kirjeldamiseks kasutatakse, loovad omamoodi otsitava indeksi suurema teabekogumi kohta.

Ühte näidet kontrollitud sõnavara kasutamisest võib näha ettevõtte failisüsteemi loomise kaalumisel. Failid tuleb kategoriseerida nii, et need oleksid hõlpsasti ja prognoositavalt taastatavad. Kui üks fail käsitleb autosid, siis võiks selle esitada kategooriasse “autod”. Kui mõnel teisel isikul on ka autosid käsitlev fail, ilma kontrollitud sõnavarata, võidakse fail paigutada pealkirja “autod” alla, mis muudab kahe faili leidmise ühe otsinguga keeruliseks. Kui kategooriad on kontrollitud, paigutataks kõik autosid käsitlevad failid ühte kokkulepitud rubriiki.

Kontrollitud sõnavara kasutamise eeliseks on see, et teavet kirjeldatakse rangelt etteaimatavalt. See tähendab, et igaüks, kes on sõnavaraga kursis, suudab tõhusalt ja täpselt teavet otsida. Sõnavaraga kaasneb aga see, et otsingutermineid on keerulisem, kui mitte võimatu, automaatselt genereerida ja need nõuavad tavaliselt inimese sekkumist, mistõttu on olemasolevate andmebaaside teisendamine kontrollitud sõnavara kasutamiseks raske ülesanne. Kui sõnavara pole piisavalt suur, siis on ka võimalus, et üks päring toob nii suure hulga teavet, et sortimine ilma teist päringumeetodit kasutamata muutub ebapraktiliseks.