Mis on sisu määramine?

Sisu määramine toimub siis, kui inimene, rühm või programm otsustab, millist teavet dokumenti või teksti lisada või välja jätta. See on seotud dokumentide struktureerimist ümbritsevate mõistetega. See on seotud ka loomuliku keele genereerimise ja arvutilingvistikaga. Igas õppevaldkonnas kasutatakse teabe valimise uurimiseks sisu määramist.

Kaaludes, mida dokumenti või teksti panna, on koostaja läbi viinud oma uurimistöö või talle on antud kõik olemasolevad andmed. Sisu määramine hõlmab viise, kuidas see teave lõppdokumenti kaasatakse. Selleks tehakse kindlaks, milline on teksti nurk või eesmärk ja milline teave tekstis on sellega seotud.

Teine sisu määramise kaalutlus on selle stiil. See kipub sõltuma sihtrühma iseloomust. Publiku intellekt ja teema tundmine muudavad edastatava teabe leksikaalset tihedust ja keerukust. Akadeemikud kipuvad tootma tihedamaid tekste kui näiteks kõmuajakirjad. Muud kaalutlused hõlmavad vormingu suurust, olgu selleks raamat, artikkel või tekstsõnum.

Iga sisu määramise teeb inimene. Seal on uurija ja kirjutaja, kes on sageli, kuid mitte alati, sama isik, ja seejärel toimetaja või toimetajad. Igal tasandil on arvamus selle kohta, milline sisu on teksti eesmärgi jaoks asjakohane. Arvutuslingvistid ja arvutiinsenerid on otsinud võimalusi selle süsteemi reprodutseerimiseks arvutiprogrammide abil, selle asemel, et toetuda inimestele.

Arvutid kasutavad sisu määramiseks kolme arvutustehnikat. “Skeemitehnika” põhineb kirjalike tekstide uurimisel. See kasutab eelnevalt läbivaadatud tekste aluseks, millist teavet koostatavasse teksti lisada. Statistiline meetod määrab sisu automaatselt suure hulga üldise statistika põhjal. “Eksplitsiitne arutluskäik” kasutab teabe uurimiseks ja filtreerimiseks tehisintellekti (AI).

Sisu määramise üldeesmärk on mõista, kuidas dokumente koostatakse, et neid saaks arvutiga reprodutseerida. Sellise edu tulemuseks on arvuti, mis suudab andmeid vastu võtta, neid filtreerida ja koostada kokkuvõtteid kõige olulisemast teabest. Arvuti ei põhine sellistel dokumentidel mitte ainult teabel, vaid ka koostatava teksti eesmärkidel. Hiina ruumiteooria kohaselt võib see tähendada, et arvuti on võimeline andmetest aru saama, selle asemel et paljundada ja arvutada.