Mis on leksikaalne tihedus?

Leksikaalne tihedus viitab leksikaalsete ja funktsionaalsete sõnade suhtele mis tahes tekstis või tekstikogumis. See on arvutuslingvistika ja lingvistilise analüüsi haru. See on seotud sõnavaraga, iga inimese teadaolevate sõnadega ja seda saab kasutada ühe inimese suulise ja kirjaliku leksikoni võrdlemiseks. Leksikon erineb kogusõnavarast, kuna see ei sisalda funktsionaalseid sõnu, nagu asesõnad ja partiklid.

Kõne või teksti tihedus arvutatakse leksikaalsete sõnade arvu ja funktsionaalsete sõnade arvu võrdlemisel. Lühilauseid ja väikeseid tekste saab arvutada peastarvutamise või lihtsa loendamisega. Suuremad võrdlused, näiteks Charles Dickensi või William Shakespeare’i kohta, tehakse teabe sisestamisega arvutiprogrammi. Programm sõelub teksti funktsionaalseteks ja leksikaalseteks sõnadeks.

Tasakaalustatud leksikaalne tihedus on ligikaudu 50 protsenti. See tähendab, et pool igast lausest koosneb leksikaalsetest sõnadest ja pooled funktsionaalsetest sõnadest. Madala tihedusega teksti suhe on väiksem kui 50:50 ja suure tihedusega teksti suhe on suurem kui 50:50. Akadeemilised tekstid ja valitsuse, žargooniga täidetud dokumendid kipuvad tootma suurimat tihedust.

Üks viga leksikaalse tiheduse arvutamisel on see, et see ei võta arvesse koostisosade erinevaid vorme ja juhtumeid. Statistilise analüüsi eesmärgiks on vaid sõnaliikide vahekorra uurimine. See ei koosta ühe indiviidi leksikaalsete teadmiste uurimist. Kui see nii oleks, eristaks leksikaalse tiheduse analüüs selliseid vorme nagu “anna” ja “anna”. Teoreetiliselt saab leksikaalset tihedust tekstidele rakendada, et uurida teatud leksikaalsete üksuste esinemissagedust.

Isiku kirjalikku leksikoni saab aidata sõnaraamatute ja tesauruste abil. Sellised tööriistad pakuvad alternatiivseid sõnu ja selgitavad tähendusi. Rääkimisel peab inimene toetuma ainult oma vaimsele sõnavarale. See tähendab, et leksikaalset tihedust saab kasutada suulise ja kirjaliku leksikoni võrdlemiseks. Kõnekeelte leksikaalne tihedus kipub olema väiksem kui kirjalikul tekstil.

Arvutuslingvistika on lingvistilise analüüsi statistilise modelleerimise valdkond. See sündis külmast sõjast ja Ameerika soovist kasutada vene keelest inglise keelde tekstide tõlkimiseks arvutit. Selleks oli vaja kasutada matemaatikat, statistikat, tehisintellekti ja arvutiprogrammeerimist. Programmeerijate suurimaks probleemiks oli saada arvuti mõistma keerulist grammatikat ja keelepragmaatikat. Sellest sündis Hiina ruumi teooria, mille kohaselt arvutid suudavad sõnu sõnasõnaliselt tõlkida, kuid ei saa lõpuks keeltest aru.