Mis on sagedusloend?

Sagedusloend on kvantitatiivse lingvistilise analüüsi tööriist, loend kõigest, mis valitud tekstiplokis kuvatakse ja kui sageli see esineb. Keeleanalüüs on valdkonnaülene valdkond, mis uurib keele struktuuri ja selle kasutamist. Antropoloogia, matemaatika, informaatika ja loogika elemente kombineerides kasutatakse keelelist analüüsi selliste projektide jaoks nagu mehaaniline tõlkimine, krüptograafia ja iidsete kirjutiste dešifreerimine.

Sagedusloendid võivad olla sõnade või tähtede loendid. Krüptograafias kasutatakse tavaliselt tähesagedusi. Üks lihtsamaid koode on asendusšifr, kus iga täht asendatakse mõne teise tähe või sümboliga. Näiteks võib teade „rünnak koidikul” olla kodeeritud kui „zoozhl zo azqp”. Asendusšifrite eeliseks on see, et nad ei vaja koodiraamatut, kuid nõrkuseks on see, et neid saab lahti murda, kui võrrelda sõnumis olevate tähtede ja tähekombinatsioonide sagedust tavalise kasutuse sagedusloendiga.

Arthur Conan Doyle’i filmis “Tantsivate meeste seiklus” kasutab väljamõeldud detektiiv Sherlock Holmes asendusšifri purustamiseks sagedusanalüüsi. Ajalooliselt on kooditegijad proovinud erinevaid nippe, et muuta oma šifreid sagedusloendi abil keerulisemaks lahti murda: šifrite rullimine, kus kasutatav asendus sõltus tähe asukohast sõnumis, tühikute kõrvaldamine või kodeerimine, et sõnade sagedusi ei saaks kasutada, sõnumite säilitamine. lühikesed ja väldivad oodatud sõnu, et koodimurdjatel ei oleks sagedusanalüüsi jaoks piisavalt valimit. Lõppkokkuvõttes saab iga šifri purustada piisavalt suure valimiga, mistõttu on standardiks saanud keerukamad krüpteerimisprotokollid.

Sõnade ja sõnaliikide sagedusloendeid kasutatakse ka muistses keeleõppes. Kui Jean-Francois Champollion tõlkis 1820. aastatel Rosetta kivi, kasutas tema protsess sageduste võrdlemise ja transliteratsioonide segu, et ühendada hieroglüüfikeel. Uuringud on näidanud, et iidsete keelte, nagu ka tänapäeva inglise keele puhul, katab 1,500–2,000-sõnaline põhisõnavara 85–90 protsenti tavalistest tekstidest, mis võimaldab lugejal oma sõnavara kontekstist lähtuvalt laiendada.

Zipfi seadus, mis sai nime Harvardi lingvistikaprofessori George Kingsley Zipfi järgi, on empiiriline tähelepanek sagedusreitingute käitumise kohta. See ütleb, et sündmuse sagedus on pöördvõrdeline sündmuse järjestusega. Tavaliselt on sündmus keelelises sagedusloendis sõna või täht, kuid Zipfi seadust on üldistatud nii, et see hõlmab ka muid nähtusi, nagu linnaelanikkond ja ettevõtete tulud.

Sagedusloend on projektides oluline tööriist, mis aitab arvutitel kõne- ja kirjakeelt mõtestada. Üks näide on mehaaniline tõlkimine – arvutite kasutamine dokumentide tõlkimiseks ühest keelest teise. Teine näide on Watson, loomuliku keele superarvuti, mida esitleti telemängusaates Jeopardy võistlejana! veebruaris 2011. Nii sõnade kui ka kasutustüüpide sagedused on nende programmeerimisse kaasatud tähenduse leidmise vahendina.