Mis on kõnekorpus?

Kõnekorpus, tuntud ka kui kõnekorpus, on kõnede kogum, mis on säilitatud heli- või tekstivormingus. Need kogud on kasulikud kõnetarkvara arendamisel ja keeleuuringute läbiviimisel. Kõnekorpuse kaks sorti on spontaanne kõne ja loetud kõne.
Oluline on määratleda, mida tähendavad sõnad “kõne” ja “korpus”. Kõne koosneb mõtete ja faktide kogumitest, tavaliselt suulises vormis. Kõnena võib vaadelda ka mis tahes suulist ütlust. Korpus viitab omakorda erinevate infokildude formaalsele kogumile.

Kasutajad loovad tavaliselt kõnekorpuse kas helisalvestiste või tekstipõhiste transkriptsioonide abil. Salvestisi saab teha helisalvestustehnoloogiate abil ja salvestada – sageli MP3-failidena elektroonilistes andmebaasides – korpuse loomiseks. Transkribeerija seevastu teisendab kõne kirjalikuks vormiks, mis seejärel koostatakse teiste transkriptsioonidega.

Kõnekorpuses võib leida mis tahes tüüpi kõnet, kuid sellised andmebaasid jagunevad üldiselt kahte kategooriasse. Esimene, spontaanne kõne, sisaldab mitteformaliseeritud kõnesid, mida inimene võib pidada, näiteks vestlustes või suulises jutuvestmises. Loetud kõned on aga vormilisema ja etteplaneeritud ülesehitusega. Näited võivad hõlmata poliitilisi kõnesid, uudistesaateid ja audioraamatute lugemisi. Mõned sordid võivad sõltuda konkreetsest kontekstist, näiteks intervjuud.

Kõnekorpuse tööriistade üks peamisi eeliseid on nende praktiline kasulikkus kõnepõhise tarkvara loomisel. Näiteks pakuvad paljud arvutid ja muud elektroonilised seadmed kõnetuvastusfunktsioone valikuna, nagu trükitud teksti tagasilugemine, öeldud sõnade tekstiks muutmine või kõneleja tuvastamine unikaalsete hääleomaduste järgi. Kõnekorpuse väljavõtted võivad aidata seda tehnoloogiat täiustada, rakendades iga üksiku heli jaoks matemaatiliselt põhinevaid statistikakomplekte, mida nimetatakse akustilisteks mudeliteks. Lisaks võivad andmebaasid aidata arendada keeleõppe helilinte.

Need funktsioonid on seotud mõne teise kõnekorpuse rakendusega. Nimelt saavad teadlased võtta need säilinud heli- või kirjafailid ja uurida keele peeneid grammatilisi variatsioone. Seetõttu võib kõnekorpus olla väärtuslik vahend häälduse, sõnajärje ja muude keelemudelite tundmaõppimisel. Teadlased saavad veelgi võrrelda erinevate piirkondlike murrete ja keelte sarnasusi ja erinevusi, kui nad loovad mitme keelega kogumiku või mitmekeelse korpuse. Kõnet hõlmavate korpuste hindamine on spetsiaalne uurimistöö koondumine, mida tuntakse korpuslingvistikana ja selle arvutipõhist teostust nimetatakse arvutuslingvistikaks.

Paljud transkriptsiooniandmebaasid sisaldavad märgendeid või silte, mis sisaldavad teavet tekstiosa üksikute komponentide kohta. Seda protsessi nimetatakse annotatsiooniks. Abstraktsiooni käigus dokumenteerivad ja tõlgivad keeleteadlased kõnes erinevaid termineid. Selline sisend võib olla kasulik, kui inimene soovib tundmatute tsivilisatsioonide kohta tekstide kaudu õppida. Korpuse uurimise viimane etapp hõlmab analüüsi või kõnekomponentide kogumi põhjal võrdluste ja teoreetiliste ideaalide tuletamist.