Mis on korpuslingvistika?

Korpuslingvistika keele uurimine eluliste näidete abil. See ei ole keeleteaduse haru, vaid metoodika või lähenemine. Korpus, ladinakeelne sõna “keha”, viitab loomulike tekstide põhiosale ja lähenemisviis hõlmab keelekasutusmustrite avastamist korpuse analüüsi kaudu. Korpuslingvistika kogeb tagasitulekut, kuna arvutiprogrammid on selle lähenemisviisi revolutsiooniliselt muutnud.

Vanemate päevikud lapse kõnest, kui ta esimest korda keele omandab, on lihtne näide korpusest, mida saab seejärel keelemustrite õppimiseks uurida. Võõrkeeleõpetus kasutas 20. sajandi esimesel poolel õpilastele sõnavaranimekirjade koostamiseks sageli sihtkeele korpuseid. Väljapaistev keeleteadlane Noam Chomsky ei pidanud korpuste kasutamist kehtivaks vahendiks, kuna tema arvates on keeleoskus olulisem kui sooritusandmed. Varajane korpuslingvistika põhines suuresti eeldusel, et loomulikus keeles on lauseid piiratud arv ning neid lauseid saab koguda ja hinnata.

Pärast soosingust väljalangemist 60ndatel ja 70ndatel on korpuslingvistika kogemas arvuti metoodilise kasutamise tõttu elavnemist. Kooskõlaprogramm on keeleteadlaste kõige sagedamini kasutatava tarkvara nimi. Kui miljonitest sõnadest koosnevast korpusest mustrite otsimine võtaks inimesel liiga palju aega ja tulemused oleksid ebatäpsed, siis arvuti suudab teavet otsida ja hankida vaid sekunditega. See suudab arvutada sagedust, sortida andmeid ja kasutada korpuseid viisil, mis varem oli võimatu.

Korpusepõhine analüüs võib uurida, kuidas register mõjutab keelt; keelekasutusmustrid, näiteks see, kuidas mehed ja naised erinevalt sildiküsimusi kasutavad; keelemustrite kasutamise ulatus; ja tegurid, mis mõjutavad keelekasutuse varieeruvust. Korpuslingvistikast saab õppetöös kasu ainekava koostamisel, kasutatavate materjalide väljatöötamisel ja klassiruumis kasutatavate tegevuste tüübil. Õpilased võiksid sellest lähenemisviisist kasu saada, kui nad suudavad selgemalt määrata levinud sõnade erinevaid kasutusviise ja tähendusi, kirja- ja kõnekeelele omaseid erinevusi ning fraase ja kollokatsioone, mida nad saaksid kasutada. Korpuse andmekogu uuendatakse pidevalt ja see on tegeliku sotsiaalse suhtluse tulemus. Seega on korpused naturalistlikud andmed, millele on lihtne ligi pääseda ja leide saab üldistada.