Tekstikorpus on kõneldud või kirjutatud tekstide kogum, mis on korpuslingvistika uurimistöö aluseks. Nende suurte tekstipankade salvestamine võimaldab teadlastel analüüsida mis tahes keele erinevaid aspekte. Tekstikorpus on tõhus viis uurimistöö läbiviimiseks, sest kui materjal on kogutud, saab seda kasutada mitmesuguste keelega seotud küsimuste, sealhulgas morfoloogia, süntaksi, sõnavara ja pragmaatika uurimiseks. Erinevalt vanematest keeleuuringute läbiviimise meetoditest võimaldab tekstikorpus uurijatel vaadelda keelt selle järgi, kuidas seda kontekstis tegelikult kasutatakse, mitte selle järgi, kuidas seda hüpoteetiliselt kasutada saaks. Keeleteadlastel on tavaliselt juurdepääs palju suurematele andmeproovidele kui siis, kui nad pidid piirduma andmetega, mida nad saaksid koguda piiratud aja jooksul piiratud rahaliste vahenditega.
Korpused salvestatakse tavaliselt arvutisse, nii et uurimistöö hõlbustamiseks saab luua arvutitarkvara. Üks levinud viis tekstikorpuse kasutamiseks on lugeda tekstides olevate sõnade koguarv, seejärel loendada ja järjestada, mitu korda teatud sõnad esinesid. Suhet, mis luuakse sõnade koguarvu ja konkreetsete sõnade vahel, nimetatakse Zipfi seaduseks. See suhe aitab selgitada sõnade sagedust keeles. Zipfi seaduse mõistmine aitab arvutiprogrammeerijatel kujundada arvutitarkvara, mis vastab antud keele nõuetele. Nad suudavad lugeda ja ennustada, kui sageli teatud sõnu ja fraase sisendina kasutatakse.
Teine võimalus tekstikorpuse kasutamiseks on märgistada selles konkreetsed elemendid, mida uurija uurida soovib. Näide selle kohta, kuidas seda kasutada, on loendamine, mitu korda passiivne hääl esineb erinevates tekstižanrites. Sildistamine on olnud kasulik ka arvutiprogrammide loomisel, mis aitavad inimesi nende igapäevaelus. Kõneosaline sildistamine on olnud hääletuvastustarkvara arendamisel kriitilise tähtsusega. Näiteks inglise keeles võib samal sõnal olla rohkem kui üks kõneosa. Mitmesilbilisi sõnu rõhutatakse sageli erinevalt, et anda märku sellest, millist kõneosa kasutatakse. Nimisõna “objekt” kannab oma rõhku esimesel silbil, kuid tegusõna “objekt” on rõhuasetus teisel silbil. Nimisõna vormi “objekt” märgistamine aitab arvutiprogrammil seda õigesti ette lugeda ja ära tunda, kui inimene ütleb “objekt”.
Tekstikorpused on kasulikud nii inimlingvistikale kui ka arvutuslingvistikale. Need võimaldavad läbi viia uuringuid, mis aitavad inimestel paremini mõista inimeste kasutatavat keelt, mis omakorda aitab arendada arvutite kasutatavat keelt. Hääletuvastustehnoloogias on tehtud suuri hüppeid, mis võimaldavad tarbijatel oma kontorites, kodudes ja sõidukites arvuteid verbaalselt juhtida. Jätkuvad edusammud võimaldavad inimestel suhelda arvutitega sama loomulikult kui üksteisega.