Mis on tekstifail?

Tekstifail on arvutifail, mis salvestab trükitud dokumendi tähtnumbriliste märkide seeriana, tavaliselt ilma visuaalse vormingu teabeta. Sisu võib olla isiklik märkus või loend, ajakirja- või ajaleheartikkel, raamat või mis tahes muu tekst, mida saab masinal täpselt renderdada. Tekstifailid sarnanevad tekstitöötlusfailidega, kuna mõlema sisu on peamiselt tekstiline; need erinevad selle poolest, et tekstifailid ei salvesta tavaliselt sellist teavet nagu tähemärgi stiil ja suurus, lehekülgede arv või muud üksikasjad, mis täpsustaksid valmis dokumendi välimust. Mõned arvutioperatsioonisüsteemid eristavad põhiliselt tekstifaili, mis on mõeldud otse inimloetavaks tekstiks tõlkimiseks, ja binaarfaili, mida arvuti tõlgendab otse.

Enamikus teksti kodeerimiseks kasutatavates skeemides on igale märgile määratud arvväärtus, mille järel tekst kirjutatakse kahendnumbrite jadana. Üks kodeerimisskeemide perekond, nimega American Standard Code for Information Interchange (ASCII), sai juba andmetöötluse ajaloo alguses laialdaselt kasutatavaks standardiks, vaatamata sellele, et see toetab vähesel määral muid keeli peale inglise keele. ISO 8859 koodiperekond on pakkunud palju paremat tuge ladina tähestikul ja sarnastel tähestikul põhinevatele keeltele, kuid pole suutnud kodeerida Ida-Aasia keelte (nt jaapani) tähemärke, mis toob kaasa kokkusobimatute standardite leviku.

Hiljuti on Unicode® Consortium arendanud Unicode®-i nimelist kodeerimissüsteemi, mille eesmärk on määrata igale tähemärgile kordumatu number, mida kasutatakse kõigis maakera keeltes. See võimaldab iga keele jaoks kasutada ühte koodi ja mitme keele tekstide kuvamist ühes failis. Unicode’i esimene osa põhineb ISO 8859-l, mis ise põhineb ASCII-l. Unicode®-i kasutamisel võib olla eeliseid isegi inglise keelt kõnelevates riikides, kuna vanemaid skeeme kasutades kodeeritud tekstis võib süsteemist süsteemi teisaldamisel ilmneda väikeseid ebakõlasid.

Tekstifailide eelised hõlmavad väiksust ja mitmekülgsust. Kilobaite või megabaite väiksemad kui samad muudes vormingutes salvestatud andmed, saab neid kiiresti ja massiliselt e-posti või kettaga vahetada. Enamikku saab avada arvutites, mis kasutavad erinevaid operatsioonisüsteeme, kasutades väga lihtsat tarkvara. Peamine puudus on vormingu puudumine. Tekstifail võib olla kehv valik pilte sisaldava dokumendi või selle tähenduse edastamiseks kujunduselementidele tugineva dokumendi esitamiseks – fail, mis sisaldab näiteks tabeliandmeid, matemaatilisi valemeid või konkreetset luulet.

Tekstifailid on üldiselt mõeldud inimestele lugemiseks ja toimetamiseks, kuid mitte kõik neist ei sisalda sisu, mis on mõeldud peamiselt inimtoiduks. Enamik programmeerimiskoodi salvestatakse enne kompileerimist tekstifaili, st tõlgitakse masinloetavaks binaarfailiks. Failid võivad sisaldada ka masinloetavaid tekstimärgendeid, mis annavad lisaks lihttekstile ka vormindusteavet. Näiteks saab hüperteksti märgistuskeele (HTML) faili avada tekstiredaktoris lihttekstifailina või kuvada vormindatud veebilehena pärast seda, kui veebibrauser on seda tõlgendanud. Sarnased skeemid hõlmavad LaTeX-i, mida kasutatakse teadustööde koostamiseks, ja XML-i (Extensible Markup Language), mida kasutatakse andmete struktureerimiseks.