Kuidas valida parimat OCR-tarkvara?

Optilise märgituvastuse (OCR) tarkvara on tarkvara, mis on loodud teksti kujutiste tõlkimiseks tegelikuks tekstiks, mida arvuti saab lugeda. Tavaliselt kasutatakse seda pärast pildi skannimist arvutisse, kuigi võib kasutada ka muid sisestusviise. OCR-tarkvara töötab kõige paremini juba trükitud teksti puhul, kas siis, kui originaalväljatrükk on kadunud, või kirjutusmasinal trükitud lehtede skannimisel. Hea tarkvara võib siiski olla võimeline tõlkima ka käsitsi kirjutatud teksti, kuigi sellise teisenduse veamäär kipub olema palju suurem.

Tegelik termin OCR-tarkvara on veidi eksitav, kuna enamik tänapäevaseid versioone ei kasuta optilist märgituvastust, vaid digitaalset märgituvastust. Selle põhjuseks on asjaolu, et mõned aastad tagasi väljad tõhusalt ühinesid ja mõlemad väljad võtsid kasutusele atraktiivsema termini optiline märgituvastus. OCR-tarkvara on viimastel aastatel palju edasi arenenud ning kaasaegsed programmid on teksti tuvastamisel oluliselt paremad kui nende eelkäijad.

Tegelikult nõudis varajane OCR-tarkvara programmi konkreetse fondi jaoks väljaõpetamist, enne kui seda sai täpselt sisestada. Samamoodi tuleks käsitsikirja sisestamisel programmi koolitada, mis võib olla uskumatult aeganõudev. Meetodid on aga paranenud ja intelligentsemad süsteemid on nüüdseks normiks. Kasutatavad meetodid on praegu suhteliselt staatilised, vaid vähesel määral uuritakse täiesti uute meetodite väljatöötamist ja enamik uuringuid on suunatud olemasolevate protseduuride täiustamisele, et muuta need veelgi täpsemaks. Tarkvara varajasi versioone kasutati paljudes rakendustes, 1950. aastatel kasutasid suuremad ettevõtted neid krediitkaardijälgede lugemiseks ja Ameerika Ühendriikide postiteenistus kasutas neid posti sortimiseks alates 1960. aastate keskpaigast.

Kümme aastat tagasi oli OCR-tarkvara valimine keeruline, kuna paljud programmid olid teatud ülesannete puhul üsna halvad ja teiste puhul üsna head. Tänapäeval on aga põld suures osas tasaseks tehtud. Ladina kirjade tõlkimise hea tarkvara puhul on täpsus üle 99%. Käsikirja või keerukamate kirjatüüpide sisestamisel on OCR-tarkvaral siiski suhteliselt suur ulatus.

OCR-tarkvara hind kõigub samuti suuresti, sageli seoses selle täpsusmääradega. Päris palju võib leida tasuta tarkvara, mis sobib trükiste sisestamiseks, ja mõnda, mis on suhteliselt hea käekirja tuvastamiseks, eriti mõne koolituse korral. Kallimatel tarkvarakomplektidel, nagu OmniPage’i komplekt, mille koduversioon maksab umbes 100 USA dollarit (USD) ja professionaalse versiooni eest umbes 450 USD, on muljetavaldav hulk funktsioone ja üldiselt suurem edukus.
Kahjuks pole ikka veel olemas sellist asja nagu täiuslik OCR-tarkvara, nii et ostetava programmi valimine võib siiski suures osas olla masendav protsess. Tõenäoliselt on isegi parimatel programmidel käsitsi kirjutamisega raskusi ja vead hiilivad paratamatult läbi isegi madalal tasemel. Enamasti taandub ostetava programmi valimine lisafunktsioonidele: mitmekeelne tugi, ühe puutega skannimise ja teisendamise integreerimine, automaatne PDF-i teisendamine ja terve sõna tuvastamine erivaldkondades, nagu õigus- ja meditsiinivaldkonnad.