Mis on OCR (Optical Character Recognition)?

Optical Character Recognition (OCR) on protsess, mille käigus muudetakse trükitud materjalid teksti- või tekstitöötlusfailideks, mida saab hõlpsasti redigeerida ja salvestada. Tehnoloogia on võimaldanud selliseid materjale salvestada, kasutades palju vähem ruumi kui paberkandjal. OCR-tehnoloogia on avaldanud tohutut mõju teabe salvestamisele, jagamisele ja redigeerimisele. Kui keegi soovis enne optilist märgituvastust muuta raamatu tekstitöötlusfailiks, tuli iga leht sõna-sõnalt tippida.

OCR-tehnoloogia nõuab nii riist- kui ka tarkvara. Lisaks vajavad keerukad OCR-süsteemid protsessi lõpuleviimiseks täiendavat trükkplaati arvutis endas. Optiline skanner skannib lehekülje teksti ja jagab seejärel fondid punktideks, mida nimetatakse bitmapiks. Tarkvara suudab lugeda enamlevinud fonte ja teha vahet, kus read algavad ja peatuvad. Seejärel tõlgitakse see bitmap arvutitekstiks.

Kuigi optiline märgituvastus on viimastel aastatel teinud suuri edusamme, ei tuvasta see alati hästi käekirja või käsitsikirjale sarnaseid fonte. Pangandussektoris on süsteeme, mis kasutavad OCR-tehnoloogiat, et proovida lugeda käsitsi kirjutatud tšekkidel olevaid summasid, et minna koos arvuti võimega lugeda marsruutimist ja kontonumbreid.

OCR-i võimsusest aimu andmiseks võib aidata heita pilk reaalsele näitele. Kujutage ette politseiosakonda, mille kõik karistusregistrid on salvestatud tohututesse kappidesse. Kuigi miljonite lehtede skannimine oleks kulukas ja aeganõudev ettevõtmine, on sellest saadav kasu tohutu.

Kui OCR-süsteem on leheküljed arvutiga loetavaks tekstiks teisendanud, võib näiteks detektiiv mõne sekundiga kogu ajaloo läbi otsida. Konkreetse kirje käsitsi leidmine ei pruugi olla liiga keeruline, kuid kujutage ette, et detektiiv püüab otsida kõiki teatud ristmikul ajavahemikus 8–00 toime pandud kuritegusid. See näide kriibib ainult otsitava teksti võimsust ja see on vaid üks põhjus, miks paljud ettevõtted ja asutused kulutavad miljoneid dollareid oma pärandandmete optilise tuvastamise jaoks.