Predspracovanie obrazu pre optické rozpoznávanie ... - TUKE
Predspracovanie obrazu pre optické rozpoznávanie ... - TUKE
Predspracovanie obrazu pre optické rozpoznávanie ... - TUKE
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
FEI TU v Košiciach Diplomová práca List č. 2<br />
1 Úvod do <strong>optické</strong>ho rozpoznávania <strong>obrazu</strong><br />
Optické <strong>rozpoznávanie</strong> znakov (anglicky: Optical character recognition, skrá-<br />
tene: OCR) je spôsob, ktorým počítače menia obraz s tlačeným textom (väč-<br />
šinou získaný zo scanneru) na editovateľný text (kde každý znak je re<strong>pre</strong>-<br />
zentovaný jedným bytom). Optické <strong>rozpoznávanie</strong> znakov (ďalej len ORZ)<br />
sa začalo skúmať ako časť umelej inteligencie a počítačového videnia.<br />
Aj keď výskum ORZ ďalej pokračuje ako časti umelej inteligencie aj<br />
na akademickej pôde, mnoho firiem a jednotlivcom sa sústredilo hlavne na<br />
implementáciu osvedčených techník <strong>pre</strong> ORZ.<br />
1.1 Rozdiel medzi optickým a digitálnym rozpoznáva-<br />
ním znakov<br />
V oblasti rozpoznávania znakov sa podľa [9] rozlišovali dve základné spôsoby:<br />
- <strong>optické</strong> <strong>rozpoznávanie</strong> znakov pomocou zrkadiel, šošoviek, atď.<br />
- digitálne <strong>rozpoznávanie</strong> znakov pomocou scannerov a počítačových al-<br />
goritmov<br />
Keďže v súčastnosti existuje už len veľmi málo skutočne optických tech-<br />
ník, boli tieto dve oblasti zlúčené a teda aj digitálne <strong>rozpoznávanie</strong> znakov<br />
sa dnes označuje ako <strong>optické</strong> <strong>rozpoznávanie</strong> znakov.<br />
1.2 Trénovanie<br />
Prvé systémy ORZ vyžadovali trénovanie programu <strong>pre</strong> ORZ aby vedeli daný<br />
font rozpoznať. Moderné programy <strong>pre</strong> ORZ už dokážu rozpoznať väčšinu<br />
fontov s veľkou <strong>pre</strong>snosťou. Niektoré z týchto programov dokážu vytvoriť<br />
dokument, ktorý má rovnaké rozloženie ako pôvodný dokument (zachovanie<br />
odstavcov, tabuliek, obrázkov). V súčasnosti sa používa ORZ <strong>pre</strong> rozpozná-<br />
vanie tlačeného textu, ručne písaného textu a nôt.