07.06.2015 Views

Untitled - Vitajte na stránkach www.einsty.hostujem.sk

Untitled - Vitajte na stránkach www.einsty.hostujem.sk

Untitled - Vitajte na stránkach www.einsty.hostujem.sk

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

S O F T W A R E<br />

TESTOVALI SME:<br />

PROGRAMY<br />

<strong>na</strong> rozpoznávanie textu<br />

V tomto teste sa bližšie pozrieme <strong>na</strong> programy, ktoré sa <strong>sk</strong>rývajú za tajomnou <strong>sk</strong>ratkou OCR.<br />

Ide o optické rozpoznávanie textu (OCR – Optical Character Recognition), ktoré sa <strong>na</strong>jèastejšie<br />

používa ako doplnkový program ku <strong>sk</strong>enerom. Ak totiž používate¾ <strong>sk</strong>enuje text, môže pomocou<br />

programu OCR vo výsledku zí<strong>sk</strong>a editovate¾ný text. Ten môže ¾ahko presunú do vlastného<br />

dokumentu alebo vymeni niektoré slová. Programy OCR pomôžu aj vtedy, ak sa vám z poèítaèa<br />

záhadne stratí pôvodný elektronický materiál a ostane len vytlaèená podoba. Ïalšie použitie<br />

programov OCR je pri archivácii dokumentov. Ak si totiž ukladáte <strong>na</strong>pr. došlú (klasickú) poštu<br />

v elektronickej forme, môžete pomocou rozpoz<strong>na</strong>nia textu podstatne zníži pamä ové nároky<br />

jednotlivých dokumentov.<br />

92 PC REVUE 12/2001<br />

Vcelku programy OCR slúžia <strong>na</strong> to, aby ste nemuseli<br />

manuálne prepisova už raz vytvorené dokumenty<br />

a prenechali túto prácu poèítaèu.<br />

ETAPY ROZPOZNÁVANIA. Celý proces rozpoznávania<br />

textu je možné pri dnes používaných<br />

programoch rozdeli <strong>na</strong> štyri etapy. Prvou fázou je<br />

zí<strong>sk</strong>anie elektronickej podoby dokumentu, ktorý<br />

budeme rozpoznáva . V zásade existujú v tejto<br />

fáze dve možnosti – papierová predloha sa <strong>sk</strong>enuje<br />

pomocou <strong>sk</strong>enera alebo sa rozpoznáva vopred pripravená<br />

elektronická podoba dokumentu. Programy<br />

OCR teda dokážu spolupracova s pripojeným<br />

<strong>sk</strong>enerom a jeho ovládacím programom a <strong>na</strong><br />

druhej strane dokážu <strong>na</strong>èíta niektoré obrazové<br />

formáty. K štandardným obrazovým formátom<br />

patrí TIF, JPG, BMP, niektoré programy umožòujú<br />

spoluprácu s ïalšími súbormi. Najdôležitejší doplnkový<br />

formát je PDF, ktorý sa ve¾mi èasto používa<br />

pri elektronickom šírení dokumentov.<br />

Po tom, ako sa <strong>na</strong>èíta podoba originálu zo <strong>sk</strong>enera<br />

alebo z obrazového formátu, <strong>na</strong>stáva druhá<br />

etapa – vlastné rozpoz<strong>na</strong>nie textu. Program prechádza<br />

jednotlivé èasti predlohy a porovnáva ich<br />

s databázou zapamätaných z<strong>na</strong>kov. Pokia¾ <strong>na</strong>stane<br />

zhoda, zapíše sa do výstupného súboru príslušný<br />

z<strong>na</strong>k. Vyzerá to síce jednoducho, ale algoritmus tejto<br />

èasti je srdcom každého programu OCR a každá<br />

firma si ho ve¾mi dobre stráži. Ide o to, že treba<br />

správne rozpoz<strong>na</strong> z<strong>na</strong>ky, ktoré sú v origináli<br />

vytlaèené v rôznej ve¾kosti, v rozlièných fontoch a<br />

rezoch (<strong>na</strong>pr. kurzíva, podèiarknutie, tuèné písmo<br />

alebo kombinácie). Ïalej sa použitý algoritmus<br />

musí vyrov<strong>na</strong> s textom <strong>na</strong> farebnom pozadí, s rozliènými<br />

efektmi, ale aj chybami tlaèe.<br />

Na úspešné rozpoznávanie je jednoz<strong>na</strong>ène <strong>na</strong>jdôležitejšia<br />

kvalita predlohy. Ideálne <strong>na</strong> rozpoznávanie<br />

sú dokumenty pochádzajúce z kníh alebo laserovej<br />

tlaèiarne. Takisto sú vítané výstupy z atramentovej<br />

tlaèiarne alebo èasopisov. Problém nerobí<br />

ani výstup z 24-ihlièkovej tlaèiarne alebo dokumenty<br />

zí<strong>sk</strong>ané kopírovaním (samozrejme z kvalitného<br />

originálu).<br />

Horšie je to v prípade 9-ihlièkovej tlaèiarne (<strong>na</strong>jmä<br />

ak je už pá<strong>sk</strong>a dos opotrebovaná) alebo dokumentov<br />

zí<strong>sk</strong>aných z faxov. Rozpoznávanie musí<br />

v tomto prípade pracova so z<strong>na</strong>kmi, ktoré nie sú<br />

úplne vyplnené alebo dokonca chýbajú celé ich èasti.<br />

Asi <strong>na</strong>jtvrdším orieškom pre programy OCR je<br />

rozpoznávanie textu písaného rukou. Pri <strong>na</strong>šom<br />

teste sme overili, že v podstate je možné rozpoznáva<br />

aj takéto dokumenty, vyžaduje to však pravidelné<br />

a úh¾adné písmo, ako i dodržiavanie istých<br />

pravidiel pri ich písaní.<br />

Poèas rozpoznávania program OCR obyèajne<br />

rozdelí celý rozpoznávaný dokument <strong>na</strong> nieko¾ko<br />

samostatných blokov. Poradie následnosti týchto<br />

blokov, ako i ich presné oz<strong>na</strong>èenie je možné v úplných<br />

verziách programov OCR meni . Toto poradie<br />

je dôležité hlavne <strong>na</strong> zachovanie výslednej podoby<br />

rozpoznávanej predlohy.<br />

Tretia etapa predstavuje kontrolu rozpoz<strong>na</strong>ného<br />

textu. Tu sa predpokladá spolupráca s používate¾om,<br />

ktorého úlohou je overi niektoré èasti rozpoz<strong>na</strong>nia.<br />

Dnešné programy OCR si vytvárajú údaje<br />

o tých z<strong>na</strong>koch, ktorých rozpoz<strong>na</strong>nie neprebehlo s<br />

úplnou istotou. Používate¾ovi sa pritom zobrazí<br />

<strong>na</strong><strong>sk</strong>enovaná podoba vybranej èasti a z<strong>na</strong>k, ktorý<br />

bol algoritmom vybraný. Používate¾ potom urèí, èi<br />

bolo rozpoz<strong>na</strong>nie správne alebo nie. Ak nie, môže<br />

zada správny z<strong>na</strong>k a program si tento spôsob rozpoz<strong>na</strong>nia<br />

zapamätá. Ide vlastne o akýsi proces<br />

uèenia, keï si program vytvára priradenia správne<br />

rozpoz<strong>na</strong>ných z<strong>na</strong>kov. Z<strong>na</strong>mená to, že èím viac<br />

používate program OCR, tým viac sa uèí a vy budete<br />

ma menej práce pri kontrole výsledku. Bohužia¾,<br />

spôsob správneho rozpoz<strong>na</strong>nia sa mení pod¾a kvality<br />

a typu predlohy.<br />

Ïalšou úlohou, ktorá sa realizuje v tejto etape, je<br />

porov<strong>na</strong>nie rozpoz<strong>na</strong>ných slov so slovníkom slov<br />

pre zvolený jazyk. Zaradenie sloven<strong>sk</strong>ého slovníka<br />

je pre mnohé programy OCR kameòom úrazu. Z testovaných<br />

programov totiž len jediný obsahuje<br />

vlastný slovník platný pre slovenèinu. V ostatných<br />

síce nájdete angliètinu, nemèinu, francúzštinu,<br />

èasto aj èeštinu, ale sloven<strong>sk</strong>ý slovník je, žia¾, výnimkou,<br />

prípadne ho dodávajú tretie strany (za<br />

ïalší poplatok). Uvedomujeme si, že ide o daò za<br />

relatívne malý sloven<strong>sk</strong>ý trh, <strong>na</strong> druhej strane si<br />

však myslíme, že by to pre autor<strong>sk</strong>é firmy nemal<br />

by až taký ve¾ký problém. Na Sloven<strong>sk</strong>u pôsobia<br />

firmy, ktoré sú schopné takéto riešenie doda prakticky<br />

okamžite.<br />

Aby však bolo jasné, absencia sloven<strong>sk</strong>ého slovníka<br />

vôbec nez<strong>na</strong>mená, že by príslušný program<br />

OCR nedokázal správne rozpoznáva sloven<strong>sk</strong>é<br />

z<strong>na</strong>ky. Ide len o to, že pri kontrole rozpoz<strong>na</strong>ného<br />

textu program bez sloven<strong>sk</strong>ého slovníka nemôže<br />

jednoducho porov<strong>na</strong> rozpoz<strong>na</strong>né slová so slovnou<br />

zásobou slovníka.<br />

Ako sme už vysvetlili, tretia etapa predstavuje<br />

urèitú prácu používate¾a a môže trva rádovo nieko¾ko<br />

minút <strong>na</strong> jednu stranu. Konkrét<strong>na</strong> doba, samozrejme,<br />

závisí od použitej predlohy a aj trpezlivosti<br />

a zruènosti používate¾a. Používate¾ sa však môže rozhodnú<br />

, že túto etapu pre<strong>sk</strong>oèí a bude spokojný s<br />

tým, èo rozpoz<strong>na</strong>l zabudovaný algoritmus.<br />

Programy OCR dokážu spracúva aj nieko¾kostránkový<br />

dokument. Z<strong>na</strong>mená to, že ïalšia rozpoznávaná<br />

stra<strong>na</strong> sa pripojí k predchádzajúcemu dokumentu.<br />

Väèši<strong>na</strong> programov OCR dokáže spolupracova<br />

s automatickým podávaèom listov, pokia¾<br />

je ním <strong>sk</strong>ener vybavený.<br />

Poslednou, štvrtou etapou je uloženie rozpoz<strong>na</strong>ného<br />

textu do niektorého zo známych formátov.<br />

Väèši<strong>na</strong> testovaných programov OCR umožòuje<br />

rozpoz<strong>na</strong>nie dokumentu aj v takej forme, že sa<br />

zachová formátovanie originálu. Ide o vzájomné<br />

umiestnenie obrázkov, tabuliek a textu vrátane<br />

zachovania jeho formátovania. Dôležité teda je,<br />

aby sa vzájomná poloha rozpoz<strong>na</strong>ných objektov

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!