Untitled - Vitajte na stránkach www.einsty.hostujem.sk
Untitled - Vitajte na stránkach www.einsty.hostujem.sk
Untitled - Vitajte na stránkach www.einsty.hostujem.sk
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
S O F T W A R E<br />
TESTOVALI SME:<br />
PROGRAMY<br />
<strong>na</strong> rozpoznávanie textu<br />
V tomto teste sa bližšie pozrieme <strong>na</strong> programy, ktoré sa <strong>sk</strong>rývajú za tajomnou <strong>sk</strong>ratkou OCR.<br />
Ide o optické rozpoznávanie textu (OCR – Optical Character Recognition), ktoré sa <strong>na</strong>jèastejšie<br />
používa ako doplnkový program ku <strong>sk</strong>enerom. Ak totiž používate¾ <strong>sk</strong>enuje text, môže pomocou<br />
programu OCR vo výsledku zí<strong>sk</strong>a editovate¾ný text. Ten môže ¾ahko presunú do vlastného<br />
dokumentu alebo vymeni niektoré slová. Programy OCR pomôžu aj vtedy, ak sa vám z poèítaèa<br />
záhadne stratí pôvodný elektronický materiál a ostane len vytlaèená podoba. Ïalšie použitie<br />
programov OCR je pri archivácii dokumentov. Ak si totiž ukladáte <strong>na</strong>pr. došlú (klasickú) poštu<br />
v elektronickej forme, môžete pomocou rozpoz<strong>na</strong>nia textu podstatne zníži pamä ové nároky<br />
jednotlivých dokumentov.<br />
92 PC REVUE 12/2001<br />
Vcelku programy OCR slúžia <strong>na</strong> to, aby ste nemuseli<br />
manuálne prepisova už raz vytvorené dokumenty<br />
a prenechali túto prácu poèítaèu.<br />
ETAPY ROZPOZNÁVANIA. Celý proces rozpoznávania<br />
textu je možné pri dnes používaných<br />
programoch rozdeli <strong>na</strong> štyri etapy. Prvou fázou je<br />
zí<strong>sk</strong>anie elektronickej podoby dokumentu, ktorý<br />
budeme rozpoznáva . V zásade existujú v tejto<br />
fáze dve možnosti – papierová predloha sa <strong>sk</strong>enuje<br />
pomocou <strong>sk</strong>enera alebo sa rozpoznáva vopred pripravená<br />
elektronická podoba dokumentu. Programy<br />
OCR teda dokážu spolupracova s pripojeným<br />
<strong>sk</strong>enerom a jeho ovládacím programom a <strong>na</strong><br />
druhej strane dokážu <strong>na</strong>èíta niektoré obrazové<br />
formáty. K štandardným obrazovým formátom<br />
patrí TIF, JPG, BMP, niektoré programy umožòujú<br />
spoluprácu s ïalšími súbormi. Najdôležitejší doplnkový<br />
formát je PDF, ktorý sa ve¾mi èasto používa<br />
pri elektronickom šírení dokumentov.<br />
Po tom, ako sa <strong>na</strong>èíta podoba originálu zo <strong>sk</strong>enera<br />
alebo z obrazového formátu, <strong>na</strong>stáva druhá<br />
etapa – vlastné rozpoz<strong>na</strong>nie textu. Program prechádza<br />
jednotlivé èasti predlohy a porovnáva ich<br />
s databázou zapamätaných z<strong>na</strong>kov. Pokia¾ <strong>na</strong>stane<br />
zhoda, zapíše sa do výstupného súboru príslušný<br />
z<strong>na</strong>k. Vyzerá to síce jednoducho, ale algoritmus tejto<br />
èasti je srdcom každého programu OCR a každá<br />
firma si ho ve¾mi dobre stráži. Ide o to, že treba<br />
správne rozpoz<strong>na</strong> z<strong>na</strong>ky, ktoré sú v origináli<br />
vytlaèené v rôznej ve¾kosti, v rozlièných fontoch a<br />
rezoch (<strong>na</strong>pr. kurzíva, podèiarknutie, tuèné písmo<br />
alebo kombinácie). Ïalej sa použitý algoritmus<br />
musí vyrov<strong>na</strong> s textom <strong>na</strong> farebnom pozadí, s rozliènými<br />
efektmi, ale aj chybami tlaèe.<br />
Na úspešné rozpoznávanie je jednoz<strong>na</strong>ène <strong>na</strong>jdôležitejšia<br />
kvalita predlohy. Ideálne <strong>na</strong> rozpoznávanie<br />
sú dokumenty pochádzajúce z kníh alebo laserovej<br />
tlaèiarne. Takisto sú vítané výstupy z atramentovej<br />
tlaèiarne alebo èasopisov. Problém nerobí<br />
ani výstup z 24-ihlièkovej tlaèiarne alebo dokumenty<br />
zí<strong>sk</strong>ané kopírovaním (samozrejme z kvalitného<br />
originálu).<br />
Horšie je to v prípade 9-ihlièkovej tlaèiarne (<strong>na</strong>jmä<br />
ak je už pá<strong>sk</strong>a dos opotrebovaná) alebo dokumentov<br />
zí<strong>sk</strong>aných z faxov. Rozpoznávanie musí<br />
v tomto prípade pracova so z<strong>na</strong>kmi, ktoré nie sú<br />
úplne vyplnené alebo dokonca chýbajú celé ich èasti.<br />
Asi <strong>na</strong>jtvrdším orieškom pre programy OCR je<br />
rozpoznávanie textu písaného rukou. Pri <strong>na</strong>šom<br />
teste sme overili, že v podstate je možné rozpoznáva<br />
aj takéto dokumenty, vyžaduje to však pravidelné<br />
a úh¾adné písmo, ako i dodržiavanie istých<br />
pravidiel pri ich písaní.<br />
Poèas rozpoznávania program OCR obyèajne<br />
rozdelí celý rozpoznávaný dokument <strong>na</strong> nieko¾ko<br />
samostatných blokov. Poradie následnosti týchto<br />
blokov, ako i ich presné oz<strong>na</strong>èenie je možné v úplných<br />
verziách programov OCR meni . Toto poradie<br />
je dôležité hlavne <strong>na</strong> zachovanie výslednej podoby<br />
rozpoznávanej predlohy.<br />
Tretia etapa predstavuje kontrolu rozpoz<strong>na</strong>ného<br />
textu. Tu sa predpokladá spolupráca s používate¾om,<br />
ktorého úlohou je overi niektoré èasti rozpoz<strong>na</strong>nia.<br />
Dnešné programy OCR si vytvárajú údaje<br />
o tých z<strong>na</strong>koch, ktorých rozpoz<strong>na</strong>nie neprebehlo s<br />
úplnou istotou. Používate¾ovi sa pritom zobrazí<br />
<strong>na</strong><strong>sk</strong>enovaná podoba vybranej èasti a z<strong>na</strong>k, ktorý<br />
bol algoritmom vybraný. Používate¾ potom urèí, èi<br />
bolo rozpoz<strong>na</strong>nie správne alebo nie. Ak nie, môže<br />
zada správny z<strong>na</strong>k a program si tento spôsob rozpoz<strong>na</strong>nia<br />
zapamätá. Ide vlastne o akýsi proces<br />
uèenia, keï si program vytvára priradenia správne<br />
rozpoz<strong>na</strong>ných z<strong>na</strong>kov. Z<strong>na</strong>mená to, že èím viac<br />
používate program OCR, tým viac sa uèí a vy budete<br />
ma menej práce pri kontrole výsledku. Bohužia¾,<br />
spôsob správneho rozpoz<strong>na</strong>nia sa mení pod¾a kvality<br />
a typu predlohy.<br />
Ïalšou úlohou, ktorá sa realizuje v tejto etape, je<br />
porov<strong>na</strong>nie rozpoz<strong>na</strong>ných slov so slovníkom slov<br />
pre zvolený jazyk. Zaradenie sloven<strong>sk</strong>ého slovníka<br />
je pre mnohé programy OCR kameòom úrazu. Z testovaných<br />
programov totiž len jediný obsahuje<br />
vlastný slovník platný pre slovenèinu. V ostatných<br />
síce nájdete angliètinu, nemèinu, francúzštinu,<br />
èasto aj èeštinu, ale sloven<strong>sk</strong>ý slovník je, žia¾, výnimkou,<br />
prípadne ho dodávajú tretie strany (za<br />
ïalší poplatok). Uvedomujeme si, že ide o daò za<br />
relatívne malý sloven<strong>sk</strong>ý trh, <strong>na</strong> druhej strane si<br />
však myslíme, že by to pre autor<strong>sk</strong>é firmy nemal<br />
by až taký ve¾ký problém. Na Sloven<strong>sk</strong>u pôsobia<br />
firmy, ktoré sú schopné takéto riešenie doda prakticky<br />
okamžite.<br />
Aby však bolo jasné, absencia sloven<strong>sk</strong>ého slovníka<br />
vôbec nez<strong>na</strong>mená, že by príslušný program<br />
OCR nedokázal správne rozpoznáva sloven<strong>sk</strong>é<br />
z<strong>na</strong>ky. Ide len o to, že pri kontrole rozpoz<strong>na</strong>ného<br />
textu program bez sloven<strong>sk</strong>ého slovníka nemôže<br />
jednoducho porov<strong>na</strong> rozpoz<strong>na</strong>né slová so slovnou<br />
zásobou slovníka.<br />
Ako sme už vysvetlili, tretia etapa predstavuje<br />
urèitú prácu používate¾a a môže trva rádovo nieko¾ko<br />
minút <strong>na</strong> jednu stranu. Konkrét<strong>na</strong> doba, samozrejme,<br />
závisí od použitej predlohy a aj trpezlivosti<br />
a zruènosti používate¾a. Používate¾ sa však môže rozhodnú<br />
, že túto etapu pre<strong>sk</strong>oèí a bude spokojný s<br />
tým, èo rozpoz<strong>na</strong>l zabudovaný algoritmus.<br />
Programy OCR dokážu spracúva aj nieko¾kostránkový<br />
dokument. Z<strong>na</strong>mená to, že ïalšia rozpoznávaná<br />
stra<strong>na</strong> sa pripojí k predchádzajúcemu dokumentu.<br />
Väèši<strong>na</strong> programov OCR dokáže spolupracova<br />
s automatickým podávaèom listov, pokia¾<br />
je ním <strong>sk</strong>ener vybavený.<br />
Poslednou, štvrtou etapou je uloženie rozpoz<strong>na</strong>ného<br />
textu do niektorého zo známych formátov.<br />
Väèši<strong>na</strong> testovaných programov OCR umožòuje<br />
rozpoz<strong>na</strong>nie dokumentu aj v takej forme, že sa<br />
zachová formátovanie originálu. Ide o vzájomné<br />
umiestnenie obrázkov, tabuliek a textu vrátane<br />
zachovania jeho formátovania. Dôležité teda je,<br />
aby sa vzájomná poloha rozpoz<strong>na</strong>ných objektov