07.06.2015 Views

Untitled - Vitajte na stránkach www.einsty.hostujem.sk

Untitled - Vitajte na stránkach www.einsty.hostujem.sk

Untitled - Vitajte na stránkach www.einsty.hostujem.sk

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

S O F T W A R E<br />

zachovala aj po uložení do výstupného súboru.<br />

Medzi <strong>na</strong>jdôležitejšie formáty patrí Word 97, 2000<br />

èi XP, podobne súbory typu Excel, WordPro, Work-<br />

Pad, RTF, ale aj PDF. Zároveò je vítané, ak program<br />

dokáže výstup uloži <strong>na</strong> internetovú stránku ako<br />

súbor typu HTML alebo posla ako súèas elektronickej<br />

pošty.<br />

POSTUPY NA SPRÁVNE ROZPOZNÁVA-<br />

NIE. Ako sme už spomenuli, k¾úèovú úlohu pri<br />

správnom rozpoz<strong>na</strong>ní hrá kvalita predlohy. Bohužia¾,<br />

vybera si tu prive¾mi nemôžete a èasto musíte rozpoznáva<br />

to, èo máte k dispozícii. Na druhej strane<br />

by ste mali dodrža nieko¾ko postupov <strong>na</strong> to, aby ste<br />

dosiahli èo <strong>na</strong>jvernejšie rozpoz<strong>na</strong>nie. Predovšetkým si<br />

vyberáte parametre <strong>sk</strong>enovania. Štandardné vo¾by sú<br />

<strong>sk</strong>enovanie v èiernobielom režime v èiarovej grafike<br />

s rozlíšením 300 dpi (dots per inch – bodov <strong>na</strong> palec).<br />

Skenovanie vo farebnom režime by ste mali použi len<br />

vtedy, ak vám ide o zachovanie farebného podania<br />

originálu alebo sa <strong>na</strong> origináli používa farebný text <strong>na</strong><br />

farebnom pozadí. Zvýšenie rozlíšenia z 300 dpi prichádza<br />

do úvahy len vtedy, ak je <strong>na</strong> originálnom<br />

dokumente text ve¾mi malý (menší ako 3 body). To<br />

však nebýva prièasto, a preto by ste mali by pri zvyšovaní<br />

rozlíšenia opatrní. Neraz sa totiž zvýšením<br />

rozlíšenia zníži kvalita rozpoz<strong>na</strong>nia textu. Zvýšenie<br />

rozlíšenia <strong>na</strong>d 600 dpi vôbec neodporúèame, podobne<br />

ako zníženie rozlíšenia pod 200 dpi.<br />

Ïalej by ste si mali dáva pozor <strong>na</strong> to, aby bola<br />

predloha v <strong>sk</strong>eneri uložená v pravom uhle. Programy<br />

OCR sú síce schopné korigova pootoèenie predlohy<br />

o urèitý uhol, ale toto otoèenie urèite neprispieva<br />

k úspešnejšiemu rozpoz<strong>na</strong>niu. Niektoré programy<br />

umožòujú <strong>sk</strong>enovanie strán z kníh, prièom je možné<br />

o<strong>sk</strong>enova obe strany <strong>na</strong>raz a potom ich rozdeli pre<br />

spracovanie <strong>na</strong> samostatné strany. Natoèenie každej<br />

strany je korigované nezávisle a po ukonèení procesu<br />

je možné uloži každú stranu samostatne.<br />

Sklo <strong>sk</strong>enera udržujte v èistote, dbajte hlavne<br />

<strong>na</strong> odstránenie stôp po dotyku rúk. Èasto sa totiž<br />

pri výmene predlôh ruka dotkne <strong>sk</strong>la <strong>sk</strong>enera.<br />

S<strong>na</strong>žte sa by vytrvalí pri korekcii rozpoz<strong>na</strong>ného<br />

textu. Ako sme ukázali, programy OCR sú schopné samouèenia<br />

sa, a èím presnejšie korigujete rozpoznávanie,<br />

tým budete ma menej práce v budúcnosti.<br />

Pokia¾ sa samouèenie nevykonáva v pozadí, nezabudnite<br />

si príslušné informácie uschova (<strong>na</strong>jèastejšie ako<br />

súbor). Nezabúdajte ani <strong>na</strong> prekontrolovanie správneho<br />

poradia následnosti jednotlivých blokov rozpoznávaného<br />

dokumentu, ak program takúto funkciu podporuje.<br />

NAJÈASTEJŠIE CHYBY PRI ROZPOZNA-<br />

NÍ. Poèas testu sme zaregistrovali, že programom<br />

OCR väèšinou robí problémy rozpoz<strong>na</strong>nie z<strong>na</strong>kov zo<br />

sloven<strong>sk</strong>ej abecedy. Najväèšie ažkosti sú so z<strong>na</strong>kmi<br />

¾, ï a . Niektoré programy pritom tieto programy<br />

rozpoz<strong>na</strong>jú ako sekvenciu pôvodného z<strong>na</strong>ku a apostrofu<br />

– <strong>na</strong>pr. t’. Ïalej je to nesprávne rozpoz<strong>na</strong>nie<br />

èíslice 1 a písme<strong>na</strong> l. Ve¾ký problém robí správne<br />

rozpoz<strong>na</strong>nie z<strong>na</strong>kov zo sloven<strong>sk</strong>ej abecedy v šikmom<br />

písme (kurzíve). Objavuje sa aj vynechávanie medzier<br />

medzi slovami, prípadne záme<strong>na</strong> ve¾kosti písmen.<br />

Zo stránky finálneho usporiadania dokumentu<br />

sme zaregistrovali vzájomné posunutie úsekov s textom,<br />

ako i vynechanie celých obrázkov.<br />

AKO SME TESTOVALI. Pri testovaní sme každý<br />

program použili pri rozpoznávaní piatich dokumentov.<br />

Použili sme <strong>sk</strong>ener Acer ScanPrisa 1240T,<br />

ktorý predstavuje relatívne lacnejšie riešenie <strong>na</strong><br />

prevod papierových dokumentov do elektronickej<br />

podoby.<br />

Prvý dokument predstavoval list z èasopisu, <strong>na</strong><br />

ktorom bol text usporiadaný v novinových ståpcoch.<br />

Jeho súèas ou boli tri obrázky a obsahoval aj zalomenie<br />

textu okolo obrázkov. Text bol v slovenèine a <strong>sk</strong>enovali<br />

sme v èiernobielom režime. Druhý dokument<br />

predstavoval výtlaèok z laserovej tlaèiarne. Jeho obsahom<br />

bol sloven<strong>sk</strong>ý text bez zalomenia. Nachádzalo<br />

sa tu však zošikmené písmo a podèiarknutie. Tento<br />

dokument sme opä <strong>sk</strong>enovali v èiernobielom režime.<br />

Tretí dokument pochádzal opä z èasopisu a jeho<br />

obsahom boli okrem textu aj dve tabu¾ky a jeden<br />

menší obrázok. Skenovaná predloha bola<br />

v èiernobielom vyhotovení. Štvrtý dokument bol<br />

totožný, ale sme ho <strong>sk</strong>enovali vo farebnom režime.<br />

Piaty dokument predstavoval výtlaèok z kvalitnej<br />

atramentovej tlaèiarne. Jeho obsahom bol<br />

anglický text v základnom reze bez obrázkov. Originál<br />

sme <strong>sk</strong>enovali v èiernobielom režime.<br />

V každom prípade sme pri <strong>sk</strong>enovaní použili<br />

rozlíšenie 300 dpi. Vyhodnocovací poèítaè bol vybavený<br />

procesorom AMD Athlon 800 MHz a 128 MB<br />

RAM. Pracovali sme <strong>na</strong> operaènom systéme Microsoft<br />

Windows XP a použili sme aj balík kancelár<strong>sk</strong>ych<br />

aplikácií Microsoft Office XP. Skener bol pripojený<br />

pomocou portu USB.<br />

Pri testoch sme vždy merali dobu od povelu <strong>na</strong><br />

zaèiatok <strong>sk</strong>enovania až po dobu ukonèenia rozpoznávania.<br />

Do tejto doby sme teda nezapoèítavali<br />

korekciu, ktorú sme vyko<strong>na</strong>li pri kontrole rozpoz<strong>na</strong>ného<br />

textu. Zaz<strong>na</strong>menávali sme si však poèet<br />

vyko<strong>na</strong>ných <strong>sk</strong>utoèných korekcií (nie potvrdzovanie<br />

správne rozpoz<strong>na</strong>ných z<strong>na</strong>kov). Následne sme<br />

vyko<strong>na</strong>li prevod do prostredia Microsoft Word XP a<br />

výslednú podobu sme vytlaèili. Potom sme výtlaèok<br />

porov<strong>na</strong>li s originálom a spoèítali poèet nesprávne<br />

rozpoz<strong>na</strong>ných z<strong>na</strong>kov. Rov<strong>na</strong>ko sme si všímali aj zhodu<br />

formátovania zí<strong>sk</strong>aného výsledku s originálom.<br />

V priloženej tabu¾ke sme potom stanovili presnos<br />

rozpoznávania ako percentuálny poèet správne<br />

rozpoz<strong>na</strong>ných z<strong>na</strong>kov zo všetkých z<strong>na</strong>kov tvoriacich<br />

príslušný dokument. Upozoròujeme, že tieto èísla <strong>na</strong><br />

prvý poh¾ad vyzerajú celkom dobre pri každom z testovaných<br />

riešení. Treba si však uvedomi , že presnos<br />

rozpoznávania 99,6 % vlastne z<strong>na</strong>mená, že <strong>na</strong> jednej<br />

strane máte okolo 12 chýb.<br />

Vo výsledku hodnotenia programu OCR sme<br />

použili priemerné hodnoty z presnosti rozpoznávania<br />

všetkých dokumentov, ako i z dôb potrebných<br />

<strong>na</strong> ich spracovanie.<br />

Programy sme testovali aj s použitím málo kvalitného<br />

dokumentu, prièom išlo o kópiu faxového<br />

dokumentu. Išlo o fax so stopami po nekvalitnom<br />

prenose – <strong>na</strong>chádzali sa tu hlavne slabé vyplnenia<br />

písmen. Overili sme si, že <strong>na</strong> takéto prípady sa<br />

programy OCR nehodia. Presnos rozpoznávania<br />

bola nižšia ako 10 % a <strong>na</strong>koniec sme mali s úpravou<br />

dokumentu viac práce, ako keby sme ho prepisovali<br />

ruène. Najpresnejšie tento dokument rozpoz<strong>na</strong>l<br />

program OmniPage 11.0, ale výsledok ani v<br />

tomto prípade nebol prive¾kým prínosom.<br />

TESTOVANÉ PROGRAMY. Do testu sme<br />

zaradili celkovo pä programov OCR – FineReader<br />

5.0 Pro od firmy ABBYY, Microsoft Office Document<br />

Imaging, ponúkaný ako súèas balíka Office XP,<br />

OmniPage 11.0 od spoloènosti ScanSoft, Readiris<br />

Pro 7.0 od firmy IRIS a Recognitu Plus 5.0 od autor<strong>sk</strong>ej<br />

firmy Recognita. Zdrojom pre tieto riešenia<br />

boli sloven<strong>sk</strong>í dodávatelia, pôvodní výrobcovia<br />

programov a <strong>sk</strong>úšobné verzie zí<strong>sk</strong>ané z internetu.<br />

Všetky testované programy s výnimkou riešenia<br />

dodaného ako súèas balíka Office XP boli schopné<br />

rozpoznáva všetky sloven<strong>sk</strong>é z<strong>na</strong>ky.<br />

12/2001 PC REVUE 93

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!