Untitled - Vitajte na stránkach www.einsty.hostujem.sk
Untitled - Vitajte na stránkach www.einsty.hostujem.sk
Untitled - Vitajte na stránkach www.einsty.hostujem.sk
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
S O F T W A R E<br />
zachovala aj po uložení do výstupného súboru.<br />
Medzi <strong>na</strong>jdôležitejšie formáty patrí Word 97, 2000<br />
èi XP, podobne súbory typu Excel, WordPro, Work-<br />
Pad, RTF, ale aj PDF. Zároveò je vítané, ak program<br />
dokáže výstup uloži <strong>na</strong> internetovú stránku ako<br />
súbor typu HTML alebo posla ako súèas elektronickej<br />
pošty.<br />
POSTUPY NA SPRÁVNE ROZPOZNÁVA-<br />
NIE. Ako sme už spomenuli, k¾úèovú úlohu pri<br />
správnom rozpoz<strong>na</strong>ní hrá kvalita predlohy. Bohužia¾,<br />
vybera si tu prive¾mi nemôžete a èasto musíte rozpoznáva<br />
to, èo máte k dispozícii. Na druhej strane<br />
by ste mali dodrža nieko¾ko postupov <strong>na</strong> to, aby ste<br />
dosiahli èo <strong>na</strong>jvernejšie rozpoz<strong>na</strong>nie. Predovšetkým si<br />
vyberáte parametre <strong>sk</strong>enovania. Štandardné vo¾by sú<br />
<strong>sk</strong>enovanie v èiernobielom režime v èiarovej grafike<br />
s rozlíšením 300 dpi (dots per inch – bodov <strong>na</strong> palec).<br />
Skenovanie vo farebnom režime by ste mali použi len<br />
vtedy, ak vám ide o zachovanie farebného podania<br />
originálu alebo sa <strong>na</strong> origináli používa farebný text <strong>na</strong><br />
farebnom pozadí. Zvýšenie rozlíšenia z 300 dpi prichádza<br />
do úvahy len vtedy, ak je <strong>na</strong> originálnom<br />
dokumente text ve¾mi malý (menší ako 3 body). To<br />
však nebýva prièasto, a preto by ste mali by pri zvyšovaní<br />
rozlíšenia opatrní. Neraz sa totiž zvýšením<br />
rozlíšenia zníži kvalita rozpoz<strong>na</strong>nia textu. Zvýšenie<br />
rozlíšenia <strong>na</strong>d 600 dpi vôbec neodporúèame, podobne<br />
ako zníženie rozlíšenia pod 200 dpi.<br />
Ïalej by ste si mali dáva pozor <strong>na</strong> to, aby bola<br />
predloha v <strong>sk</strong>eneri uložená v pravom uhle. Programy<br />
OCR sú síce schopné korigova pootoèenie predlohy<br />
o urèitý uhol, ale toto otoèenie urèite neprispieva<br />
k úspešnejšiemu rozpoz<strong>na</strong>niu. Niektoré programy<br />
umožòujú <strong>sk</strong>enovanie strán z kníh, prièom je možné<br />
o<strong>sk</strong>enova obe strany <strong>na</strong>raz a potom ich rozdeli pre<br />
spracovanie <strong>na</strong> samostatné strany. Natoèenie každej<br />
strany je korigované nezávisle a po ukonèení procesu<br />
je možné uloži každú stranu samostatne.<br />
Sklo <strong>sk</strong>enera udržujte v èistote, dbajte hlavne<br />
<strong>na</strong> odstránenie stôp po dotyku rúk. Èasto sa totiž<br />
pri výmene predlôh ruka dotkne <strong>sk</strong>la <strong>sk</strong>enera.<br />
S<strong>na</strong>žte sa by vytrvalí pri korekcii rozpoz<strong>na</strong>ného<br />
textu. Ako sme ukázali, programy OCR sú schopné samouèenia<br />
sa, a èím presnejšie korigujete rozpoznávanie,<br />
tým budete ma menej práce v budúcnosti.<br />
Pokia¾ sa samouèenie nevykonáva v pozadí, nezabudnite<br />
si príslušné informácie uschova (<strong>na</strong>jèastejšie ako<br />
súbor). Nezabúdajte ani <strong>na</strong> prekontrolovanie správneho<br />
poradia následnosti jednotlivých blokov rozpoznávaného<br />
dokumentu, ak program takúto funkciu podporuje.<br />
NAJÈASTEJŠIE CHYBY PRI ROZPOZNA-<br />
NÍ. Poèas testu sme zaregistrovali, že programom<br />
OCR väèšinou robí problémy rozpoz<strong>na</strong>nie z<strong>na</strong>kov zo<br />
sloven<strong>sk</strong>ej abecedy. Najväèšie ažkosti sú so z<strong>na</strong>kmi<br />
¾, ï a . Niektoré programy pritom tieto programy<br />
rozpoz<strong>na</strong>jú ako sekvenciu pôvodného z<strong>na</strong>ku a apostrofu<br />
– <strong>na</strong>pr. t’. Ïalej je to nesprávne rozpoz<strong>na</strong>nie<br />
èíslice 1 a písme<strong>na</strong> l. Ve¾ký problém robí správne<br />
rozpoz<strong>na</strong>nie z<strong>na</strong>kov zo sloven<strong>sk</strong>ej abecedy v šikmom<br />
písme (kurzíve). Objavuje sa aj vynechávanie medzier<br />
medzi slovami, prípadne záme<strong>na</strong> ve¾kosti písmen.<br />
Zo stránky finálneho usporiadania dokumentu<br />
sme zaregistrovali vzájomné posunutie úsekov s textom,<br />
ako i vynechanie celých obrázkov.<br />
AKO SME TESTOVALI. Pri testovaní sme každý<br />
program použili pri rozpoznávaní piatich dokumentov.<br />
Použili sme <strong>sk</strong>ener Acer ScanPrisa 1240T,<br />
ktorý predstavuje relatívne lacnejšie riešenie <strong>na</strong><br />
prevod papierových dokumentov do elektronickej<br />
podoby.<br />
Prvý dokument predstavoval list z èasopisu, <strong>na</strong><br />
ktorom bol text usporiadaný v novinových ståpcoch.<br />
Jeho súèas ou boli tri obrázky a obsahoval aj zalomenie<br />
textu okolo obrázkov. Text bol v slovenèine a <strong>sk</strong>enovali<br />
sme v èiernobielom režime. Druhý dokument<br />
predstavoval výtlaèok z laserovej tlaèiarne. Jeho obsahom<br />
bol sloven<strong>sk</strong>ý text bez zalomenia. Nachádzalo<br />
sa tu však zošikmené písmo a podèiarknutie. Tento<br />
dokument sme opä <strong>sk</strong>enovali v èiernobielom režime.<br />
Tretí dokument pochádzal opä z èasopisu a jeho<br />
obsahom boli okrem textu aj dve tabu¾ky a jeden<br />
menší obrázok. Skenovaná predloha bola<br />
v èiernobielom vyhotovení. Štvrtý dokument bol<br />
totožný, ale sme ho <strong>sk</strong>enovali vo farebnom režime.<br />
Piaty dokument predstavoval výtlaèok z kvalitnej<br />
atramentovej tlaèiarne. Jeho obsahom bol<br />
anglický text v základnom reze bez obrázkov. Originál<br />
sme <strong>sk</strong>enovali v èiernobielom režime.<br />
V každom prípade sme pri <strong>sk</strong>enovaní použili<br />
rozlíšenie 300 dpi. Vyhodnocovací poèítaè bol vybavený<br />
procesorom AMD Athlon 800 MHz a 128 MB<br />
RAM. Pracovali sme <strong>na</strong> operaènom systéme Microsoft<br />
Windows XP a použili sme aj balík kancelár<strong>sk</strong>ych<br />
aplikácií Microsoft Office XP. Skener bol pripojený<br />
pomocou portu USB.<br />
Pri testoch sme vždy merali dobu od povelu <strong>na</strong><br />
zaèiatok <strong>sk</strong>enovania až po dobu ukonèenia rozpoznávania.<br />
Do tejto doby sme teda nezapoèítavali<br />
korekciu, ktorú sme vyko<strong>na</strong>li pri kontrole rozpoz<strong>na</strong>ného<br />
textu. Zaz<strong>na</strong>menávali sme si však poèet<br />
vyko<strong>na</strong>ných <strong>sk</strong>utoèných korekcií (nie potvrdzovanie<br />
správne rozpoz<strong>na</strong>ných z<strong>na</strong>kov). Následne sme<br />
vyko<strong>na</strong>li prevod do prostredia Microsoft Word XP a<br />
výslednú podobu sme vytlaèili. Potom sme výtlaèok<br />
porov<strong>na</strong>li s originálom a spoèítali poèet nesprávne<br />
rozpoz<strong>na</strong>ných z<strong>na</strong>kov. Rov<strong>na</strong>ko sme si všímali aj zhodu<br />
formátovania zí<strong>sk</strong>aného výsledku s originálom.<br />
V priloženej tabu¾ke sme potom stanovili presnos<br />
rozpoznávania ako percentuálny poèet správne<br />
rozpoz<strong>na</strong>ných z<strong>na</strong>kov zo všetkých z<strong>na</strong>kov tvoriacich<br />
príslušný dokument. Upozoròujeme, že tieto èísla <strong>na</strong><br />
prvý poh¾ad vyzerajú celkom dobre pri každom z testovaných<br />
riešení. Treba si však uvedomi , že presnos<br />
rozpoznávania 99,6 % vlastne z<strong>na</strong>mená, že <strong>na</strong> jednej<br />
strane máte okolo 12 chýb.<br />
Vo výsledku hodnotenia programu OCR sme<br />
použili priemerné hodnoty z presnosti rozpoznávania<br />
všetkých dokumentov, ako i z dôb potrebných<br />
<strong>na</strong> ich spracovanie.<br />
Programy sme testovali aj s použitím málo kvalitného<br />
dokumentu, prièom išlo o kópiu faxového<br />
dokumentu. Išlo o fax so stopami po nekvalitnom<br />
prenose – <strong>na</strong>chádzali sa tu hlavne slabé vyplnenia<br />
písmen. Overili sme si, že <strong>na</strong> takéto prípady sa<br />
programy OCR nehodia. Presnos rozpoznávania<br />
bola nižšia ako 10 % a <strong>na</strong>koniec sme mali s úpravou<br />
dokumentu viac práce, ako keby sme ho prepisovali<br />
ruène. Najpresnejšie tento dokument rozpoz<strong>na</strong>l<br />
program OmniPage 11.0, ale výsledok ani v<br />
tomto prípade nebol prive¾kým prínosom.<br />
TESTOVANÉ PROGRAMY. Do testu sme<br />
zaradili celkovo pä programov OCR – FineReader<br />
5.0 Pro od firmy ABBYY, Microsoft Office Document<br />
Imaging, ponúkaný ako súèas balíka Office XP,<br />
OmniPage 11.0 od spoloènosti ScanSoft, Readiris<br />
Pro 7.0 od firmy IRIS a Recognitu Plus 5.0 od autor<strong>sk</strong>ej<br />
firmy Recognita. Zdrojom pre tieto riešenia<br />
boli sloven<strong>sk</strong>í dodávatelia, pôvodní výrobcovia<br />
programov a <strong>sk</strong>úšobné verzie zí<strong>sk</strong>ané z internetu.<br />
Všetky testované programy s výnimkou riešenia<br />
dodaného ako súèas balíka Office XP boli schopné<br />
rozpoznáva všetky sloven<strong>sk</strong>é z<strong>na</strong>ky.<br />
12/2001 PC REVUE 93