Untitled - Vitajte na strÃ¡nkach www.einsty.hostujem.sk

More documents

Recommendations

Info

S O F T W A R E zachovala aj po uložení do výstupného súboru. Medzi najdôležitejšie formáty patrí Word 97, 2000 èi XP, podobne súbory typu Excel, WordPro, Work- Pad, RTF, ale aj PDF. Zároveò je vítané, ak program dokáže výstup uloži na internetovú stránku ako súbor typu HTML alebo posla ako súèas elektronickej pošty. POSTUPY NA SPRÁVNE ROZPOZNÁVA- NIE. Ako sme už spomenuli, k¾úèovú úlohu pri správnom rozpoznaní hrá kvalita predlohy. Bohužia¾, vybera si tu prive¾mi nemôžete a èasto musíte rozpoznáva to, èo máte k dispozícii. Na druhej strane by ste mali dodrža nieko¾ko postupov na to, aby ste dosiahli èo najvernejšie rozpoznanie. Predovšetkým si vyberáte parametre skenovania. Štandardné vo¾by sú skenovanie v èiernobielom režime v èiarovej grafike s rozlíšením 300 dpi (dots per inch – bodov na palec). Skenovanie vo farebnom režime by ste mali použi len vtedy, ak vám ide o zachovanie farebného podania originálu alebo sa na origináli používa farebný text na farebnom pozadí. Zvýšenie rozlíšenia z 300 dpi prichádza do úvahy len vtedy, ak je na originálnom dokumente text ve¾mi malý (menší ako 3 body). To však nebýva prièasto, a preto by ste mali by pri zvyšovaní rozlíšenia opatrní. Neraz sa totiž zvýšením rozlíšenia zníži kvalita rozpoznania textu. Zvýšenie rozlíšenia nad 600 dpi vôbec neodporúèame, podobne ako zníženie rozlíšenia pod 200 dpi. Ïalej by ste si mali dáva pozor na to, aby bola predloha v skeneri uložená v pravom uhle. Programy OCR sú síce schopné korigova pootoèenie predlohy o urèitý uhol, ale toto otoèenie urèite neprispieva k úspešnejšiemu rozpoznaniu. Niektoré programy umožòujú skenovanie strán z kníh, prièom je možné oskenova obe strany naraz a potom ich rozdeli pre spracovanie na samostatné strany. Natoèenie každej strany je korigované nezávisle a po ukonèení procesu je možné uloži každú stranu samostatne. Sklo skenera udržujte v èistote, dbajte hlavne na odstránenie stôp po dotyku rúk. Èasto sa totiž pri výmene predlôh ruka dotkne skla skenera. Snažte sa by vytrvalí pri korekcii rozpoznaného textu. Ako sme ukázali, programy OCR sú schopné samouèenia sa, a èím presnejšie korigujete rozpoznávanie, tým budete ma menej práce v budúcnosti. Pokia¾ sa samouèenie nevykonáva v pozadí, nezabudnite si príslušné informácie uschova (najèastejšie ako súbor). Nezabúdajte ani na prekontrolovanie správneho poradia následnosti jednotlivých blokov rozpoznávaného dokumentu, ak program takúto funkciu podporuje. NAJÈASTEJŠIE CHYBY PRI ROZPOZNA- NÍ. Poèas testu sme zaregistrovali, že programom OCR väèšinou robí problémy rozpoznanie znakov zo slovenskej abecedy. Najväèšie ažkosti sú so znakmi ¾, ï a . Niektoré programy pritom tieto programy rozpoznajú ako sekvenciu pôvodného znaku a apostrofu – napr. t’. Ïalej je to nesprávne rozpoznanie èíslice 1 a písmena l. Ve¾ký problém robí správne rozpoznanie znakov zo slovenskej abecedy v šikmom písme (kurzíve). Objavuje sa aj vynechávanie medzier medzi slovami, prípadne zámena ve¾kosti písmen. Zo stránky finálneho usporiadania dokumentu sme zaregistrovali vzájomné posunutie úsekov s textom, ako i vynechanie celých obrázkov. AKO SME TESTOVALI. Pri testovaní sme každý program použili pri rozpoznávaní piatich dokumentov. Použili sme skener Acer ScanPrisa 1240T, ktorý predstavuje relatívne lacnejšie riešenie na prevod papierových dokumentov do elektronickej podoby. Prvý dokument predstavoval list z èasopisu, na ktorom bol text usporiadaný v novinových ståpcoch. Jeho súèas ou boli tri obrázky a obsahoval aj zalomenie textu okolo obrázkov. Text bol v slovenèine a skenovali sme v èiernobielom režime. Druhý dokument predstavoval výtlaèok z laserovej tlaèiarne. Jeho obsahom bol slovenský text bez zalomenia. Nachádzalo sa tu však zošikmené písmo a podèiarknutie. Tento dokument sme opä skenovali v èiernobielom režime. Tretí dokument pochádzal opä z èasopisu a jeho obsahom boli okrem textu aj dve tabu¾ky a jeden menší obrázok. Skenovaná predloha bola v èiernobielom vyhotovení. Štvrtý dokument bol totožný, ale sme ho skenovali vo farebnom režime. Piaty dokument predstavoval výtlaèok z kvalitnej atramentovej tlaèiarne. Jeho obsahom bol anglický text v základnom reze bez obrázkov. Originál sme skenovali v èiernobielom režime. V každom prípade sme pri skenovaní použili rozlíšenie 300 dpi. Vyhodnocovací poèítaè bol vybavený procesorom AMD Athlon 800 MHz a 128 MB RAM. Pracovali sme na operaènom systéme Microsoft Windows XP a použili sme aj balík kancelárskych aplikácií Microsoft Office XP. Skener bol pripojený pomocou portu USB. Pri testoch sme vždy merali dobu od povelu na zaèiatok skenovania až po dobu ukonèenia rozpoznávania. Do tejto doby sme teda nezapoèítavali korekciu, ktorú sme vykonali pri kontrole rozpoznaného textu. Zaznamenávali sme si však poèet vykonaných skutoèných korekcií (nie potvrdzovanie správne rozpoznaných znakov). Následne sme vykonali prevod do prostredia Microsoft Word XP a výslednú podobu sme vytlaèili. Potom sme výtlaèok porovnali s originálom a spoèítali poèet nesprávne rozpoznaných znakov. Rovnako sme si všímali aj zhodu formátovania získaného výsledku s originálom. V priloženej tabu¾ke sme potom stanovili presnos rozpoznávania ako percentuálny poèet správne rozpoznaných znakov zo všetkých znakov tvoriacich príslušný dokument. Upozoròujeme, že tieto èísla na prvý poh¾ad vyzerajú celkom dobre pri každom z testovaných riešení. Treba si však uvedomi , že presnos rozpoznávania 99,6 % vlastne znamená, že na jednej strane máte okolo 12 chýb. Vo výsledku hodnotenia programu OCR sme použili priemerné hodnoty z presnosti rozpoznávania všetkých dokumentov, ako i z dôb potrebných na ich spracovanie. Programy sme testovali aj s použitím málo kvalitného dokumentu, prièom išlo o kópiu faxového dokumentu. Išlo o fax so stopami po nekvalitnom prenose – nachádzali sa tu hlavne slabé vyplnenia písmen. Overili sme si, že na takéto prípady sa programy OCR nehodia. Presnos rozpoznávania bola nižšia ako 10 % a nakoniec sme mali s úpravou dokumentu viac práce, ako keby sme ho prepisovali ruène. Najpresnejšie tento dokument rozpoznal program OmniPage 11.0, ale výsledok ani v tomto prípade nebol prive¾kým prínosom. TESTOVANÉ PROGRAMY. Do testu sme zaradili celkovo pä programov OCR – FineReader 5.0 Pro od firmy ABBYY, Microsoft Office Document Imaging, ponúkaný ako súèas balíka Office XP, OmniPage 11.0 od spoloènosti ScanSoft, Readiris Pro 7.0 od firmy IRIS a Recognitu Plus 5.0 od autorskej firmy Recognita. Zdrojom pre tieto riešenia boli slovenskí dodávatelia, pôvodní výrobcovia programov a skúšobné verzie získané z internetu. Všetky testované programy s výnimkou riešenia dodaného ako súèas balíka Office XP boli schopné rozpoznáva všetky slovenské znaky. 12/2001 PC REVUE 93
S O F T W A R E n FINEREADER 5.0 PRO Tento program od ukrajinskej firmy ABBYY sme vo verzii Office predstavili už v PC REVUE è. 4/2001. Vtedy nás zaujal poètom podporovaných jazykov (vo verzii Pro ich je 176!) i presnos ou rozpoznania textu. FineReader 5.0 sa dodáva v slovenskom lokalizovanom prostredí a ako jediný z testovaných programov štandardne obsahuje aj slovník na kontrolu rozpoznaných znakov pre slovenský jazyk. Rozpoznané programy je možné uloži okrem iného aj v súboroch HTML alebo PDF. Na rozdiel od riešenia OmniPage Pro 11.0 nie je však možné rozpoznáva súbory typu PDF. Používate¾ské prostredie programu je príjemné a používa sa intuitívne. FineReader si v našom teste poèínal najlepšie zo všetkých testovaných programov. Toto hodnotenie sa týka predovšetkým dokumentov so slovenským textom. FineReader je síce programom, ktorému rozpoznávanie trvá najdlhšie zo všetkých testovaných programov, ale výsledok stojí za to. Dokáže si poradi aj so skenovaním dvojstrany z knihy alebo pootoèenou predlohou. Verzia Office (20 990 Sk bez DPH) dokáže rozpoznáva aj èiarový kód, umožòuje sie ovú inštaláciu a vytváranie vlastných slovníkov. Jej súèas ou je aj nástroj Formulator, ktorý sa uplatòuje pri skenovaní formulárov, prièom ich následné vyplòovanie je možné vykona pomocou poèítaèa. V balení sú tri licencie programu FineReader. Jednoduchšia verzia Home za 2300 Sk bez DPH neumožòuje korekciu rozpoznaných výsledkov ani niektoré funkcie pri výbere urèitej èasti originálu. Cena bez DPH: 5100 Sk Dodávate¾: Nupseso, a. s., www.nupseso.sk n MICROSOFT OFFICE DOCUMENT IMAGING Tento program je integrálnou súèas ou balíka Microsoft Office XP. V skutoènosti ide o využitie technológie od firmy ScanSoft a svojím vonkajším vzh¾adom sa podobá na riešenie TextBridge vo verzii, ktorá sa dodáva ako súèas niektorých skenerov. Na jeho použitie treba nainštalova príslušnú aplikáciu z celého balíka, pretože pri štandardnom spôsobe sa táto súèas inštaluje až pri prvom použití. Tento nástroj však nepodporuje úplne rozpoznanie slovenských znakov. Súèas ou slovenskej verzie Office XP je totiž podpora pre èeské znaky, a teda znaky, ako sú ï, ô, ä alebo ¾, týmto programom jednoducho nerozpoznáte. Funkcie programu sú ve¾mi jednoduché a postaèujú na skutoène základné spracovanie dokumentu. Microsoft Office Document Imaging pracuje tým spôsobom, že nezachováva pôvodné formátovanie dokumentu a jeho výstupom je len rozpoznaný text. Rovnako nie je k dispozícii ani technológia uèenia sa. Pre majite¾ov balíka Microsoft Office je k dispozícii upgrade na riešenie OmniPage Pro 11.0 za cenu 299 USD, èo je asi 60 % skutoènej ceny tohto systému. Opis programu OmniPage Pro je uvedený v ïalšej èasti tohto èlánku. V našom teste preukázal tento nástroj najmenšiu presnos rozpoznávania, èo bolo spôsobené nemožnos ou rozpoznania slovenských písmen nenachádzajúcich sa v èeskej abecede. Program èasto vynecháva medzery medzi písmenami – urèite by ste tak mali prekontrolova pravopis po rozpoznaní napr. vo Worde. Cena: súèas balíka Microsoft Office XP Dodávate¾: Microsoft, www.microsoft.com/slovakia Oznaèenie OCR Typ dokumentu Poèet opráv Poèet chýb Presnos Doba skenovania Priemerná Priemerná doba programu po rozpoznaní vo výsledku rozpoznania [%] a rozpoznávania presnos práce [mm:ss] [mm:ss] rozpoznania [%] A 5 1 99,96 00:59 B 4 0 100,00 00:44 FineReader 5.0 C 10 1 99,98 03:08 99,98 01:54 D 10 2 99,96 03:58 E 4 0 100,00 00:43 A N/A 21 99,13 00:47 Microsoft Office B N/A 45 98,86 00:46 Document Imaging C N/A 27 99,46 00:47 99,33 01:01 D N/A 29 99,42 02:02 E N/A 3 99,76 00:41 A 17 10 99,59 00:47 B 12 40 98,99 00:42 OmniPage Pro 11.0 C 23 11 99,78 00:54 99,62 01:05 D 22 13 99,74 02:25 E 5 0 100,00 00:39 A 7 5 99,79 00:35 B 13 27 99,32 00:36 Readiris Pro 7.0 C 21 11 99,78 00:34 99,75 00:51 D 30 2 99,96 01:56 E 7 1 99,92 00:34 A 15 31 98,72 00:50 B 11 39 99,01 00:32 Recognita Plus 5.0 C 11 19 99,62 00:35 99,41 00:56 D 12 15 99,70 02:10 E 4 0 100,00 00:31 Legenda: Dokument A – list z èasopisu s obrázkami, textom v ståpcoch a farebným textom. Slovenský text, skenované èiernobielo. Dokument B – strana vytlaèená na laserovej tlaèiarni z poèítaèa. Obsahuje len èierny text vo viacerých rezoch. Slovenský text, skenované èiernobielo. Dokument C – strana z èasopisu s tabu¾kou èísel, farebným textom. Slovenský text, skenované èiernobielo. Dokument D – strana z èasopisu s tabu¾kou èísel, farebným textom. Slovenský text, skenované farebne. Dokument E – strana vytlaèená na atramentovej tlaèiarni. Obsahuje len èierny text v základnom reze. Anglický text, skenované èiernobielo. Namerané a prepoèítané doby rozpoznávania textu, poèet opráv a poèet chýb vo výsledku. N/A – funkcia na používate¾skú korekciu chýb nie je súèas ou tohto nástroja. 94 PC REVUE 12/2001
Page 2 and 3:
E D I T O R I A L Na konci každéh
Page 4 and 5:
N O V I N K Y www.itnews.sk Výber
Page 6 and 7:
N O V I N K Y STV 2: premiéra - 17
Page 8 and 9:
Bude založený na technológiách
Page 10 and 11:
poskytne tabu¾ka è. 1. Z nej celk
Page 12 and 13:
R E V U E Výrobca Canon Canon Epso
Page 14 and 15: R E V U E u PCR: Preèo nie je tát
Page 16 and 17: R E V U E AthlonXP pod lupou PETER
Page 18 and 19: R E V U E Aplikaèné testy Sysmark
Page 20 and 21: R E V U E Windows XP Nový operaèn
Page 22 and 23: R E V U E systému Windows 95 sa zv
Page 24 and 25: R E V U E taèov, bežne sa zaèín
Page 26 and 27: R E V U E ne vyriešili inými pros
Page 28 and 29: R E V U E pri svojich pokusoch èer
Page 31 and 32: H A R D W A R E TESTOVALI SME: FARE
Page 33 and 34: H A R D W A R E tenciál voèi tone
Page 35 and 36: H A R D W A R E de o malú sumu a z
Page 37 and 38: H A R D W A R E Tab. 2 Namerané a
Page 39 and 40: H A R D W A R E OKI C7400 NAJPPEPRA
Page 41 and 42: H A R D W A R E Siemens ME45 Hoci f
Page 43 and 44: Pretec CompactGPS Jednou z ve¾mi a
Page 45 and 46: H A R D W A R E Na displeji môžet
Page 47 and 48: H A R D W A R E Plextor PX-S88TU Ak
Page 49 and 50: H A R D W A R E Olympus Camedia C-4
Page 51 and 52: H A R D W A R E Sony Cyber-Shot DSC
Page 53 and 54: H A R D W A R E Externý modul pôs
Page 55 and 56: H A R D W A R E ScanMaker 3800 a 48
Page 57 and 58: S O F T W A R E ké zberate¾ské h
Page 59 and 60: Partition Magic 7.0 Ak ste niekedy
Page 61 and 62: S O F T W A R E Jednoduché úètov
Page 63: S O F T W A R E TESTOVALI SME: PROG
Page 67 and 68: S O F T W A R E šiestich stupòov
Page 69 and 70: S O F T W A R E „Gavarite pa rusk
Page 71 and 72: S O F T W A R E ANASIL v2.2 Opis: p
Page 73 and 74: S O F T W A R E Vlastnosti: n prehr
Page 75 and 76: S O F T W A R E napriek svojej jedn
Page 77 and 78: S O F T W A R E HomePlanet 3.1 n Hv
Page 79 and 80: S O F T W A R E FreshDiagnose n Aby
Page 81 and 82: S O F T W A R E Samba / 10. èas Na
Page 83 and 84: S O F T W A R E DAV - jednoduchšia
Page 85 and 86: S O F T W A R E uložia absolútnu
Page 87 and 88: S O F T W A R E COMMON CONTROLS Tab
Page 89 and 90: I N F O W A R E u Nová generácia
Page 91 and 92: I N F O W A R E u Optické vlákna
Page 93 and 94: I N F O W A R E SERVERY NA POŽIADA
Page 95 and 96: I N F O W A R E vého skladu urèen
Page 97 and 98: I N F O W A R E ktorá sa dodáva z
Page 99 and 100: I N F O W A R E Obr. 2 Integrované
Page 101 and 102: I N T E R N E T Vytvárame WWW str
Page 103 and 104: I N T E R N E T NA POTULKÁCH S V E
Page 105 and 106: S E R V I S Vírusový radar Mnohí
Page 107 and 108: M E D I A C L U B - C D - R O M FIF
Page 109 and 110: S E R V I S Tipy a triky pre Window
Page 111 and 112: S E R V I S recenzia: DIVOKÉ KOÈK
Page 113 and 114: P R O G R A M U J E M E procedure T
Page 115 and 116:
P R O G R A M U J E M E Assembler p
Page 117 and 118:
P R O G R A M U J E M E { } LPTSTR
Page 119 and 120:
P R O G R A M U J E M E Udalosti s
Page 121 and 122:
P R O G R A M U J E M E K overen
Page 123 and 124:
P R O G R A M U J E M E druhej stra
Page 125:
Šéfredaktor: Martin Drobný (mdro
show all

Untitled - Vitajte na strÃ¡nkach www.einsty.hostujem.sk

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?