11.07.2015 Views

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

30Käsinkirjoitettu teksti sisältää useimmiten valmiiksi kaltevuuksia ja vinoumiajohtuen pääsääntöisesti kirjoittajan tyylistä. Nämä on hyvä korjata ennenkuin kirjaimia ja sanoja ryhdytään määrittämään tekstistä, jotta ne eivätvaikuta tunnistamiseen [Kim et al., 1999]. Lisäksi tunnistettavasta materiaalistavoidaan poistaa ylimääräiset möykyt sekä laittomilta vaikuttavat kirjaimia yhdistävätviivat. Varsinainen tekstiksi muuntaminen voidaan tehdä pilkkomallamateriaali ensin sanakomponenteiksi ja siitä edelleen kirjaimiksi. Ennen kirjaintentunnistusta materiaalia on kuitenkin useimmiten tarpeen siivota, koska kirjoitettuteksti voi mennä osittain lomakkeen viivojen ja muun tekstin päälle [Yeet al., 2000]. Saatuja kirjainkomponentteja verrataan tämän jälkeen sanastossaoleviin kirjainkomponentteihin, joista poimitaan todennäköisimmät vaihtoehdotpainoarvoineen. Saatujen vaihtoehtojen perusteella muodostetaan sanat.Tunnistuksen tarkkuutta voidaan parantaa käyttämällä rinnakkain useampiakirjainten luokittelumenetelmiä [Maruyama et al., 1999]. Tätä käsitystävahvistavat useamman tutkimuksen samankaltaiset tulokset. Maruyaman[1999] kehittämässä menetelmässä käytetään kuvioiden vertailua ja HMMmenetelmiä(Hidden Markov Models). Kirjainten tunnistuksen jälkeen vuorossaon normaalisti sanojen tunnistaminen.6.6. RajapinnatLomakkeen digitalisointijärjestelmän suunnittelijalle ja toteuttajalle on tarjollauseita vaihtoehtoisia ohjelmointirajapintoja OCRä varten. Rajapintoja on olemassaJavalle, C#:a sekä myös muille ohjelmointikielille. Seuraavaksi tarkastellaaneräitä saatavilla olevia rajapintoja.6.6.1. ABBYY FineReaderABBYY Finereader ei ole pelkästään rajapinta ohjelmoijalle, vaan kokonaisratkaisudokumenttien digitalisointiin [ABBYY]. Tässä alakohdassa ABBYYa tarkastellaankuitenkin vasta ohjelmointikirjastona ja vasta luvussa 9 kokonaisratkaisuna.ABBYYn ohjelmointikirjasto on nimeltään ABBYY Finereader Engine, jostaon saatavilla versio 9.0. Rajapinta on saatavilla useille eri alustoille: Windows,Mac, Linux, FreeBSD ja Embedded OS. Alustojen sisältämissä toiminnallisuuksissaon hieman eroja esim. OCR:n tunnistamien kielien osalta. Tekstintunnistuksenlisäksi ABBYY tukee myös viivakoodeja, mikä on lisäarvo kirjastolle.Windows-ympäristöon tarkoitettu kirjasto kykenee tunnistamaan 195 OCRkieltäja 113 ICR-kieltä, mukaan lukien suomen kielen. Tunnistusta varten on

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!