11.07.2015 Views

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

24mä voi kehittää sanastoa käytön aikana poimimalla tunnistettavasta materiaalistauusia sanoja. Alkusanasto voidaan muodostaa antamalla järjestelmällealoitusvaiheessa riittävästi sisällöltään sopivaa tekstiä sisältävää materiaaliatunnistettavaksi [Spivak, 2002]. Järjestelmä voi olla myös oppia ja osata mukautuahavaittuihin virheisiin käytössä olevan sanaston pohjalta [Rawat et al.,2006]. Älykäs järjestelmä olisi käytön kannalta hieno asia, mutta ei yksinkertainentoteuttaa.6.1. HistoriaaTekstintunnistuksen, OCR:n (Optical Character Recognition), juuret kulkevataina vuoteen 1809, jolloin patentoitiin ensimmäiset sokeita tekstin lukemisessaavustavat laitteet. Vuonna 1912 Emmanuel Goldberg patentoi laiteen, jolla lankojapitkin lähetettävien viestien kirjaimet muutettiin automaattisesti tuettuunsähkösanoma formaattiin [Lenox and Woratschek, 2002]. OCR:lle löytyi uusitarve ennen toista maailmansotaa, kun shekkien käsittelyä haluttiin automatisoida[AIM, 2000]. Varsinainen teknologinen lähtösykäys tuli kuitenkin vastatoisen maailmansodan jälkeen pankkikorttien myötä.Ensimmäiset laitteet olivat hitaita ja virhealttiita, mutta suunta oli hyvä.1960-luvulla laitteet oppivat jo tunnistamaan tekstissä olevia kaarteita mahdollistaenkäsinkirjoitetun tekstin tunnistamisen. Alkuaikojen tekstintunnistus olipitkälti sidoksissa itse laitteeseen. Nykyään laite voi olla täysin erillään sovelluksesta,mikä avaa uusia käyttö- ja kehitysmahdollisuuksia. Materiaali voidaanlukea helposti sisään ja siirtää muualle prosessoitavaksi.Vuonna 1968 kehitettiin tekstintunnistusta varten kaksi selkeät symbolit sisältävääerillistä fonttia OCR-A ja OCR-B. Ensimmäisen fontin kehitti AmericanType Founders-organisaatio ja se on standardoitu ISO 1073-1:1976 [Baid, 2000;Wikipedia, 2010]. Jälkimmäisen fontin taustalla on Adrian Frugiter ja fontistatuli vuonna 1973 maailmalla hyväksytty standardi. Se seuraa myöhemmin julkaistuaISO 1073/II-1976 (E) standardia [Osterer and Stamm, 2008]. Nämä fontitovat helppolukuisia sekä ihmiselle että tietokoneelle.Tekstintunnistus ei ole vieläkään sataprosenttisen varma menetelmä. Tietokoneon parhaimmillaan, kun tunnistettava materiaali on laadultaan hyvä: helpostierotettava fontti, hyvä paperilaatu, hyvä skanneri jne.6.2. EsikäsittelyKuvassa olevat virheet ja vinoumat hankaloittavat tekstintunnistusohjelmantoimintaa. Materiaalille voidaan suorittaa erilaisia esikäsittelytoimenpiteitä, jot-

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!