11.07.2015 Views

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

236. Tekstintunnistaminen lomakkeen sisällöstäTässä luvussa perehdytään prosessin automatisoinnin kannalta haasteelliseentekstintunnistukseen. Liikkeelle lähdetään tutustumalla aiheen historiaan. Tämänjälkeen vuorossa ovat tekstintunnistamiseen liittyvät vaiheet materiaalinesikäsittelystä, tunnistetun tekstin oikeellisuuden varmistamiseen ja aina jälkikäsittelyynvirheiden korjauksineen. Käsinkirjoitettu teksti on esillä erikseen,koska siihen liittyy omia haasteita. Lopuksi tarkastellaan erilaisia saatavillaolevia tekstintunnistusrajapintoja.Lomakkeita käytetään pääasiassa tekstimuotoisen tiedon hankkimiseen.Kuvia tms. symboleita voidaan myös kerätä lomakkeilla, mutta tarve on vähäisempääja niiden käsittely tekstiin verrattuna on huomattavasti yksinkertaisempaa.Kuva on kuitenkin vain kasa pikseleitä, jota voidaan käyttää sellaisenaan.Teksti on alkujaan myös kasa pikseleitä ja se voitaisiin myös tallentaa tässä<strong>muodossa</strong>, mutta jatkokäsittelyn kannalta kuvamuotoinen teksti ei ole käytännöllistä,koska se ei sisällä semantiikkaa kirjainten ja sanojen osalta. Kuvalleei voi suorittaa mitään yleisiä merkkijono-operaatioita tietokoneavusteisesti jamyös tilantarve on merkkijonoja huomattavasti suurempi. Kuvassa oleva tekstion saatava siis muutettua merkkijonoksi ennen kuin se lähetetään tietomallille.Tässä kohtaa avuksi otetaan tekstintunnistus.Tekstintunnistus on prosessi, jossa kuvainformaatiosta pyritään erottamaankirjaimet [Trier et al., 1996] ja muodostamaan niistä merkkijono. Ihmisen onhelppo ymmärtää näkemiään muotoja muodostaen pisteistä kirjaimia, kirjaimistasanoja ja sanoista lauseista. Tietokoneelle prosessi on huomattavasti hankalampi.Tietokone ei opi samalla tavalla kuin ihminen ja mukautuminenmuuttuviin olosuhteisiin ja tyyleihin on huomattavan vaikeaa [Baird et al.,2004]. Mekaanisella tasolla ja optimiolosuhteissa tietokonekin kykenee kuitenkinnykyään jo vaikuttaviin suorituksiin.Tunnistaminen voi tapahtua vertailemalla annetun kuvan sisältöä suoraantunnettuihin merkkeihin ja poimimalla sieltä paras vastaavuus. Menetelmä onaltis virheille, koska yhteyttä tunnistettujen kirjainten välillä ei ole ja sanojenkokonaismerkitys jää huomioimatta. Tarkkuutta parantamaan voidaan tunnistusprosessiinottaa mukaan sanastoja [Koga et al., 1999].Sanaston avulla tunnistettavan tekstin suodatus on mahdollista ja sanojenkokonaismerkitys selkiytyy. Sanastolla voidaan kaventaa mahdollisten vaihtoehtojenmäärää ja siten pienentää virhemarginaalin todennäköisyyttä. Sanastonhaittapuolena on mahdollinen rajoittuneisuus sanojen määrän osalta. Järjestel-

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!