11.07.2015 Views

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

17Prosessoitaessa samankaltaisia lomakkeita voidaan lomakerakennetta hyödyntäätekstin tunnistuksen yhteydessä antamalla tunnistettavaksi vain ne alueet,joista todella ollaan kiinnostuneita [Wu et al., 2008]. Skannatusta kuvan sisältämistäalueista voidaan luoda erilliset pienkuvat, jotka syötetään tekstintunnistukselle, tai vaihtoehtoisesti kuva annetaan tunnistettavaksi rajausten kera.Tehokkuutta tarkasteltaessa etu on huomattava, koska koko lomaketta eitarvitse käydä läpi.4.1. Automatisoitu tunnistaminenAutomatisoidun lomakerakenteen tunnistamisen tarkoituksena on vähentääkäyttäjän tarvetta puuttua itse prosessiin. Järjestelmä prosessoi lomakkeen itsenäisestija luo sitä vastaavaan virtuaalisen lomakerakenteen [Liang, 1999]. Alueet,kuten sivumarginaalit, jotka eivät ole sisällön kannalta merkityksellisiävoidaan jättää huomioimatta [Shafait et al., 2007]. Tunnistettu lomakerakenneon silti syytä hyväksyttää käyttäjällä, jotta tiedetään sen vastaavan todellisuutta.Lomakerakenteen sisältäessä virheitä voi käyttäjä korjata ne ennen lopullistahyväksymistä. Automaattiseen tunnistamiseen on olemassa useita erilaisia menetelmiäja niitä on tutkittu paljon [Mao et al., 2003]. Menetelmät rakenteentunnistamiseksi eroavat suuresti: jotkut perustuvat lomakkeen sisältämien viivojentunnistamiseen [Zheng et al., 2005] ja lomakkeen jaotteluun niiden perusteella[Couasnon, 2001], kun taas toiset tunnistavat rakenteen tekstin perusteella.Kuten jo aiemmin todettu on lomakkeiden järjestäminen toisinaan kannattavaa,jos tiedetään niiden olevan samankaltaisia. Tällöin voidaan aiemmin luotualomakerakennetta käyttää koko sarjan kanssa. Lomakkeiden ollessa epäjärjestyksessäjoudutaan jokaisen lomakkeen lomakerakenne selvittämään erikseen,jotta lomake saadaan tunnistettua.Lomakerakenteen automaattinen tunnistaminen on useimmiten parastatehdä erillistoimintona prosessin aloittamisen yhteydessä. Tämä tapahtuu siten,että järjestelmälle annetaan tunnistettavaksi käytettävä täyttämätön lomakeyhden tai useamman kerran. Annettaessa lomake useamman kerran on syytäkäyttää useampaa kuin yhtä lomaketta, jotta yhdellä lomakkeella olevat virheeteivät korostu tunnistuksessa. Useamman lomakkeen käyttäminen minimoi lomakkeellaja prosessin aikana esiintyvien virheiden vaikutusta tunnistettuunlomakerakenteeseen, koska lomakerakenne muodostetaan useamman lomakkeentunnistustiedoista. Vaihtoehtoisesti lomakerakenne voidaan luoda sarjanensimmäisen tai ensimmäisten täytettyjen lomakkeiden perusteella.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!