11.07.2015 Views

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

27tuvuutta, koska se voidaan tarvittaessa helposti vaihtaa. Lisäksi eri kielienhuomioiminen on helpompaa.6.4.1. Tunnistus- ja kirjoitusvirheetOikoluku ei ole kuitenkaan täydellinen ratkaisu, koska tekstiä ei ole suoranaisestituotettu, vaan se on malli olemassa olevasta tekstistä. Näin ollen tekstissävoi esiintyä tunnistuksesta johtuvia virheitä ja oikeita kirjoitusvirheitä [Cavnarand Gillies, 1994]. Tunnistuksesta johtuvien virheiden korjaus oikoluvulla voijohtaa vääriin tulkintoihin, jos järjestelmä ei osaa huomioida, että kaikki virheeteivät ole suoranaisia kirjoitusvirheitä. Automaattisten korjausmenetelmien tärkeyson tiedostettu ja erilaisten menetelmien toimivuutta jälkikäsittelyn yhtedessäon tutkittu paljon [Beitzel et al., 2003; Kolak and Resnik, 2002].Tong ja Evans [1996] esittivät virheiden korjaamiseen mallia, joka kykeneekorjaamaan kumpiakin esiintyviä virheitä. Heidän esittämänsä menetelmä perustuutekstin sisältämien kirjain- ja sanajaksojen (n-gram) analysointiin. Lisäksise sisältää oppivan lähekkäin olevien ja helposti sekaisin menevien sanojenkorjausmekaniikan. Järjestelmä siis kehittyy käytön myötä. Oppiminen vaatiiuseita materiaalin käsittelykertoja, mutta opettaminen voidaan suorittaa jo ennenvarsinaista tunnistusta antamalla riittävän hyvä lähtömateriaali oppimisalustaksi.Korjausmenetelmän testaukseen käytettiin eräästä verkkouutispalvelustatulostettuja uutisia. Skannauslaatua heikennettiin valottamalla materiaalia. Ilmankorjausta 14,7% (8198) vain kirjaimia sisältävistä sanoista tunnistettiin virheellisesti.Sovellettaessa esitettyä korjausmenetelmää virheiden määrä putosi3270:n, joten parannusta alkuperäiseen tuli 60,8%, Kokonaisvirhemarginaali olikuitenkin edelleen 5,9%.Konkreettisesti dokumentin sisältöä virheiden korjauksessa on käytettyesim. MANICURE-järjestelmässä, jonka kehitys on aloitettu vuonna 1998. Järjestelmäperustuu myös oppivaan ympäristöön, joka luo dynaamisesta tunnistettavastamateriaalista korjauksessa tarvittavia viitteitä. Nartker ja muut [2003]vertasivat MANICURE-järjestelmää SDK2000 OCR:ä järjestelmään. Testissäkäytettiin useita eri lähdemateriaaleja, joista jokaisesta luotiin alkuperäismateriaalinlisäksi viisi generaatiota siten, että seuraava generaatio skannattiin ainaedellisestä generaatiosta laadun heikentämiseksi.MANICUREN tarkkuus keskimääräisen sanan tunnistuksen osalta vaihtelialkuperäismateriaalin 99,66-prosentista viimeisen generaation 98,86-prosenttiin.Parhaimmillaan etua SDK2000:een verrattuna oli neljännen ja viidennen

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!