11.07.2015 Views

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

26Tietokoneen voi myös ottaa avuksi toimenpiteeseen. Tietokone voi käydälokeja läpi, aivan kuten ihminen, ja etsiä sieltä ongelmista kertovia poikkeamia.Havaituista poikkeamista välitetään tieto käyttäjälle ja näin lopullinen vastuuvarmistuksesta on edelleen käyttäjällä.Jos tarkastettavia tietoja on paljon, voidaan ottaa vain pieni otanta tarkistettavaksi,jotta toimenpiteeseen käytettävä aika saadaan hyväksyttävälle tasolle.Otantaa käytettäessä ei oikeellisuudesta voi tehdä varmoja johtopäätöksiä, koskase saattaa vaihdella laajan materiaalin eri osissa hyvinkin paljon. Tilannettavoidaan parantaa ottamalla useita pieniä otantoja, joskaan tämäkään ei vieläkerro koko totuutta.Nykypäivänä vastuu tarkistuksesta on helppo jakaa useammalle käyttäjällekohtuullisen vähin ponnistuksin. Tunnistuksen edistyessä voidaan materiaalistatehdä satunnaisotantoja ja lähettää otantaan liittyvä tunnistus- ja tunnistettumateriaali jollekin käyttäjistä. Käyttäjä käy materiaalin läpi kirjaten samallavirheet ylös. Käytyään materiaalin kokonaan läpi käyttäjä palauttaa virheraportin.Lähetyksen, materiaalin käsittelyn ja raportoinnin lisäksi järjestelmän olisihyvä tukea myös käyttäjien kirjautumisia, jotta materiaalia välitetään vain aktiivisillekäyttäjille.Laskettaessa virheiden määrää voidaan keskittyä joko virheisiin kirjaimissatai virheisiin sanoissa. Tällä hetkellä algoritmit perustuvat pääosin kirjainpohjaiseentunnistukseen, koska kirjainkohtaiset virheet ovat yksiselitteisiä. Kirjaintenpainoarvo on myös selkeämpi, kun lähdetään laskemaan keskimääräistävirhemarginaalia. Sanavirheitä tarkasteltaessa lyhyen ja pitkän sanan painoarvoon sama, mikä ei välttämättä vastaa todellisuutta. Erilaisia menetelmiä sanavirheidentunnistamisen parantamiseksi on kehitteillä [Korb, 2008].Oikeellisuutta tarkastelemalla voidaan haarukoida virheiden olemusta jaluoda virhekantaa. Kannan perusteella tekstintunnistusta voidaan opettaa selviämäänhavaituista tyypillisistä virhetilanteista.6.4. JälkikäsittelyKuten edellä on todettu, tekstintunnistus ei ole koskaan täysin varmaa eli virheetovat tavallisia. Jäljelle jäävät virheet eivät välttämättä ole merkityksellisiä,mutta niiden korjaaminen vaikuttaa vähintään tekstin luettavuuteen. Jos tarkastellaannykypäivän tekstinkäsittelyohjelmia, löytyy kaikista isoimmista ohjelmistaoikolukutoiminto, joka ainakin merkitsee virheet, jos ei ihan korjaa niitä.Vastaavan toiminnallisuuden tuominen mukaan tekstintunnistusprosessiinparantaa laatua. Erillään oleva oikolukumoduuli parantaa järjestelmän skaalau-

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!