12.11.2014 Views

Digitaalikameralla kuvatun tekstin tunnistaminen OCR-ohjelmalla

Digitaalikameralla kuvatun tekstin tunnistaminen OCR-ohjelmalla

Digitaalikameralla kuvatun tekstin tunnistaminen OCR-ohjelmalla

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Digitaalikameralla</strong> <strong>kuvatun</strong> <strong>tekstin</strong><br />

<strong>tunnistaminen</strong> <strong>OCR</strong>-<strong>ohjelmalla</strong><br />

Mika Kallioja<br />

19.7.2001


<strong>Digitaalikameralla</strong> <strong>kuvatun</strong> <strong>tekstin</strong> <strong>tunnistaminen</strong> <strong>OCR</strong>-<strong>ohjelmalla</strong><br />

Työn tarkoitus<br />

Työn tarkoituksena oli määrittää digitaalikameran soveltuvuus <strong>OCR</strong>-ohjelmassa (Optical<br />

Character Recognition) käytettävien kuvien ottamiseen. Samalla suoritettiin vertailua<br />

skanneriin, ja yritettiin määrittää raja tunnistusprosentille, jonka yläpuolella automaattisen<br />

<strong>tekstin</strong>tunnistuksen käyttäminen on kannattavaa.<br />

Käytetty laitteisto<br />

Lasertulostin Brother<br />

Digitaalikamera<br />

Skanneri<br />

Skannaus- ja tunnistuskone<br />

HL-1270N, 1200×600 dpi<br />

Canon EOS D30<br />

UMAX Astra 1200s<br />

Hewlett Packard Kayak XU<br />

<strong>OCR</strong>-ohjelmana toimi OmniPage Pro 10.0, ja skannaamiseen käytettiin Vistascania ja<br />

Adobe Photoshop 5.0:aa.<br />

Testiarkit<br />

Testiarkit olivat kooltaan A4 (210*297 mm). Tekstin fontiksi valittiin Arial, koska se se on<br />

melko yksinkertainen ja suoraviivainen. Fontin koon vaikutusta tunnistusprosenttiin tutkittiin<br />

pistekokojen 14, 12, 10 ja 8 avulla.<br />

Kontrastin vaikutusta tutkittasessa käytettiin pistekokoja 16, 14, 12, 10 ja 8. Arkeissa oli<br />

myös kokoa 6x8 ruutua oleva taulukko, mutta tunnistusprosenttia Iaskettaessa se jätettiin<br />

tuloksista pois erittäin huonon menestyksen vuoksi. Kontrastia pienennettiin paperin<br />

taustaväriä muuttamalla. Taustaväreinä käytettiin valkoista sekä harmaan tasoja 25%,<br />

40%, 50% ja 80%.<br />

Esimerkit testiarkeista liitteissä 1 ja 2. Ensimmäisessä fontin kokona 12 pistettä ja toisessa<br />

kontrastina 75%.<br />

Kokeiden suorittaminen<br />

Kuvat otettiin digitaalikameralla normaalissa sisävalaistuksessa, eikä valaistusolosuhteisiin<br />

kiinnitetty sen enempää huomiota, sillä kamerassa oli salama. Kamera yritettiin kohdistaa<br />

ja tarkentaa mahdollisimman hyvin, vaikkakin se oli säädetty täysin automaattiseksi.<br />

Kameralla otetut kuvat olivat n. 1,3Mb:n kokoisia, ja ne tallennettiin JPEG-formaattiin.<br />

Kuvat siirrettiin tunnistuskoneeseen FTP-palvelimen kautta. Tunnistusohjelmassa<br />

alkuperäisen dokumentin asetteluksi valittiin single column ja tunnistetulle dokumentille<br />

Mika Kallioja, 19.7.2001<br />

2


<strong>Digitaalikameralla</strong> <strong>kuvatun</strong> <strong>tekstin</strong> <strong>tunnistaminen</strong> <strong>OCR</strong>-<strong>ohjelmalla</strong><br />

remove formatting. Tunnistetut dokumentit taIlennettiin Word-tiedostoiksi, jonka jälkeen ne<br />

tulostettiin ja virheelliset merkit laskettiin käsin. Näin toimittiin myös skannattujen kuvien<br />

kanssa. Fontin kokoa vaihdeltaessa skannaus suoritettiin ohjelman <strong>OCR</strong>-asetusten avulla<br />

ja kuva taIlennettiin JPEG-formaattiin, kun taas kontrastia muutettaessa arkit oli pakko<br />

skannata mustavalkoisina kuvina, jolloin tallennusformaattina oli TIFF.<br />

Tulokset<br />

Tutkittaessa fontin koon vaikutusta tunnistusprosenttiin paperidokumentti sisälsi 262 sanaa<br />

ja 2162 merkkiä. Tunnistettujen merkkien määrät ja tunnistusprosentit digitaalikameralla<br />

otetusta ja skannatusta kuvasta on esitetty taulukoissa 1 ja 2.<br />

Taulukko 1<br />

Tulokset digitaalikameralla.<br />

Fontti Sanoja Merkkejä Vääriä Tunnistus-%<br />

Arial 14 264 2163 5 99,8<br />

Arial 12 263 2125 133 93,8<br />

Arial 10 263 2088 279 87,1<br />

Arial 8 288 1983 525 75, 7<br />

14 pisteen fontilla kirjoitetun <strong>tekstin</strong> ohjelma siis tunnisti digitaalikameran kuvasta miltei<br />

täysin. Fonttikoon 12 tunnistusprosentti 93,8 oli periaatteessa vielä varsin hyvä, koska<br />

teksti oli kohtuullisen hyvin luettavissa. Fonttikoolla 10 tunnistusprosentti laski jo alle 90:n,<br />

jolloin tekstiä pystyi vielä ymmärtämään, mutta sen korjaaminen <strong>tekstin</strong>käsittelyohjelmassa<br />

olisi jo sangen rasittavaa ja veisi varmasti kauemmin kuin koko <strong>tekstin</strong><br />

uudelleenkirjoittaminen. Pienimmän fontin tunnistusprosentti oli jo niin alhainen, ettei<br />

tekstissä tuntunut olevan paljoakaan järkeä.<br />

Taulukko 2<br />

Tulokset skannerilla.<br />

Fontti Sanoja Merkkejä Vääriä Tunnistus-%<br />

Arial 14 266 2172 6 99,7<br />

Arial 12 263 2165 1 100,0<br />

Arial 10 263 2164 0 100,0<br />

Arial 8 263 2164 1 100,0<br />

Skannatuista kuvista ohjelma siis tunnisti <strong>tekstin</strong> melkein täydellisesti.<br />

Fontin koon vaikutus tunnistusprosenttiin on esitetty graafiseti kuvassa 1.<br />

Mika Kallioja, 19.7.2001<br />

3


<strong>Digitaalikameralla</strong> <strong>kuvatun</strong> <strong>tekstin</strong> <strong>tunnistaminen</strong> <strong>OCR</strong>-<strong>ohjelmalla</strong><br />

Kuva 1<br />

Fontin koon vaikutus tunnistusprosenttiin.<br />

Kontrastin vaikutusta tutkittaessa testiarkissa oli 323 sanaa ja 3275 merkkiä.<br />

Tunnistettujen merkkien määrät ja tunnistusprosentit on esitetty taulukoissa 3 ja 4.<br />

Tuloksista on siis jätetty testiarkissa olleen taulukon aiheuttamat virheet huomioimatta.<br />

Lähes mustalle taustalle kirjoitettua tekstiä ohjelma ei tunnistanut kummassakaan<br />

tapauksessa ollenkaan, ja antoi tulokseksi alkuperäisen kuvan. Tämän vuoksi tulosten<br />

käsittely rajataan neljään vaaleimpaan arkkiin.<br />

Taulukko 3<br />

Tulokset digitaalikameralla.<br />

Kontrasti (%) Sanoja Merkkejä Vääriä Tunnistus-%<br />

100 321 3176 404 87,7<br />

75 322 3170 473 85,6<br />

60 325 3198 513 84,3<br />

50 321 3220 700 78,6<br />

20 0 0 3275 0,0<br />

Testiarkissa oli siis käytetty suurimmaksi osaksi pientä fonttikokoa, mikä selittää<br />

huonohkon tunnistusprosentin digitaalikameran kuvasta täydelläkin kontrastilla. Kontrastin<br />

heikentämisellä ei näyttänyt olevan suurtakaan vaikutusta ennen 50%:n sävyeroa, jolloin<br />

tunnistusprosentti laski selvästi eniten ja tekstistä ei enää ymmärtänyt juuri mitään.<br />

Valkoiseltakin paperilta tunnistettua tekstiä oli aika vaikea lukea, ja uudelleenkirjoittaminen<br />

olisi varmasti pelkkää virheiden korjaamista helpompaa.<br />

Mika Kallioja, 19.7.2001<br />

4


<strong>Digitaalikameralla</strong> <strong>kuvatun</strong> <strong>tekstin</strong> <strong>tunnistaminen</strong> <strong>OCR</strong>-<strong>ohjelmalla</strong><br />

Taulukko 4<br />

Tulokset skannerilla.<br />

Kontrasti (%) Sanoja Merkkejä Vääriä Tunnistus-%<br />

100 321 3271 5 99,8<br />

75 323 3272 11 99,7<br />

60 232 3268 31 99,1<br />

50 327 3308 200 93,9<br />

20 0 0 3275 0,0<br />

Skannerilla saaduista kuvista ohjelma tunnisti <strong>tekstin</strong> lähes kokonaan vielä 60% sävyeroon<br />

asti, ja 50% kontrastin 200 virhettä on vielä kohtalaisen nopeaa ja helppoa korjata. Kuten<br />

digitaalikamerankin tapauksessa, tunnistusprosentti laski eniten 50%:n kohdalla.<br />

Kontrastin vaikutus tunnistusprosenttiin on esitetty graafisesti kuvassa 2.<br />

Kuva 2<br />

Kontrastin vaikutus tunnistusprosenttiin.<br />

Johtopäätökset<br />

Saatujen tulosten perusteella voidaan helposti todeta, ettei automaattinen <strong>tekstin</strong>tunnistus<br />

toimi tarpeeksi hyvin digitaalikameralla otettujen kuvien kanssa. Ainoastaan 14 pisteen<br />

kokoista Arial-fonttia ohjelma tunnisti hyvin. 12 pisteen kokoisella fontilla kirjoitetusta<br />

dokumentista saatu teksti oli vielä luettavaa, mutta virheitä tuli jo häiritsevä määrä. Tästä<br />

pienemmillä fonteilla teksti olikin jo vaikeaselkoista tai mahdotonta ymmärtää.<br />

Mika Kallioja, 19.7.2001<br />

5


<strong>Digitaalikameralla</strong> <strong>kuvatun</strong> <strong>tekstin</strong> <strong>tunnistaminen</strong> <strong>OCR</strong>-<strong>ohjelmalla</strong><br />

Kontrastin heikentäminen alkuperäisen <strong>tekstin</strong> ja paperin välillä laski luonnollisesti<br />

tunnistusprosenttia. Toisaalta testiarkissa oli käytetty kohtalaisen pientä fonttia, joten<br />

ohjelma ei tunnistanut digitaalikameran kuvasta valkoiseltakaan taustalta kuin 88%<br />

merkeistä, kun taas skannatusta kuvasta tunnistusprosentti oli lähes 100. Lähellä<br />

maksimia kontrastin heikentämisellä oli paljon pienempi vaikutus tunnistusprosenttiin kuin<br />

kontrastin ollessa 50%:n luokkaa. Tämä havaittiin sekä kameran että skannerin kuvilla.<br />

Kameralla tunnistusprosentti laski tällöin jo alle 80:n. Skannatusta kuvasta ohjelma tunnisti<br />

<strong>tekstin</strong> vielä 50%:n kontrastillakin varsin hyvin, mutta tuskinpa niin huonoa kontrastia<br />

mistään dokumentista edes löytyy.<br />

Digitaalikameran käyttö ei siis kannata ellei fontin koko ole kohtalaisen suuri, selkeälläkin<br />

fontilla vähintään 12-14 pistettä. Tunnistusohjelma kuitenkin toimii hyvin pienemmilläkin<br />

fonteilla, jos kuvat ovat skannattuja. Saatujen tulosten perusteella hieman yli 90 olevaa<br />

tunnistusprosenttia voitaisiin pitää rajana sille, että tunnistetun <strong>tekstin</strong> korjaaminen vielä<br />

olisi helpompaa ja nopeampaa kuin sen uudelleenkirjoittaminen. Toisaalta jos suuri<br />

tunnistusprosentti on aiheutunut käytetyn fontin suuresta koosta jolloin <strong>tekstin</strong> määrä ei ole<br />

suuri, saattaa olla nopeampaa kirjoittaa teksti itse uudestaan. Tunnistusprosentin ollessa<br />

85:n paikkeilla <strong>tekstin</strong> kokonaisidea vielä lukiessa selviää, mutta lukeminen on hidasta ja<br />

rasittavaa. Tunnistusprosentin laskiessa 75:een lukija voi korkeintaan tunnistaa tekstistä<br />

muutaman sanan mittaisia pätkiä.<br />

Alunperin oli tarkoitus myös tutkia valaistuksen, värikontrastin ja kameran<br />

kohdistustarkkuuden vaikutusta tunnistusprosenttiin, mutta koska <strong>tunnistaminen</strong> ei<br />

onnistunut tarpeeksi hyvin edes helpoissa tapauksissa, nämä jätettiin tekemättä.<br />

Mika Kallioja, 19.7.2001<br />

6


Liite 1<br />

Arial-fontin koon vaikutus <strong>OCR</strong>-ohjelman tunnistusprosenttiin<br />

MTV3 osaa jotkut asiat pelottavan hyvin.<br />

Tv-yhtiö osaa synnyttää kuumaa hypeä ohjelmiensa ympärille. Alkaneen, laihan<br />

uutiskesän mediapaukku on ollut Suuri seikkailu. Ohjelmaan on päässyt helposti<br />

mukaan, vaikkei olisi televisiota vaivautunut edes aukaisemaan. Päivästä päivään<br />

iltapäivälehdet vatvovat seikkailijoiden edesottamuksia. Ja viikkolehdet yhtyivät<br />

kuoroon saman tien. Miltä tuntuu, kun putosit? Miltä tuntuu, kun olet jatkossa? Mites<br />

nyt suu pannaan, kun kapteeni paljastui pahoinpitelijäksi? Kestääkö hermot?<br />

Palaako pinna? Haluatko lähettää terveisiä? Eiköhän tästä saa helposti kaavittua<br />

ainakin aukeaman kasaan.<br />

Monimediakonsepti osoittautui vielä monimediaisemmaksi kuin etukäteen oli<br />

annettu ymmärtää. MTV3 osaa jotkut asiat pelottavan huonosti. Ohjelmien<br />

sisällöistä yhtiö ei tunnu tajuavan höhhäsen pöläystä. Tai itse asiassa vieläkin<br />

surullisempaa. Ohjelmakonseptien kopioimisesta yhtiö ei tunnu tajuavan höhhäsen<br />

pöläystä. Tosi-tv on ollut jo parin vuoden ajan kova juttu maailmalla. Tiiseriksi<br />

omalle seikkailulleen Maikkari lähetti ylituotettua ja ylidramaattista jenkkinäkemystä<br />

aiheesta keväällä. Olisi luullut oppivan siitä jotain.<br />

Mutta ei. Mitä niitä minnekään etelänmerelle lähettämään. Posio saa kelvata. Mitä<br />

niille mitään ihmetehtäviä kehittämään. Kotikutoiset viritelmät saa kelvata. Mitä sitä<br />

nyt tähän ylipäätään satsaamaan.<br />

Otetaan vaikka se Taru Valkeapää juontamaan. Kyllä sitä ainakin äijät jaksaa<br />

katsella. Ja oikeassahan kanavapomot ovat. Mitä sitä tehdä asioita ajatuksella ja<br />

huolella, kun vähempikin riittää pitämään katsojat ruudun ääressä. Turha antaa<br />

kauhalla, kun lusikkakin riittää. Valveutuneelle katsojalle Suuri seikkailu on sangen<br />

kiusallinen kokemus. Tulee vaivautunut olo. Ei oikein tiedä pitäisikö kömpelölle<br />

ohjelmalle ja itsensä nolaaville kilpailijoille itkeä vai nauraa.<br />

Ei huolta, jos jostain syystä joudut katsomaan ohjelmaa, kuvittele ohjelman<br />

alkuteksteiksi kaksi sanaa: Julma Huvi. Johan ovat pojat taas vääntäneet loistavan<br />

parodian tosi-tv:stä. Mistä ne aina keksivätkin näin kutkuttavia juttuja. Aika<br />

vekkuleita.<br />

Teksti: Jari Saariaho


Liite 2<br />

ABCDEFGH IJKLMNOPQRSTUVWXYZÅÄÖ123456789<br />

abcdefghijklmnopqrstuvwxyzåäö123456789<br />

ABCDEFGH IJKLMNOPQRSTUVWXYZÅÄÖ123456789<br />

abcdefghijklmnopqrstuvwxyzåäö123456789<br />

ABCDEFGH IJKLMNOPQRSTUVWXYZÅÄÖ123456789<br />

abcdefghijklmnopqrstuvwxyzåäö123456789<br />

ABCDEFGH IJKLMNOPQRSTUVWXYZÅÄÖ123456789<br />

abcdefghijklmnopqrstuvwxyzåäö123456789<br />

MADRID. Ainakin 10 ihmisen on todettu sairastuneen legioonalaistautiin Espanjassa Murcian kaupungissa.<br />

Terveysviranomaisten mukaan tartunnan saaneita saattaa kuitenkin olla yli sata. Vaarallinen tauti on<br />

legionella-bakteerin aiheuttama. Legioonalaistauti ilmenee yleisimmin keuhkokuumeena ja se voi olla jopa<br />

tappava. Murcian sairaaloihin on tullut perjantaista alkaen hoitoon 117 ihmistä, joilla on todettu<br />

hengitysvaikeuksia. Suurin osa sairaalaan joutuneista on yli 50-vuotiaita.<br />

Terveysviranomaiset arvioivat, että tartunnoissa ei ole kysymys yksittäisistä tapauksista, vaan epidemiasta.<br />

Vielä useamman ihmisen arvellaan sairastuvan tautiin. Tarkastajat ovat testanneet alueen kahdeksaa<br />

ilmastointitornia, joita pidetään infektion mahdollisina lähteinä.<br />

Legioonalaistauti aiheutuu bakteerista, joka kulkeutuu veden mukana. Bakteeria tavataan ilmastointi- ja<br />

juomavesilaitteistoissa. Murcian kaupungin juomavedestä ei ole kuitenkaan löydetty legionella-bakteeria.<br />

STT<br />

Maailman suurimpiin kuuluva keinoniveltenvalmistaja, sveitsiläinen Sulzer Medica, on joutunut vaikeuksiin sen jälkeen kun lähes<br />

kaksituhatta sen valmistamaa lonkkaniveltä on osoittautunut viallisiksi. Niveliin on valmistusprosessissa jäänyt voiteluöljyä, minkä vuoksi<br />

ne eivät toimi niin kuin pitäisi. Ongelma havaittiin jo viime talvena. Sen jälkeen Sulzer Medican osakekurssi on rojahtanut neljäsosaan.<br />

Viime viikolla yhtiön keskeinen johtaja sai potkut. Sulzer Medicaa vastaan on jo nostettu noin 800 kannetta. Etenkin<br />

Yhdysvalloissa tällaisilla kanteilla haetaan ja usein saadaankin erittäin suuria korvauksia. Yhtiö joutuikin ilmoittamaan, ettei sen<br />

vakuutusturva mahdollisesti riitä kattamaan kaikkia tulossa olevia korvauksia. Näin ollen ongelmalla saattaa olla vaikutusta myös yhtiön<br />

tulokseen.<br />

Sulzer on keinonivelten johtavia merkkejä myös Suomessa. Maahantuojan, Kir-Fixin toimitusjohtajan Lea Purtilon mukaan<br />

ongelmallisia, Inter-op-nimisiä lonkkaniveliä ei ole tuotu Suomeen. Samaa sanoo myös paljon keinonivelleikkauksia tekevän HUS:n<br />

Kirurgisen sairaalan ortopediaylilääkäri Jarmo Vuorinen. Hänen sairaalassaan on asennettu runsaasti Sulzerin lonkkaniveliä, mutta he<br />

ovat tyyppiä CLS eikä niissä ole havaittu mitään ongelmia, pikemminkin päinvastoin. Vuorinen pitää CLS:ää markkinoiden<br />

kehittyneimpänä tuotteena. Lonkkaniveliä on markkinoilla kahta päätyyppiä. Sementtikiinnitteinen nivel maksaa Vuorisen mukaan<br />

4 000-6 000 markkaa ja ilman sementtiä kiinnittyvä 10 000-14 000 markkaa. Ensin mainittu on yleisempi, koska siitä on Vuorisen<br />

mukaan pitkäaikaisempi kokemus ja se on luotettava ja hyvä etenkin iäkkäälle potilaalle.<br />

Jyri Raivio / Helsingin Sanomat<br />

1 2 3 4 5 6 7 8<br />

9 10 11 12 13 14 15 16<br />

17 18 19 20 21 22 23 24<br />

25 26 27 28 29 30 31 32<br />

33 34 35 36 37 38 39 40<br />

41 42 43 44 45 46 47 48<br />

ABCDEFGH IJKLMNOPQRSTUVWXYZÅÄÖ123456789<br />

abcdefghijklmnopqrstuvwxyzåäö123456789<br />

ABCDEFGH IJKLMNOPQRSTUVWXYZÅÄÖ123456789<br />

abcdefghijklmnopqrstuvwxyzåäö123456789<br />

ABCDEFGH IJKLMNOPQRSTUVWXYZÅÄÖ123456789<br />

abcdefghijklmnopqrstuvwxyzåäö123456789<br />

ABCDEFGH IJKLMNOPQRSTUVWXYZÅÄÖ123456789<br />

abcdefghijklmnopqrstuvwxyzåäö123456789

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!