11.07.2015 Views

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

19sanoista verkko, jossa sanaan linkitetään sen ylä- ja alapuolella sijaitsevat sanat.Menetelmä tunnetaan nimellä T-Recs [Kieninger and Dengel, 1999].Verkon muodostamisen jälkeen vuorossa on varsinainen taulukointi. Taulukointitoteutetaan asettamalla sanaverkon päälle hienojakoinen taulukko.Taulukon solu voi olla tyhjä, sisältää sanan tai sisältää osan sanasta. Tarkastelemallasanojen välisiä riippuvuuksia ja sijaintia taulukossa saadaan kerätty tietotaulukoitua. Menetelmän tarkkuus on riippuvainen käytettävän jakotaulukonsolukoosta.4.4. Solujen tunnistaminenTaulukko ei ole mitään muuta kuin kasa soluja, joiden sisällöllä on merkitystälomakkeen tekijälle. Tunnistaminen voidaan toteuttaa etsimällä lomakkeessaolevat solut ja muodostamalla niistä solurakenne [Belaïd and Belaïd, 1999].Kaikkia soluja ei kuitenkaan tarvita jatkossa, joten solut voidaan luokitella niidensisällön perusteella. Tämä ei kuitenkaan vielä kerro mitään solun varsinaisestakäyttötarkoituksesta.Solujen luokittelusta on hyötyä, koska tekstin tunnistuksen yhteydessä voidaanohittaa epäoleelliset solut sekä solut, joiden sisältö lomakkeella on kiinteä,esim. otsikkosolut. Soluille voidaan myös antaa manuaalinen avain, mikä helpottaainformaation vientiä tietomalliin. Avain kertoo tietomallille tiedon käyttötarkoituksentallentamisen yhteydessä. Periaatteessa avaimena voitaisiinkäyttää solun otsikkoa, mutta sijainnin tunnistaminen ei ole aivan yksiselitteistä.Erilaisia solutyyppejä voivat olla esimerkiksi:• DIGI: numeeriset kentät, joissa voi myös esiintyä +/-• GRAY: ei syötettä• HLET: horisontaalinen teksti• VLET: vertikaalinen teksti• HHCL: horisontaaliset isot kirjaimet• VHCL: vertikaaliset isot kirjaimet• BLAC: käänteisvärjätyt solut• EMPT: tyhjät solut [Belaïd and Belaïd, 1999].Avaimen liittäminen soluun ei onnistu automaattisesti, vaan se vaatii vuorovaikutustakäyttäjän kanssa. Tämä liittyy osaltaan lomakemalliin, mitä käsitelläänluvussa 5.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!