11.07.2015 Views

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

184.2. DokumenttitietämysTunnistamisen kannalta ei ole pelkästään oleellista erottaa lomakkeen eri osioitatoisistaan, vaan myös muodostaa tietämys dokumentin rakenteesta [Klink etal., 2000]. Tämä sisältää yleisesti käytettyjen dokumenttirakenteiden kuten yläjaalaotsikon, listojen ja taulukoiden tunnistamisen. Varsinaisten tekstikomponenttienosalta pyritään luomaan tietämys, jossa otsikot ja teksti ovat eroteltuina.Saaduille tekstikomponenteille voidaan antaa painoarvo, joka määrittää,mitä tyyppiä se on.Muodostetusta tietämyksestä voidaan luoda rakennepuu, jota voidaan käyttäähaettaessa käsiteltävään lomakkeeseen sopivaa lomakemallia. Vertailussavoidaan käyttää esimerkiksi yksiulotteisia vertikaalisia ja horisontaalisiaavaimia [Lin et al., 1996]. Rakenteesta muodostetaan erikseen sekä vertikaalinenettä horisontaalinen rakennepuu, jonka perusteella luodaan avain vertailuavarten.A1A5A2A3A4A1A5A2A3A4A8A6A7A8A6A7Kuva 5. Dokumentin rakenne ja vastaavat vertikaaliset 1D avaimet [Lin et al., 1996].Kuvassa 5 on tunnistettuna dokumentin rakenne sekä sitä vastaavat vertikaalisetpolut. Dokumentin vertikaalinen avain on A1A5A8A2A3A4A6A7. Vastaavallatavalla muodostetaan rakennetta vastaava horisontaalinen avain.4.3. Taulukoiden tunnistaminenLaskut, tilaukset yms. lomakkeet ovat useimmiten rakenteeltaan taulukon kaltaisiaja ne on jopa saatettu tehdä taulukkolaskentaohjelman avulla. Tunnistaminenvoidaan tehdä etsimällä lomakkeesta solut toisistaan erottavia tekijöitä,kuten viivoja. Yhtenä vaihtoehtona on esitetty menetelmää, jossa muodostetaan

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!