11.07.2015 Views

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

Saatavana elektronisessa muodossa - Tietojenkäsittelytieteiden ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

336.6.5. Tesseract OCRHP kehitti vuosien 1985 ja 1995 välillä ilmaisen C++-pohjaisen OCR-kirjastonTessecrat OCR. Vuoden 1995 jälkeen kehitys oli seisahduksissa, kunnes Googleotti kirjaston kehitettäväksi vuonna 2006. Kirjaston toimivuus on taattu Windows-ja Ubuntu-ympäristöissä. Näiden lisäksi kirjasto todennäköisesti toimiimyös Mac- ja Linux-ympäristöissä, mutta niiden osalta testaus ei ole järjestelmällistä[Google Code, 2010].STRING* processMyImage(){...STRING* text_out = new STRING();BLOCK_IT b_it = &blocks;for (b_it.mark_cycle_pt(); !b_it.cycled_list(); b_it.forward()){BLOCK* block = b_it.data();TBOX box = block->bounding_box();char* text = TessBaseAPI::TesseractRectUNLV(image->get_buffer(),image->get_bpp()/8,bytes_per_line,box.left(),image->get_ysize() - box.top(),box.width(),box.height());*text_out += text;delete [] text;if (tessedit_serial_unlv == 1)TessBaseAPI::ClearAdaptiveClassifier();}return text_out;}Koodi 3. Esimerkki Tessecrat OCR:n käytöstä C++-ohjelmointikielellä.Tessecrat on ollut mukana OCR-kirjastoille tehdyssä testissä [Rice et al.,1995] ja pärjäsi vertailussa hyvin. Vertailussa oli mukana kahdeksan OCR-

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!