30.01.2014 Aufrufe

Abstract-Band - Fakultät für Informatik, TU Wien - Technische ...

Abstract-Band - Fakultät für Informatik, TU Wien - Technische ...

Abstract-Band - Fakultät für Informatik, TU Wien - Technische ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Michael Opitz<br />

Text Detection and Recognition in Natural Scene Images<br />

Studium: Masterstudium Visual Computing<br />

BetreuerIn: Ao.Univ.Prof. Dr. Robert Sablatnig<br />

Text detection and recognition in natural scene images has applications in<br />

computer vision systems such as license plate detection, automatic street sign<br />

translation, image retrieval and help for visually impaired people. Scene text,<br />

however, may have complex background, image blur, partially occluded text,<br />

variations in font-styles, image noise and varying illumination. Hence scene<br />

text recognition is a challenging computer vision problem. This work addresses<br />

the problem of dictionary driven end-to-end scene text recognition, which is<br />

divided into a text detection problem and a text recognition problem. For text<br />

detection an AdaBoost sliding window classifier is used to detect text in<br />

multiple scales. The effectiveness of several feature-sets for this classifier are<br />

compared and evaluated. A modified Local Ternary Pattern (LTP) feature-set is<br />

found as most effective for text detection. In a post-processing stage Maximally<br />

Stable Extremal Regions (MSER) are detected and labeled as text or non-text.<br />

Text regions are grouped to textlines. Textlines are split into words by a wordsplitting<br />

method build upon k-means and linear Support Vector Machines<br />

(SVM). For text recognition a deep Convolutional Neural Network (CNN) trained<br />

with backpropagation is used as one-dimensional sliding window classifier. To<br />

avoid overfitting the network is regularized by Dropout. Recognition responses<br />

are used in a Viterbi-style algorithm to find the most plausible word in a<br />

dictionary. The influence of training set size and size of convolutional layers is<br />

evaluated. The system presented outperforms state of the art methods on the<br />

ICDAR 2003 and 2011 dataset in the text-detection (F-score: 74.2% / 76.7%),<br />

dictionary-driven cropped-word recognition (F-score: 87.1% / 87.1%) and<br />

dictionary-driven end-to-end recognition (F-score: 72.6% / 72.3%) tasks.<br />

Thomas Pönitz<br />

Efficient Retrieval of Near-Duplicate Images<br />

Studium: Masterstudium Visual Computing<br />

BetreuerIn: Privatdoz. Dr. Martin Kampel<br />

Aufgrund der kontinuierlich steigenden Menge an digitalen Bildern und dem<br />

ständigen Wachstum an verfügbarer Speicherkapazität, sind umfangreiche<br />

Bilddatenbanken weit verbreitet. Eine spezielle Herausforderung ist eine Bilddatenbank<br />

auf nahezu identische Bilder zu durchsuchen. Ein da<strong>für</strong> konzipiertes<br />

System akzeptiert Bilder als Suchanfragen und liefert gegebenenfalls entsprechende<br />

Originale zurück. Die Schwierigkeit dabei ist eine Bildrepräsentation<br />

zu finden die robust in Bezug auf diese Transformationen ist. Gleichzeitig<br />

soll die Ähnlichkeit zweier Repräsentationen effizient zu berechnen sein<br />

oder die Repräsentationen sollten indizierbar sein. Im ersten Fall kann die<br />

Datenbank linear durchsucht werden, während im zweiten Fall eine effiziente<br />

Suchstruktur aufgebaut werden kann. Die Bags of Visual Words Methode hat<br />

25

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!