Abstract-Band - Fakultät für Informatik, TU Wien - Technische ...
Abstract-Band - Fakultät für Informatik, TU Wien - Technische ...
Abstract-Band - Fakultät für Informatik, TU Wien - Technische ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Michael Opitz<br />
Text Detection and Recognition in Natural Scene Images<br />
Studium: Masterstudium Visual Computing<br />
BetreuerIn: Ao.Univ.Prof. Dr. Robert Sablatnig<br />
Text detection and recognition in natural scene images has applications in<br />
computer vision systems such as license plate detection, automatic street sign<br />
translation, image retrieval and help for visually impaired people. Scene text,<br />
however, may have complex background, image blur, partially occluded text,<br />
variations in font-styles, image noise and varying illumination. Hence scene<br />
text recognition is a challenging computer vision problem. This work addresses<br />
the problem of dictionary driven end-to-end scene text recognition, which is<br />
divided into a text detection problem and a text recognition problem. For text<br />
detection an AdaBoost sliding window classifier is used to detect text in<br />
multiple scales. The effectiveness of several feature-sets for this classifier are<br />
compared and evaluated. A modified Local Ternary Pattern (LTP) feature-set is<br />
found as most effective for text detection. In a post-processing stage Maximally<br />
Stable Extremal Regions (MSER) are detected and labeled as text or non-text.<br />
Text regions are grouped to textlines. Textlines are split into words by a wordsplitting<br />
method build upon k-means and linear Support Vector Machines<br />
(SVM). For text recognition a deep Convolutional Neural Network (CNN) trained<br />
with backpropagation is used as one-dimensional sliding window classifier. To<br />
avoid overfitting the network is regularized by Dropout. Recognition responses<br />
are used in a Viterbi-style algorithm to find the most plausible word in a<br />
dictionary. The influence of training set size and size of convolutional layers is<br />
evaluated. The system presented outperforms state of the art methods on the<br />
ICDAR 2003 and 2011 dataset in the text-detection (F-score: 74.2% / 76.7%),<br />
dictionary-driven cropped-word recognition (F-score: 87.1% / 87.1%) and<br />
dictionary-driven end-to-end recognition (F-score: 72.6% / 72.3%) tasks.<br />
Thomas Pönitz<br />
Efficient Retrieval of Near-Duplicate Images<br />
Studium: Masterstudium Visual Computing<br />
BetreuerIn: Privatdoz. Dr. Martin Kampel<br />
Aufgrund der kontinuierlich steigenden Menge an digitalen Bildern und dem<br />
ständigen Wachstum an verfügbarer Speicherkapazität, sind umfangreiche<br />
Bilddatenbanken weit verbreitet. Eine spezielle Herausforderung ist eine Bilddatenbank<br />
auf nahezu identische Bilder zu durchsuchen. Ein da<strong>für</strong> konzipiertes<br />
System akzeptiert Bilder als Suchanfragen und liefert gegebenenfalls entsprechende<br />
Originale zurück. Die Schwierigkeit dabei ist eine Bildrepräsentation<br />
zu finden die robust in Bezug auf diese Transformationen ist. Gleichzeitig<br />
soll die Ähnlichkeit zweier Repräsentationen effizient zu berechnen sein<br />
oder die Repräsentationen sollten indizierbar sein. Im ersten Fall kann die<br />
Datenbank linear durchsucht werden, während im zweiten Fall eine effiziente<br />
Suchstruktur aufgebaut werden kann. Die Bags of Visual Words Methode hat<br />
25