18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

11.1 Minimale Editierdistanz 161<br />

Abb. 11.3. Nichtlineare Zuordnung von Abschnitten zweier Aufnahmen<br />

zu korrigieren. Einige auf Texteingabe basierende Benutzerschnittstellen<br />

z.B. Shells in UNIX können auch Eingabefehler selbständig korrigieren.<br />

Beim Suchen von Stichwörtern in Textkorpora kann es sinnvoll sein, die<br />

Übereinstimmung des Suchwortes mit einem Teil des Textes nicht unbedingt<br />

fehlerfrei zu verlangen, z.B. um leicht veränderte Versionen wie konjugierte<br />

Formen oder Tippfehler auch finden zu können. Bei der Erkennung von<br />

gedruckten Texten (Optical Character Recognition – OCR) können falsch<br />

erkannte Buchstaben oft dadurch korrigiert werden, daß zu allen zu erkennenden<br />

Wörtern die Minimale Editierdistanz berechnet wird, und so aus<br />

SPRAGHE schnell SPRACHE wird, weil letzteres durch Vertauschen eines<br />

einzigen Buchstaben aus ersterem erzeugt werden kann.<br />

Wie lösen wir das Problem nach der Suche der minimalen Editierdistanz<br />

zwischen zwei Wörtern X = x1, . . .xn und Y = y1, . . .ym? Ein einfacher<br />

Vergleich von xi mit yi liefert offensichtlich nicht das gewünschte Ergebnis,<br />

denn dann wäre die Distanz zwischen SPRACHE und SRACHE viel zu<br />

groß, obwohl nur ein Buchstabe ausgelassen wurde. Wir müssen also zuerst<br />

wissen, welches Zeichen von X mit welchem Zeichen von Y verglichen<br />

werden muß. Der Einfachheit halber nehmen wir an, es gibt nur folgende<br />

Editierschritte: Ein Zeichen unter dem Cursor überschreiben, ein Zeichen<br />

unter dem Cursor löschen, ein Zeichen an der Cursorposition einfügen<br />

und den Cursor bewegen. Wenn wir das Bewegen des Cursors nicht als<br />

distanzrelevante Editierschritte betrachten, und das Überschreiben eines<br />

Zeichens mit sich selbst auch nicht, dann bleiben nur drei Editierschritte,<br />

die zur Distanz beitragen: Das Überschreiben oder Vertauschen eines<br />

Zeichens, das Einfügen und das Löschen eines Zeichens. So kann z.B. aus<br />

den Wort SPRACHEN STRAUSSE werden, indem man das P durch ein T

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!