30.12.2013 Aufrufe

Referatsfolien

Referatsfolien

Referatsfolien

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Ressourcen für die<br />

Maschinelle Übersetzung<br />

Wörterbücher<br />

23.06.2005<br />

Seminar Einführung in die MÜ<br />

Frau Holler<br />

Anna Mündelein<br />

Nicoleta Szegedi


Inhalt<br />

• Einleitung<br />

• Wörterbücher allgemein<br />

• Wörterbücher für die MÜ<br />

– Arten von Wortinformation<br />

– Repräsentation der Wortinformation<br />

– Homographie und Vererbung<br />

• Morphologische Analyse<br />

• Flexion<br />

• Derivation<br />

• Komposition


Einleitung<br />

• Bedeutung von Wörterbüchern für die MÜ<br />

– größter Bestandteil eines MÜ-Systems<br />

– Qualität der Übersetzung hängt stark vom<br />

Wörterbuch ab<br />

– meist der einzige Teil eines MÜ-Systems,<br />

das der Endnutzer verändern (erweitern)<br />

kann


Wörterbücher allgemein<br />

• 3 Arten:<br />

– Wörterbücher aus<br />

Papier<br />

– maschinenlesbare<br />

Wörterbücher<br />

– maschinennutzbare<br />

Wörterbücher }<br />

Nutzung durch<br />

Menschen<br />

Nutzung durch<br />

Maschine


Wörterbücher allgemein<br />

• Unterschied Wörterbuch – Grammatik<br />

– Wörterbücher enthalten unregelmäßige und<br />

unvorhersehbare Informationen über Wörter<br />

– Grammatiken enthalten generelle Regeln<br />

über Wortklassen und Sätze


Beispiel


Beispiel


Wörterbücher für MÜ<br />

• mindestens die Qualität und Detailliertheit<br />

von nicht-maschinellen Wörterbüchern<br />

nötig<br />

• verschiedene MÜ-Systeme verlangen<br />

verschiedene Wörterbücher<br />

– z. B. Transfer-System Interlingua-System


Wörterbücher für MÜ<br />

• Wörterbücher in existierenden MÜ-<br />

Systemen unterscheiden sich durch<br />

– Format<br />

– Abdeckung<br />

– Detailliertheit<br />

– Formalismus zur lexikalischen Beschreibung


Arten von Wortinformation<br />

• Welche Informationen über ein Wort<br />

muss ein gutes MÜ-System<br />

bereitstellen?<br />

– Eigenschaften des Wortes<br />

– Anforderungen an die grammatische<br />

Umgebung des Wortes<br />

1) Subkategorisierung: Anforderungen an die<br />

Syntax<br />

2) selektionale Restriktion: Anforderungen an die<br />

Semantik


Subkategorisierung<br />

1) Information über Subkategorisierung<br />

– beschreibt die syntaktischen Umgebungen,<br />

in denen ein Wort vorkommen kann<br />

– bei Verben, Substantiven und Adjektiven


Subkategorisierung<br />

• bei Verben<br />

– z. B. Information über Transitivität<br />

a) The president died. [I]<br />

b) The Romans destroyed the city. [Tn]<br />

c) Sam gave roses to Kim. [Dn.pr]<br />

d) Sam gave Kim roses. [Dn.n]<br />

e) Sam persuaded Kim to stay at home. [Cn.t]<br />

f) Kim believed that the library was closed. [Tf]<br />

g) The quality is low. [La]<br />

h) Sam appeared the best man for the job. [Ln]


Subkategorisierung<br />

• bei Substantiven<br />

– z. B. von Verben abgeleitete Substantive<br />

a) The death of the president shocked everybody.<br />

b) The destruction of the city by the Romans was<br />

thorough.


Subkategorisierung<br />

• bei Adjektiven<br />

– z. B.<br />

a) Mary was proud of her performance.<br />

b) He was eager to unwrap his present.<br />

c) That matter is easy to deal with.


Subkategorisierung<br />

• gutes englisches WB: mindestens je 20<br />

Subkategorisierungs-Klassen für Verben,<br />

Substantive und Adjektive<br />

• Anzahl der Klassen hängt ab von<br />

– Detailliertheit des Wörterbuchs<br />

– Benutzung genereller Regeln


Subkategorisierung<br />

– Bsp:<br />

a) Sam met Mary.<br />

b) Sam and Mary met.<br />

c) Sam saw Mary.<br />

d) *Sam and Mary saw.<br />

– für diesen Unterschied eigene<br />

Subkategorisierungs-Klasse?


Selektionale Restriktion<br />

2) Selektionale Restriktion<br />

– beschreibt semantische Eigenschaften, die<br />

die Umgebung eines Wortes haben muss<br />

– Bsp: button<br />

• Objekt (Patient) muss ein „knöpfbares Ding“<br />

sein, z. B. ein Kleidungsstück<br />

• Subjekt (Agent) muss ein Lebewesen sein


Selektionale Restriktion<br />

• implizit im Wörterbucheintrag:<br />

• muss für MÜ explizit gemacht werden


Repräsentation d. Wortinformation<br />

• Wie werden Informationen über<br />

Subkategorisierung und selektionale<br />

Restriktionen im MÜ-System repräsentiert?<br />

– Liste von Attributen und Werten<br />

– Bsp: button (Substantiv)<br />

lex = button<br />

cat = n<br />

ntype = common<br />

number =<br />

human = no<br />

concrete = yes


Repräsentation d. Wortinformation<br />

– Bsp: button (Verb)<br />

lex = button<br />

cat = v<br />

vtype = main<br />

finite =<br />

person =<br />

number =<br />

subcat = subj_obj<br />

sem_agent = human<br />

sem_patient = clothing


Repräsentation d. Wortinformation<br />

• man kann Attributnamen auch weglassen<br />

festgelegte Reihenfolge<br />

• Werte können selbst Listen sein<br />

– Bsp:<br />

a) Sam gave roses to Kim.<br />

subcat = [np, np, pp]<br />

a) Sam gave Kim roses.<br />

subcat = [np, np, np]


Repräsentation d. Wortinformation<br />

• genauer:<br />

subcat = [SUBJ:np, OBJ:np, IOBJ:pp]<br />

• noch genauer:<br />

– z. B. Information darüber, dass give die<br />

Präposition to verlangt<br />

– nicht mehr „np“ und „pp“, sondern wiederum<br />

Listen von Werten


Übersetzungsinformation<br />

• Wie stellt man die Übersetzungsinformation dar?<br />

– Möglichkeit: als weiteres Attribut-Wert-Paar<br />

lex = button<br />

cat = n<br />

ntype = common<br />

number =<br />

human = no<br />

concrete = yes<br />

trans = bouton<br />

– keine gute Idee, da nur in eine Richtung orientiert<br />

– besser: Übersetzungsregeln, die ein Head-Wort mit<br />

einem anderen Head-Wort assoziieren


Übersetzungsinformation<br />

• einfache Wort-zu-Wort-Abbildung reicht<br />

nicht wegen<br />

– Änderung der grammatischen Relationen,<br />

z. B. like – plaire<br />

– Idiomen<br />

– Komposita<br />

– lexikalischen Löchern<br />

Lösung: Regeln mit Bedingungen


Homographie<br />

• „gleiche Schreibweise – verschiedene<br />

Bedeutungen“<br />

• 3 Arten:<br />

1) Wörter mit leicht verschiedenen Bedeutungen<br />

z. B. button (am Kleidungsstück) – button (am Radio o.ä.)<br />

2) zusammengehörige Wörter verschiedener<br />

Wortarten<br />

z. B. button (Substantiv) – button (Verb)<br />

3) Wörter mit komplett verschiedenen Bedeutungen<br />

z. B. Bank (Finanzinstitut) – Bank (Sitzgelegenheit)


Homographie<br />

• Wann beginnt ein neuer Eintrag?<br />

– gutes Prinzip: Einträge hierarchisch<br />

gruppieren, je nach Menge an gemeinsamer<br />

Information<br />

1)<br />

2)


Vererbung<br />

• button 1 (am Kleidungsstück) und button 2 (am<br />

Radio o.ä.) enthalten fast dieselbe Information<br />

Vererbung von Eigenschaften zwischen<br />

Einträgen<br />

– abstrakte Einträge<br />

• enthalten Eigenschaften, die für alle konkreten Subeinträge<br />

gelten<br />

– Default-Vererbung<br />

• Eigenschaften werden automatisch vererbt, es sei denn,<br />

man überschreibt sie mit etwas anderem


Vererbung<br />

noun<br />

{ cat = n<br />

ntype =<br />

number =<br />

concrete = }<br />

common noun<br />

{ ntype = common }<br />

button<br />

{ lex = button }<br />

parser<br />

trousers<br />

{ lex = parser } { number = plural<br />

lex = trousers }


Dokumentation<br />

• bei MÜ-Wörterbüchern Dokumentation<br />

sehr wichtig<br />

• jeder Eintrag sollte einen Kommentar des<br />

Lexikographen enthalten<br />

Veränderbarkeit, Erweiterbarkeit


Morphologische Analyse<br />

• Die Morphologische Analyse zerlegt die<br />

Wörter und nimmt ihre Analyse und<br />

Synthese in Bezug auf Flexion, Derivation<br />

und Komposition vor.<br />

• Beispiel: das System MPRO / die<br />

deutsche Liste der Morpheme: MAAS-<br />

MPRO


Morphologische Analyse<br />

• Ziel der morphologischen Analyse ist es,<br />

dass durch die Zurückführung auf die<br />

Grundform der Recall bei einer<br />

bestimmten Anfrage erhöht wird.<br />

• Somit wird nicht nur nach einem<br />

wortwörtlichen String gesucht, sondern<br />

auch nach dessen systematischen<br />

Varianten.


Flexion<br />

• Flexion erzeugt aus einem Wort Varianten dieses<br />

Wortes hinsichtlich Tempus oder Numerus.<br />

• Konjugation: Affixe, die an Verben angehängt werden,<br />

sind:<br />

-s Kennzeichnung der dritten Person Singular<br />

Präsens<br />

-ing Kennzeichnung der Verlaufsform<br />

-ed Kennzeichnung der Vergangenheit<br />

• Deklination:<br />

Ein nominaler Affix ist:<br />

-s Kennzeichnung des Plurals<br />

Affixe für Adjektive sind:<br />

-er Komparativ des Adjektivs<br />

-est Superlativ des Adjektivs


Flexion<br />

• In monolingualen Wörterbüchern sind die Wörter<br />

unflektiert: die Nomen kommen im Singular, die<br />

Verben im Infinitiv, die Adjektive mit positiver<br />

Form vor.<br />

• Das System muss eine morphologische<br />

Komponente, die die regulären Flexionen der<br />

Wörter beschreibt, haben.<br />

• Für die unregelmäßigen Flexionen muss man<br />

explizite Regeln schreiben: z. B. Pluralformen:<br />

sheep, phenomena / Verben: be → is


Flexion<br />

• Die morphologische Komponente muss den<br />

Wortstamm der flektierten Form finden und die<br />

Information des Affixes weitertragen.<br />

• Temperature affects density. (V + s)<br />

(lex = V, cat = v, +finite, person = 3rd, number =<br />

sing, tense = pres) ↔ V+s


Flexion<br />

• Die morphologische Komponente sucht für „affects“ im<br />

Wörterbuch nach dem Wortstamm (cat = v, lex = affect)<br />

und wenn sie dieses Lexem findet, kombiniert die<br />

gefundene Information mit der Regel:


Flexion<br />

• Verben, die mit „s“ enden, erhalten „es“ (z.<br />

B. to kiss → kisses)<br />

(lex=kiss, cat=v, +finite, persond=3rd,<br />

number=sing, tense=pres) ↔ kisses


Flexion<br />

• Die unregelmäßigen Verben (z. B. to be, to<br />

have) können auf zwei verschiedene Arten<br />

betrachtet werden. Entweder nimmt man die<br />

normale Regel:<br />

(lex=V, cat=v, +finite, persond=3rd,<br />

number=sing, tense=pres) ↔ V+s<br />

und schreibt noch Rechtschreibungsregeln<br />

dazu:<br />

be + s → is<br />

have + s → has


Flexion


Flexion<br />

• Die andere Möglichkeit wäre, explizite<br />

Regeln zu schreiben:<br />

• (lex=be, cat=v, +finite, persond=3rd,<br />

number=sing, tense=pres) ↔ is<br />

• (lex=have, cat=v, +finite, persond=3rd,<br />

number=sing, tense=pres) ↔ has


Flexion


Derivation<br />

• Derivation erzeugt aus einem Wort ein<br />

neues Wort, das einer neuen Wortklasse<br />

angehören kann, aber nicht muss.<br />

• Beispiel: industialization<br />

[ N<br />

[ V<br />

[ ADJ<br />

[ N<br />

industry] +ial]+ize]+ation]


Derivation<br />

• In Wörterbüchern kommen manchmal neben<br />

dem relevanten Wortstamm auch derivierte<br />

Wörter vor, wenn der Derivationsprozess<br />

unregelmäßig ist.


Derivation<br />

• Regeln, die den Wortstamm eines Wortes durch<br />

das Entfernen des Suffix „ity“ erzeugen, dürfen<br />

keine Fehler machen:<br />

• Aber nicht:<br />

cordiality ↔ cordial + ity<br />

quality ≠ qual + ity (*qual)


Derivation<br />

• Regelmäßige Derivationsprozesse:<br />

→ Affix im Wörterbuch eintragen<br />

→ Kombinationen erlauben: -able kann mit<br />

transitiven Verben kombiniert werden (z. B. read<br />

→ readable)<br />

→ die Kombinationsregeln müssen korrekte<br />

Ergebnisse haben<br />

→ die Bedeutung des Stammwortes und des<br />

Affixes müssen irgendwie spezifiziert werden


Derivation<br />

• Regelmäßige Derivationsprozesse:<br />

→ un + Adj: unhappy ↔ un + happy<br />

→ V + ing: singing ↔ sing + ing (der<br />

Prozess des Singens = das Singen)


Derivation<br />

• Übersetzung: Englisch → Franzözisch<br />

quick + ly → rapide + ment<br />

easy + ly → facile + ment


Derivation<br />

• Aber es gibt ein Ambiguitätsproblem mit<br />

manchen derivierten Wörter:<br />

The painiting of still lives never appealed to me.<br />

Das Malen von stillem Leben hat mich niemals<br />

angesprochen.<br />

This painting is very beautiful.<br />

Dieses Gemälde ist sehr schön.


Komposition<br />

• Die Kombination von Stammwörter mit<br />

Stammwörter (mittels Fugeninfixen fürs<br />

Deutsche).<br />

• Beispiel: Heimatland<br />

Landesrekord


Komposition<br />

• Im Englischen bilden sich die Komposita meistens aus<br />

zwei Nomen:<br />

→ buttonhole<br />

[ N<br />

[ N<br />

button ] [ N<br />

hole ]]<br />

→ button mushroom<br />

[ N<br />

[ N<br />

button ] [ N<br />

mushroom ]]<br />

→ small-scale<br />

[ N<br />

[ N<br />

small ] [ N<br />

scale ]]


Komposition<br />

• Im Spanischen können sich die Komposita aus<br />

zwei Nomen aber auch aus zwei Adjektiven<br />

bilden:<br />

→ guardacostas (coastguard)<br />

[ N<br />

[ N<br />

guarda ] [ N<br />

costas ]]<br />

→ rojiblanco (red and white)<br />

[ A<br />

[ A<br />

roji ] [ A<br />

blanco ]]


Komposition<br />

• Manchmal funktioniert die Übersetzung der<br />

Komposita durch die Übersetzung der einzelnen<br />

Wörter, die in den Komposita vorkommen:<br />

Wassersportverein – water sport club<br />

• Aber manchmal nicht:<br />

Redhead (rothaarige Person) ≠ rot Kopf


Kompositionsambiguitäten<br />

• Student film society<br />

•[ N<br />

[ N<br />

student film ] society] – society for<br />

student films = Gesellschaft für<br />

studentische Filme<br />

•[ N<br />

student [ N<br />

film society]] – film society for<br />

students = Filmgesellschaft für Studenten


Komposition<br />

• Beispiel: satellite observation<br />

→ observation by satellite = Betrachtung durch Satellit<br />

→ observation of satellites = Betrachtung von Satelliten<br />

• Die Übersetzung im Spanischen löst die Ambiguität:<br />

satellite observation<br />

→ observación por satelite (Betrachtung durch Satellit)<br />

→ observación de satelites (Betrachtung von Satelliten)


Quellen<br />

• http://www.iai.uni-sb.de/docs/multilint.pdf<br />

• http://www.coling.unifreiburg.de/teaching/studies/ss05/Folien/CarstensenNatS1MUE.pdf<br />

• http://www.informatik.huberlin.de/Forschung_Lehre/wm/seminar2004w/MaschinelleUeberset<br />

zung.pdf<br />

• http://www.essex.ac.uk/linguistics/clmt/MTbook/HTML/book.html<br />

• http://www.linguistik.uni-erlangen.de/files/maleidne.pdf<br />

• http://www.coling.uni-<br />

freiburg.de/teaching/studies/jena/ws04/materials/cl1/CL-I-<br />

2.Morphologie-Braun.pdf

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!