Referatsfolien
Referatsfolien
Referatsfolien
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Ressourcen für die<br />
Maschinelle Übersetzung<br />
Wörterbücher<br />
23.06.2005<br />
Seminar Einführung in die MÜ<br />
Frau Holler<br />
Anna Mündelein<br />
Nicoleta Szegedi
Inhalt<br />
• Einleitung<br />
• Wörterbücher allgemein<br />
• Wörterbücher für die MÜ<br />
– Arten von Wortinformation<br />
– Repräsentation der Wortinformation<br />
– Homographie und Vererbung<br />
• Morphologische Analyse<br />
• Flexion<br />
• Derivation<br />
• Komposition
Einleitung<br />
• Bedeutung von Wörterbüchern für die MÜ<br />
– größter Bestandteil eines MÜ-Systems<br />
– Qualität der Übersetzung hängt stark vom<br />
Wörterbuch ab<br />
– meist der einzige Teil eines MÜ-Systems,<br />
das der Endnutzer verändern (erweitern)<br />
kann
Wörterbücher allgemein<br />
• 3 Arten:<br />
– Wörterbücher aus<br />
Papier<br />
– maschinenlesbare<br />
Wörterbücher<br />
– maschinennutzbare<br />
Wörterbücher }<br />
Nutzung durch<br />
Menschen<br />
Nutzung durch<br />
Maschine
Wörterbücher allgemein<br />
• Unterschied Wörterbuch – Grammatik<br />
– Wörterbücher enthalten unregelmäßige und<br />
unvorhersehbare Informationen über Wörter<br />
– Grammatiken enthalten generelle Regeln<br />
über Wortklassen und Sätze
Beispiel
Beispiel
Wörterbücher für MÜ<br />
• mindestens die Qualität und Detailliertheit<br />
von nicht-maschinellen Wörterbüchern<br />
nötig<br />
• verschiedene MÜ-Systeme verlangen<br />
verschiedene Wörterbücher<br />
– z. B. Transfer-System Interlingua-System
Wörterbücher für MÜ<br />
• Wörterbücher in existierenden MÜ-<br />
Systemen unterscheiden sich durch<br />
– Format<br />
– Abdeckung<br />
– Detailliertheit<br />
– Formalismus zur lexikalischen Beschreibung
Arten von Wortinformation<br />
• Welche Informationen über ein Wort<br />
muss ein gutes MÜ-System<br />
bereitstellen?<br />
– Eigenschaften des Wortes<br />
– Anforderungen an die grammatische<br />
Umgebung des Wortes<br />
1) Subkategorisierung: Anforderungen an die<br />
Syntax<br />
2) selektionale Restriktion: Anforderungen an die<br />
Semantik
Subkategorisierung<br />
1) Information über Subkategorisierung<br />
– beschreibt die syntaktischen Umgebungen,<br />
in denen ein Wort vorkommen kann<br />
– bei Verben, Substantiven und Adjektiven
Subkategorisierung<br />
• bei Verben<br />
– z. B. Information über Transitivität<br />
a) The president died. [I]<br />
b) The Romans destroyed the city. [Tn]<br />
c) Sam gave roses to Kim. [Dn.pr]<br />
d) Sam gave Kim roses. [Dn.n]<br />
e) Sam persuaded Kim to stay at home. [Cn.t]<br />
f) Kim believed that the library was closed. [Tf]<br />
g) The quality is low. [La]<br />
h) Sam appeared the best man for the job. [Ln]
Subkategorisierung<br />
• bei Substantiven<br />
– z. B. von Verben abgeleitete Substantive<br />
a) The death of the president shocked everybody.<br />
b) The destruction of the city by the Romans was<br />
thorough.
Subkategorisierung<br />
• bei Adjektiven<br />
– z. B.<br />
a) Mary was proud of her performance.<br />
b) He was eager to unwrap his present.<br />
c) That matter is easy to deal with.
Subkategorisierung<br />
• gutes englisches WB: mindestens je 20<br />
Subkategorisierungs-Klassen für Verben,<br />
Substantive und Adjektive<br />
• Anzahl der Klassen hängt ab von<br />
– Detailliertheit des Wörterbuchs<br />
– Benutzung genereller Regeln
Subkategorisierung<br />
– Bsp:<br />
a) Sam met Mary.<br />
b) Sam and Mary met.<br />
c) Sam saw Mary.<br />
d) *Sam and Mary saw.<br />
– für diesen Unterschied eigene<br />
Subkategorisierungs-Klasse?
Selektionale Restriktion<br />
2) Selektionale Restriktion<br />
– beschreibt semantische Eigenschaften, die<br />
die Umgebung eines Wortes haben muss<br />
– Bsp: button<br />
• Objekt (Patient) muss ein „knöpfbares Ding“<br />
sein, z. B. ein Kleidungsstück<br />
• Subjekt (Agent) muss ein Lebewesen sein
Selektionale Restriktion<br />
• implizit im Wörterbucheintrag:<br />
• muss für MÜ explizit gemacht werden
Repräsentation d. Wortinformation<br />
• Wie werden Informationen über<br />
Subkategorisierung und selektionale<br />
Restriktionen im MÜ-System repräsentiert?<br />
– Liste von Attributen und Werten<br />
– Bsp: button (Substantiv)<br />
lex = button<br />
cat = n<br />
ntype = common<br />
number =<br />
human = no<br />
concrete = yes
Repräsentation d. Wortinformation<br />
– Bsp: button (Verb)<br />
lex = button<br />
cat = v<br />
vtype = main<br />
finite =<br />
person =<br />
number =<br />
subcat = subj_obj<br />
sem_agent = human<br />
sem_patient = clothing
Repräsentation d. Wortinformation<br />
• man kann Attributnamen auch weglassen<br />
festgelegte Reihenfolge<br />
• Werte können selbst Listen sein<br />
– Bsp:<br />
a) Sam gave roses to Kim.<br />
subcat = [np, np, pp]<br />
a) Sam gave Kim roses.<br />
subcat = [np, np, np]
Repräsentation d. Wortinformation<br />
• genauer:<br />
subcat = [SUBJ:np, OBJ:np, IOBJ:pp]<br />
• noch genauer:<br />
– z. B. Information darüber, dass give die<br />
Präposition to verlangt<br />
– nicht mehr „np“ und „pp“, sondern wiederum<br />
Listen von Werten
Übersetzungsinformation<br />
• Wie stellt man die Übersetzungsinformation dar?<br />
– Möglichkeit: als weiteres Attribut-Wert-Paar<br />
lex = button<br />
cat = n<br />
ntype = common<br />
number =<br />
human = no<br />
concrete = yes<br />
trans = bouton<br />
– keine gute Idee, da nur in eine Richtung orientiert<br />
– besser: Übersetzungsregeln, die ein Head-Wort mit<br />
einem anderen Head-Wort assoziieren
Übersetzungsinformation<br />
• einfache Wort-zu-Wort-Abbildung reicht<br />
nicht wegen<br />
– Änderung der grammatischen Relationen,<br />
z. B. like – plaire<br />
– Idiomen<br />
– Komposita<br />
– lexikalischen Löchern<br />
Lösung: Regeln mit Bedingungen
Homographie<br />
• „gleiche Schreibweise – verschiedene<br />
Bedeutungen“<br />
• 3 Arten:<br />
1) Wörter mit leicht verschiedenen Bedeutungen<br />
z. B. button (am Kleidungsstück) – button (am Radio o.ä.)<br />
2) zusammengehörige Wörter verschiedener<br />
Wortarten<br />
z. B. button (Substantiv) – button (Verb)<br />
3) Wörter mit komplett verschiedenen Bedeutungen<br />
z. B. Bank (Finanzinstitut) – Bank (Sitzgelegenheit)
Homographie<br />
• Wann beginnt ein neuer Eintrag?<br />
– gutes Prinzip: Einträge hierarchisch<br />
gruppieren, je nach Menge an gemeinsamer<br />
Information<br />
1)<br />
2)
Vererbung<br />
• button 1 (am Kleidungsstück) und button 2 (am<br />
Radio o.ä.) enthalten fast dieselbe Information<br />
Vererbung von Eigenschaften zwischen<br />
Einträgen<br />
– abstrakte Einträge<br />
• enthalten Eigenschaften, die für alle konkreten Subeinträge<br />
gelten<br />
– Default-Vererbung<br />
• Eigenschaften werden automatisch vererbt, es sei denn,<br />
man überschreibt sie mit etwas anderem
Vererbung<br />
noun<br />
{ cat = n<br />
ntype =<br />
number =<br />
concrete = }<br />
common noun<br />
{ ntype = common }<br />
button<br />
{ lex = button }<br />
parser<br />
trousers<br />
{ lex = parser } { number = plural<br />
lex = trousers }
Dokumentation<br />
• bei MÜ-Wörterbüchern Dokumentation<br />
sehr wichtig<br />
• jeder Eintrag sollte einen Kommentar des<br />
Lexikographen enthalten<br />
Veränderbarkeit, Erweiterbarkeit
Morphologische Analyse<br />
• Die Morphologische Analyse zerlegt die<br />
Wörter und nimmt ihre Analyse und<br />
Synthese in Bezug auf Flexion, Derivation<br />
und Komposition vor.<br />
• Beispiel: das System MPRO / die<br />
deutsche Liste der Morpheme: MAAS-<br />
MPRO
Morphologische Analyse<br />
• Ziel der morphologischen Analyse ist es,<br />
dass durch die Zurückführung auf die<br />
Grundform der Recall bei einer<br />
bestimmten Anfrage erhöht wird.<br />
• Somit wird nicht nur nach einem<br />
wortwörtlichen String gesucht, sondern<br />
auch nach dessen systematischen<br />
Varianten.
Flexion<br />
• Flexion erzeugt aus einem Wort Varianten dieses<br />
Wortes hinsichtlich Tempus oder Numerus.<br />
• Konjugation: Affixe, die an Verben angehängt werden,<br />
sind:<br />
-s Kennzeichnung der dritten Person Singular<br />
Präsens<br />
-ing Kennzeichnung der Verlaufsform<br />
-ed Kennzeichnung der Vergangenheit<br />
• Deklination:<br />
Ein nominaler Affix ist:<br />
-s Kennzeichnung des Plurals<br />
Affixe für Adjektive sind:<br />
-er Komparativ des Adjektivs<br />
-est Superlativ des Adjektivs
Flexion<br />
• In monolingualen Wörterbüchern sind die Wörter<br />
unflektiert: die Nomen kommen im Singular, die<br />
Verben im Infinitiv, die Adjektive mit positiver<br />
Form vor.<br />
• Das System muss eine morphologische<br />
Komponente, die die regulären Flexionen der<br />
Wörter beschreibt, haben.<br />
• Für die unregelmäßigen Flexionen muss man<br />
explizite Regeln schreiben: z. B. Pluralformen:<br />
sheep, phenomena / Verben: be → is
Flexion<br />
• Die morphologische Komponente muss den<br />
Wortstamm der flektierten Form finden und die<br />
Information des Affixes weitertragen.<br />
• Temperature affects density. (V + s)<br />
(lex = V, cat = v, +finite, person = 3rd, number =<br />
sing, tense = pres) ↔ V+s
Flexion<br />
• Die morphologische Komponente sucht für „affects“ im<br />
Wörterbuch nach dem Wortstamm (cat = v, lex = affect)<br />
und wenn sie dieses Lexem findet, kombiniert die<br />
gefundene Information mit der Regel:
Flexion<br />
• Verben, die mit „s“ enden, erhalten „es“ (z.<br />
B. to kiss → kisses)<br />
(lex=kiss, cat=v, +finite, persond=3rd,<br />
number=sing, tense=pres) ↔ kisses
Flexion<br />
• Die unregelmäßigen Verben (z. B. to be, to<br />
have) können auf zwei verschiedene Arten<br />
betrachtet werden. Entweder nimmt man die<br />
normale Regel:<br />
(lex=V, cat=v, +finite, persond=3rd,<br />
number=sing, tense=pres) ↔ V+s<br />
und schreibt noch Rechtschreibungsregeln<br />
dazu:<br />
be + s → is<br />
have + s → has
Flexion
Flexion<br />
• Die andere Möglichkeit wäre, explizite<br />
Regeln zu schreiben:<br />
• (lex=be, cat=v, +finite, persond=3rd,<br />
number=sing, tense=pres) ↔ is<br />
• (lex=have, cat=v, +finite, persond=3rd,<br />
number=sing, tense=pres) ↔ has
Flexion
Derivation<br />
• Derivation erzeugt aus einem Wort ein<br />
neues Wort, das einer neuen Wortklasse<br />
angehören kann, aber nicht muss.<br />
• Beispiel: industialization<br />
[ N<br />
[ V<br />
[ ADJ<br />
[ N<br />
industry] +ial]+ize]+ation]
Derivation<br />
• In Wörterbüchern kommen manchmal neben<br />
dem relevanten Wortstamm auch derivierte<br />
Wörter vor, wenn der Derivationsprozess<br />
unregelmäßig ist.
Derivation<br />
• Regeln, die den Wortstamm eines Wortes durch<br />
das Entfernen des Suffix „ity“ erzeugen, dürfen<br />
keine Fehler machen:<br />
• Aber nicht:<br />
cordiality ↔ cordial + ity<br />
quality ≠ qual + ity (*qual)
Derivation<br />
• Regelmäßige Derivationsprozesse:<br />
→ Affix im Wörterbuch eintragen<br />
→ Kombinationen erlauben: -able kann mit<br />
transitiven Verben kombiniert werden (z. B. read<br />
→ readable)<br />
→ die Kombinationsregeln müssen korrekte<br />
Ergebnisse haben<br />
→ die Bedeutung des Stammwortes und des<br />
Affixes müssen irgendwie spezifiziert werden
Derivation<br />
• Regelmäßige Derivationsprozesse:<br />
→ un + Adj: unhappy ↔ un + happy<br />
→ V + ing: singing ↔ sing + ing (der<br />
Prozess des Singens = das Singen)
Derivation<br />
• Übersetzung: Englisch → Franzözisch<br />
quick + ly → rapide + ment<br />
easy + ly → facile + ment
Derivation<br />
• Aber es gibt ein Ambiguitätsproblem mit<br />
manchen derivierten Wörter:<br />
The painiting of still lives never appealed to me.<br />
Das Malen von stillem Leben hat mich niemals<br />
angesprochen.<br />
This painting is very beautiful.<br />
Dieses Gemälde ist sehr schön.
Komposition<br />
• Die Kombination von Stammwörter mit<br />
Stammwörter (mittels Fugeninfixen fürs<br />
Deutsche).<br />
• Beispiel: Heimatland<br />
Landesrekord
Komposition<br />
• Im Englischen bilden sich die Komposita meistens aus<br />
zwei Nomen:<br />
→ buttonhole<br />
[ N<br />
[ N<br />
button ] [ N<br />
hole ]]<br />
→ button mushroom<br />
[ N<br />
[ N<br />
button ] [ N<br />
mushroom ]]<br />
→ small-scale<br />
[ N<br />
[ N<br />
small ] [ N<br />
scale ]]
Komposition<br />
• Im Spanischen können sich die Komposita aus<br />
zwei Nomen aber auch aus zwei Adjektiven<br />
bilden:<br />
→ guardacostas (coastguard)<br />
[ N<br />
[ N<br />
guarda ] [ N<br />
costas ]]<br />
→ rojiblanco (red and white)<br />
[ A<br />
[ A<br />
roji ] [ A<br />
blanco ]]
Komposition<br />
• Manchmal funktioniert die Übersetzung der<br />
Komposita durch die Übersetzung der einzelnen<br />
Wörter, die in den Komposita vorkommen:<br />
Wassersportverein – water sport club<br />
• Aber manchmal nicht:<br />
Redhead (rothaarige Person) ≠ rot Kopf
Kompositionsambiguitäten<br />
• Student film society<br />
•[ N<br />
[ N<br />
student film ] society] – society for<br />
student films = Gesellschaft für<br />
studentische Filme<br />
•[ N<br />
student [ N<br />
film society]] – film society for<br />
students = Filmgesellschaft für Studenten
Komposition<br />
• Beispiel: satellite observation<br />
→ observation by satellite = Betrachtung durch Satellit<br />
→ observation of satellites = Betrachtung von Satelliten<br />
• Die Übersetzung im Spanischen löst die Ambiguität:<br />
satellite observation<br />
→ observación por satelite (Betrachtung durch Satellit)<br />
→ observación de satelites (Betrachtung von Satelliten)
Quellen<br />
• http://www.iai.uni-sb.de/docs/multilint.pdf<br />
• http://www.coling.unifreiburg.de/teaching/studies/ss05/Folien/CarstensenNatS1MUE.pdf<br />
• http://www.informatik.huberlin.de/Forschung_Lehre/wm/seminar2004w/MaschinelleUeberset<br />
zung.pdf<br />
• http://www.essex.ac.uk/linguistics/clmt/MTbook/HTML/book.html<br />
• http://www.linguistik.uni-erlangen.de/files/maleidne.pdf<br />
• http://www.coling.uni-<br />
freiburg.de/teaching/studies/jena/ws04/materials/cl1/CL-I-<br />
2.Morphologie-Braun.pdf