Die Struktur von Wörterbüchern
Die Struktur von Wörterbüchern
Die Struktur von Wörterbüchern
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Die</strong> <strong>Struktur</strong> <strong>von</strong> <strong>Wörterbüchern</strong><br />
Samuel Broscheit<br />
samuel.broscheit@gmx.net<br />
Lexikalische Semantik SS 06<br />
Seminar für Computerlinguistik Uni Heidelberg
1. Gesamtstruktur<br />
2. Wörterbuchaußentexte<br />
3. Lemmatisierung<br />
4. Anordnung der Lemmata<br />
Inhalt<br />
5. <strong>Struktur</strong> der Wörterbuchartikel<br />
6. Verweise<br />
7.Elektronische Wörterbücher
Gesamtstruktur<br />
Wörterbuchaußentexte<br />
Makrostruktur<br />
Lemma n-2 Lemma n-1 Lemma n+1 Lemma n+2<br />
Lemma n<br />
Mikrostruktur<br />
Wörterbuchaußentexte<br />
Mediostruktur
Gesamtstruktur<br />
● Lemma: Stichwort (Name, Idiom, ...)<br />
● Makrostruktur: Zugriffstruktur(en) auf die Lemmata<br />
● Mikrostruktur: Aufbau der Information, des<br />
(Wörterbuch)artikels zu einem Lemma<br />
● Mediostruktur: Verweisstruktur aus der Mikrostruktur<br />
heraus
● Titel<br />
● Klappentext<br />
● Impressum<br />
● Inhaltsverzeichnis<br />
● Danksagung<br />
● Vorwort<br />
Wörterbuchaußentexte<br />
● Lexikographische / linguistische<br />
Einleitung<br />
● Benutzungshinweise<br />
● Hinweise zu Ausspracheangaben<br />
● Verzeichnis verwendeter Abkürzungen<br />
● Verzeichnis verwendeter Literatur<br />
● Wörterbuchgrammatik<br />
● Tabellen zur Morphologie und Syntax<br />
<strong>von</strong> Lexemen<br />
● Zusätzliche Wörterverzeichnisse<br />
● Übungen<br />
● nichtsprachliche Informationen<br />
(Tabellen, Grafiken, ...)
Lemmatisierung<br />
● Lemmatisierung: Wahl einer Wortform eines Lexems<br />
nach den Konventionen des Sprachraums:<br />
– Lemmazeichen: Fisch, Fische, Fisches<br />
– Lemma: Fisch<br />
● Konventionen im Deutschen:<br />
– Verben: Infinitiv<br />
– Substantive: Nominativ Singular<br />
– Adjektive: die Form, die sie in prädikativer Stellung<br />
einnehmen
Lemmatisierung - Probleme<br />
● Lexeme ohne kanonische Zitierform (z.B. attributiv<br />
verw. Adjektive: obig oder obig[e])<br />
● Mehrwortlexeme (z.B. Weiße Hause, das Weiße Haus)<br />
● Lautliche Varianten (adelig, adlig)<br />
● Ortographische Varianten (Al Kaida, El Queida)<br />
● Lexem-Cluster (Lehrer[in])<br />
● Homonymie vs. Polysemie (state: Zustand | Staat | ... )
Anordnung der Lemmata -<br />
Zugriffstrukturen<br />
● Makrostruktur umfasst eine oder mehrere äußere<br />
Zugriffsstrukturen<br />
● Nur eine Zugriffsstruktur liegt vor wenn z.B. nur das<br />
Wortverzeichnis in alphabetischer Reihenfolge vorliegt<br />
(monoakzessiv)<br />
● Mehrere Zugriffsstrukturen wenn zu der<br />
alphabetischen Suchpfad z.B. noch thematischer<br />
Register kommt (polyakzessiv)<br />
● Navigieren mittels Verweisen ist eine äußere<br />
Zugriffsstruktur aber polyakzessiv
Anordnung der Lemmata -<br />
Ordnungsrelationen<br />
● Initialalphabetisch:<br />
konventionelle<br />
Reihenfolge des<br />
Alphabets, geordnet wird<br />
in Schriftrichtung<br />
ungeordnet<br />
abc aca aaa<br />
aac aab aab<br />
aab aab aac<br />
aaa abc abc<br />
aca aac aca<br />
● Finalalphabetisch:<br />
konventionelle<br />
Reihenfolge des<br />
Alphabets, geordnet wird<br />
entgegen der<br />
Schriftrichtung<br />
mittlere Spalte sortiert<br />
letzte Spalte sortiert mittlere Spalte sortiert letzte Spalte sortiert<br />
ungeordnet<br />
abc aac aaa<br />
aac aab aca<br />
aab aaa aab<br />
aaa abc aac<br />
aca aca abc
Anordnung der Lemmata<br />
● Nichtalphabetisch schriftbezogen<br />
● Inhaltlich / Ideologisch (z.B. Thesauri)
Anordnung der Lemmata -<br />
Probleme bei der Sortierung<br />
● Zusatzbuchstaben: ä, ö, ü, ß<br />
● Leerzeichen (z.B: black bean)<br />
● Sonderzeichen (z.B. bei los- (als Präfix))<br />
● Groß-/Kleinschreibung<br />
● Ziffern
Anordnung der Lemmata -<br />
Alphabetische Anordnungsformen<br />
● Glattalphabetische<br />
<strong>Struktur</strong><br />
Eingangslemmata<br />
Rum masc [...]<br />
Rumfass neutr [...]<br />
Rummel masc. [...]<br />
Rumtorte fem [...]<br />
● Nischenalphabetische<br />
<strong>Struktur</strong><br />
Nischenlemmata<br />
Rum masc [...]; Rumfass neutr [...]<br />
Rummel masc. [...]<br />
Rumtorte fem [...]
Anordnung der Lemmata -<br />
Alphabetische Anordnungsformen<br />
● Nestalphabetische<br />
<strong>Struktur</strong><br />
Rum masc [...]; Rumfass<br />
neutr [...]; Rumtorte fem [...]<br />
Rummel masc. [...]<br />
Nestlemmata
Anordnung der Lemmata -<br />
Durchbrechung der alphabetischen Anordnungsform<br />
● Alphabetische Zugriffsstruktur mit<br />
wortbildungsbestimmter Verweislemma-Gruppen: am<br />
Ende des Artikels stehen die zur Wortfamilie<br />
gehörenden Lemmata als Verweislemmata<br />
● Alphabetische Zugriffsstruktur mit semantisch<br />
bestimmten Verweislemma-Gruppen: am Ende des<br />
Artikels stehen die in semantischer Beziehung<br />
stehenden Lemmata als Verweislemmata
Anordnung der Lemmata -<br />
Durchbrechung der alphabetischen Anordnungsform<br />
● Alphabetische Zugriffsstruktur mit<br />
wortbildungsbestimmter Anordnung: In dem Artikel<br />
können z.B. alle Ableitungen einer Wortwurzel<br />
behandelt werden<br />
● Alphabetische Zugriffsstruktur mit semantisch<br />
bestimmter Anordnung: Semantisch verwandte<br />
Lemmata sind räumlich nah zueinander und können<br />
z.B. über Schlüsselwörter mit Verweisen gefunden<br />
werden
Anordnung der Lemmata -<br />
Durchbrechung der alphabetischen Anordnungsform<br />
● Alphabetische Zugriffsstruktur mit zusätzlich<br />
semantisch basiertem Zugriff: semantische Wortfelder<br />
in thesaurischer Form in Außentexten<br />
● Alphabetische Zugriffsstruktur mit zusätzlich<br />
illustrationsbasiertem Zugriff: Abbildungen ergänzen<br />
die Zugriffsstruktur und verweisen <strong>von</strong><br />
Schlüsselwörtern auf verwandte Lemmata z.B. Haus:<br />
-> Dach, Kamin, Fenster, ...
<strong>Struktur</strong> der Wörtbuchartikel<br />
● Um platzsparend und schnell überblickbar zu sein,<br />
werden die Texte in den Artikeln stark verdichtet
<strong>Struktur</strong> der Wörtbuchartikel<br />
● Lemmazeichengestaltangabe<br />
● Phonetisch-phonologische und orthographische<br />
Angaben<br />
● Morphologische Angaben<br />
● Syntaktische Angaben<br />
● Syntaktisch-semantische Angaben<br />
● Semantische Angaben
<strong>Struktur</strong> der Wörtbuchartikel<br />
● Pragmatische Angaben, Fachgebietsangabe,<br />
Stilschichtenangabe, Häufigkeitsangaben,<br />
Konnotationsangabe, zeitliche Einordnung, räumliche<br />
Verbreitung, Fremdwortherkunftsangabe,<br />
Normierungsangabe, Textsorten, Mediumsangabe<br />
● Etymologische Angabe, Verweisangabe<br />
● Beispiel:<br />
Ge|stank der; -(e)s; nur Sg; ein unangenehmer Geruch: der<br />
° G. fauler Eier || -K: Schwefel- || -> stinken
<strong>Struktur</strong> der Wörtbuchartikel<br />
Ge stank<br />
|<br />
°<br />
(Fett)<br />
der<br />
;<br />
-<br />
(e)s<br />
;<br />
nur Sg<br />
;<br />
(Kursiv)<br />
ein unangenehmer Geruch<br />
:<br />
der G. fauler Eier<br />
(Kursiv)<br />
||<br />
-K<br />
Schwefel<br />
-<br />
(Fett, Kursiv)<br />
||<br />
-><br />
stinken<br />
(Fett, Kursiv)<br />
Lemmazeichengestaltangabe<br />
Silbentrennung<br />
Vokalquantität<br />
tS zur Herausstellung der Lemmapos.<br />
Genusangabe<br />
ntS zu Abtrennung<br />
Angabe des Nom. Singular in Form <strong>von</strong> Platzhalter<br />
kondensierte Angabe für beide Flexive des Gen. Sg.<br />
ntS zu Abtrennung<br />
Numersbeschränkung<br />
ntS zu Abtrennung<br />
tS zur Herausstellung morphologischer Angaben<br />
Bedeutungsangabe<br />
ntS zur Einleitung<br />
Beispiel<br />
tS zur Herausstellung des Beispiels<br />
ntS zur Einleitung der Kompositumsangabe<br />
ntS zur Einleitung der Kompositumszweitglieangabe<br />
Kompositumszweitglieangabe<br />
Angabe der Lemmazeichenform in Form <strong>von</strong> Platzhalter<br />
tS zur Herausstellung des Kompositums<br />
ntS zur Einleitung einer Verweisangabe<br />
ntS als Symbol für Verweis auf Wortfamilien<br />
Verweiszielangabe<br />
tS zur Herausstellung der Verweiszielangabe
<strong>Struktur</strong> der Wörtbuchartikel<br />
● Angaben in Artikeln können unterschiedlich<br />
addressiert sein. Man unterscheidet:<br />
– Linksadressierung (lahm adj.)<br />
– Rechtsadressierung (die Lahmheit)<br />
– Binnenadressierung (Mit eine lahme Ente wird eine<br />
Person oder ein Gefährt beschrieben, das sich sehr<br />
langsam bewegt)
<strong>Struktur</strong> der Wörtbuchartikel<br />
● Jedem Lemmazeichen, ist abhängig <strong>von</strong> seiner<br />
Wortart ein Schema <strong>von</strong> Angaben, eine abstrakte<br />
Mikrostruktur (a.M.) zugeordnet das für die<br />
Mikrostruktur mit konkreten Angaben ausgefüllt wird.<br />
● Obligatorische Angaben für alle a.M. (z.B.<br />
Lemmazeichengestaltangabe)<br />
● Obligatorische Angaben für bestimmte a.M. (z.B.<br />
Genusangabe für Substantive)<br />
● Optionale Angaben für alle a.M. (Beispielangaben)<br />
● Optionale Angaben für manche a.M.<br />
(Graduierungsbeschränkung bei Adjektiven)<br />
● Beispiel: famos [fa'mo:s] veraltend umg.<br />
SYN 'großartig': das ist eine ~e Idee; das ist ~, hat<br />
~ geklappt
<strong>Struktur</strong> der Wörtbuchartikel<br />
Wörterbuchartikelstruktur nach Wiegand<br />
Wörterbuchartikel<br />
Formkomentar Semantischer Kommentar<br />
Lemmazeichengestalt<br />
Aussprache Morphologisch<br />
famos famos Wortart Graduierung<br />
Pragmatisch-Semantisch<br />
Pragmatisch Synonym<br />
zeitliche<br />
Einordnung<br />
Veraltend<br />
Stilschicht<br />
umg. großartig<br />
Adj. reg.<br />
Beispiele
<strong>Struktur</strong> der Wörtbuchartikel<br />
● Bei Polysemie mehrere Semantische Kommentare<br />
möglich<br />
● <strong>Die</strong>se werden mit Positionsanangaben (also 1,2,3, ...)<br />
eingeleitet und können geordnet sein nach:<br />
– Gebrauchshäufigkeit<br />
– nach frühestem Erscheinen in der Sprache<br />
– zuerst Kernbedeutung und dann Varianten<br />
– Grammatischen Kriterien, also Richtlinien
<strong>Struktur</strong> der Wörtbuchartikel<br />
● Sind Bedeutung und semantischer Kontext in einem<br />
Subkommentar spricht man <strong>von</strong> einer einfachen<br />
integrierten Mikrostruktur<br />
● Sind Bedeutung und semantischer Kontext teilweise in<br />
einem Subkommentar spricht man <strong>von</strong> einer partiell<br />
integrierten Mikrostruktur<br />
● Sind Bedeutung und semantischer Kontext in<br />
verschiedenen Subkommentaren spricht man <strong>von</strong><br />
einer einfachen nicht-integrierten Mikrostruktur<br />
● Eine erweiterte (einfache/partiell integrierte)<br />
Mikrostruktur ist z.B. um eine Verweisangabe<br />
erweiterte Mikrostruktur
Verweise<br />
● Ein Verweis setzt sich zusammen aus:<br />
– Verweisursprung<br />
– Verweisziel<br />
– Repräsentant des Verweiszieles am<br />
Verweisursprung<br />
– Verweissymbol<br />
● Verweisangabe<br />
● Verweisvermittelnde Angabe<br />
● Verweis kann am Ende stehen und sich auf einen<br />
bestimmten Subkommentar beziehen<br />
● Potentieller Verweis<br />
buk ↑ backen<br />
leihen [...] jmdm sein ↑Ohr leihen<br />
tektonisch die Tektonik betreffend
Verweise<br />
● Verweise werden verwendet um:<br />
– Platz zu sparen<br />
– Bedeutungsvernetzungen darzustellen<br />
– den Benutzer weitere Informationen die seine<br />
Suchanfrage betreffen zu bieten
Elektronische Wörterbücher<br />
● Wörterbuchaußentexte entfallen in der Form, wie sie<br />
vom Printwörterbuch bekannt ist<br />
● polyakzessive Zugriffstrukturen sind leichter zu<br />
realisieren, da mit Datenbanken sehr vielfältig<br />
verschiedene Ansichten einer Datenmenge erzeugt<br />
werden können<br />
● <strong>Die</strong> Anordnung der Lemmata spielt keine so große<br />
Rolle, da sie bei Datenbankanwendungen ohnehin<br />
variabel ist<br />
● Textverdichtung ist nicht notwendig, da andere<br />
Möglichkeiten für übersichtliche Gestaltung möglich
Elektronische Wörterbücher<br />
● Mikrostrukturen sind oft noch ähnlich zur Printversion,<br />
da die Artikel direkt aus der Printversion übernommen<br />
wurden. Es gibt auch schon elektronische<br />
Wörterbücher, die die Gestaltungsmöglichkeiten<br />
wahrnehmen<br />
● Verweise braucht man nicht mehr um Platz zu sparen.<br />
Im Prinzip können alle Zusatzinformation direkt<br />
angezeigt werden.<br />
● Zudem sind die Benutzeroberflächen oft beliebig<br />
konfigurierbar, so das der Benutzer bestimmte<br />
Informationen gezielt ein- oder ausblenden kann.
Elektronische Wörterbücher<br />
● Viele Wörterbücher sind zudem durch den Benutzer<br />
selbst erweiterbar<br />
● Aktualität und Korrektheit sind durch Aktualisierungen<br />
über das Internet stets möglich<br />
● Möglichkeit der bottom-up lexicography<br />
● Es gibt größtenteils noch keine so umfassende<br />
Forschung über elektronische Wörterbücher, da sich<br />
noch keine Standards bezüglich der<br />
Benutzeroberflächen gebildet haben.<br />
● Von der Datenseite her sind viele Probleme hinfällig,<br />
da sie durch Datenbankanwendungen vielseitiger<br />
gelöst werden können.