22.08.2013 Aufrufe

Die Struktur von Wörterbüchern

Die Struktur von Wörterbüchern

Die Struktur von Wörterbüchern

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Die</strong> <strong>Struktur</strong> <strong>von</strong> <strong>Wörterbüchern</strong><br />

Samuel Broscheit<br />

samuel.broscheit@gmx.net<br />

Lexikalische Semantik SS 06<br />

Seminar für Computerlinguistik Uni Heidelberg


1. Gesamtstruktur<br />

2. Wörterbuchaußentexte<br />

3. Lemmatisierung<br />

4. Anordnung der Lemmata<br />

Inhalt<br />

5. <strong>Struktur</strong> der Wörterbuchartikel<br />

6. Verweise<br />

7.Elektronische Wörterbücher


Gesamtstruktur<br />

Wörterbuchaußentexte<br />

Makrostruktur<br />

Lemma n-2 Lemma n-1 Lemma n+1 Lemma n+2<br />

Lemma n<br />

Mikrostruktur<br />

Wörterbuchaußentexte<br />

Mediostruktur


Gesamtstruktur<br />

● Lemma: Stichwort (Name, Idiom, ...)<br />

● Makrostruktur: Zugriffstruktur(en) auf die Lemmata<br />

● Mikrostruktur: Aufbau der Information, des<br />

(Wörterbuch)artikels zu einem Lemma<br />

● Mediostruktur: Verweisstruktur aus der Mikrostruktur<br />

heraus


● Titel<br />

● Klappentext<br />

● Impressum<br />

● Inhaltsverzeichnis<br />

● Danksagung<br />

● Vorwort<br />

Wörterbuchaußentexte<br />

● Lexikographische / linguistische<br />

Einleitung<br />

● Benutzungshinweise<br />

● Hinweise zu Ausspracheangaben<br />

● Verzeichnis verwendeter Abkürzungen<br />

● Verzeichnis verwendeter Literatur<br />

● Wörterbuchgrammatik<br />

● Tabellen zur Morphologie und Syntax<br />

<strong>von</strong> Lexemen<br />

● Zusätzliche Wörterverzeichnisse<br />

● Übungen<br />

● nichtsprachliche Informationen<br />

(Tabellen, Grafiken, ...)


Lemmatisierung<br />

● Lemmatisierung: Wahl einer Wortform eines Lexems<br />

nach den Konventionen des Sprachraums:<br />

– Lemmazeichen: Fisch, Fische, Fisches<br />

– Lemma: Fisch<br />

● Konventionen im Deutschen:<br />

– Verben: Infinitiv<br />

– Substantive: Nominativ Singular<br />

– Adjektive: die Form, die sie in prädikativer Stellung<br />

einnehmen


Lemmatisierung - Probleme<br />

● Lexeme ohne kanonische Zitierform (z.B. attributiv<br />

verw. Adjektive: obig oder obig[e])<br />

● Mehrwortlexeme (z.B. Weiße Hause, das Weiße Haus)<br />

● Lautliche Varianten (adelig, adlig)<br />

● Ortographische Varianten (Al Kaida, El Queida)<br />

● Lexem-Cluster (Lehrer[in])<br />

● Homonymie vs. Polysemie (state: Zustand | Staat | ... )


Anordnung der Lemmata -<br />

Zugriffstrukturen<br />

● Makrostruktur umfasst eine oder mehrere äußere<br />

Zugriffsstrukturen<br />

● Nur eine Zugriffsstruktur liegt vor wenn z.B. nur das<br />

Wortverzeichnis in alphabetischer Reihenfolge vorliegt<br />

(monoakzessiv)<br />

● Mehrere Zugriffsstrukturen wenn zu der<br />

alphabetischen Suchpfad z.B. noch thematischer<br />

Register kommt (polyakzessiv)<br />

● Navigieren mittels Verweisen ist eine äußere<br />

Zugriffsstruktur aber polyakzessiv


Anordnung der Lemmata -<br />

Ordnungsrelationen<br />

● Initialalphabetisch:<br />

konventionelle<br />

Reihenfolge des<br />

Alphabets, geordnet wird<br />

in Schriftrichtung<br />

ungeordnet<br />

abc aca aaa<br />

aac aab aab<br />

aab aab aac<br />

aaa abc abc<br />

aca aac aca<br />

● Finalalphabetisch:<br />

konventionelle<br />

Reihenfolge des<br />

Alphabets, geordnet wird<br />

entgegen der<br />

Schriftrichtung<br />

mittlere Spalte sortiert<br />

letzte Spalte sortiert mittlere Spalte sortiert letzte Spalte sortiert<br />

ungeordnet<br />

abc aac aaa<br />

aac aab aca<br />

aab aaa aab<br />

aaa abc aac<br />

aca aca abc


Anordnung der Lemmata<br />

● Nichtalphabetisch schriftbezogen<br />

● Inhaltlich / Ideologisch (z.B. Thesauri)


Anordnung der Lemmata -<br />

Probleme bei der Sortierung<br />

● Zusatzbuchstaben: ä, ö, ü, ß<br />

● Leerzeichen (z.B: black bean)<br />

● Sonderzeichen (z.B. bei los- (als Präfix))<br />

● Groß-/Kleinschreibung<br />

● Ziffern


Anordnung der Lemmata -<br />

Alphabetische Anordnungsformen<br />

● Glattalphabetische<br />

<strong>Struktur</strong><br />

Eingangslemmata<br />

Rum masc [...]<br />

Rumfass neutr [...]<br />

Rummel masc. [...]<br />

Rumtorte fem [...]<br />

● Nischenalphabetische<br />

<strong>Struktur</strong><br />

Nischenlemmata<br />

Rum masc [...]; Rumfass neutr [...]<br />

Rummel masc. [...]<br />

Rumtorte fem [...]


Anordnung der Lemmata -<br />

Alphabetische Anordnungsformen<br />

● Nestalphabetische<br />

<strong>Struktur</strong><br />

Rum masc [...]; Rumfass<br />

neutr [...]; Rumtorte fem [...]<br />

Rummel masc. [...]<br />

Nestlemmata


Anordnung der Lemmata -<br />

Durchbrechung der alphabetischen Anordnungsform<br />

● Alphabetische Zugriffsstruktur mit<br />

wortbildungsbestimmter Verweislemma-Gruppen: am<br />

Ende des Artikels stehen die zur Wortfamilie<br />

gehörenden Lemmata als Verweislemmata<br />

● Alphabetische Zugriffsstruktur mit semantisch<br />

bestimmten Verweislemma-Gruppen: am Ende des<br />

Artikels stehen die in semantischer Beziehung<br />

stehenden Lemmata als Verweislemmata


Anordnung der Lemmata -<br />

Durchbrechung der alphabetischen Anordnungsform<br />

● Alphabetische Zugriffsstruktur mit<br />

wortbildungsbestimmter Anordnung: In dem Artikel<br />

können z.B. alle Ableitungen einer Wortwurzel<br />

behandelt werden<br />

● Alphabetische Zugriffsstruktur mit semantisch<br />

bestimmter Anordnung: Semantisch verwandte<br />

Lemmata sind räumlich nah zueinander und können<br />

z.B. über Schlüsselwörter mit Verweisen gefunden<br />

werden


Anordnung der Lemmata -<br />

Durchbrechung der alphabetischen Anordnungsform<br />

● Alphabetische Zugriffsstruktur mit zusätzlich<br />

semantisch basiertem Zugriff: semantische Wortfelder<br />

in thesaurischer Form in Außentexten<br />

● Alphabetische Zugriffsstruktur mit zusätzlich<br />

illustrationsbasiertem Zugriff: Abbildungen ergänzen<br />

die Zugriffsstruktur und verweisen <strong>von</strong><br />

Schlüsselwörtern auf verwandte Lemmata z.B. Haus:<br />

-> Dach, Kamin, Fenster, ...


<strong>Struktur</strong> der Wörtbuchartikel<br />

● Um platzsparend und schnell überblickbar zu sein,<br />

werden die Texte in den Artikeln stark verdichtet


<strong>Struktur</strong> der Wörtbuchartikel<br />

● Lemmazeichengestaltangabe<br />

● Phonetisch-phonologische und orthographische<br />

Angaben<br />

● Morphologische Angaben<br />

● Syntaktische Angaben<br />

● Syntaktisch-semantische Angaben<br />

● Semantische Angaben


<strong>Struktur</strong> der Wörtbuchartikel<br />

● Pragmatische Angaben, Fachgebietsangabe,<br />

Stilschichtenangabe, Häufigkeitsangaben,<br />

Konnotationsangabe, zeitliche Einordnung, räumliche<br />

Verbreitung, Fremdwortherkunftsangabe,<br />

Normierungsangabe, Textsorten, Mediumsangabe<br />

● Etymologische Angabe, Verweisangabe<br />

● Beispiel:<br />

Ge|stank der; -(e)s; nur Sg; ein unangenehmer Geruch: der<br />

° G. fauler Eier || -K: Schwefel- || -> stinken


<strong>Struktur</strong> der Wörtbuchartikel<br />

Ge stank<br />

|<br />

°<br />

(Fett)<br />

der<br />

;<br />

-<br />

(e)s<br />

;<br />

nur Sg<br />

;<br />

(Kursiv)<br />

ein unangenehmer Geruch<br />

:<br />

der G. fauler Eier<br />

(Kursiv)<br />

||<br />

-K<br />

Schwefel<br />

-<br />

(Fett, Kursiv)<br />

||<br />

-><br />

stinken<br />

(Fett, Kursiv)<br />

Lemmazeichengestaltangabe<br />

Silbentrennung<br />

Vokalquantität<br />

tS zur Herausstellung der Lemmapos.<br />

Genusangabe<br />

ntS zu Abtrennung<br />

Angabe des Nom. Singular in Form <strong>von</strong> Platzhalter<br />

kondensierte Angabe für beide Flexive des Gen. Sg.<br />

ntS zu Abtrennung<br />

Numersbeschränkung<br />

ntS zu Abtrennung<br />

tS zur Herausstellung morphologischer Angaben<br />

Bedeutungsangabe<br />

ntS zur Einleitung<br />

Beispiel<br />

tS zur Herausstellung des Beispiels<br />

ntS zur Einleitung der Kompositumsangabe<br />

ntS zur Einleitung der Kompositumszweitglieangabe<br />

Kompositumszweitglieangabe<br />

Angabe der Lemmazeichenform in Form <strong>von</strong> Platzhalter<br />

tS zur Herausstellung des Kompositums<br />

ntS zur Einleitung einer Verweisangabe<br />

ntS als Symbol für Verweis auf Wortfamilien<br />

Verweiszielangabe<br />

tS zur Herausstellung der Verweiszielangabe


<strong>Struktur</strong> der Wörtbuchartikel<br />

● Angaben in Artikeln können unterschiedlich<br />

addressiert sein. Man unterscheidet:<br />

– Linksadressierung (lahm adj.)<br />

– Rechtsadressierung (die Lahmheit)<br />

– Binnenadressierung (Mit eine lahme Ente wird eine<br />

Person oder ein Gefährt beschrieben, das sich sehr<br />

langsam bewegt)


<strong>Struktur</strong> der Wörtbuchartikel<br />

● Jedem Lemmazeichen, ist abhängig <strong>von</strong> seiner<br />

Wortart ein Schema <strong>von</strong> Angaben, eine abstrakte<br />

Mikrostruktur (a.M.) zugeordnet das für die<br />

Mikrostruktur mit konkreten Angaben ausgefüllt wird.<br />

● Obligatorische Angaben für alle a.M. (z.B.<br />

Lemmazeichengestaltangabe)<br />

● Obligatorische Angaben für bestimmte a.M. (z.B.<br />

Genusangabe für Substantive)<br />

● Optionale Angaben für alle a.M. (Beispielangaben)<br />

● Optionale Angaben für manche a.M.<br />

(Graduierungsbeschränkung bei Adjektiven)<br />

● Beispiel: famos [fa'mo:s] veraltend umg.<br />

SYN 'großartig': das ist eine ~e Idee; das ist ~, hat<br />

~ geklappt


<strong>Struktur</strong> der Wörtbuchartikel<br />

Wörterbuchartikelstruktur nach Wiegand<br />

Wörterbuchartikel<br />

Formkomentar Semantischer Kommentar<br />

Lemmazeichengestalt<br />

Aussprache Morphologisch<br />

famos famos Wortart Graduierung<br />

Pragmatisch-Semantisch<br />

Pragmatisch Synonym<br />

zeitliche<br />

Einordnung<br />

Veraltend<br />

Stilschicht<br />

umg. großartig<br />

Adj. reg.<br />

Beispiele


<strong>Struktur</strong> der Wörtbuchartikel<br />

● Bei Polysemie mehrere Semantische Kommentare<br />

möglich<br />

● <strong>Die</strong>se werden mit Positionsanangaben (also 1,2,3, ...)<br />

eingeleitet und können geordnet sein nach:<br />

– Gebrauchshäufigkeit<br />

– nach frühestem Erscheinen in der Sprache<br />

– zuerst Kernbedeutung und dann Varianten<br />

– Grammatischen Kriterien, also Richtlinien


<strong>Struktur</strong> der Wörtbuchartikel<br />

● Sind Bedeutung und semantischer Kontext in einem<br />

Subkommentar spricht man <strong>von</strong> einer einfachen<br />

integrierten Mikrostruktur<br />

● Sind Bedeutung und semantischer Kontext teilweise in<br />

einem Subkommentar spricht man <strong>von</strong> einer partiell<br />

integrierten Mikrostruktur<br />

● Sind Bedeutung und semantischer Kontext in<br />

verschiedenen Subkommentaren spricht man <strong>von</strong><br />

einer einfachen nicht-integrierten Mikrostruktur<br />

● Eine erweiterte (einfache/partiell integrierte)<br />

Mikrostruktur ist z.B. um eine Verweisangabe<br />

erweiterte Mikrostruktur


Verweise<br />

● Ein Verweis setzt sich zusammen aus:<br />

– Verweisursprung<br />

– Verweisziel<br />

– Repräsentant des Verweiszieles am<br />

Verweisursprung<br />

– Verweissymbol<br />

● Verweisangabe<br />

● Verweisvermittelnde Angabe<br />

● Verweis kann am Ende stehen und sich auf einen<br />

bestimmten Subkommentar beziehen<br />

● Potentieller Verweis<br />

buk ↑ backen<br />

leihen [...] jmdm sein ↑Ohr leihen<br />

tektonisch die Tektonik betreffend


Verweise<br />

● Verweise werden verwendet um:<br />

– Platz zu sparen<br />

– Bedeutungsvernetzungen darzustellen<br />

– den Benutzer weitere Informationen die seine<br />

Suchanfrage betreffen zu bieten


Elektronische Wörterbücher<br />

● Wörterbuchaußentexte entfallen in der Form, wie sie<br />

vom Printwörterbuch bekannt ist<br />

● polyakzessive Zugriffstrukturen sind leichter zu<br />

realisieren, da mit Datenbanken sehr vielfältig<br />

verschiedene Ansichten einer Datenmenge erzeugt<br />

werden können<br />

● <strong>Die</strong> Anordnung der Lemmata spielt keine so große<br />

Rolle, da sie bei Datenbankanwendungen ohnehin<br />

variabel ist<br />

● Textverdichtung ist nicht notwendig, da andere<br />

Möglichkeiten für übersichtliche Gestaltung möglich


Elektronische Wörterbücher<br />

● Mikrostrukturen sind oft noch ähnlich zur Printversion,<br />

da die Artikel direkt aus der Printversion übernommen<br />

wurden. Es gibt auch schon elektronische<br />

Wörterbücher, die die Gestaltungsmöglichkeiten<br />

wahrnehmen<br />

● Verweise braucht man nicht mehr um Platz zu sparen.<br />

Im Prinzip können alle Zusatzinformation direkt<br />

angezeigt werden.<br />

● Zudem sind die Benutzeroberflächen oft beliebig<br />

konfigurierbar, so das der Benutzer bestimmte<br />

Informationen gezielt ein- oder ausblenden kann.


Elektronische Wörterbücher<br />

● Viele Wörterbücher sind zudem durch den Benutzer<br />

selbst erweiterbar<br />

● Aktualität und Korrektheit sind durch Aktualisierungen<br />

über das Internet stets möglich<br />

● Möglichkeit der bottom-up lexicography<br />

● Es gibt größtenteils noch keine so umfassende<br />

Forschung über elektronische Wörterbücher, da sich<br />

noch keine Standards bezüglich der<br />

Benutzeroberflächen gebildet haben.<br />

● Von der Datenseite her sind viele Probleme hinfällig,<br />

da sie durch Datenbankanwendungen vielseitiger<br />

gelöst werden können.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!