07.01.2013 Aufrufe

Geschichte der Wissensrepräsentation

Geschichte der Wissensrepräsentation

Geschichte der Wissensrepräsentation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Heinrich-Heine-Universität Düsseldorf - Informationswissenschaft<br />

<strong>Wissensrepräsentation</strong><br />

Wolfgang G. Stock<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 1


<strong>Wissensrepräsentation</strong><br />

<strong>Wissensrepräsentation</strong> – Was ist das?<br />

Wissen – Informationsinhalt – „Content“<br />

Erschließen von Wissen<br />

Erschließen von Dokumenten<br />

genauer: Erschließen des Inhalts von Dokumenten<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 2


ASPEKT 1<br />

Aufbau von Werkzeugen<br />

<strong>der</strong><br />

<strong>Wissensrepräsentation</strong><br />

z.B.<br />

Aufbau eines Klassifikationssystems<br />

Thesaurusaufbau<br />

Regelwerk für Abstracting<br />

<strong>Wissensrepräsentation</strong><br />

ASPEKT 2<br />

Inhaltserschließung<br />

konkreter<br />

Dokumente<br />

z.B.<br />

Klassieren eines Buches nach dem<br />

Klassifikationssystem<br />

Indexieren nach dem Thesaurus<br />

Verfassen eines Abstracts<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 3


<strong>Wissensrepräsentation</strong><br />

• „<strong>Wissensrepräsentation</strong>“ : Abbildung von Wissen<br />

(„Content“) vor allem in digitalen Systemen; Erschließung<br />

des Informationsinhalts<br />

• Ziel: Wissen bei Bedarf (möglichst) exakt zu finden und in<br />

die aktuellen Arbeitsläufe einzubinden<br />

• hierbei benötigt:<br />

– METHODEN <strong>der</strong> <strong>Wissensrepräsentation</strong> (wie Thesaurus,<br />

Klassifikation usw.)<br />

– und konkrete WERKZEUGE (etwa den Standard-<br />

Thesaurus Wirtschaft o<strong>der</strong> die IPC)<br />

– praktische Tätigkeit: INDEXIEREN<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 4


<strong>Wissensrepräsentation</strong><br />

• inhaltlich erschlossene Retrievalsysteme finden Einsatz<br />

als<br />

– Suchwerkzeug für das WWW o<strong>der</strong> für einen<br />

Ausschnitt daraus (<strong>der</strong>zeit kaum realisiert)<br />

– Suchwerkzeug bei kommerziellen Anbietern<br />

elektronischer Informationsdienste (nahezu<br />

durchgängig realisiert)<br />

– Suchwerkzeug bei unternehmensweiten Intranets<br />

o<strong>der</strong> „Enterprise Information Portals“ (<strong>der</strong>zeit in<br />

„Boomphase“ im Zusammenhang mit Knowledge<br />

Management)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 5


Informationsbedarf<br />

Wissens- repräsentation<br />

Treffer<br />

Information<br />

Retrieval<br />

Frage<br />

DE<br />

Dokumentationseinheiten<br />

Vergleich<br />

<strong>der</strong><br />

Begriffe<br />

Information<br />

Indexing<br />

DBE<br />

Dok.<br />

Bezugseinheiten<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 6


<strong>Wissensrepräsentation</strong> / Themen (1)<br />

<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

Begriffe und Begriffsordnungen:<br />

Gegenstände, Begriffe, Synonyme, Homonyme, Definitionen,<br />

Begriffsordnungen, paradigmatische und syntagmatische<br />

Relationen, Mono- und Polyhierarchie, Dimensionalität,<br />

Facetten<br />

Dokumente und ihre Strukturierung:<br />

Dokumente: Texte und Objekte - Datenstrukturierung<br />

(Metadaten) - Datenbankdesign - formale Erfassung,<br />

inhaltliche Erschließung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 7


<strong>Wissensrepräsentation</strong> / Themen (2)<br />

Dokumentationssprachen I: Klassifikationssysteme<br />

Klasse und Notation, Universalklassifikationen (Bsp.: Dezimalklassifikation),<br />

Technikklassifikationen (Bsp.: Internationale<br />

Patentklassifikation), Wirtschaftsklassifikationen (Bsp.: Branchen- und<br />

Produktklassifikationen), Klassifikationen im WWW (Bsp.: Yahoo!),<br />

Medizinklassifikation (Bsp.: ICD-10)<br />

Dokumentationssprachen II: Schlagwortmethode<br />

Dokumentationssprachen III: Thesauri<br />

Thesauruserstellung nach DIN 1463, Deskriptoren und Relationen,<br />

multilinguale Thesauri, gleichordnendes Indexieren, syntaktisches<br />

Indexieren, „höhere“ Thesaurusformen<br />

Bsp.: Standard-Thesaurus Wirtschaft, Thesaurus Technik und<br />

Management, EXPO-INFO 2000<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 8


<strong>Wissensrepräsentation</strong> / Themen (3)<br />

Textsprachliche Methoden:<br />

Volltextspeicherung, Titelindexierung,<br />

Textwortmethode, Bsp.: Datenbank zur österreichischen Philosophie,<br />

Zitationsindexierung, Bsp.: Web of Science (ISI)<br />

Nicht-thematische Informationsfilter:<br />

Zielgruppe, Art <strong>der</strong> Themenbehandlung, Verfallsdatum<br />

Automatische Indexierung:<br />

Klassifikation nach Ähnlichkeit – zuteilende Indexierung bei Einsatz einer<br />

Dokumentationsmethode<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 9


<strong>Wissensrepräsentation</strong> / Themen (4)<br />

Abstracts:<br />

Inhaltsangaben nach DIN 1426, indikative, informative, analytische<br />

Abstracts, Sammelreferate, automatisches Abstracting<br />

Informationsextraktion:<br />

Extraktionsmethoden, Informationsagenten<br />

Das semantische Web:<br />

Ontologien, Topic Maps<br />

Informationsfilter und –verdichter im Überblick:<br />

Informationsarchitektur, Zusammenfassung <strong>der</strong> Methoden <strong>der</strong><br />

<strong>Wissensrepräsentation</strong><br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 10


<strong>Wissensrepräsentation</strong> - Basisliteratur<br />

• Marianne Bu<strong>der</strong> et al. (Hrsg.): Grundlagen <strong>der</strong> praktischen Information<br />

und Dokumentation. – München: Saur, 4 1997.<br />

• Donald B. Cleveland; Ana D.Cleveland: Introduction to Indexing and<br />

Abstracting. – Englewood, NJ: Libraries Unlimited, 1990.<br />

• Heting Chu: Information Representation and Retrieval in the Digital Age.<br />

– Medford, NJ: Information Today, 2003. – (Chap. 1 – 4).<br />

• Robert Fugmann: Inhaltserschließung durch Indexieren: Prinzipien und<br />

Praxis. – Frankfurt: DGD, 1999.<br />

• Wilhelm Gaus: Dokumentations- und Ordnungslehre. – Berlin: Springer,<br />

2002.<br />

• Christa Ladewig: Grundlagen <strong>der</strong> inhaltlichen Erschließung. – Potsdam:<br />

Institut für Information und Dokumentation, 1997.<br />

• F. Wilfrid Lancaster: Indexing and Abstracting in Theory and Practice. –<br />

Champaigne, IL.: Graduate School of Library and Information Science,<br />

2 1998.<br />

• Wolfgang G. Stock: Informationswirtschaft. Management externen<br />

Wissens. - München; Wien: Oldenbourg, 2000. – (Kapitel 3).<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 11


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong>


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Aufstellordnungen in Bibliotheken (ab Antike)<br />

• Abstracts (19. Jahrhun<strong>der</strong>t)<br />

• Wortschätze (19. Jahrhun<strong>der</strong>t)<br />

• Klassifikationssysteme (19. Jahrhun<strong>der</strong>t)<br />

• Thesauri (ca. 1950)<br />

• Zitationsindexierung (ca. 1960)<br />

• Textwortmethode (ca. 1970)<br />

• automatische Indexierung mit kontrolliertem<br />

Vokabular (ca. 1990)<br />

• Topic Maps und Ontologien (ca. 1990)<br />

• semantisches Web (ca. 2010 – wenn überhaupt)<br />

Evgenij I. Samurin: <strong>Geschichte</strong> <strong>der</strong> bibliothekarisch-bibliographischen Klassifikation. – Pullach:<br />

Verl. Dokumentation, 1967 (Bd. 1), 1968 (Bd. 2).<br />

Ingetraut Dahlberg: Grundlagen universaler Wissensordnung. – Pullach: Verl. Dokumentation, 1974.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 13


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• „Pinakes“ des Kallimachos von Kyrene<br />

(ca. 310 – 240 v.Chr.)<br />

• systematischer Katalog <strong>der</strong> Bibliothek<br />

von Alexandria<br />

• Systematik für rund 120.000 Schriftrollen<br />

• Hauptklassen:<br />

– Rhetorik<br />

– Recht<br />

– Epik<br />

– Tragödie<br />

– Komödie<br />

– Lyrik<br />

– <strong>Geschichte</strong><br />

– Medizin<br />

– Mathematik<br />

– Naturwissenschaft<br />

– Verschiedenes<br />

Rudolf Blum: Kallimachos: The Alexandrian Library and the Origins of<br />

Bibliography. – Madison, Wisc.: Univ. of Wisconsin Press, 1991.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 14


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Systematik <strong>der</strong> Buchaufstellung im Mittelalter:<br />

„Geheimwissenschaft“<br />

Eco‘s „Labyrinth“ in „Der Name <strong>der</strong> Rose“<br />

Umberto Eco: Il nome della rosa. – Milano:<br />

Ed. Fabbri-Bompiani, 1980.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 15


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• „Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316)<br />

• universelles Begriffssystem<br />

auf <strong>der</strong> Basis <strong>der</strong> Kombinatorik<br />

• konzentrische Scheiben, jeweils mit<br />

zentralen Begriffen einer Kategorie<br />

• Scheiben können gedreht werden,<br />

so dass Kombinationen <strong>der</strong> Begriffe<br />

entstehen<br />

Norbert Henrichs: Wissensmanagement auf Pergament und<br />

Schweinsle<strong>der</strong>. Die ars magna des Raimundus Lullus. – In:<br />

Josef Herget; Rainer Kuhlen (Hrsg.): Pragmatische Aspekte<br />

beim Entwurf und Betrieb von Informationssystemen,<br />

Konstanz: Universitätsverl. Konstanz, 1990, S. 567-573.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 16


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• „Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 17


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Frühe Zeitschriften als Medium <strong>der</strong><br />

Wissensverdichtung<br />

• „Journal des Scavans“: erste Zeitschrift,<br />

gegründet 1665<br />

• Aufgabe: zunächst Überblicksartikel, da<br />

das Wissen in Büchern zu umfangreich<br />

wurde<br />

• später: Publikation von Forschungsberichten<br />

• Aufschwung <strong>der</strong> Zeitschriftenliteratur<br />

• Folge: auch das Wissen in Zeitschriften<br />

wurde zu umfangreich<br />

Manfred Bonitz: Notes on the development of secondary periodicals from the „Journal des Scavans“ to the<br />

„Pharmaceutisches Central-Blatt“. – In: International Forum on Information and Documentation 2 (1977) 1, S. 26-31.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 18


<strong>Geschichte</strong><br />

• Gründung von<br />

Referatezeitschriften<br />

• „Geburt“ <strong>der</strong> Abstracts als<br />

Form <strong>der</strong><br />

Wissensverdichtung<br />

• 1830: Pharmaceutisches<br />

Central-Blatt; später:<br />

Chemisches Zentralblatt<br />

• 1907: Chemical Abstracts<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 19


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Thesaurus of English Words and Phrases (1852)<br />

• Peter Mark Roget (1779 – 1869)<br />

• Sekretär <strong>der</strong> „Royal Society“ - London<br />

• Thesaurus kreiert: 1805; publiziert: 1852<br />

• System „of the ideas which are expressible<br />

by language“ – rund 15.000 Worte<br />

• Klassen:<br />

– I: Abstract Relations<br />

– II: Space<br />

– III: Matter<br />

– IV: Intellectual Faculties<br />

– V: Voluntary Powers<br />

• Synonymwörterbuch<br />

Werner Hüllen: A History of Roget‘s Thesaurus – Origins,<br />

Development, and Design. – Oxford: Oxford Univ. Press,<br />

2003.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 20


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Roget. Faksimile des ersten Eintrags<br />

(Skript zur ersten Auflage)<br />

• „Existence“<br />

• CLASS I: WORDS EXPRESSING<br />

ABSTRACT RELATIONS<br />

• SECTION I. EXISTENCE<br />

• 1. BEING, IN THE ABSTRACT<br />

• #1. Existence.-- N. existence, being,<br />

entity, ens[Lat], esse[Lat],subsistence.<br />

reality, actuality; positiveness c. adj.; fact,<br />

matter of fact, soberreality; truth c. 494;<br />

actual existence. presence c. (existence<br />

in space) 186; coexistence c. 120.<br />

stubborn fact, hard fact; ...<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 21


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• DDC (Dewey Decimal Classification) – 1876<br />

• Melvil (Melville Louis Kossuth) Dewey<br />

(1851 – 1931)<br />

• 1870: Student am Amherst College<br />

• stud. Hilfskraft an <strong>der</strong> Bibliothek<br />

• 1874: Abschluss in Bibliothekswesen<br />

• Aufbau eines Klassifikationssystem für die<br />

Bibliothek des Amherst College<br />

Stephen Gordon; Judith Kramer-Greene: Melvil Dewey: The Man and the Classification. – Albany: Forest Press,<br />

1983.<br />

Fremont Ri<strong>der</strong>: American Library Pioneers VI: Melvil Dewey. – Chicago: American Library Association,<br />

1972.<br />

Sarah Vahn: Melvin Dewey: His Enduring Presence in Librarianship. – Littletown: Libraries Unlimited,<br />

1978.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 22


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• DDC (Dewey Decimal Classification) – 1876<br />

• „A Classification and Subject Index for Cataloguing and<br />

Arranging the Books and Pamphlets of a Library“ (1876;<br />

anonym)<br />

• 1876: Bibliothekar in Boston<br />

• 1883: Bibliothekar am<br />

Columbia College (später:<br />

Direktor <strong>der</strong> New York State<br />

Library)<br />

• 1890: Präsident <strong>der</strong> ALA<br />

(American Library Association)<br />

Bibliothek des Amherst College<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 23


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• DDC. Grundidee: Notationen <strong>der</strong> Klassen als Dezimalzahlen<br />

– 000 Generalities<br />

– 100 Philosophy<br />

– 200 Religion<br />

– 300 Social Sciences<br />

– 400 Language<br />

– 500 Natural Sciences, Mathematics<br />

– 600 Technology (Applied Sciences)<br />

– 700 The Fine Arts<br />

– 800 Literature and Rhetoric<br />

– 900 Geography, History<br />

• Die Grundidee erweist sich als sehr<br />

erfolgreich.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 24


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• DDC. Beispiel einer Katalogkarte<br />

• Original von Dewey<br />

• Class 207:<br />

Religion: Study and<br />

Teaching<br />

• Book P:<br />

Princeton<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 25


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Paul Otlet (1868 - 1944 ) und Henri La Fontaine<br />

(1854 – 1943)<br />

• (1) „Väter“ <strong>der</strong> Dokumentation<br />

• (2) Einführung <strong>der</strong> dezimalen Klassifikation in<br />

Europa<br />

• (3) Gründung eines internationalen Verbandes für<br />

Dokumentation<br />

W. Boyd Rayward: The Universe of Information. The Work of Paul Otlet for Documentation and International<br />

Organization. – Moscow: VINITI, 1975.<br />

Eric H.W. van Binsbergen: La philosophie de la Classification décimale universelle. – Liège: Centre de<br />

Lecture Publique, 1994.<br />

Georges Lorphèvre: Henri LaFontaine, 1854-1943 – Paul Otlet, 1868-1944. – In: Revue de la Documentation<br />

21 (1954) 3, 89-103.<br />

Hervé Hasquin: Henri la Fontaine – un Prix Nobel de la Paix: tracé(s) d‘une vie. – Mons: Mundaneum, 2002.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 26


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Henri La Fontaine<br />

• geb. 1854 in Brüssel<br />

• Prof. für Internationales Recht<br />

• Mitglied des belgischen Senats<br />

• Friedensbewegung (u.a. Präsident<br />

des „International Peace Bureau“)<br />

• 1895: Gründung des „Institut<br />

International de Bibliographie“ (mit<br />

Otlet)<br />

• Friedensnobelpreis 1913<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 27


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Paul Otlet<br />

• geb. 1868 in Brüssel<br />

• 1895: Gründung des „Institut<br />

International de Bibliographie“ (mit La<br />

Fontaine)<br />

• ab 90er Jahre: Reorganisation und<br />

(französische) Übersetzung von Deweys<br />

Dezimalklassifikation<br />

• 1904-1907: Erste komplette Ausgabe <strong>der</strong><br />

„Classification Décimale Universelle“ –<br />

CDU („Universal Decimal Classification“<br />

– UDC bzw. „Dezimalklassifikation“ DK)<br />

• DK: Haupttafel (wie DDC) und<br />

„Anhängezahlen“<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 28


• Paul Otlet<br />

<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• (mit La Fontaine): ab 1919 in<br />

Brüssel: Plan eines Zentrums für<br />

das gesamte Weltwissen –<br />

systematisch geordnet als Weltbibliographie:<br />

„Mundaneum“ (Plan<br />

scheiterte – Mundaneum heute<br />

Museum in Mons)<br />

• 1934: „Traité de documentation“ . –<br />

Bruxelles: Ed. Mundaneum.<br />

(Grundlagenwerk <strong>der</strong><br />

Dokumentation)<br />

www.mundaneum.be<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 29


• FID<br />

<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• 1895: Institut International de<br />

Bibliographie (von Otlet und La<br />

Fontaine in Brüssel gegründet)<br />

• ab 1895: Publikation einzelner DK-<br />

Tafeln<br />

• 1931: Institut International de<br />

Documentation<br />

• 1986: Fédération Internationale<br />

d‘Information et de Documentation<br />

– FID (heute in Den Haag)<br />

Son<strong>der</strong>stempel <strong>der</strong> österreichischen Post<br />

www.fid.nl<br />

Cent ans de l‘Office International de Bibliographie: 1895 – 1995. – Mons: Ed. Mundaneum, 1995.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 30


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Shiyali Ramamrita Ranganathan (1892 – 1972)<br />

Facettenklassifikation<br />

• zunächst Bibliothekar (in Madras), danach<br />

Professor für Bibliothekswissenschaft (in<br />

Varanasi und Delhi), später Leiter des<br />

„Documentation Research and Training<br />

Centre“ (Bangalore)<br />

• Kritik <strong>der</strong> DDC / DK: zu starr<br />

• Einsatz von Facetten: „Colon Classification“<br />

(1933)<br />

• syntaktisches Indexieren mittels Ketten: „Headings and<br />

Canons“ (1955)<br />

Eugene Garfield: A tribute to S.R.Ranganathan. Part 1: Life and works. – In: Eugene Garfield: Essays of an<br />

Information Scientist. Vol. 7. – Philadelphia, PA: ISI Press, 1984, 37-44.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 31


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Shiyali Ramamrita Ranganathan (1892 – 1972)<br />

Facettenklassifikation<br />

• fünf Grundfacetten (PMEST)<br />

– Wer? – Personalität (Trennzeichen: , )<br />

– Was? – Material ( ; )<br />

– Wie? – Energie ( : „colon“)<br />

– Wo? – Raum ( . )<br />

– Wann? – Zeit ( ' )<br />

– zusätzlich: Disziplin<br />

• Beispiel: L,45;421:6;253:f.44‘N5<br />

Medizin , Lunge ; (Tuberkulose : Behandlung) ;<br />

(Röntgenstrahlen : Forschung) . Indien ' 2004<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 32


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Thesauri: DAS Vorbild<br />

MeSH<br />

• Medical Subject Headings (MeSH)<br />

• erstellt von <strong>der</strong> National Library of Medicine (USA)<br />

• entworfen ab ca. 1954 (Vorläufer ab ca. 1940)<br />

• publiziert mit dem neuen „Index Medicus“ 1960<br />

Carolyn E. Lipscomb: Medical Subject Headings (MeSH). – In: Bulletin of the Medical Library Association 88<br />

(2000), 265-266.<br />

W.D.Miles: A History of the National Library of Medicine. – Bethesda, MD: U.S. Dept. of Health and Human<br />

Services, 1982.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 33


• MeSH<br />

<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• kontrolliertes Vokabular<br />

• Relationen zwischen den Begriffen<br />

• alphabetische Ordnung <strong>der</strong> Worte<br />

• systematische Ordnung <strong>der</strong> Begriffe<br />

• syntaktisches Indexieren durch Aspekte („subheadings“)<br />

möglich<br />

• gewichtete Indexierung im Zwei-Klassen-Verfahren<br />

• Thesaurus wird als dynamische Liste <strong>der</strong> Begriffe<br />

verstanden. Än<strong>der</strong>ungen sind je<strong>der</strong>zeit möglich<br />

• 1960: Start des Projektes MEDLARS (Medical Literature<br />

Analysis and Retrieval System) unter Einsatz von Computern<br />

• auch MeSH wird mittels EDVA gepflegt<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 34


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

Fokus-Deskriptor<br />

mit Subheading<br />

Fokus-Deskriptor<br />

Deskriptor mit<br />

Subheading<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 35


• Thesauri<br />

<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• erweisen sich im Laufe <strong>der</strong> 60er Jahre (und später) als<br />

erfolgreich<br />

• eine Periode <strong>der</strong> Zweiteilung <strong>der</strong> Methoden <strong>der</strong><br />

<strong>Wissensrepräsentation</strong> beginnt:<br />

• (1) Klassifikationssysteme: Einsatz vor allem in Bibliotheken;<br />

Einsatz ohne Zuhilfenahme <strong>der</strong> EDV<br />

• (2) Thesauri: Einsatz vor allem bei fachlichen Datenbanken;<br />

EDV-Einsatz<br />

• zusätzlich: Suche nach alternativen Ansätzen<br />

I.Lerch: Das Dokumentationshilfsmittel Thesaurus. – In: Bibliothek. Forschung und Praxis 6 (1982), 47-73.<br />

N. Roberts: Historical studies in documentation: The pre-history of the information retrieval thesaurus. – In:<br />

Journal of Documentation 40 (1984), 271-285.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 36


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Zitationsindexierung<br />

• Eugene Garfield (1925 - )<br />

• ab 1951: Mitarbeit bei <strong>der</strong><br />

Medizindokumentation<br />

• Kritik an MeSH: Indexierung ist zu<br />

langsam; Vokabular ist zu starr;<br />

Indexierung fremdsprachiger<br />

Artikel problematisch<br />

• Entdeckung <strong>der</strong> wissenschaftlichen<br />

Fußnote als Hilfsmittel <strong>der</strong><br />

<strong>Wissensrepräsentation</strong><br />

• 1958: Gründung des Institute for Scientific Information (ISI)<br />

Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979. - Eugene Garfield; Wolfgang G. Stock:<br />

Citation Consciousness (Interview mit Garfield). – In: Password Nr. 6 (2002), 22-25.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 37


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Titelindexierung<br />

• Hans Peter Luhn (1896 – 1964)<br />

• geb. 1896 in Barmen; ab 1924 in den<br />

USA; ab 1941 bei IBM<br />

• Extraktion von Stichworten aus den<br />

Sachtiteln <strong>der</strong> Dokumente<br />

• 1958: Keyword in Context: KWIC<br />

• „Entdeckung“ des Leerzeichens<br />

• Stoppworte<br />

Claire K.Schultz: H.P.Luhn: Pioneer of Information Science – Selected Works. – London: Macmillan, 1968.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 38


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Textwortmethode<br />

• Norbert Henrichs (1935 - )<br />

• wörterbuchunabhängige<br />

Dokumentationsmethode<br />

• entwickelt an <strong>der</strong><br />

Forschungsabteilung für philosophische<br />

Information und Dokumentation <strong>der</strong> Universität<br />

Düsseldorf<br />

• ab ca. 1967<br />

Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969),<br />

122-131.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 39


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Erste Online-Informationsanbieter („Hosts“)<br />

• Entwicklungen in den 60er und frühen 70er Jahren<br />

• DIALOG (maßgeblich: Roger Summit); online: 1972<br />

• ORBIT (Carlos Cuadra); online: 1972 (heute: Questel-Orbit)<br />

• Mead Data Central (Richard Giering); online: 1973 (heute:<br />

Lexis-Nexis)<br />

• BRS (Jan Edgeland; Linda Palmer; Ron Quake); online: 1977<br />

(heute: Ovid Technologies)<br />

• Methoden und Werkzeuge <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

müssen online-tauglich werden.<br />

Charles P. Bourne; Trudi Bellardo Hahn: A History of Online Information Services, 1963-1976. – Cambridge, Mass.;<br />

London: MIT Press, 2003.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 40


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• 1989: Einführung <strong>der</strong> automatischen Indexierung beim Einsatz<br />

einer Dokumentationssprache<br />

• bei Reuters Ltd. London<br />

• eingesetzt wird CONSTRUE – TIS<br />

(Categorization of News STories Rapidly, Uniformly, and<br />

Extensible – Topic Identification System)<br />

• CONSTRUE-TIS: Entwicklung bei <strong>der</strong> Carnegie Group in<br />

Pittsburgh<br />

• arbeitet mit einer Zuverlässigkeit von 90% gegenüber<br />

menschlichen Indexern (zumindest nach eigenen Aussagen)<br />

Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of news<br />

stories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications<br />

of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 41


<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• Tim Berners-Lee (1955 - )<br />

Sir Timothy John Berners-Lee<br />

• geb. 1955 in London<br />

• ab 1984: Mitarbeiter beim CERN<br />

• Entwicklung des WWW<br />

• August 1991: erste Webseite (CERN)<br />

1994: Gründung des World Wide Web<br />

Consortiums (Laboratory for Computer<br />

Science / MIT)<br />

seit 90er Jahre: Bemühungen um das<br />

semantische Web<br />

T.Berners-Lee; R.Cailliau; A.Luotonen; H.F.Nielsen; A.Secret: The World Wide Web. – In:<br />

Communications of the ACM 37 (1994) 8, 76-82.<br />

Tim Berners-Lee; Mark Fischetti: Weaving the Web. – San Francisco: Harper, 1999.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 42


• Winfried Gö<strong>der</strong>t<br />

<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />

• <strong>der</strong> Experte für <strong>Wissensrepräsentation</strong> im<br />

deutschsprachigen Raum<br />

• Leiter des Labors für bibliographisches Information<br />

Retrieval <strong>der</strong> FH Köln<br />

• bibliographische Datenbank zur Inhaltserschließung<br />

• Linkliste zu Klassifikationssystemen und Thesauri im WWW<br />

• dt. Übersetzung <strong>der</strong> DDC<br />

Winfried Gö<strong>der</strong>t: Einführung in Probleme und Methoden <strong>der</strong> inhaltlichen Dokumenterschließung. – Köln: FH Köln,<br />

1997. – [Begleitmaterial zu Lehrveranstaltungen].<br />

Datenbank: www.fbi.fh-koeln.de/institut/labor/bir/suche.htm<br />

Linkliste: www.fbi.fh-koeln.de/institut/labor/bir/thesauri_new/index.htm<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 43


Begriffe und Begriffsordnungen


Begriffe und Begriffsordnungen<br />

Begriffe / Begriffsordnungen<br />

Grundlegende Literatur<br />

• DIN 2330: Begriffe und Benennungen<br />

• DIN 2331: Begriffssysteme und ihre Darstellung<br />

• ISO 704:2000: Terminology Work – Principles and Methods<br />

• Albert Menne: Einführung in die Methodologie. –<br />

Darmstadt: Wissenschaftliche Buchgesellschaft, 1980.<br />

• Tadeusz Pawlowski: Begriffsbildung und Definition. – Berlin<br />

/ New York: de Gruyter, 1980<br />

• Ingetraut Dahlberg: Die gegenstandsbezogene, analytische<br />

Begriffstheorie und ihre Definitionsarten. – In: Beiträge zur<br />

Begriffsanalyse. – Mannheim [u.a.]: BI Wissenschaftsverl.,<br />

1987, 9-22.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 45


GEGENSTAND<br />

Begriffe und Begriffsordnungen<br />

• Gegenstand: “alles, was uns entgegensteht”, “etwas als<br />

etwas erkennen”<br />

• Gegenstände im Rahmen <strong>der</strong> “Gegenstandstheorie”<br />

(Alexius Meinong):<br />

Gegenstand psychischer Akt Erlebnis Erlebni<br />

Objekt Empfindung / Phantasie Vorstellen<br />

Sachverhalt Urteil / Annahme Denken<br />

Alexius Meinng: Über Gegenstandstheorie. – In: A.Meinong (Hrsg.): Untersuchungen zur Gegenstandstheorie und<br />

Psychologie. – Leipzig: Barth, 1904, 1-50.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 46


Begriffe und Begriffsordnungen<br />

GEGENSTAND einer dokumentarischen Bezugseinheit (DBE)<br />

• Empfindungsobjekt: Information über reale Gegenstände (Bsp.: Baker<br />

Street in London)<br />

• Phantasieobjekt: Information über fiktive Gegenstände (Bsp.: Sherlock<br />

Holmes Wohnung in <strong>der</strong> Baker Street)<br />

• Urteilssachverhalt: Information über Tatsachenaussagen (im Rahmen<br />

einer Theorie für wahr angesehene Aussage)<br />

• Annahmesachverhalt: Information über hypothetische Aussagen (im<br />

Rahmen einer Theorie für plausibel angesehene Aussage, <strong>der</strong>en<br />

Wahrheit offen ist)<br />

OBJEKTE in DBE werden in DE durch Begriffe, SACHVERHALTE <strong>der</strong><br />

DBE werden in DE durch Sätze beschrieben.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 47


Begriffe und Begriffsordnungen<br />

BEGRIFF<br />

• Ein Begriff ist die Zusammenfassung gewisser<br />

Objekte unter eine Klasse.<br />

• Begriffsbestimmung<br />

– extensional (Begriffsumfang; Aufzählung <strong>der</strong><br />

Elemente <strong>der</strong> Klasse). M =df {x , x , ...., x , ...}<br />

1 2<br />

Bsp.: „Deutsche Bundeslän<strong>der</strong>“ =df<br />

{Nordrhein-Westfalen, Bayern, ..., Berlin}<br />

– intensional (Begriffsinhalt; Angabe <strong>der</strong><br />

klassen-bildenden Merkmale). M =df ∀x. f(x) u<br />

f‘(x) u f‘‘(x) ...<br />

Bsp.: „Deutsche Bundeslän<strong>der</strong>“ =df „ist ein<br />

Bundesland“ u „liegt in <strong>der</strong> Bundesrepublik<br />

Deutschland“<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 48<br />

i


BEGRIFF<br />

Benennung(en)<br />

z.B. Wort<br />

Begriffe und Begriffsordnungen<br />

Merkmale<br />

Objekt(e)<br />

Begriff (Klasse)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 49


(an<strong>der</strong>e) Zeichen<br />

Begriffe und Begriffsordnungen<br />

BEGRIFF<br />

Benennung(en)<br />

z.B. Wort<br />

„Wirklichkeit“<br />

Begriffe und Begriffsordnungen<br />

Merkmale<br />

Objekt(e)<br />

Nutzer<br />

Begriff (Klasse)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 48<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 50


BEGRIFF<br />

Begriffe und Begriffsordnungen<br />

• SYNTAKTIK. Struktur <strong>der</strong> Benennung;<br />

Beziehungen <strong>der</strong> Benennung (Zeichen) zu an<strong>der</strong>en<br />

Zeichen<br />

• SEMANTIK: Beziehungen zwischen Benennung<br />

(Zeichen) und Objekt (bzw. Vorstellungsinhalt)<br />

• PRAGMATIK: Beziehungen zwischen Benennung<br />

(Zeichen) und Zeichenbenutzer<br />

Was heißt das?<br />

BAPHA<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 51


BEGRIFF<br />

• Begriffsarten<br />

Begriffe und Begriffsordnungen<br />

– Individualbegriff (Klasse hat genau ein Element) –<br />

Benennung: (Eigen-)Name<br />

Bsp.: Karl Marx; Sherlock Holmes; Bayessches Theorem,<br />

2. Hauptsatz <strong>der</strong> Thermodynamik<br />

– Allgemeinbegriff (Klasse hat mehrere Elemente)<br />

Bsp.: Stuhl, Zahl, Studentin <strong>der</strong> Informationswissenschaft,<br />

NaCl<br />

– Kategorie (Begriff allgemeinster Art)<br />

Bsp.: Person, Materie, Energie, Raum, Zeit (à la<br />

Ranganathan)<br />

o<strong>der</strong>: Branche, Raum, Aspekt (im Kontext <strong>der</strong> Wirtschaft)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 52


Begriffe und Begriffsordnungen<br />

EXAKTHEIT von Begriffen<br />

• exakter Begriff: Klassengrenze ist genau bestimmbar<br />

• vager Begriff: Klassengrenze ist - an den „Rän<strong>der</strong>n“ - nicht genau<br />

bestimmbar, „fuzzy“)<br />

Beispiel: Stuhl-Museum von Max Black<br />

Max Black: Vagueness. An exercise in logical analysis. – In: Philosophy of Science 4 (1937), 425-455.<br />

SELBSTÄNDIGKEIT von Begriffen<br />

• kategorematischer Begriff: Begriff steht für sich allein<br />

• synkategorematischer Begriff: Begriff kann in einem Kontext nicht<br />

allein stehen<br />

Beispiel:<br />

10 - 12<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 53


Begriffe und Begriffsordnungen<br />

• Wort: (nicht unbedingt eindeutiger) sprachlicher Ausdruck<br />

eines Begriffs<br />

• Synonym: Begriff, <strong>der</strong> durch mehrere Worte ausgedrückt<br />

werden kann (Beispiel: Samstag, Sonnabend)<br />

• Homonym: Wort, das mehrere unterschiedliche Begriffe<br />

ausdrückt, wobei die Worte unterschiedlichen Ursprüngen<br />

entstammen (Beispiel: kosten [„schmecken“ - althochdt.<br />

koston], kosten [„wert sein“ - altfrz. coster])<br />

• Homophon: Homonym im Laut (Beispiel: Leere – Lehre)<br />

• Polysem: Wort, das mehrere unterschiedliche Begriffe<br />

ausdrückt, wobei die Worte einen gleichen Ursprung haben<br />

(Beispiel: Knie [Gelenk am Körper], Knie [Werkstück])<br />

• Der Unterschied zwischen Homonym und Polysem ist nicht<br />

immer klar; in <strong>der</strong> Informationswissenschaft werden die<br />

hierdurch entstehenden Probleme gemeinsam behandelt.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 54


Begriffe und Begriffsordnungen<br />

STICHWORT - SCHLAGWORT<br />

• Stichwort: Wort, das faktisch in einer dokumentarischen<br />

Bezugseinheit vorkommt („token“: konkrete Realisierung<br />

eines Wortes, eines „types“)<br />

• Lexem: grammatikalische Grundform eines Wortes<br />

Beispiel: ... den Kühen ... ; Lexem: Kuh<br />

• Wortstamm: entsteht durch Präfix- o<strong>der</strong> Suffixabtrennung<br />

Beispiel: ... retrieved ...; Stamm: retriev<br />

• Schlagwort: Wort (in Grundform), das einer dokumentarischen<br />

Bezugseinheit zugeordnet wird<br />

• Thema: Objekt, das in einer dokumentarischen<br />

Bezugseinheit abgehandelt wird; „das, worüber es geht“;<br />

Repräsentation eines Thema in einer Dokumentationseinheit:<br />

durch Stich- o<strong>der</strong> Schlagworte<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 55


Begriffe und Begriffsordnungen<br />

DEFINITION<br />

• (1) Definition als Abkürzung. Definiendum =df Definiens<br />

Beispiele: M =df 1.000<br />

Erpel =df männliche Ente<br />

• (2) Deutungsvorschrift von Kalkülen.<br />

Deutung bzw. Interpretation von Zeichen<br />

Beispiel: p ---> q v ~q<br />

w w w w f<br />

w w f w w<br />

f w w w f<br />

f w f w w<br />

Deutung: p, q Aussagevariablen; w, f Wahrheitswerte<br />

~ Negation; --> Implikation; v Disjunktion<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 56


Begriffe und Begriffsordnungen<br />

• (3) Begriffserklärung<br />

Begriff =df Teilbegriff 1 + Teilbegriff 2 + ...<br />

• Begriffssynthese: ausgehend von Teilbegriffen<br />

Begriffsanalyse: ausgehend vom Begriff<br />

• “Klassische” Variante: Definition durch genus und differentia<br />

– genus: Artbegriff<br />

– differentia: “wesenskonstitutiver” Unterschied<br />

– accidens: zufällige Eigenschaft (darf nicht verwendet werden)<br />

Beispiel “Homo est animal rationale”:<br />

Mensch =df Lebewesen + vernunftbegabt<br />

nicht: Mensch =df Lebewesen + Haarfarbe nicht blond<br />

• Begriffserklärungen eignen sich beson<strong>der</strong>s gut für hierarchische<br />

Begriffsordnungen (Klassifikation o<strong>der</strong> Thesaurus)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 57


Begriffe und Begriffsordnungen<br />

• (4) Zeichenerklärung (Nominaldefinition)<br />

Feststellung <strong>der</strong> Bedeutung eines Begriffes in einem<br />

bestimmten Kontext. Aussage mit (zu begründendem)<br />

Wahrheitsanspruch.<br />

Beispiele: “Metaphysik” bei Aristoteles<br />

“Steuererhöhung” bei <strong>der</strong> Bundesregierung<br />

“Armut” in <strong>der</strong> empirischen Sozialforschung<br />

• (5) Sacherklärung (Realdefinition)<br />

Feststellung <strong>der</strong> Bedeutung eines Begriffes durch das<br />

“Wesen” seines Gegenstandes. Aussage mit (zu<br />

begründendem) Wahrheitsanspruch.<br />

Beispiel: Artikel „Geschirrspülmaschine“ im Brockhaus<br />

• Zeichen- und Sacherklärungen kommen typisch in<br />

enzyklopädischen Wörterbüchern vor.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 58


Begriffe und Begriffsordnungen<br />

• (6) Explikation<br />

Übernahme (ggf. ungenauer) Alltagsbegriffe in die<br />

Wissenschaftssprache, dabei Präzisierung<br />

• Bedingungen:<br />

– wissenschaftliche Nützlichkeit<br />

– Präzision<br />

– Ähnlichkeit mit dem Ausgangsbegriff<br />

– Einfachheit<br />

Beispiel: Alltagsbegriff: Arbeit<br />

Physik: Arbeit =df Kraft * Weg * Winkel<br />

Soziologie: Arbeit =df auf ein wirtschaftliches<br />

Ziel gerichtete, planmäßige menschliche<br />

Tätigkeit<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 59


Begriffe und Begriffsordnungen<br />

• (7) Definition von Bedeutungsfamilien<br />

Einige Begriffe können nicht über eine Konjunktion von<br />

Merkmalen definiert werden, die für alle gelten; vielmehr<br />

liegen unterschiedliche Teilmengen vor (Ludwig<br />

Wittgenstein: “Familienähnlichkeit”)<br />

Beispiel: Gemüse =df Wurzel- und Knollengemüse, Blattund<br />

Stielgemüse, Fruchtgemüse, Kohlgemüse<br />

• (8) Persuasive Definition<br />

Begriffsbildung mit emotionalen Einstellungen (gefühlsmäßigen<br />

Assoziationen)<br />

Beispiele: rein (Waschmittelwerbung; positive Einstellung)<br />

Jude (Nazi-Deutschland; negative Einstellung)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 60


Begriffe und Begriffsordnungen<br />

• Im Überblick:<br />

Definitionsarten<br />

• (1) Definition als<br />

Abkürzung<br />

• (2) Deutungsvorschrift<br />

eines Kalküls<br />

• (3) Begriffserklärung<br />

• (4) Nominaldefinition<br />

• (5) Realdefinition<br />

• (6) Explikation<br />

• (7) Bedeutungsfamilien<br />

• (8) persuasive Definition<br />

• Definitionen in Systemen<br />

<strong>der</strong><br />

<strong>Wissensrepräsentation</strong>:<br />

• je<strong>der</strong> in einer Dokumentationssprache<br />

verwendete<br />

Begriff sollte in Extension<br />

und Intension klar und deutlich<br />

sein<br />

• für hierarchische Systeme<br />

eignen sich beson<strong>der</strong>s<br />

Begriffserklärungen und<br />

Definitionen mit Bedeutungsfamilien<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 61


Ordnung<br />

Begriffe und Begriffsordnungen<br />

• Gesamt einer Menge M von Objekten x, y, ... und einer<br />

Menge von Relationen ρ zwischen den Objekten<br />

O = M, ρ<br />

• Bei Begriffsordnungen sind die Objekte Begriffe und die<br />

Relationen Beziehungen zwischen Begriffen<br />

• Es gibt zweistellige Relationen (Bsp.: ρ = „x ist Oberbegriff<br />

von y“) und mehrstellige Relationen (Bsp.: ρ = „heilt x<br />

[jemanden] mittels y [Arznei] von z [Krankheit]“)<br />

• Relationen sind reflexiv (irreflexiv), symmetrisch<br />

(asymmetrisch) bzw. transitiv (intransitiv)<br />

R - S - T<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 62


Begriffe und Begriffsordnungen<br />

RST (bei zweistelligen Relationen)<br />

• Reflexivität: x ρ x (Bsp.: „ist identisch mit“)<br />

• Irreflexivität: -(x ρ x) (Bsp.: „ist Ursache von“)<br />

• Symmetrie: x ρ y � y ρ x (Bsp.: „ist gleich“)<br />

• Asymmetrie: x ρ y � -(y ρ x) (Bsp.: „liebt unglücklich)“<br />

• Transitivität: [(x ρ y) u (y ρ z)] � (x ρ z) (Bsp.: „ist größer als“)<br />

• Intransitivität: [(x ρ y) u (y ρ z)] � -(x ρ z) (Bsp.: „ist ähnlich mit“)<br />

Allgemeine Relationen in Begriffsordnungen<br />

• Äquivalenz: x ist äquivalent y (R - S - T)<br />

• Unterbegriff*: x ist Unterbegriff von y (-R - -S - T)<br />

• Oberbegriff*: x ist Oberbegriff von y (-R - -S - T)<br />

• verwandter Begriff: x ist mit y verwandt (-R - S - -T)<br />

* (Abstraktionsrelation)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 63


Begriffe und Begriffsordnungen<br />

Assoziationsrelation<br />

Relationen in Begriffssystemen<br />

Begriffsleiter<br />

A<br />

Topterm<br />

B C<br />

D Begriffs- E -reihe<br />

F<br />

Bottomterms<br />

Hierarchierelation<br />

Polyhierarchie<br />

G H I<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 64


Begriffe und Begriffsordnungen<br />

Terminologische Kontrolle<br />

• durch Zusammenfassung bestimmter Bezeichnungen zu<br />

einem Begriff (Synonyme, Akronyme, Quasi-Synonyme)<br />

mittels Äquivalenzrelation<br />

• durch Trennung homonymer Bezeichnungen zu unterschiedlichen<br />

Begriffen<br />

• ggf. durch Zerlegung („Zerlegungskontrolle“)<br />

• wenn möglich; stets wenn nötig: Definition<br />

• Arten terminologischer Kontrolle:<br />

– mit Vorzugsbenennungen (gearbeitet wird ausschließlich mit<br />

<strong>der</strong> Vorzugsbenennung; von den äquivalenten Bezeichnungen<br />

wird verwiesen)<br />

– ohne Vorzugsbenennungen (alle äquivalenten Bezeichnungen<br />

sind zugelassen; in <strong>der</strong> Datenbank werden sie zu einem Begriff<br />

zusammengefasst)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 65


Begriffe und Begriffsordnungen<br />

Relationen<br />

• Hierarchierelation (Begriffsleiter: Oberbegriff - Unterbegriff,<br />

Begriffsreihe: Begriffe in gleicher hierarchischen Ebene)<br />

– Abstraktionsrelation (logische Sicht)<br />

• Ein Unterbegriff im Sinne <strong>der</strong> Abstraktionsrelation hat alle<br />

Merkmale des Ausgangsbegriffs, dazu aber mindestens ein<br />

weiteres (Bsp.: Vogel - Singvogel)<br />

• stets transitiv<br />

– Bestandsrelation (gegenständliche Sicht: Meronyme<br />

[Teil einer Ganzheit]; Holonyme [Ganzheit von Teilen])<br />

• Ein Unterbegriff im Sinne <strong>der</strong> Bestandsrelation drückt<br />

einen Teil des Ausgangsbegriffs aus (Bsp.: Vogel - Kralle)<br />

• Geographika sind i.d.R. Begriffe in Bestandsrelation (Bsp.:<br />

Deutschland - Nordrhein-Westfalen - Regierungsbezirk<br />

Köln – Rhein-Erft-Kreis - Kerpen - Kerpen-Sindorf)<br />

• zwei Varianten: (a) transitiv – (b) intransitiv<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 66


Begriffe und Begriffsordnungen<br />

Bestandsrelation / Meronymie<br />

• Variante 1: transitiv (z.B. Geographica)<br />

Deutschland<br />

D<br />

NRW<br />

• Variante 2: nicht transitiv<br />

– Es gibt Bäume im Wald;<br />

aber auch welche außerhalb<br />

von Wäl<strong>der</strong>n.<br />

Wald<br />

Baum<br />

Rinde<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 67


Relationen<br />

Begriffe und Begriffsordnungen<br />

• Element-Klasse-Relation für Individualbegriffe<br />

• „... ist ein(e) ...“: x ist ein M<br />

• M =df {x 1, x 2, ...., x i, ...}, wobei x i Namen von<br />

Individualbegriffen sind<br />

• Beispiele:<br />

– {G.Schrö<strong>der</strong>, J.Fischer, H.Eichel, P.Struck, ...} ist ein Mitglied<br />

<strong>der</strong> <strong>der</strong>zeitigen Bundesregierung<br />

– {G.Schrö<strong>der</strong>, H.Eichel, P.Struck, R.Scharping, ...} ist ein<br />

Mitglied <strong>der</strong> SPD<br />

– Persil ist ein Waschmittel<br />

– Donald Duck ist ein Bewohner Entenhausens<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 68


Begriffe und Begriffsordnungen<br />

Relationen<br />

• weitere Relationen<br />

– Antonymie-Relation (Gegensätze)<br />

– Ähnlichkeitsrelation<br />

– Nachfolgerelation (Vorgänger - Nachfolger)<br />

– Kausalrelation (Ursache - Wirkung)<br />

• Nützlichkeitsrelation<br />

• Schädlichkeitsrelation<br />

– genetische Relation (Produzent - Produkt)<br />

– Herstellungsrelation (Material - Produkt)<br />

– Transmissionsrelation (Sen<strong>der</strong> - Empfänger)<br />

– instrumentelle Relation (Werkzeug - Anwendung des<br />

Werkzeugs)<br />

– funktionelle Relation (Argument - Funktion)<br />

– usw.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 69


Begriffe und Begriffsordnungen<br />

• Präkombinationsgrad (bei Begriffen mit mehreren<br />

Komponenten) - Zerlegungskontrolle<br />

– Präkombination: Kombination mehrerer Begriffe zu<br />

genau einen [zusammengesetzten] Begriff in <strong>der</strong><br />

Begriffsordnung<br />

(Bsp.: Mädchenhandelsschule)<br />

– Präkoordination: Kombination <strong>der</strong> Begriffe, die in <strong>der</strong><br />

Begriffsordnung vorkommen, durch Verkettung beim<br />

Information Indexing<br />

(Bsp.: Mädchen + Handelsschule bzw. Mädchenhandel +<br />

Schule) – macht <strong>der</strong> Indexer<br />

– Postkoordination: Kombination <strong>der</strong> Begriffe erst beim<br />

Information Retrieval<br />

(Bsp.: Mädchen UND Handelsschule bzw.<br />

Mädchenhandel UND Schule) – macht <strong>der</strong><br />

Recherchierende<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 70


Begriffe und Begriffsordnungen<br />

Monohierarchie:<br />

je<strong>der</strong> Begriff hat entwe<strong>der</strong> keinen o<strong>der</strong> genau einen<br />

Oberbegriff<br />

Obstbaum<br />

Kernobstbaum Steinobstbaum<br />

Apfelbaum Birnbaum Kirschbaum Pfirsichbaum<br />

Margarete Burkart: Dokumentationssprachen. – In: Grundlagen <strong>der</strong> praktischen Information und Dokumentation. –<br />

München [u.a.]: Saur, 3 1990, 143-182.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 71


Begriffe und Begriffsordnungen<br />

Polyhierarchie:<br />

ein Begriff kann mehrere Oberbegriffe haben<br />

Obstbaum<br />

Kernobstbaum Nutzholz<br />

Holzwirtschaft<br />

Apfelbaum Birnbaum Buche<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 72


Begriffe und Begriffsordnungen<br />

Dimensionalität: Anzahl <strong>der</strong> Dimensionen <strong>der</strong> klassenbildenden<br />

Merkmale bei <strong>der</strong> Bildung von Unterbegriffen<br />

– monodimensional (nur genau eine Dimension zugelassen).<br />

Bsp.: Obstbaum<br />

» Kernobstbaum<br />

» Steinobstbaum<br />

Klassenbildung durch die Dimension: Beschaffenheit des Samens<br />

– polydimensional (mehrere Dimensionen zugelassen)<br />

Bsp.: Obstbaum<br />

» Kernobstbaum<br />

» Steinobstbaum<br />

» hochstämmiger Obstbaum<br />

» nie<strong>der</strong>stämmiger Obstbaum<br />

Klassenbildung durch die zwei Dimensionen: Beschaffenheit des Samens<br />

und: Größe des Stammes<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 73


Begriffe und Begriffsordnungen<br />

Auflösung <strong>der</strong> Polydimensionalität<br />

• aus einer polydimensionalen Ordnung soll eine<br />

monodimensionale gebildet werden<br />

• schafft eine übersichtliche und logische Struktur<br />

Bsp.: Obstbaum<br />

• Obstbaum nach Samenbeschaffenheit<br />

– Steinobstbaum<br />

– Kernobstbaum<br />

• Obstbaum nach Stammgröße<br />

– hochstämmiger Obstbaum<br />

– nie<strong>der</strong>stämmiger Obstbaum<br />

Stützbegriff<br />

• bei <strong>der</strong> Auflösung <strong>der</strong> Polydimensionalität werden „Zwischenbegriffe“<br />

bzw. „Stützbegriffe“ kreiert<br />

• sehr wahrscheinlich gibt es keine DBE über solche Stützbegriffe<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 74


Begriffe und Begriffsordnungen<br />

Facettierte Begriffsordnung<br />

• Mehrere unterschiedliche Begriffsordnungen innerhalb<br />

eines Systems, aufgeteilt nach Kategorien<br />

Bsp.: drei Facetten (Obstbäume):<br />

Kategorie 1: Kategorie 2: Kategorie 3:<br />

Frucht Stammgröße Erntezeit<br />

Apfel hoch früh<br />

Birne nie<strong>der</strong> spät<br />

Bsp.: vier Facetten (Wirtschaftsnachrichten / Factiva):<br />

• Branche<br />

• Region<br />

• Aspekt<br />

• Unternehmen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 75


Begriffe und Begriffsordnungen<br />

Begriffsordnung und natürliche Sprache<br />

• unabhängig von natürlicher Sprache: Verwendung eines<br />

eigenen Vokabulars aus Ziffern und Buchstaben<br />

Bsp.: 291.213.4 (in <strong>der</strong> Dezimalklassifikation: Bezeichnung für<br />

„Ahnenkult. Kult <strong>der</strong> Hausgötter: Manen, Laren, Penaten“)<br />

Bsp.: H05B-3/00 (in <strong>der</strong> Internationalen Patentklassifikation:<br />

Bezeichnung für „elektrische Heizung / Wi<strong>der</strong>standsheizung“)<br />

• sprachabhängig (Verwendung von national- bzw. fachsprachigen<br />

Bezeichnungen)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 76


Begriffe und Begriffsordnungen<br />

• Paradigmatische<br />

Relation<br />

• „fest verdrahtete“ Begriffe<br />

durch Relationen in<br />

Begriffsordnungen<br />

• Bsp.: Obstbaum sei Oberbegriff<br />

zu Kernobstbaum<br />

Obstbaum<br />

Kernobstbaum<br />

paradigmatische<br />

Relation<br />

• Syntagmatische Relation<br />

• Begriffe, <strong>der</strong>en Beziehung<br />

dadurch zustande kommt,<br />

dass sie gemeinsam in DE<br />

auftreten<br />

• Bsp.: Eine DE enthalte:<br />

Obstbaum, Bauer, Steiermark<br />

Obstbaum<br />

Steiermark<br />

syntagmatische<br />

Relation<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 77


Begriffe und Begriffsordnungen<br />

Paradigmatische und syntagmatische Relation<br />

Singvögel füttern ihre Jungen<br />

Meisen füttern ihre Jungen mit Insekten<br />

Blaumeisen füttern ihre Jungen mit grünen Raupen<br />

paradigmatisch syntagmatisch<br />

„fest verdrahtet“ „im konkreten<br />

hier: Kontext“<br />

Hierarchierelation<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 78


Dokumente und ihre Strukturierung


Dokumente und ihre Strukturierung<br />

Was ist ein Dokument?<br />

• „Dokumentation“ (d.h. die Repräsentation des Wissens<br />

durch Indexieren o<strong>der</strong> Referieren) kommt von „Dokument“<br />

• klar: (gedruckter) Text ist „Dokument“<br />

• aber: Objekte als Dokumente? (Ansatz von Suzanne Briet)<br />

Gegenstand Dokument?<br />

Stern am Himmel nein<br />

Foto des Sterns ja<br />

Stein in einem Fluss nein<br />

Stein in einem Museum ja<br />

Tier in <strong>der</strong> Wildnis nein<br />

Tier im Zoo ja<br />

Michael K. Buckland: What is a document? – In: Journal of the American Society of Information Science 48<br />

(1997), 804-809.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 80


Dokumente und ihre Strukturierung<br />

Was ist ein Dokument?<br />

Kriterien:<br />

• 1. Materialität (physikalisch, einschließlich digital)<br />

• 2. Intentionalität (trägt Sinn bzw. Bedeutung)<br />

• 3. Erarbeitung (wird geschaffen)<br />

• 4. Wahrnehmung (wird als Dokument bezeichnet)<br />

Dokument<br />

• (A) Text<br />

• (B) (nicht-textuelles) Objekt<br />

• alle Dokumentformen werden sprachlich indexiert<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 81


Dokumente und ihre Strukturierung<br />

• (A 1) Publikationen<br />

– Bücher<br />

– (wissenschaftliche) Artikel<br />

– Zeitungsartikel, Agenturmeldungen<br />

– Gesetze, Erlasse<br />

– Urteile<br />

– Normen<br />

– Patente, Gebrauchsmuster,<br />

Geschmacksmuster, Marken<br />

– Hochschulschriften<br />

– Noten<br />

– Kartenwerke<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 82


Dokumente und ihre Strukturierung<br />

• (A 2) an<strong>der</strong>e, nicht (formal) publizierte Texte<br />

– digitale Dokumente im Internet<br />

– Akten<br />

– an<strong>der</strong>e Archivmaterialien<br />

(z.B. Nachlässe)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 83


Dokumente und ihre Strukturierung<br />

• (B 1) WTM-Fakten (Wissenschaft / Technik / Medizin)<br />

– Stoffe und ihre Eigenschaften<br />

– Krankheiten und ihre Symptome<br />

– Patienten (Krankenakten)<br />

– demographische Daten<br />

– statistische Daten<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 84


• (B 2) Wirtschaft<br />

– Branchen<br />

Dokumente und ihre Strukturierung<br />

– Unternehmen<br />

– Produkte<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 85


Dokumente und ihre Strukturierung<br />

• (B 3) audiovisuelle Dokumente<br />

– Bil<strong>der</strong><br />

– Filme / Filmsequenzen<br />

• Son<strong>der</strong>form: generische Sequenzen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 86


Dokumente und ihre Strukturierung<br />

• (B 3) audiovisuelle Dokumente<br />

– Ton (Schall)<br />

• Musik<br />

• gesprochene Sprache („Wortarchiv“)<br />

• Geräusche<br />

• (B 4) multimediale Dokumente (Mischformen)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 87


Dokumente und ihre Strukturierung<br />

• (B 5) Museumsdokumente<br />

– archäologische Funde<br />

– Kunstwerke<br />

– kulturgeschichtliche Gegenstände<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 88


Dokumente und ihre Strukturierung<br />

• Die Einheit <strong>der</strong> Dokumente (Texte – Objekte):<br />

Dokumentarische Bezugseinheit (DBE)<br />

stets gleichbleibende Einheit <strong>der</strong> Vorlagen, die in einen<br />

Informationsspeicher aufgenommen werden, hierbei ggf.<br />

analytische „Zerlegung“ <strong>der</strong> Vorlagen<br />

Beispiele:<br />

Buch (als Ganzes) - Buchkapitel<br />

dto. - Abbildung; Tabelle<br />

Zeitschrift (als Ganzes) - Artikel<br />

Korrespondenz - einzelner Brief<br />

Film - Filmsequenz<br />

Münzsammlung - einzelne Münze<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 89


Dokumente und ihre Strukturierung<br />

• Was wird in die Datenbank aufgenommen?<br />

Dokumentationswürdigkeit<br />

Kriterienkatalog, <strong>der</strong> die Entscheidung fundiert, ob eine<br />

bestimmte DBE in den Informationsspeicher aufgenommen<br />

wird o<strong>der</strong> nicht<br />

Grundaspekte:<br />

– Relevanz des Dokuments<br />

– Informationsbedarf <strong>der</strong> Nutzer<br />

– bisheriger Stand <strong>der</strong> Datenbank<br />

Spezifische Aspekte:<br />

– thematische Kriterien<br />

– formale Kriterien (Bsp.: nur wissenschaftliche Artikel;<br />

nur HTML-Dateien)<br />

– Finanzrahmen - Personalressourcen - Zeit<br />

– ggf.: Neuigkeit<br />

– ggf.: kritische Prüfung des Inhalts<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 90


Dokumente und ihre Strukturierung<br />

• Datenstrukturierung:<br />

Identifikation kleinster<br />

Beschreibungseinheiten für<br />

bestimmte Typen von<br />

dokumentarischen<br />

Bezugseinheiten (DBE)<br />

• Bsp.: wissenschaftlicher<br />

Aufsatz. FELDER:<br />

• Autor(en)<br />

• Sachtitel<br />

• Zeitschriftentitel<br />

Metadaten<br />

• Jahrgang<br />

• Seitenzahl<br />

• Themen usw.<br />

• Dokumentstrukturierung:<br />

Zerlegung eines bestimmten Types<br />

von dokumentarischen<br />

Bezugseinheiten (DBE) - auch - im<br />

Sinne von Markup-Sprachen<br />

• Bsp.: wissenschaftlicher Aufsatz.<br />

STRUKTUR:<br />

• Sachtitel<br />

• Autor(en)<br />

• Titel des 1. Abschnitts<br />

• Text des 1. Abschnitts:<br />

Strukturdaten<br />

Problemstellung<br />

• darin: Fußnote(n)<br />

• Titel des 2. Abschnitts<br />

• Text des 2. Abschnitts: Methodik<br />

usw.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 91


Dokumente und ihre Strukturierung<br />

Dokumentstrukturierung (bei digitalen Dokumenten)<br />

– Beschreibung einer Dokumentstruktur innerhalb des<br />

Dokuments mittels einer beson<strong>der</strong>en Sprache (Markup<br />

Language, Seitenbeschreibungssprache)<br />

– für Textverarbeitung und -publikation (seit 1986): Standardized<br />

Generalized Markup Language (SGML). Umfassendes Konzept<br />

einer Markup-Sprache<br />

– für Beschreibung verlinkter Dokumente (seit 1989): Hypertext<br />

Markup Language (HTML). Eingeschränkte Sprache (ohne<br />

Möglichkeit zur wissensabbildenden Dokumentstrukturierung),<br />

dafür aber für Hypertextstrukturen anwendbar<br />

– Seitenbeschreibung und Hypertext: eXtensible Markup<br />

Language (XML). Bündelung <strong>der</strong> Vorteile von SGML und<br />

HTML. „Industriestandard“. <strong>Wissensrepräsentation</strong> möglich.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 92


Dokumente und ihre Strukturierung<br />

• Datenstrukturierung / Definition <strong>der</strong> Metadaten:<br />

Vorgehen<br />

• 1. Datenbankdesign: Feldschema<br />

• 2. Zusammenspiel <strong>der</strong> Datenbanken (falls mehrere)<br />

• 3. Beschreibung <strong>der</strong> Fel<strong>der</strong><br />

– Suchfel<strong>der</strong> (möglichst kontrolliertes Vokabular)<br />

– Anzeigefel<strong>der</strong><br />

• 4. Regelwerk (konkrete Anweisungen für jedes Feld)<br />

• 5. (ggf.) Nutzung von Hilfsmitteln (z.B. Normlisten von<br />

Län<strong>der</strong>namen o<strong>der</strong> Thesauri)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 93


Dokumente und ihre Strukturierung<br />

Datenstrukturierung<br />

• Datenbankdesign: Beschreibung des Dokuments in einem<br />

Feldschema, dabei Festlegung von Merkmalen für jedes Feld<br />

– Feldname Jahrgang<br />

– Kurzbezeichnung YR<br />

– Schlüsselfeld (ja, nein) nein<br />

– Anzahl Werte (ein Wert, genau 1 Wert<br />

mehrere Werte: Subfel<strong>der</strong>)<br />

– Typ <strong>der</strong> Feldwerte (alpha- ganze Zahl<br />

numerisch, Formel, Datum,<br />

Betrag, Text, ganze Zahl, ...)<br />

– Normdaten ja<br />

– ggf.: Feldlänge 4 Stellen<br />

– Index (ja, nein) ja<br />

• Wortindex ja<br />

• Phrasenindex nein<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 94


Dokumente und ihre Strukturierung<br />

• Zusammenspiel <strong>der</strong> Datenbanken<br />

• Beispiel:<br />

Kunstwerke<br />

• Categories for the<br />

Descriptions of Works<br />

of Art (CDWA)<br />

• Getty Standards<br />

Program<br />

Categories for the Descriptions of Works of Art.<br />

www.getty.edu/research/conducting_research/standards/cdwa/index.html<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 95


Dokumente und ihre Strukturierung<br />

• Feldsschema. Beispiel: Kunstwerke<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 96


Dokumente und ihre Strukturierung<br />

• Feldbeschreibung. Beispiel: Feld: Abmessungen - Subfeld:<br />

Dimensionen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 97


• Feldschema.<br />

Beispiel:<br />

Wissenschaftliche<br />

Literatur<br />

Dokumente und ihre Strukturierung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 98


Ansicht<br />

einer<br />

Webseite<br />

Dokumente und ihre Strukturierung<br />

Beispiel: Webseite<br />

Metadaten<br />

in<br />

„Meta Tags“<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 99


Dokumente und ihre Strukturierung<br />

formalbibliographische<br />

Metadaten<br />

formale<br />

Erfassung<br />

Metadaten<br />

inhaltsbezogene<br />

Metadaten<br />

Inhaltserschließung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 100


Dokumente und ihre Strukturierung<br />

Metadaten: Formale Erfassung<br />

• Abbildung nicht inhaltsbezogener Informationen <strong>der</strong><br />

dokumentarischen Bezugseinheit auf die Erfassungsfel<strong>der</strong><br />

einer Datenbank<br />

• für jedes Feld werden Erfassungsregeln definiert<br />

• soweit möglich: für jedes Feld werden Normdaten<br />

gesammelt<br />

• Regelwerk für formale Erfassung von<br />

Bibliotheksmaterialen: AACR (Anglo-American Cataloging<br />

Rules) (mit Son<strong>der</strong>regeln für audiovisuelle Materialien,<br />

Musikalien, Karten und unselbständig erschienener Werke)<br />

• für die Erfassung von Internet-Dokumenten werden die<br />

Dublin-Core-Elements diskutiert<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 101


Dokumente und ihre Strukturierung<br />

Formale Erfassung / Regelwerk / Normdaten<br />

Beispiel: ... wenn man versucht, ohne auszukommen<br />

Register:<br />

Henzinger M<br />

Monika Henzinger<br />

Henzinger Monika<br />

Henzinger Monika R<br />

Monika R Henzinger<br />

Henzinger Monika Rauch<br />

Monika Rauch Henzinger<br />

Henzinger Monika R.<br />

Monika Rauch-Henzinger<br />

Henzinger, M<br />

Monika R. Henzinger<br />

Henzinger, Monika<br />

Rauch Henzinger Monika<br />

Henzinger, Monika R<br />

Henzinger, Monika Rauch<br />

Rauch Henzinger, Monika<br />

Henzinger, Monika R.<br />

Rauch-Henzinger Monika<br />

Rauch-Henzinger, Monika<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 102


Dokumente und ihre Strukturierung<br />

Formale Erfassung / Regelwerk / Normdaten<br />

• mit Regel: bei Personennamen Ansetzung: Nachname<br />

Komma Leerzeichen Vorname (ausgeschrieben)<br />

Leerzeichen zweiter Vorname o<strong>der</strong> Mittelname (nur erster<br />

Buchstabe mit Punkt)<br />

• Beispiel: Register: Henzinger, Monika R.<br />

Rauch, Monika<br />

• mit Normdaten: je Person ein Datensatz<br />

Name in Normform:Henzinger, Monika R.<br />

Geburtsdatum: tt.mm.jjjj<br />

Zusatzinformationen: ehemalige Forschungsleiterin Google<br />

Verweis: Rauch, Monika<br />

• Beispiel: Register: Henzinger, Monika R.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 103


Dokumente und ihre Strukturierung<br />

Formale Erfassung / Regelwerk / Normdaten. Beispiele:<br />

Gertrud von Le Fort Le Fort, Gertrud von (dt.)<br />

Ernst Aus‘m Weerth Aus‘m Weerth, Ernst (dt.)<br />

Julia Rauh-von <strong>der</strong> Schule Rauh-von <strong>der</strong> Schule, Julia (dt.)<br />

Jean de la Fontaine La Fontaine, Jean de (fr.)<br />

Louis de Broglie Broglie, Louis de (fr.)<br />

Louis de Rouvroy Duc de Saint-Simon, Louis de Rouvroy<br />

Saint-Simon Duc de (fr.)<br />

Ali ibn Haduga Ibn Haduga, Ali (arab.)<br />

Lola Réz (verh.: Kosáry) Kosáryné-Réz, Lola (ungar.)<br />

Anton <strong>der</strong> Kin<strong>der</strong>en Kin<strong>der</strong>en, Anton <strong>der</strong> (nl.)<br />

Anton Du Perron Du Perron, Anton (nl.)<br />

Andrej N. Rimskij-Korsakov Rimskij-Korsakov, Andrej Nikolajevich (russ.)<br />

Constance Lytton (Tochter Lytton, Lady Constance (engl. UK)<br />

eines Dukes)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 104


Formale Erfassung<br />

Dokumente und ihre Strukturierung<br />

• Ansetzung <strong>der</strong> Namen von Körperschaften<br />

– Beispiel „untergeordnete Körperschaft“: Referat Frauenpolitik <strong>der</strong> SPD.<br />

Ansetzungsform: Sozialdemokratische Partei Deutschlands / Referat<br />

Frauenpolitik<br />

– Beispiel „selbständige Körperschaft“: ifo Institut, München.<br />

Ansetzungsform: ifo Institut für Wirtschaftsforschung e.V. <br />

– Beispiel „Gebietskörperschaft“: Kongeriget Danmark.<br />

Ansetzungsform: Danmark. Bsp.: Polizeidirektion Bonn.<br />

Ansetzungsform: Nordrhein-Westfalen / Polizeidirektion <br />

• bei nicht-lateinischen Schriften: Transliteration (etwa nach: ISO)<br />

– Beispiel: BAPHA (bulg.). Transliteration: Varna<br />

• bei allen Ansetzungen: Verweise von möglichen Varianten auf die<br />

Normansetzung<br />

Uta Krischker: Formale Analyse (Erfassung) von Dokumenten. – In: Grundlagen <strong>der</strong> praktischen<br />

Information und Dokumentation. – München [u.a.]: Saur, 3 1990, 63-89.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 105


Formale Erfassung.<br />

Dokumente und ihre Strukturierung<br />

• Erfassung von Webseiten<br />

• „Dublin Core Elements“ Feldname (Version 1.0)<br />

– Titel title<br />

– Autor/Urheber creator<br />

– Thema/Schlagwörter subject<br />

(vorgeschlagen: kontrolliertes Vokabular o<strong>der</strong> Klassifikation)<br />

– Inhaltsbeschreibung description<br />

(Abstract bzw. Beschreibung nicht-textueller Dokumente)<br />

– Herausgeber/Verlag publisher<br />

– an<strong>der</strong>er Beteiligter contributor<br />

(etwa: Illustrator, Übersetzer)<br />

– Datum (in <strong>der</strong> Form: yyyy-mm-dd) date<br />

– Dokumenttyp resource type<br />

(etwa: Homepage, Arbeitspapier, Gedicht, Foto)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 106


Dokumente und ihre Strukturierung<br />

• „Dublin Core Elements“ (2) Feldname (Version 1.0)<br />

– Datenformat format<br />

(Dateityp, ggf. Dateigröße)<br />

– Identifikation <strong>der</strong> Ressource identifier<br />

(URL [uniform resource locator], DOI [digital object identifier], ...)<br />

– Quelle source<br />

– Sprache language<br />

– Beziehungen relation<br />

– thematische Abdeckung coverage<br />

(räumliche und zeitliche Charakteristika des Inhalts)<br />

– Rechte rights<br />

(Vermerk über Rechteinhaber)<br />

• Bisher konnten sich die „Dublin Core Elements“ im WWW [noch?]<br />

nicht durchsetzen.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 107


Dokumente und ihre Strukturierung<br />

• Metadaten: Inhaltserschließung<br />

• Abbildung inhaltsbezogener Informationen <strong>der</strong> dokumentarischen<br />

Bezugseinheit auf die Erschließungsfel<strong>der</strong> einer Datenbank<br />

• Inhaltserschließung geschieht durch INDEXIEREN und<br />

REFERIEREN<br />

– Indexieren ist die Abbildung <strong>der</strong> Themen (ggf. <strong>der</strong><br />

Themenkomplexe) durch Begriffe (Ursprung des Wortes:<br />

Buchindex)<br />

– Referieren ist die Abbildung <strong>der</strong> thematisierten Sachverhalte<br />

durch (wenige) Sätze<br />

• Inhaltserschließung geschieht entwe<strong>der</strong> automatisch o<strong>der</strong><br />

intellektuell (o<strong>der</strong> Mischform)<br />

• Inhaltserschließung macht von eigenen Methoden und von<br />

spezifischen Werkzeugen Gebrauch.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 108


Dokumente und ihre Strukturierung<br />

Funktion 1:<br />

Informationsfilter<br />

Inhaltserschließung<br />

Funktion 2:<br />

Informationsverdichtung<br />

Indexieren Referieren<br />

Optimales Suchen und Finden von Dokumenten<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 109


Dokumentationssprachen I:<br />

Klassifikationssysteme<br />

(Taxonomien)


Klassifikationssysteme<br />

Klassifikation - Grundlegende Literatur<br />

• Brian Buchanan: Bibliothekarische Klassifikationstheorie. –<br />

München: Saur, 1989.<br />

• DIN 32705: Klassifikationssysteme<br />

• Konrad Umlauf: Einführung in die bibliothekarische Klassifikationstheorie<br />

und –praxis. – Berlin: HU / Inst. f. Bibl.wiss., 1999.<br />

(www.ib.hu-berlin.de/~kumlau/handreichungen/h67/).<br />

• Advances in Classification Research. Proceedings of the xxth ASIS&T<br />

SIG/CR Workshop. – Medford: Information Today (<strong>der</strong>zeit Bd. 13,<br />

2004).<br />

• Hans-Jürgen Manecke: Klassifikation. – In: Grundlagen <strong>der</strong><br />

praktischen Information und Dokumentation. – München: Saur, 4 1997,<br />

141-159.<br />

• Evgenij I. Samurin: <strong>Geschichte</strong> <strong>der</strong> bibliothekarisch-bibliographischen<br />

Klassifikation. – Pullach: Verl. Dokumentation, 1967 (Bd. 1),<br />

1968 (Bd. 2).<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 111


Klassifikationssysteme<br />

Klassifikation ist ein Hilfsmittel zur ORDNUNG von<br />

Gegenständen o<strong>der</strong> von Wissen über Gegenstände<br />

– praktische Aufgabe: Ordnen von Gegenständen (in einem<br />

Lager, im Supermarkt, im Küchenschrank, ...)<br />

– informationswissenschaftliche und -praktische Aufgabe:<br />

Anordnen, Bei-, Neben- und Einordnen, Einteilen,<br />

Gruppieren, Unterordnen, Zusammenordnen, Zuordnen von<br />

Wissen<br />

– wissenschaftliche Aufgabe: angemessene Darstellung von<br />

Wissenseinheiten (z.B. Taxonomie in <strong>der</strong> Biologie:<br />

„Systema naturae“ von Carl von Linné, o<strong>der</strong> Physik:<br />

Periodensystem <strong>der</strong> Elemente)<br />

– erkenntnisvermittelnde Aufgabe: Aufhellung von<br />

Zusammenhängen anhand geordneten Wissens<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 112


Klassifikationssysteme<br />

Grundbegriffe<br />

• Klasse: (intensional o<strong>der</strong> extensional) definierter Gegenstand<br />

(Allgemein- o<strong>der</strong> Individualbegriff)<br />

• Klassifizieren: Erstellen eines Klassifikationssystems; Bilden<br />

von Klassen<br />

• Klassieren: Einordnen von DBE in Klassen<br />

• Notation: nicht-natürlichsprachiges Wort als Name einer<br />

Klasse<br />

• Bezeichnungen: natürlichsprachige Übersetzungen einer<br />

Notation<br />

• Die Erstellung und Weiterentwicklung von Klassifikationssystemen<br />

ist in Deutschland normiert.<br />

• DIN 32705. Klassifikationssysteme (1987)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 113


Klassifikationssysteme<br />

Notationsformen<br />

• strukturabbildend hierarchische Notation (Notation bildet<br />

Hierarchierelation ab). Bsp.:<br />

Klasse A: Notation: 1<br />

Klasse B: Notation: 11<br />

Klasse D: Notation: 111<br />

Klasse C: Notation: 15<br />

• sequentielle Notation. Bsp.:<br />

Klasse A: Notation: 1<br />

Klasse B: Notation: 3<br />

Klasse D: Notation: 8<br />

Klasse C: Notation: 5<br />

Relationen in Begriffssystemen<br />

Begriffsleiter<br />

Assoziationsrelation<br />

Topterm<br />

Bottomterms<br />

Hierarchierelation<br />

Polyhierarchie<br />

G H I<br />

• hierarchisch-sequentielle Notation - Mischform (Notation auf<br />

gewissen Hierarchieebenen hierarchisch, sonst sequentiell)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 114<br />

A<br />

B C<br />

D Begriffs- E -reihe<br />

F


Klassifikationssysteme<br />

• Vorteil <strong>der</strong> Notation: international einsetzbar<br />

Beispiel:<br />

vacuum cleaner<br />

Staubsauger<br />

dammsugaren<br />

aspirateur DK 648.525<br />

aspiratore di polvere<br />

aspirador de polvo<br />

odkurzacz<br />

• Nachteil <strong>der</strong> Notation: mnemotechnisch nicht<br />

beherrschbar<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 115


Klassifikationssysteme<br />

• Präkombinationsgrad <strong>der</strong> Begriffe: i.d.R. hoch (präkombinierte<br />

Begriffe bevorzugt). Bsp.: „Witterungsabläufe in Mittelgebirgslagen<br />

subtropischer Zonen“ als 1 Klasse<br />

• i.d.R. monohierarchisch (ohne Unterscheidung nach Abstraktionsund<br />

Bestandsrelation); zusätzlich: (Quasi-)Synonyme;<br />

Assoziationsrelation sehr eingeschränkt<br />

• häufig: neben einer Basiskategorie weitere spezielle Kategorien<br />

(als „Anhängezahlen“, „Ergänzungszahlen“ o<strong>der</strong> „Indexcodes“)<br />

• Klassifikationssystem:<br />

– (1) Lexikon: systematische Tafeln, ggf. Hilfstafeln (jeweils Notationen<br />

und Bezeichnung/en); hierzu: Register (mit Synonymen)<br />

– (2) Grammatik: spezielle Zeichen, Regeln für den Umgang mit den<br />

Zeichen<br />

– (3) Hinweise: u.a. Anmerkungen, Querverweise o<strong>der</strong> Vorrangregeln<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 116


Klassifikationssysteme<br />

• Grundlegende Regeln:<br />

– ein Objekt - eine Klasse<br />

– damit: ein Objekt - eine Notation<br />

– eine Notation - mehrere Bezeichnungen (Fremdsprachen,<br />

Akronyme, Synonyme)<br />

– jede Bezeichnung sollte für sich selbst sprechen (u.U.<br />

definierende Zusätze anbringen)<br />

– Einstieg für Nutzer über Systematik (Notationen) und<br />

Bezeichnungen (möglichst in unterschiedlichen natürlichen<br />

Sprachen) gewährleisten<br />

– homonyme Bezeichnungen in die einzelnen Objekte überführen<br />

und auf unterschiedliche Klassen verweisen<br />

– i.d.R. monodimensional (polydimensional nur in Ausnahmefällen)<br />

– Polyhierarchie schlecht o<strong>der</strong> gar nicht ausdrückbar<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 117


Klassifikationssysteme<br />

Klassifikationstypen nach Einsatzgebieten<br />

– Universalklassifikationen<br />

• zur Ordnung von Beständen (sprachlich wie fachlich)<br />

universal ausgerichteter Informationseinrichtungen (z.B.<br />

Universitätsbibliotheken)<br />

• als Zugangshilfe zu Dokumenten im World Wide Web<br />

– Klassifikationen gewerblicher Schutzrechte<br />

– Wirtschaftsklassifikationen<br />

• Branchenklassifikationen (auch zum Zwecke amtlicher<br />

Statistik)<br />

• Produktklassifikationen<br />

– Geographische Klassifikationen<br />

– Medizinische Klassifikationen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 118


Klassifikationssysteme<br />

Universalklassifikationen<br />

• Dewey Decimal Classification (DDC) - von Melvil<br />

Dewey 1876 erstmals eingeführt<br />

• Dezimalklassifikation (DK / UDC / CDU) - auf <strong>der</strong><br />

Basis <strong>der</strong> DDC von Paul Otlet und Henri LaFontaine<br />

um 1900 entwickelt<br />

• Colon Classification (CC) - facettierte Klassifikation<br />

von S.R.Ranganathan (1. Aufl. 1933)<br />

• Allgemeine Systematik für Öffentliche Bibliotheken<br />

(ASB) - als Aufstellordnung in ÖBs (seit 1956)<br />

verwendet<br />

• Yahoo! - Klassifikation<br />

• Open Directory Project (ODP) - Systeme zur<br />

Klassierung von Websites<br />

DK:<br />

unser<br />

1. Beispiel<br />

Yahoo!<br />

unser<br />

2. Beispiel<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 119


Klassifikationssysteme<br />

Dezimalklassifikation (DK)<br />

• Haupttafel / Aufbau:<br />

– 0 Allgemeines<br />

– 1 Philosophie, Psychologie<br />

– 2 Religion, Theologie<br />

– 3 Sozialwissenschaften<br />

– 4 [<strong>der</strong>zeit frei]<br />

– 5 Mathematik, Naturwissenschaften<br />

– 6 Angewandte Wissenschaften, Medizin, Technik<br />

– 7 Kunst, Musik, Sport, Spiele<br />

– 8 Literaturwissenschaft, Sprachwissenschaft<br />

– 9 Geographie, Biographien, <strong>Geschichte</strong><br />

I.C.McIlwaine: The Universal Decimal Classification: Guide to its Use. – The Hague: UDC Consortium, 2000.<br />

Karl Fill: Einführung in das Wesen <strong>der</strong> Dezimalklassifikation. - Berlin, Köln: Beuth Verl., 1981.<br />

Online: www.udcc.org/ (Ausschnitte aus <strong>der</strong> DK)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 120


Klassifikationssysteme<br />

Dezimalklassifikation (DK) - Notationsbeispiel 1<br />

2 Religion, Theologie<br />

29 Nichtchristliche Religionen<br />

291 Allgemeine und vergleichende Religionswissenschaft<br />

291.2 Religiöse Lehren. Dogmen<br />

291.21 Gottheiten. Gegenstand <strong>der</strong> Religion. Verehrung <strong>der</strong><br />

Gottheiten. Göttersagen. Funktionen <strong>der</strong> Götter. Götterund<br />

Geisterwelten<br />

291.213 Verehrung von Menschen, Halbgöttern, Helden,<br />

Heiligen, Herrschern (Apotheose)<br />

291.213.4 Ahnenkult. Kult <strong>der</strong> Hausgötter: Manen, Laren,<br />

Penaten<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 121


Klassifikationssysteme<br />

Dezimalklassifikation (DK) - Notationsbeispiel 2<br />

669 Metallurgie. Metalle und Legierungen<br />

669.1 Eisenhüttenkunde. Eisen und Stahl<br />

669.16 Herstellung von Roheisen<br />

669.162 Roheisenerzeugung. Erste Schmelzung<br />

669.162.2 Hochöfen<br />

669.162.26 Betrieb von Hochöfen<br />

669.162.266 Hochofenabstich<br />

669.162.266.2 Roheisenabstich<br />

669.162.266.23 Abstechen in Gießbetten und Herstellen <strong>der</strong> Masselbetten<br />

669.162.266.232 Abstechen in Gießbetten<br />

669.162.266.232.6 Abstechen in Gießmaschinen<br />

669.162.266.232.64 in Gießmaschinen mit endlosen Bän<strong>der</strong>n<br />

synkategorematischer Begriff; wird erst mit nächsthöherer Ebene vollständig.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 122


Klassifikationssysteme<br />

• Neben den Systematischen Tafeln hat die DK für spezielle<br />

Kategorien Ergänzungstafeln<br />

• Allgemeine Ergänzungszahlen<br />

KATEGORIE SYMBOL<br />

– Sprache =...<br />

– Form (0...)<br />

– Ort (1/... bis 9/...)<br />

– Zeit „...“<br />

– Materialien -03<br />

– Personen -05<br />

• Beson<strong>der</strong>e Ergänzungszahlen<br />

– Kennzeichnungen (-...)<br />

– Aspekte u.a. (.0...)<br />

– Synthese (’...)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 123


• Allgemeine Ergänzungszahlen<br />

<strong>der</strong> Sprache (Beispiele)<br />

– =00 mehrsprachig<br />

– =20 englisch<br />

– =30 deutsch<br />

– =392 friesisch<br />

– =393 nie<strong>der</strong>ländisch<br />

– =393.2 flämisch<br />

– =393.6 afrikaans<br />

– =40 französisch<br />

– =490 provenzalisch<br />

– =499 katalanisch<br />

– =50 italienisch<br />

– =60 spanisch<br />

Klassifikationssysteme<br />

• Allgemeine Ergänzungszahlen<br />

<strong>der</strong> Zeit (Beispiele)<br />

– „-“ vorchristliche Zeit<br />

– „+“ christliche Zeit<br />

– „04/14“ Mittelalter<br />

– „15/19“ Neuzeit<br />

– „32“ Jahreszeiten<br />

– „321“ Frühling<br />

– „322“ Sommer<br />

– ...<br />

– „36“ Zeit in Sicht <strong>der</strong><br />

Not<br />

– „362“ Friedenszeit<br />

– „364“ Kriegszeit<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 124


• Beson<strong>der</strong>e Ergänzungszahlen<br />

(Aspekte) im Bereich DK 7<br />

(Beispiele)<br />

– 7.061 Fälschungen<br />

Klassifikationssysteme<br />

– 7.07 Arten <strong>der</strong><br />

Beschäftigung mit<br />

Kunst<br />

– 7.071 Künstler<br />

– 7.072 Kunstwissenschaft<br />

– 7.073 Kunstliebhaber<br />

– 7.075 Kunsthändler<br />

– 7.078 öffentliche<br />

För<strong>der</strong>ung <strong>der</strong><br />

Kunst<br />

• Systematische Tafel im Bereich<br />

DK 7 (Ausschnitt)<br />

– 737.1 Münzen<br />

– 738.5 Mosaik<br />

– 739.8 Nippes<br />

• Kombination Systematik-Notation<br />

und beson<strong>der</strong>e Ergänzungszahl<br />

– 737.1.061 Fälschungen von<br />

Münzen<br />

– 738.5.061 Fälschungen von<br />

Mosaiken<br />

– 739.8.075 Händler von<br />

Nippes<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 125


DK-Register<br />

Klassifikationssysteme<br />

• enthält in einer natürlichen Sprache alle Benennungen <strong>der</strong><br />

Notationen aus den systematischen Tafeln und aus den<br />

Ergänzungstafeln<br />

• enthält Synonyme und Quasi-Synonyme <strong>der</strong> Benennungen<br />

• Assoziationsrelation („siehe auch“)<br />

• unterscheidet Homonyme bzw. Polyseme<br />

Ausschnittbeispiele:<br />

Deutschland (Geographie) 914.3<br />

--- (<strong>Geschichte</strong>) 943<br />

--- (Ortsanhängezahl) (43)<br />

Dock ... siehe auch Trockendocks<br />

Pinakothek siehe Gemäldegalerien<br />

Schlangen (Zoologie) 598.12<br />

Schlangen (Tierzucht) 636.98<br />

Notation aus<br />

systematischer Tafel<br />

Notation aus<br />

Ergänzungstafel<br />

Assoziationsrelation<br />

Synonym<br />

Homonymkontrolle<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 126


Mehrere Klassen verbinden<br />

(syntaktisches Indexieren)<br />

– (1.) Beziehung. Symbol: :<br />

Beispiel: Lichtbrechung von<br />

Rubinen<br />

Rubin 549.517.1<br />

Lichtbrechung 535.323<br />

also: 549.517.1:535.323<br />

– (2.) Beiordnung. Symbol: +<br />

Beispiel: Mathematik und Physik<br />

Mathematik 51<br />

Physik 53<br />

also: 51+53<br />

Klassifikationssysteme<br />

– (3.) gerichtete Beziehung<br />

Symbol: ::<br />

Beispiel: Verkehrsmedizin<br />

Verkehr 656<br />

Medizin 61<br />

also: 61::656<br />

– (4.) Erstreckung (von-bis)<br />

Symbol: /<br />

Beispiel: <strong>der</strong> Gesamtbereich<br />

Biologie, Botanik, Zoologie<br />

Biologie 57<br />

Botanik 58<br />

Zoologie 59<br />

also: 57/59<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 127


• (5.) Kombination einer DK-<br />

Zahl <strong>der</strong> Haupttafel mit einer<br />

allgemeinen Ergänzungszahl<br />

• Zahl aus Haupttafel [Zeichen<br />

für Typ <strong>der</strong> Ergänzungszahl]<br />

Ergänzungszahl<br />

• Beispiel: Prostitution in<br />

Deutschland<br />

Prostitution 176.5<br />

Zeichen für Ort (...)<br />

allgemeine Ergänzungszahl<br />

Deutschland 43<br />

also: 176.5(43)<br />

Klassifikationssysteme<br />

• (6.) Kombination einer DK-Zahl<br />

<strong>der</strong> Haupttafel mit einer<br />

speziellen Ergänzungszahl<br />

Zahl aus Haupttafel [Zeichen für<br />

Typ <strong>der</strong> Ergänzungszahl]<br />

Ergänzungszahl für markierten<br />

Bereich<br />

Beispiel: Fälschungen von<br />

Mosaiken (siehe oben!)<br />

Mosaik 738.5<br />

Zeichen Ergänzungszahl.0 ...<br />

spezielle Ergänzungszahl<br />

Fälschungen 61<br />

(darf im Bereich 7 eingesetzt<br />

werden)<br />

also: 738.5.061<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 128


Klassifikationssysteme<br />

Fallbeispiel: DK-Suche beim Katalog <strong>der</strong> ETH Zürich: Index<br />

Suchargument<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 129


Klassifikationssysteme<br />

DK-Suche beim Katalog <strong>der</strong> ETH Zürich: Katalogkarte<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 130


Yahoo!<br />

• Grün<strong>der</strong> und <strong>der</strong>zeitige<br />

CEOs: Jerry Yang und<br />

David Filo<br />

• entstanden 1993 aus<br />

einem Verzeichnis von<br />

Bookmarks<br />

• Yahoo: (unsympathische)<br />

Wesen aus „Gullivers<br />

Reisen“; Akronym für „yet<br />

another hierarchical<br />

officious oracle“ o<strong>der</strong><br />

auch schlicht Ausruf<br />

Klassifikationssysteme<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 131


Klassifikationssysteme<br />

Polydimensionale Ordnung<br />

@: Wechsel <strong>der</strong> Begriffsleiter<br />

(unechte) Polyhierarchie<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 132


Klassifikationssysteme<br />

Zuordnung einer<br />

Website zu mehreren<br />

Klassen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 133


Klassifikationssysteme<br />

88mal<br />

Frauen als<br />

Benennung<br />

für<br />

unterschiedliche<br />

Klassen<br />

Klassenbezeichnungen<br />

bei<br />

Yahoo! sind<br />

synkategorematisch.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 134


„Game$“<br />

Yahoo ! - Baumstruktur (Ausschnitt / fingiertes Beispiel: Suche<br />

nach: „The Game of Go“) - Patent US 5991756<br />

Yahoo's Main Menu<br />

1 Recreation 16 Restaurants<br />

5 URL<br />

2 Games<br />

3 Board Games<br />

4 Go<br />

9 Boating<br />

„Go$“<br />

7 Chess<br />

6 URL 8 Tournaments<br />

20 Food To Go<br />

21 Joe's Pizza To Go<br />

22 "To Go" Delivery Services<br />

Kein direkter<br />

Treffer<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 135


Yahoo! Suchalgorithmus<br />

Klassifikationssysteme<br />

• bei Phrase: Anzeige <strong>der</strong> direkten Treffer (Categories [d.h.:<br />

Klassenbenennungen], Sites, News)<br />

• sonst: Elimination von Stoppwörtern<br />

• automatische Rechtsfragmentierung (stets: SUCHTERM*)<br />

• bei genau 1 Suchwort sowie bei mit ODER verknüpften<br />

Suchwörtern: Anzeige <strong>der</strong> direkten Treffer<br />

• bei mehreren mit UND verknüpften Suchwörtern:<br />

• 1. Anzeige <strong>der</strong> direkten Treffer<br />

• 2. Anzeige <strong>der</strong> indirekten Treffer (min. 1 Suchwort direkter Treffer,<br />

an<strong>der</strong>es Suchwort Unterbegriff eines direkten Treffers) -<br />

Aufhebung <strong>der</strong> Probleme mit den Synkategoremata<br />

Jiong Wu: Information Retrieval from Hierarchical Compound Documents / Yahoo Inc. – Patent US 5991756 vom<br />

23.11.1999. – Mechtild Stock; Wolfgang G. Stock: Recherchieren im Internet. – Renningen: expert-verl., 2004, Kap. 2.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 136


Dokument<br />

Dokumentenspeicher<br />

Suchmaschine<br />

The Game<br />

of Go<br />

Anfrage<br />

Trefferliste<br />

Anfrage<br />

Wortindex<br />

Ausgabeliste<br />

1 9 - Recreation Desc. Fun Cat.<br />

2 8 1 Games Desc. - Cat.<br />

3 8 2 Board Games Desc. - Cat.<br />

4 6 3 Go Desc. - Cat.<br />

5 - 4 Title / URL Desc. - Site<br />

6 - 4 Title / URL Desc. - Site<br />

7 8 3 Chess Desc. - Cat.<br />

8 ... 7 Tournements Desc. Contests Cat.<br />

9 ... 1 Boating Desc. Sailing Cat.<br />

...<br />

Game: 2, 3, Null<br />

Gamele: 10,12, Null<br />

Gan<strong>der</strong>: 39, 67, 102, Null<br />

...<br />

Go: 4, 20, 21, 22, ...<br />

Gobble: 82, 102, Null<br />

...<br />

The: Ignore<br />

Dok. Zeit Intervall <strong>der</strong> "Kin<strong>der</strong>"<br />

1 xxx 00/00/0000 2-9 -<br />

2 xxx 00/00/0000 3-8 -<br />

3 xxx 00/00/0000 4-8 -<br />

4 xxx 00/00/0000 5-6 -<br />

5 xxx 00/00/0000 ∅ 10<br />

6 xxx 00/00/0000 ∅ 5<br />

Gewichtung<br />

Struktur <strong>der</strong><br />

Indices<br />

bei<br />

Yahoo!<br />

Patent<br />

US 5991756<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 137


Klassifikationssysteme<br />

Klassifikation gewerblicher Schutzrechte<br />

• Patente und Gebrauchsmuster:<br />

– Internationale Patentklassifikation (IPC)<br />

– ECLA<br />

• Marken:<br />

– Wiener Klassifikation <strong>der</strong> figürlichen Darstellungen<br />

– Nizza Klassifikation <strong>der</strong> Waren<br />

• Geschmacksmuster:<br />

– Locarno Klassifikation <strong>der</strong> Waren<br />

• alle Klassifikationen gewerblicher Schutzrechte werden von<br />

<strong>der</strong> World Intellectual Property Organization (WIPO) in Genf<br />

gepflegt<br />

unsere<br />

Beispiele<br />

Online: classifications.wipo.int<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 138


Klassifikationssysteme<br />

Internationale Patentklassifikation / International<br />

Patent Classification (IPC)<br />

• nach dem Straßburger Abkommen über die IPC (1971; in<br />

Kraft getreten 1975) einheitliche Klassierung aller<br />

Patentschriften weltweit<br />

• neben den Patentämtern halten sich alle Datenbankproduzenten<br />

beim Indexieren an die IPC<br />

• Gegenstandsbereich: alles, was patentiert werden kann,<br />

d.h. alle technischen Gegenstände (Anm.: Dieser Bereich<br />

kann sich von Zeit zu Zeit wandeln; z.Z. etwa bei den<br />

Softwarepatenten)<br />

• <strong>der</strong>zeit (7.Aufl.) rund 69.000 Klassen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 139


Klassifikationssysteme<br />

IPC - Lexikon in 8 Sektionen:<br />

– A Täglicher Lebensbedarf (ca. 7.500 Gruppen)<br />

– B Arbeitsverfahren; Transportieren (16.500)<br />

– C Chemie; Hüttenwesen (13.500)<br />

– D Textilien; Papier (3.000)<br />

– E Bauwesen; Erdbohren; Bergbau (3.000)<br />

– F Maschinenbau; Beleuchtung; Heizung;<br />

Waffen; Sprengen (8.000)<br />

– G Physik (7.000)<br />

– H Elektrotechnik (7.000)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 140


Struktur <strong>der</strong> IPC<br />

Sektion: 1 Stelle (z.B. B)<br />

Klassifikationssysteme<br />

- Klasse: 2 weitere Stellen (z.B. B64)<br />

- Unterklasse: 1 Stelle (z.B. B64C)<br />

- Gruppen: 3 Stellen (z.B. B64C 025)<br />

- Hauptgruppe: 2 Stellen stets 00 (z.B. B64C 025/00)<br />

- Untergruppe: i.d.R 2 Stellen (nicht 00), u.U. bis zu<br />

4 Stellen (z.B. B64C 025/02)<br />

• bis zur Gruppenebene: Notationen strukturabbildend hierarchisch<br />

• Untergruppenebene: Notationen sequentiell<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 141


Klassifikationssysteme<br />

B Arbeitsverfahren; Transportieren<br />

B64 Luftfahrzeuge; Flugwesen; Raumfahrt<br />

B64C Flugzeuge; Hubschrauber; Drehflügelflugz.<br />

B64C 025 --<br />

B64C 025/00 Start- bzw. Landegestelle<br />

B64C 025/02 . Fahrgestelle<br />

B64C 025/08 .. nicht fest angeordnet, z.B. abwerfbar<br />

B64C 025/10 ... einfahrbar, klappbar o<strong>der</strong> dgl.<br />

B64C 025/18 .... Betätigungsmittel<br />

B64C 025/26 ..... Steuerung o<strong>der</strong> Verriegelung dafür<br />

B64C 025/30 ...... Notbetätigung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 142


Hinweise<br />

Klassifikationssysteme<br />

– allgemeine Querverweise<br />

Beispiel: H05B 3/03 Wi<strong>der</strong>standsheizung / Elektroden<br />

(elektrothermische Behandlung von Erzen C22B 4/00)<br />

– Vorrangregel (falls ein Gegenstand an mehreren Stellen<br />

klassiert werden kann, aber nur an einer Stelle klassiert<br />

werden sollte)<br />

Beispiel: H05B 3/40 Heizelemente ... (3/62, 3/68, 3/78<br />

haben Vorrang)<br />

– Orientierungsverweis (Hinweis auf verwandte<br />

Gegenstände)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 143


Hybrid-System<br />

Klassifikationssysteme<br />

– Hybrid-Systeme: an manchen Stellen <strong>der</strong> IPC sind Index-Codes<br />

vorgesehen, die nur in Verbindung mit (dort definierten) an<strong>der</strong>en<br />

Notationen zu verwenden sind (statt des Schrägstriches hier:<br />

Doppelpunkt). Beispiel: B62D (Motorfahrzeuge), B62D 101:00<br />

(Fahrgeschwindigkeit)<br />

– analog zu den speziellen Ergänzungstafeln <strong>der</strong> DK<br />

– verbundene Index-Codes: Darstellung einer Notation und eines<br />

Index-Codes in einer Klammer; Beispiel: (C08F 210/16, 214:06) -<br />

Themenkette i.S. syntaktischen Indexierens<br />

– nicht verbundene Index-Codes: Darstellung des Index-Codes<br />

allein als allgemeine Zusatzinformation<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 144


Klassifikationssysteme<br />

• Klassierung von Erfindungsobjekten<br />

– Funktionsorientierung eines Gegenstandes (z.B. Kolben) und<br />

Anwendungsorientierung eines Gegenstandes (z.B. Anordnung von<br />

Kolben in einem Motor) berücksichtigen!<br />

– System als Ganzes sei Gegenstand: dann auch die nicht trivialen<br />

Einzelheiten klassieren (z.B. gesamte Radaufhängung: wenn wichtig,<br />

auch die Blattfe<strong>der</strong> berücksichtigen)!<br />

– chemische Formeln (insb. organische Verbindungen): alle vollständig<br />

identifizierten Verbindungen berücksichtigen!<br />

– soviele IPC-Notationen wie nötig, um alle Ansprüche des Patentes<br />

wie<strong>der</strong>zugeben<br />

– die Notation(en) des Hauptanspruches als erste nennen, dann<br />

Nebenansprüche (einige Patentämter klassieren nur den<br />

Hauptanspruch)<br />

– X-Notationen: X (an beliebiger Stelle einer Notation) zeigt an, dass die<br />

IPC den abzubildenden Gegenstand nicht genau trifft; hier ist<br />

Handlungsbedarf für Weiterentwicklungen <strong>der</strong> IPC<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 145


Klassifikationssysteme<br />

• Klassierung von Erfindungsobjekten<br />

– Hauptklasse(n)<br />

Hauptansprüche <strong>der</strong> Erfindungsschrift<br />

– Nebenklasse(n)<br />

Nebenansprüche <strong>der</strong> Erfindungsschrift<br />

– Doppelstrichklasse(n)<br />

„Zusatzinformationen“; nicht rechtlicher, son<strong>der</strong>n<br />

ausschließlich technischer Natur (von den<br />

Erfindungsinformationen durch einen Doppelstrich //<br />

getrennt)<br />

– Indexklasse(n)<br />

verbundene / unverbundene Indexcodes<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 146


Klassifikationssysteme<br />

Fallbeispiel: IPC bei DEPATISnet (DPMA)<br />

• Suche in <strong>der</strong> IPC: mit schwarzem Balken am Rand:<br />

Indexcodes; sonst: Notationen<br />

Notationen<br />

Index-<br />

Codes<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 147


Indexcodes<br />

Klassifikationssysteme<br />

IPC in <strong>der</strong> Version bei DEPATISnet<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 148


Klassifikationssysteme<br />

Detailsuche<br />

<strong>der</strong> Expertenmaske<br />

nach:<br />

Hauptklasse,<br />

Nebenklasse,<br />

Doppelstrichklasse,<br />

Indexklasse<br />

möglich<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 149


Klassifikationssysteme<br />

Anzeige <strong>der</strong><br />

bibliographischen<br />

und<br />

inhaltserschließenden<br />

Informationen<br />

zusätzlich:<br />

Volltext<br />

(PDF)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 150


Klassifikationssysteme<br />

ECLA: European Classification System<br />

– IPC: in gewissen Technikbereichen nicht tief genug<br />

geglie<strong>der</strong>t<br />

– ECLA erweitert IPC „nach unten“ und verfeinert das<br />

System<br />

– erarbeitet beim Europäischen Patentamt; wird bei<br />

einigen großen Patentdatenbanken bei Questel-Orbit<br />

eingesetzt<br />

– Bsp.: H04N-007/24C12M2<br />

IPC ECLA<br />

– z.T. diverse neue Klassen (und damit lange Notationen)<br />

David T. Dickens: The ECLA Classification System. – In: World Patent Information 16 (1994), 28-32.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 151


Klassifikationssysteme<br />

ECLA: Bsp. G06F-17/30 Information Retrieval<br />

Online: l2.espacenet.com/espacenet/eclasrch<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 152


Klassifikationssysteme<br />

Wiener Klassifikation <strong>der</strong> figürlichen Darstellungen<br />

– Einsatz bei Markendatenbanken zur inhaltlichen<br />

Beschreibung von Bildmarken (wie die „lila Kuh“ von<br />

Milka)<br />

– seit 1973 (verabschiedet in Wien) international<br />

eingesetzt<br />

– 3 Hierarchieebenen:<br />

• 29 Kategorien<br />

• 144 Abteilungen<br />

• 1.634 Sektionen (in Haupt- und Hilfstafeln)<br />

– formale Graphikelemente (etwa 26: geometrische<br />

Figuren o<strong>der</strong> 29: Farben) und inhaltliche Aspekte (etwa<br />

2: Menschen o<strong>der</strong> 22: Musikinstrumente)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 153


Klassifikationssysteme<br />

Wiener Klassifikation <strong>der</strong> figürlichen Darstellungen / Ausschnitt<br />

– 03 Animals<br />

• 03.01 Quadrupeds (Series I)<br />

– 03.01.01. Lions<br />

– 03.01.04. Tigers or other large felines<br />

– 03.01.06. Cats or other small felines<br />

– 03.01.08. Dogs, wolves, foxes<br />

• ... (gekürzt)<br />

• Auxiliary Section Associated with Principal Section 3.1.1<br />

– A 03.01.02 Heraldic lions<br />

– Auxiliary Section Associated with Principal Section 3.1.1-3.1.15<br />

– A 03.01.17 Animals of Series I standing<br />

– A 03.01.24 Animals of Series I stylized<br />

– Klassierungsbeispiel: stilisierter Hund<br />

– 03.01.08 / 03.01.24<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 154


Klassifikationssysteme<br />

Wirtschaftsklassifikationen<br />

• Klassifikationen <strong>der</strong> Amtlichen Statistik<br />

– NACE (Europäische Union)<br />

– WZ 03 (Deutschland)<br />

– SIC (USA - veraltet)<br />

– NAICS (Nordamerika)<br />

• Spezielle Branchenklassifikationen<br />

– European Business Classification (Schober)<br />

• Produktklassifikationen<br />

– Predicasts Product Codes (Gale Group)<br />

– Kompass<br />

– Dun & Bradstreet SIC<br />

Anneliese Krobath: Analyse von amtlichen und proprietären Wirtschaftsklassifikationen anhand eines Kriterienkatalogs.<br />

– Dipl.-Arb. Karl-Franzens-Univ. Graz, 2004.<br />

Mechtild Stock; Wolfgang G. Stock: Qualität professioneller Firmeninformationen im World Wide Web. - In:<br />

Willi Bredemeier et al.: Die Branche elektronischer Geschäftsinformation in Deutschland 2000/2001. –<br />

Hattingen; Kerpen; Köln, 2001, Kap. 3.2: Branchen- und Produktklassifikationen, 355-377.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 155


NACE<br />

Klassifikationssysteme<br />

• Nomenclature général des activités économiques dans les<br />

Communautés Européens<br />

• NACE (Rev. 1) seit 1993 verbindliche Klassifikation <strong>der</strong><br />

Wirtschaftszweige in <strong>der</strong> EU<br />

• 4-stellige Notationen; <strong>der</strong>zeit 640 Klassen<br />

• 3 Hierarchieebenen Beispiel<br />

– Abteilung (2 Stellen) 29<br />

– Gruppen (1 weitere Stelle) 29.5<br />

– Klassen (1 weitere Stelle) 29.56<br />

– zusätzlich: Abschnitte (Buchstabennotationen),die Abteilungen<br />

sequentiell zusammenfassen, Bsp.: D für die Abteilungen 15 - 37<br />

NACE Rev. 1: Statistische Systematik <strong>der</strong> Wirtschaftszweige in <strong>der</strong> Europäischen Gemeinschaft. – Luxembourg:<br />

Amt für Amtliche Veröffentlichungen <strong>der</strong> Europäischen Gemeinschaften, 1996. – (Themenkreis 2: Wirtschaft<br />

und Finanzen; Reihe E: Methoden). - Letzte Än<strong>der</strong>ung: NACE Rev. 1.1 (2003).<br />

Online: europa.eu.int/comm/eurostat/ramon/geninfo/geninfo_de.html<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 156


Klassifikationssysteme<br />

A Land- und Fortwirtschaft 01, 02<br />

B<br />

C<br />

D<br />

Fischerei und Fischzucht<br />

Bergbau und Gewinnung von Steinen und Erden<br />

Verarbeitendes Gewerbe<br />

NACE<br />

1. Hierarchie-<br />

05<br />

10 bis 14<br />

15 bis 37<br />

E Energie- und Wasserversorgung ebene<br />

40, 41<br />

F Baugewerbe 45<br />

G Handel, Instandhaltung und Reparatur von Kraftfahrzeugen<br />

und Gebrauchsgütern 50 bis 52<br />

H Gastgewerbe 55<br />

I Verkehr und Nachrichtenübermittlung 60 bis 64<br />

J Kredit- und Versicherungsgewerbe 65 bis 67<br />

K Grundstücks- und Wohnungswesen, Vermietung beweglicher<br />

Sachen, Erbringung von Dienstleistungen f. Unternehmen 70 bis 74<br />

L Öffentliche Verwaltung, Verteidigung, Sozialversicherung 75<br />

M Erziehung und Unterricht 80<br />

N Gesundheits-, Veterinär- und Sozialwesen 85<br />

O Erbringung von sonstigen öffentlichen und<br />

persönlichen Dienstleistungen 90 bis 93<br />

P Private Haushalte 95<br />

Q Exterritoriale Organisationen und Körperschaften 99<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 157


Klassifikationssysteme<br />

WZ 93 / WZ 03<br />

• Übernahme <strong>der</strong> NACE in die deutsche amtliche Statistik ab<br />

1993 als „Klassifikation <strong>der</strong> Wirtschaftszweige“ (WZ 93) –<br />

Überarbeitung 2003<br />

• 5-stelliger Code (die letzte Stelle gilt nur für Deutschland)<br />

• 1.700 Klassen<br />

• Einsatz bei<br />

– Statistisches Bundesamt, Bürgel, Creditreform, Hoppenstedt,<br />

AZ Bertelsmann, Schober<br />

• Achtung: z.T. Klassen ohne Än<strong>der</strong>ung <strong>der</strong> Definition gegenüber<br />

Oberbegriffen<br />

• Beispiel: 35.3 (Luft- und Raumfahrzeugbau)<br />

– 35.30 (Luft- und Raumfahrzeugbau (bis hierhin: NACE Rev. 1) - ohne<br />

Informationsgewinn<br />

» 35.30.0 (Luft- und Raumfahrzeugbau (5. Stelle <strong>der</strong> WZ 93) - wie<strong>der</strong>um<br />

ohne Informationsgewinn<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 158


Klassifikationssysteme<br />

NACE - WZ 03 / Beispiel: Druckmaschinen<br />

• 29 (Maschinenbau)<br />

• 29.5 (Herstellung von Maschinen für sonstige<br />

bestimmte Wirtschaftszweige)<br />

• 29.56 (Herstellung von Maschinen für bestimmte<br />

Wirtschaftszweige a.n.g.) - bis hierhin: NACE<br />

• 29.56.1 (Herstellung von Maschinen für das<br />

Druckgewerbe) - nur für den Gebrauch in Deutschland<br />

Alphabetisches Verzeichnis zur Klassifikation <strong>der</strong> Wirtschaftszweige, Ausgabe 1993. – Stuttgart:<br />

Metzler-Poeschel, 1993.<br />

Online: www.destatis.de/allg/d/klassif/wz2003.htm<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 159


Klassifikationssysteme<br />

Standard Industrial Classification (SIC)<br />

• 1939 - 1997 Klassifikation <strong>der</strong> Amtlichen Statistik <strong>der</strong> USA<br />

• letzte erschienene Revision: 1987<br />

• abgelöst durch NAICS 1997<br />

• wird <strong>der</strong>zeit noch von vielen Informationsproduzenten<br />

eingesetzt, u.a. Information Access Group, Dun &<br />

Bradstreet, Hoppenstedt, Schober<br />

• 4-stellige Notationen - rund 1.000 Klassen<br />

• hierarchischer Notationsaufbau, 4 Hierarchieebenen<br />

• stets mit „0“ auf vier Stellen aufgefüllt<br />

Online: www.osha.gov/oshstats/sicser.html<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 160


SIC / Grundstruktur<br />

Klassifikationssysteme<br />

– 0 Landwirtschaft, Forstwirtschaft, Fischerei<br />

– 1 Bergbau, Rohstoffe, Hoch- und Tiefbau<br />

– 2 Herstellung kurzlebiger Verbrauchsgüter<br />

– 3 Herstellung langlebiger Gebrauchsgüter<br />

– 4 Transport, Nachrichtentechnik, Versorgungsbetriebe<br />

– 5 Groß- und Einzelhandel<br />

– 6 Finanzdienstleistungen<br />

– 7 (an<strong>der</strong>e) Dienstleistungen<br />

– 8 Gesundheit und Bildung<br />

– 9 Staat, Regierung<br />

SIC / Beispiel: Druckmaschinen<br />

3000 (Herstellung langlebiger Gebrauchsgüter)<br />

3500 (Maschinenbau)<br />

3550 (Maschinenbau - Spezialmaschinen)<br />

3555 (Maschinenbau - Druck)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 161


Klassifikationssysteme<br />

NAICS / North American Industry Classification System<br />

• keine SIC-Revision, son<strong>der</strong>n neues System<br />

– durchgehend neu: Notationen<br />

– aus SIC unverän<strong>der</strong>t übernommen: 422 Klassen<br />

– aus SIC revidiert übernommen: 390 Klassen<br />

– neue Klassen: 358 Klassen (z.B. „51 Information“)<br />

– 6-stelliger Code - 1.170 Klassen<br />

– 5 Hierarchieebenen<br />

• Sektoren (2 Stellen) - sequentielle Notationen<br />

• Subsektor (1 weitere Stelle) - ab hier hierarchische Notationen<br />

• Branchengruppe (1 Stelle)<br />

• Branche (1 Stelle) - bis hierhin international (NAFTA-Län<strong>der</strong>)<br />

• Teilbranche (1 Stelle) - landesspezifisch für USA, Kanada,<br />

Mexiko<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 162


• 11 Agriculture, Forestry, Fishing<br />

and Hunting<br />

• 21 Mining<br />

• 22 Utilities<br />

• 23 Construction<br />

• 31-33 Manufacturing<br />

• 42 Wholesale Trade<br />

• 44-45 Retail Trade<br />

• 48-49 Transportation and<br />

Warehousing<br />

• 51 Information<br />

• 52 Finance and Insurance<br />

• 53 Real Estate and Rental and<br />

Leasing<br />

• 54 Professional, Scientific, and<br />

Technical Services<br />

Klassifikationssysteme<br />

• 55 Management of Companies and<br />

Enterprises<br />

• 56 Administrative and Support and<br />

Waste Management and<br />

Remediation Services<br />

• 61 Educational Services<br />

• 62 Health Care and Social<br />

Assistance<br />

• 71 Arts, Entertainment, and<br />

Recreation<br />

• 72 Accommodation and Food<br />

Services<br />

• 81 Other Services (except Public<br />

Administration)<br />

• 92 Public Administration<br />

NAICS: 1. Hierarchieebene<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 163


Klassifikationssysteme<br />

NAICS<br />

• eingesetzt bei:<br />

– Amtlicher Statistik USA, Kanada und Mexiko<br />

– Datenbanken <strong>der</strong> Gale Group (u.a. PROMT)<br />

– (einigen) Firmendatenbanken in den USA<br />

• Beispiel: Druckmaschinen<br />

– 31 - 33 (Manufacturing)<br />

– 333 (Machinery Manufacturing)<br />

– 3332 (Industrial Machinery Manufacturing)<br />

– 33329 (Other Industrial Machinery Manufacturing)<br />

– 333293 (Printing Machinery and Equipment<br />

Manufacturing)<br />

North American Industry Classification System. – Lanham, MD: Bernan Press, 1998. Letzte Än<strong>der</strong>ung: NAICS 2002.<br />

Ruth A. Pagell; Patricia J.S. Weaver: NAICS: NAFTA‘s industrial classification system. – In: Business Information<br />

Review 14 (1997) 1, 36-44.<br />

Online: www.naics.com<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 164


Klassifikationssysteme<br />

Spezielle Branchenklassifikation: Schober<br />

– „European Business Classification“ (EBC)<br />

– rund 10.000 Klassen für Wirtschaftsbranchen und<br />

Wirtschaftsaktivitäten zur Unterstützung <strong>der</strong> Suche in einer<br />

B-to-B-Adressdatenbank<br />

– Beispiele für Klassen <strong>der</strong> Wirtschaftsaktivitäten<br />

• 6679 DIMA Düsseldorf<br />

• 5273 INFOBASE Intern. Fachmesse für Kommunikation Frankfurt<br />

– Beispiel Druckmaschinen<br />

• 703 Druckmaschinen Hersteller<br />

• 2557 Papier- und Druckmaschinen Hersteller<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 165


Klassifikationssysteme<br />

Produktklassifikation 1: Gale-Codes (Predicasts-Codes)<br />

• angelehnt an SIC; erweitert auf 7 Stellen<br />

• Beispiel: 0174 (Zitrusfrüchte)<br />

– 0174007 Pampelmusen<br />

– 0174012 Zitronen<br />

– 0174013 Limonen<br />

– 0174015 Apfelsinen<br />

– 0174019 Mandarinen<br />

– 0174021 Tangelos<br />

– 0174022 Temples<br />

– 0174024 Orangen, Valencia<br />

– 0174099 Zítrusfrüchte, sonstige<br />

• Einsatz: in diversen Gale-Datenbanken<br />

Online: support.dialog.com/searchaids/dialog/galecodes/<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 166


Klassifikationssysteme<br />

Produktklassifikation 2: Dun & Bradstreet SIC<br />

• Erweiterung <strong>der</strong> SIC um zwei weitere Hierarchieebenen<br />

(jeweils 2-stellig)<br />

• über 18.000 Klassen<br />

• Stellen 1 bis 4: SIC<br />

• Stellen 5 und 6: Produktgruppe<br />

• Stellen 7 und 8: Produkte<br />

• wie bei SIC üblich: Auffüllen nach rechts freier Stellen<br />

durch Nullen<br />

• Einsatz: (geplant bzw. <strong>der</strong>zeit in Arbeit): bei <strong>der</strong> D&B-<br />

Firmendatenbank<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 167


Klassifikationssysteme<br />

D&B SIC. Beispiel Druckmaschinen<br />

35550000 (Printing Trades Machinery)<br />

35550100 (Printing Presses)<br />

35550101 (Presses, Envelope, Printing)<br />

35550102 (Presses, Gravure)<br />

35550200 (Printing Plades)<br />

35550201 (Plates, Metal: Engravers')<br />

35550202 (Plates, Offset)<br />

usw. (gekürzt)<br />

35559900 (Printing Trades Machinery, NEC)<br />

35559901 (Bronzing or Dusting Machines for the Printing Trade)<br />

usw. (gekürzt)<br />

35559906 (Typographic Numbering Machines).<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 168


Klassifikationssysteme<br />

Produktklassifikation 3: Kompass<br />

• Eigenes Produktklassifikationssystem <strong>der</strong> Kompass-<br />

Firmendatenbanken<br />

• Gegenstand: B-to-B Produkte und Dienstleistungen - rund<br />

50.000 Klassen<br />

• 3 Hierarchieebenen:<br />

– Branche (2-stellig)<br />

– Fachgruppen (weitere 3 Stellen)<br />

– Produkte (weitere 2 Stellen)<br />

• auf <strong>der</strong> Ebene <strong>der</strong> Fachgruppe zusätzlich: I / E (Import- bzw.<br />

Exportaktivitäten einer Firma)<br />

• auf <strong>der</strong> Ebene <strong>der</strong> Produkte zusätzlich P / D / S (Produktion,<br />

Distribution, Service)<br />

Online: www.kompass.com/<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 169


Kompass<br />

Klassifikationssysteme<br />

Meist hierarchisch strukturiert:<br />

• 20 (Nahrungs- und Genussmittel)<br />

• 20420 (Fische in Konserven und an<strong>der</strong>en Verpackungen)<br />

• 2042052 (Fischfrikadellen, -bällchen und -kuchen in Dosen)<br />

• ... aber mit Ausnahmen:<br />

• 20427 (Fische in Konserven und an<strong>der</strong>en Verpackungen /<br />

Landesspezifische Produkte / Frankreich)<br />

• 2042701 (Bouillabaisse in Konserven)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 170


Klassifikationssysteme<br />

44 (Maschinen und Anlagen für die Zellstoff-, Papier- und Druckindustrie.<br />

Büromaschinen und Anlagen für die elektronische Datenverarbeitung)<br />

44140 (Druckmaschinen und Zubehör / Teil 1)<br />

4414001 (Druckmaschinen, Hochdruck, Flachdruckprinzip)<br />

4414002 (Druckmaschinen, Hochdruck, Rotationsoffsetprinzip)<br />

usw. (gekürzt)<br />

4414053 (Druckmaschinen, Heliografieverfahren)<br />

44141 (Druckmaschinen und Zubehör / Teil 2)<br />

4414122 (Druckmaschinen, Mehrfarben)<br />

4414124 (Druckmaschinen, multifunktional)<br />

usw. (gekürzt)<br />

4414151 (Zylin<strong>der</strong> für Druckmaschinen)<br />

4414152 (Trockner für Druckmaschinen)<br />

usw. (gekürzt)<br />

44149 (Druckmaschinen und Zubehör)<br />

4414901 (Andruckpressen, Flexodruck, Anilindruck)<br />

44160 (Spezielle Druckmaschinen und Zubehör)<br />

usw. (gekürzt)<br />

Kompass.<br />

Bsp.: Druckmaschinen<br />

Achtung<br />

bei 44140<br />

und 44141:<br />

Sequentielle<br />

Notation!<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 171


Klassifikationssysteme<br />

Branchen-Ebene:<br />

Import / Export<br />

Produkt-Ebene:<br />

Produzent / Handel /<br />

Dienstleister<br />

Kompass-Klassifikation<br />

Suchoberfläche<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 172


Klassifikationssysteme<br />

Geographische Klassifikationen<br />

– finden in diversen Datenbanken (auch Wirtschaftsdatenbanken)<br />

zusätzlich zu an<strong>der</strong>en Systemen Einsatz<br />

– haben ihre Wurzeln teilweise in <strong>der</strong> amtlichen Statistik<br />

und finden auch dort ihren Einsatz<br />

– werden auch als Gebietsbeschreibungen in wissenschaftlichen<br />

Untersuchungen (etwa Regionalforschung<br />

o<strong>der</strong> Ökonomie) verwendet<br />

– bedeutende Klassifikationssysteme<br />

• NUTS<br />

• Gale Group Country Codes<br />

• sowie Derivate davon<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 173


NUTS. Nomenclature des unités<br />

territoriales statistiques<br />

– entwickelt von <strong>der</strong> EU zur<br />

amtlichen Statistik und zur<br />

Verwendung bei eigenen<br />

Datenbanken (etwa TED)<br />

– hierarchisches System<br />

• Landesbezeichnung (2-stellig<br />

mit Buchstaben)<br />

• Untereinheit (1-stellig mit<br />

Zahlen; falls mehr als 10<br />

Untereinheiten: zusätzlich mit<br />

Buchstaben)<br />

• weitere Untereinheiten (bis zur<br />

Kreisebene bzw. bis zu den<br />

kreisfreien Städten)<br />

Klassifikationssysteme<br />

Beispiele:<br />

AT Österreich<br />

AT2 Südösterreich<br />

AT22 Steiermark<br />

AT221 Graz<br />

DE Deutschland<br />

DEA Nordrhein-Westfalen<br />

DEA2 Regierungsbezirk Köln<br />

DEA27 Rhein-Erft-Kreis<br />

DEA2A Oberbergischer<br />

Kreis<br />

Online: europa.eu.int/comm/ramon/nuts/home_regions_de.html<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 174


Klassifikationssysteme<br />

NUTS: Suche via Landkarten<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 175


Klassifikationssysteme<br />

GALE Group Country Codes<br />

– entwickelt von Predicasts, übernommen von Gale<br />

– <strong>der</strong>zeit Industriestandard im Bereich <strong>der</strong> Wirtschaftsdatenbanken<br />

– beinhaltet Weltregionen (0 bis 9), Staatengemeinschaften (soweit<br />

vorhanden) und einzelne Län<strong>der</strong><br />

– Glie<strong>der</strong>ung<br />

• 0 Internationales<br />

• 1 Nordamerika<br />

• 2 Mittelamerika<br />

• 3 Südamerika<br />

• 4 Europa<br />

• 5 Karibik<br />

• 6 Afrika<br />

• 7 Mittlerer Osten<br />

• 8 Australien, Ozeanien<br />

• 9 Asien<br />

Online: support.dialog.com/searchaids/dialog/galecodes/<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 176


GALE Group Country Codes<br />

– Beispiele:<br />

1 Nordamerika<br />

1USA USA gesamt<br />

Klassifikationssysteme<br />

1U9 Staaten <strong>der</strong> Westküste<br />

1U9CA Kalifornien<br />

Achtung: Suchen nach USA gesamt und ihrer Staaten in <strong>der</strong><br />

Form: 1U*<br />

4 Europa<br />

4EU Europäische Union<br />

4EUGE Deutschland<br />

Hier nicht strukturabbildend<br />

hierarchische Notation<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 177


Klassifikationssysteme<br />

Derivate <strong>der</strong> GALE Group Country Codes<br />

• da die Gale CC nur bis zur Län<strong>der</strong>ebene reichen, gibt es<br />

Erweiterungen<br />

• Beispiel: Län<strong>der</strong>code <strong>der</strong> ifo Literaturdatenbank für Deutschland<br />

• bis Län<strong>der</strong>ebene: wie Gale CC (also für Deutschland: 4EUGE)<br />

• Bundeslän<strong>der</strong>gruppe (1-stellig, N für neue Län<strong>der</strong>, A für alte<br />

Bundeslän<strong>der</strong>)<br />

• Bundesland (3-stellig, Buchstabencodes)<br />

• Kreise, Städte (Autokennzeichen)<br />

• Beispiel:<br />

– 4EUGE Deutschland<br />

– 4EUGEA alte Bundeslän<strong>der</strong><br />

– 4EUGEABAY Bayern<br />

– 4EUGEABAYFFB Landkreis Fürstenfeldbruck<br />

– 4EUGEABAYFS Landkreis Freising<br />

Bei letzter Hierarchieebene:<br />

sequentielle<br />

Notation<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 178


Klassifikationssysteme<br />

Medizinklassifikation: International Statistical Classification<br />

of Diseases – Ausgabe 10 (ICD-10)<br />

• Auf internationaler Ebene erstellt von <strong>der</strong> World Health<br />

Organization (WHO)<br />

• In Deutschland gepflegt von DIMDI (Köln)<br />

• Einsatz:<br />

– Abrechnung im öffentlichen Gesundheitswesen (u.a.<br />

Krankenhäusern)<br />

– Abrechnung <strong>der</strong> nie<strong>der</strong>gelassenen Ärzte<br />

– Statistik (u.a. Todesursachenstatistik)<br />

• Haupttafeln mit „Schlüsselnummern“ (Notationen)<br />

• Bei den Klassen (i.d.R. bei den Dreistellern): Definitionen<br />

• Klassierregeln für die jeweiligen Klassen<br />

• Allgemeine Klassierregeln<br />

• Zusatzkennzeichen (allgemeine Ergänzungszeichen)<br />

Online: www.dimdi.de/dynamic/de/klassi/download/index.html<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 179


Klassifikationssysteme<br />

ICD-10 – Haupttafel in 21 Kapiteln. Beispiele:<br />

A00-B99 I. Infektiöse und parasitäre Krankheiten<br />

C00-D48 II. Neubildungen<br />

D50-D89 III. Krankheiten des Blutes<br />

E00-E90 IV. Ernährungs- und Stoffwechselkrankheiten<br />

F00-F99 V. Psychische und Verhaltensstörungen<br />

G00-G99 VI. Krankheiten des Nervensystems<br />

H00-H59 VII. Augenkrankheiten<br />

H60-H95 VIII. Ohrenkrankheiten<br />

...<br />

S00-T98 XIX. Verletzungen, Vergiftungen und an<strong>der</strong>e Folgen<br />

äußerer Ursachen<br />

V01-Y98 XX. Äußere Ursachen von Morbidität und Mortalität<br />

Z00-Z99 XXI. Faktoren, die den Gesundheitszustand beeinflussen<br />

und zur Inanspruchnahme des Gesundheitswesens<br />

führen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 180


Klassifikationssysteme<br />

ICD-10. Beispiel Haupttafel: Verletzung nach Fahrradunfall<br />

V01-Y98 Äußere Ursachen von Morbidität und Mortalität<br />

V01-X59 Unfälle<br />

V01-V99 Transportmittelunfälle<br />

V01-V09 Fußgänger bei Transportmittelunfall verletzt<br />

V10-V19 Benutzer eines Fahrrades bei Transportmittelunfall<br />

verletzt<br />

V10 Benutzer eines Fahrrades bei Zusammenstoß mit<br />

Fußgänger o<strong>der</strong> Tier verletzt<br />

V11 Benutzer eines Fahrrades bei Zusammenstoß mit<br />

einem an<strong>der</strong>en Fahrrad verletzt<br />

...<br />

V18 Benutzer eines Fahrrades bei Transportmittelunfall<br />

ohne Zusammenstoß verletzt<br />

jeweils: 4. Stelle: beson<strong>der</strong>e Ergänzungszahl<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 181


Klassifikationssysteme<br />

ICD-10. Beispiel Haupttafel: Fahrradunfall<br />

Beson<strong>der</strong>e Ergänzungszahlen bei V10-V18:<br />

.0 Fahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt<br />

.1 Mitfahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt<br />

...<br />

.3 Person beim Auf- und Absteigen verletzt<br />

...<br />

Notation einer Verletzung durch Stürzen beim Aufsteigen auf ein<br />

Fahrrad (ohne Zusammenstoß)<br />

V18.3<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 182


Klassifikationssysteme<br />

ICD-10. Allgemeine Klassierregeln<br />

(1) Kreuz-Stern-System<br />

– Mit einem Kreuz (+) versehene Klassen bedürfen einer Ergänzung<br />

– Mit einem Stern (*) versehene Klassen dürfen nur an eine Kreuz-<br />

Klasse angebunden werden.<br />

– Beispiel: diabetische Retinopathie bei Typ I-Diabetes<br />

• E10 Primär insulinabhängiger Diabetes mellitus<br />

• .3+ (beson<strong>der</strong>e Ergänzungszahl) mit Augenkomplikationen<br />

• H36.0* Retinopathia diabetica<br />

• Also: E10.3+H36.0*<br />

(2) Optionale Klassen<br />

– Mit einem Ausrufezeichen (!) versehene Klassen dürfen an eine<br />

an<strong>der</strong>e Klasse angebunden werden.<br />

Beispiel: Z51.0! Strahlentherapie-Sitzung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 183


ICD-10<br />

Klassifikationssysteme<br />

– Zusatzkennzeichen (allgemeine<br />

Ergänzungsnotationen)<br />

– Es sind max. 2 (<strong>der</strong> 6) Zusatzkennzeichen hinter<br />

einer Notation zugelassen<br />

– R rechts<br />

– L links<br />

– B beidseits<br />

– V Verdachtsdiagnose<br />

– Z (symptomloser) Zustand nach <strong>der</strong><br />

betreffenden Diagnose<br />

– A ausgeschlossene Diagnose<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 184


ICD-10<br />

Diagnosethesaurus<br />

– Register zur ICD<br />

– rund 60.000 Einträge<br />

Klassifikationssysteme<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 185


ICD-10 bei DIMDI<br />

Klassifikationssysteme<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 186


Klassifikationssysteme<br />

Klassifikationen. Fazit<br />

• Klassifikationssysteme spielen eine nicht umgehbare Rolle<br />

in <strong>der</strong> Informationswirtschaft<br />

• Universalklassifikationen: Nutzung vorwiegend in großen<br />

Bibliotheken<br />

• WWW: Wenn im Web überhaupt intellektuell ausgewertet<br />

wird, dann klassifikatorisch<br />

• Gewerbliche Schutzrechte (Patente, Gebrauchsmuster,<br />

Marken, Geschmacksmuster): international eingesetzte und<br />

akzeptierte Systeme. Die professionelle Suche nach<br />

Schutzrechtsdokumente geht ausschließlich über die<br />

jeweiligen Klassifikationssysteme.<br />

• Wirtschaft: in vielen Wirtschaftsdatenbanken werden<br />

Branchen- o<strong>der</strong> Produktklassifikationen eingesetzt<br />

• Medizin: keine Abrechnung, keine Statistik ohne ICD<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 187


Klassifikationen. Fazit<br />

Klassifikationssysteme<br />

• Es gibt einige Klassifikationssysteme, die sich herstellerübergreifend<br />

durchgesetzt haben:<br />

– Wirtschaft<br />

• in Europa: NACE<br />

• in Nordamerika: NAICS<br />

• weltweit (obwohl veraltet): SIC<br />

– Gewerbliche Schutzrechte<br />

• Patente, Gebrauchsmuster: IPC<br />

• Marken: Wiener Klassifikation, Nizza Klassifikation<br />

– Län<strong>der</strong><br />

• Gale CC<br />

• NUTS<br />

– Medizin: ICD<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 188


Klassifikationen. Fazit<br />

Klassifikationssysteme<br />

• Aus den „Standardsystemen“ werden Derivate abgeleitet:<br />

• WZ 93 aus NACE<br />

• Gale Product-Codes aus SIC<br />

• D&B-Product-Codes aus SIC<br />

• ifo Län<strong>der</strong>code aus Gale CC<br />

• zusätzlich existieren herstellerspezifische Klassifikationssysteme<br />

(Schobers EBC, Kompass, ...)<br />

• Eigene, selbsterstellte Klassifikationen eignen sich zum<br />

Einsatz in unternehmensweiten Netzen (Intranets,<br />

Enterprise Information Portals) sowie zur Strukturierung<br />

von Katalogen (im E-Commerce)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 189


Klassifikationssysteme<br />

Vorteile von Klassifikationen (egal, ob bei<br />

professionellen Datenbanken o<strong>der</strong> in [irgendeinem]<br />

Unternehmen)<br />

– übersichtliche Navigation durch die Hierarchieebenen<br />

– sprachunabhängiges System (ggf. Nachteil: Notationen sind<br />

für Laien kaum recherchierbar; Ausgleich durch<br />

natürlichsprachige Oberflächen)<br />

– vielfältige Ausdrucksmöglichkeiten durch Trennung von<br />

Haupttafeln und Ergänzungstafeln<br />

– einfaches hierarchisches Retrieval durch Truncation (bei<br />

strukturabbildend hierarchischen Notationen)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 190


Klassifikationssysteme<br />

Nachteile von Klassifikationen<br />

– Die Struktur ist zwar nach unten hin stetig erweiterbar, aber<br />

nur sehr schwer im Grundaufbau zu verän<strong>der</strong>n.<br />

Beispiele für Probleme:<br />

• DK: bildet die Wissenschaftsstruktur des späten<br />

19.Jahrhun<strong>der</strong>ts ab<br />

• SIC: musste als Ganzes abgelöst werden, da die neueren<br />

wirtschaftlichen Entwicklungen (etwa: Aufkommen <strong>der</strong><br />

Dienstleistungen) nicht integriert werden konnten<br />

– Bei den Relationen dominiert eindeutig die Hierarchierelation<br />

(in <strong>der</strong> monohierarchischen Variante). Alle Gegenstände, die<br />

sich „natürlich“ monohierarchisch glie<strong>der</strong>n, können gut<br />

klassifikatorisch erfasst werden; alle an<strong>der</strong>en nicht.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 191


Dokumentationssprachen II:<br />

Schlagwortmethode<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 192


Schlagwortmethode<br />

Schlagwortmethode<br />

• einfache Form <strong>der</strong> verbalen Inhaltserschließung<br />

• kontrolliertes Vokabular (Schlagworte)<br />

• Vokabular wird <strong>der</strong> natürlichen Sprache entnommen<br />

• Einteilung des Gesamtvokabulars in Facetten<br />

(empfehlenswert, aber nicht zwingend)<br />

• Relationen:<br />

– (Quasi-)Synonymie (BF: benutzt für)<br />

– Assoziation (allgemeiner „siehe auch“-Verweis;<br />

VB: verwandter Begriff))<br />

– chronologische Verweisung (falls nötig)<br />

– keine Hierarchierelationen (ansonsten läge ein Thesaurus<br />

vor)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 193


Schlagwortmethode<br />

Beispiel: RSWK („Regeln für den Schlagwortkatalog“<br />

und SWD („Schlagwortnormdatei“)<br />

• eingesetzt bei deutschen Bibliotheken<br />

• erarbeitet ab 80er Jahre des 20. Jahrhun<strong>der</strong>ts von <strong>der</strong> DBI-<br />

Kommission für Sacherschließung; Publikation 1986<br />

• Einsatz von Facetten (Person – Ort – „Sache“ – Zeit –<br />

Form)<br />

• teilweise Verwendung hierarchischer Relationen („auf dem<br />

Weg zu einem Thesaurus“; hier nicht berücksichtigt)<br />

Regeln für den Schlagwortkatalog: RSWK. – Berlin: Deutsches Bibliotheksinstitut, 3 1998.<br />

Beispielsammlung zu den Regeln für den Schlagwortkatalog. – Berlin: Deutsches Bibliotheksinstitut, 1991.<br />

Konrad Umlauf: Regeln für den Schlagwortkatalog. Die Grundregeln <strong>der</strong> RSWK. – Berlin: HU Berlin / Institut<br />

für Bibliothekswissenschaft, 1999. – (Berliner Handreichungen zur Bibliothekswissenschaft; 66).<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 194


Schlagwortmethode<br />

RSWK / SWD<br />

• syntaktisches Indexieren durch Schlagwortketten<br />

• Schlagwortketten sind stets in <strong>der</strong> Reihenfolge Person –<br />

Ort – „Sache“ – Zeit – Form anzugeben<br />

• jede Kette drückt ein Objekt <strong>der</strong> dokumentarischen<br />

Bezugseinheit möglichst präzise und vollständig aus<br />

• Wahl des engsten Schlagwortes<br />

– Bsp.: Objekt „Untersuchungen zum HAWIK“<br />

– Schlagwort: HAWIK<br />

– nicht: Intelligenztest / Kind / HAWIK (mitunter problematisch!)<br />

• Vermeiden von Pleonasmen<br />

– überflüssige Häufung sinngleicher Bezeichnungen (z.B.<br />

Zukunftsprognose)<br />

– problematisch bei wenig bekannten Begriffen (z.B.<br />

Nuraghenkultur; hier entfällt „Sardinien“ als pleonastisch)<br />

• Homonymzusatz (z.B. Atlas )<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 195


RSWK / SWD.<br />

Personenschlagwort<br />

• Eigennamen von Personen<br />

(einschließlich fiktiver<br />

Personen)<br />

• Familiennamen (z.B.<br />

Fugger )<br />

• umfassende Liste von<br />

Ansetzungsvarianten<br />

• in SWD in Facette p<br />

Schlagwortmethode<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 196


RSWK / SWD.<br />

Geographisches und<br />

ethnographische<br />

Schlagwort<br />

• Namen von<br />

Gebietskörperschaften<br />

• Namen von Landschaften,<br />

Flüssen, Gebirgen,<br />

Wegstrecken usw.<br />

• Namen von Völkern,<br />

Rassen, Stämmen<br />

• in SWD in Facette g<br />

Schlagwortmethode<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 197


Schlagwortmethode<br />

RSWK / SWD. Geographisches und<br />

ethnographische Schlagwort<br />

• Namensän<strong>der</strong>ungen (z.B. St. Piterburch - St. Petersburg –<br />

Petrograd – Leningrad – St. Petersburg)<br />

• Variante 1:<br />

aktueller Name<br />

als Schlagwort,<br />

Verweise von<br />

allen an<strong>der</strong>en<br />

Namen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 198


Schlagwortmethode<br />

RSWK / SWD. Geographisches und<br />

ethnographische Schlagwort<br />

• Namensän<strong>der</strong>ungen (z.B. St. Piterburch - St. Petersburg –<br />

Petrograd – Leningrad – St. Petersburg)<br />

• Variante 2: Chronologische Relation (früher – später)<br />

– CF (chronologisch früher) – CS (chronologisch später)<br />

– zusätzlich: Hinweis auf den Zeitraum<br />

• Leningrad (Hinweis: 1924 – 1991)<br />

CF Petrograd (dort Hinweis: 1919 – 1924)<br />

CS Sankt Petersburg (dort Hinweis: ab 1991)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 199


Schlagwortmethode<br />

RSWK / SWD. Sachschlagwort<br />

• in SWD in Facette s<br />

MO: mehrgliedriger Oberbegriff<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 200


Schlagwortmethode<br />

RSWK / SWD. Sachschlagwort<br />

• Einzelbegriff (Bsp.: Pest)<br />

• Kompositum (Bsp.: Luftverschmutzung)<br />

• Adjektiv-Substantiv-Verbindung (Bsp.: Juristische Person)<br />

• ggf. mit Homonymzusatz (Bsp.: Krebs )<br />

• stehende Wendung (Bsp.: Information und Dokumentation)<br />

• Beson<strong>der</strong>heit: Werktitel (Facette t)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 201


Schlagwortmethode<br />

RSWK / SWD. Zeitschlagwort<br />

• Variante 1: Verbale Epochenbezeichnung<br />

o<strong>der</strong> historische<br />

Einzelereignisse (als Sachschlagwort)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 202


Schlagwortmethode<br />

RSWK / SWD. Zeitschlagwort<br />

• Variante 2: konkrete Jahresangaben in Verbindung mit<br />

„<strong>Geschichte</strong>“ (o<strong>der</strong> „Prognose“ o.ä.)<br />

• nicht in SWD enthalten<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 203


Schlagwortmethode<br />

RSWK / SWD. Formschlagwort<br />

• Erscheinungsweise, literarische o<strong>der</strong> physische Form <strong>der</strong><br />

dokumentarischen Bezugseinheit<br />

• nur zu berücksichtigen, wenn <strong>der</strong> Inhalt tangiert wird<br />

(ansonsten bei formalen Angaben unter Dokumenttyp)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 204


Schlagwortmethode<br />

RSWK / SWD. Ansetzung von Namen von<br />

Körperschaften<br />

• ortsgebundene Körperschaften (stets unter dem Ort<br />

anzusetzen)<br />

• Facette c<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 205


Schlagwortmethode<br />

RSWK / SWD. Ansetzung von Namen von<br />

Körperschaften<br />

• nicht ortsgebundene Körperschaften, darunter alle<br />

Wirtschaftsbetriebe (unter dem Körperschaftsnamen<br />

anzusetzen) – Facette k<br />

• bei Namenswechsel: chronologische Relation (CF – CS)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 206


Schlagwortmethode<br />

RSWK / SWD. Syntaktisches Indexieren durch<br />

Schlagwortketten<br />

• pro Kette ein Objekt<br />

• so viele Ketten wie unterschiedliche Objekte<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 207


Dokumentationssprachen III:<br />

Thesauri<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 208


Thesaurus<br />

Grundlegende Literatur<br />

Thesauri<br />

• Jean Aitchison, Alan Gilchrist, David Bowden: Thesaurus<br />

Construction and Use. - London: Fitzroy Dearborn, 4 2000<br />

• DIN 1463/1: Erstellung und Weiterentwicklung von Thesauri<br />

• DIN 1463/2: Multilinguale Thesauri<br />

• DIN 31623/1; DIN31623/2; DIN 31623/3: Indexierung zur<br />

inhaltlichen Erschließung von Dokumenten<br />

• Winfried Schmitz-Esser: EXPO-INFO 2000. - Berlin [u.a.]:<br />

Springer, 2000<br />

• Gernot Wersig: Thesaurus-Leitfaden. – München [u.a.]: Saur,<br />

2 1985<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 209


Thesauri<br />

Thesaurus<br />

Einsatzgebiete<br />

– in eng umgrenzten Fachgebieten<br />

• Terminologie eines Faches<br />

• Terminologie eines Unternehmens<br />

– in Gebieten, wo fachliches Wissen durch ein (von den<br />

betreffenden Fachleuten akzeptiertes) Begriffssystem<br />

repräsentiert werden kann<br />

– wenn ausschließlich mit Begriffen <strong>der</strong> natürlichen Sprache<br />

gearbeitet werden soll<br />

– wenn die Struktur des Gebietes über eine monohierarchische<br />

Ordnung hinausgeht<br />

– Anmerkung: Klassifikation und Thesaurus schließen sich<br />

nicht gegenseitig aus. Geschickt eingesetzt, ergänzen sie<br />

sich.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 210


Thesauri<br />

„Thesaurus“ nach DIN 1463/1<br />

„Ein Thesaurus im Bereich <strong>der</strong> Information und Dokumentation<br />

ist eine geordnete Zusammenstellung von Begriffen und ihren<br />

(vorwiegend natürlichsprachigen) Bezeichnungen, die in einem<br />

Dokumentationsgebiet zum Indexieren, Speichern und<br />

Wie<strong>der</strong>auffinden dient.“<br />

• Merkmale eines Thesaurus:<br />

• 1. Terminologische Kontrolle durch natürlichsprachige<br />

DESKRIPTOREN<br />

• 2. Beziehungen zwischen den Begriffen bzw. Bezeichnungen<br />

durch (zweistellige) RELATIONEN<br />

• Thesaurus-Software (Freeware, nicht optimal, aber zum Üben<br />

geeignet):<br />

• Thew33 von Tim Craven (Univ. of Western Ontario)<br />

• http://publish.uwo.ca/~craven/freeware.htm<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 211


Terminologische Kontrolle<br />

Thesauri<br />

– durch Deskriptoren (Vorzugsbenennungen)<br />

– durch Nicht-Deskriptoren (Verweise auf Deskriptoren)<br />

– <strong>der</strong> Deskriptor und die zugehörigen Nicht-Deskriptoren sind<br />

entwe<strong>der</strong> Synonyme (Bsp.: Heirat, Eheschließung) o<strong>der</strong><br />

Quasi-Synonyme, je nach Zweck des Thesaurus als synonym<br />

„erklärte“ Bezeichnungen (Bsp.: Retrieval, Recherche in<br />

einem Wirtschaftsthesaurus)<br />

– sowohl beim Indexieren als auch bei Recherchieren wird<br />

ausschließlich mit Deskriptoren gearbeitet werden<br />

– eine Recherche mit einem Nicht-Deskriptor im CT-Feld einer<br />

professionellen Datenbank führt stets zu null Treffern<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 212


Thesauri<br />

Deskriptoren<br />

– sollten in <strong>der</strong> Fachliteratur verwendete Terminologie<br />

wi<strong>der</strong>spiegeln<br />

– Einwort- wie Mehrwort-Deskriptoren sind möglich<br />

– Mehrwort-Deskriptoren in <strong>der</strong> natürlichen Wortfolge<br />

belassen<br />

– bei Mehrwortbegriffen, die in ihre Aspekte zerlegt<br />

werden sollen: Zerlegungskontrolle<br />

• morphologische Zerlegung (Bsp.: Blumengesteck �<br />

Blume, Gesteck; falsches Bsp.: Eisenbahn � Eisen, Bahn)<br />

• semantische Zerlegung (Bsp.: Eisenbahn: Schienenbahn,<br />

Überlandverkehr)<br />

– zerlegen? (Postkoordination)<br />

• nur dann, wenn die Kombination <strong>der</strong> Einzelbegriffe den<br />

korrekten Mehrwortbegriff ergibt<br />

• nicht, wenn eine hohe begriffliche Spezifizierung<br />

angestrebt wird<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 213


Thesauri<br />

Deskriptoren<br />

– nicht zerlegen? (Präkombination)<br />

• dann, wenn die Einzelbegriffe eine an<strong>der</strong>e Bedeutung als die<br />

Präkombination haben (Bsp.: Schlüsselbein,<br />

Öffentlichkeitsarbeit)<br />

• wenn ballastarme Suche ermöglicht werden soll<br />

• ggf. Einsatz eines Kombinationsverweises (Bsp.:<br />

Bibliotheksstatistik � benutze Kombination � Statistik,<br />

Bibliothek<br />

– Wortarten<br />

• vorzugsweise Substantive; Verben in substantivierter Form<br />

• Adjektive an Substantiv gebunden (Bsp.: Internationale<br />

Beziehungen)<br />

• Substantiv im Nominativ Singular; Ausnahmen bei nicht<br />

gebräuchlichen Singularformen (Bsp.: Eltern) o<strong>der</strong> bei<br />

Bedeutungsunterschied Singular – Plural (Bsp.: Kosten)<br />

• Abkürzungen bzw. Akronyme nur bei Bekanntheit (Bsp.: UKW)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 214


Deskriptoren<br />

– Homonyme / Polyseme:<br />

Thesauri<br />

• Unterscheidung durch Klammerzusatz als klärendes Element<br />

Bsp. Homonym: Kiefer [Knochen] – Kiefer [Nadelholz]<br />

Bsp. Polysem: Knie [Gelenk] – Knie [Werkstück]<br />

• Unterscheidung durch Verweise von homonymen Nicht-Deskriptoren<br />

auf eindeutige Deskriptoren<br />

Bsp.: Eiweiß � benutze Synonym � Eiklar � o<strong>der</strong> � Protein<br />

– Deskriptorsatz<br />

• Bezeichnung des Deskriptors<br />

• Auflistung aller Nicht-Deskriptoren<br />

• Auflistung aller Deskriptoren, mit denen <strong>der</strong> Deskriptor in direkter<br />

Beziehung steht<br />

• Erläuterung zum Gebrauch (nicht zwingend) – Abk.: H (Hinweis) o<strong>der</strong><br />

SN (Scope Note)<br />

• Definition (nicht zwingend)<br />

• Übersetzungen (nicht zwingend)<br />

• Konkordanzen zu an<strong>der</strong>en Erschließungssystemen (nicht zwingend)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 215


Nicht-Deskriptoren<br />

Thesauri<br />

– verweisen auf „ihren“ Deskriptor<br />

– alle Synonyme des Deskriptors auflisten<br />

– alle Quasi-Synonyme und weitere Bezeichnungen auflisten<br />

– Varianten:<br />

• Äquivalenz (Synonyme und Quasi-Synonyme)<br />

Bsp: Heirat � benutze Synonym (BS) � Eheschließung<br />

• Begriffskombination (Verweis von einem Mehrwort-Nicht-<br />

Deskriptor auf die einzelnen zerlegten Deskriptoren)<br />

Bsp.: Lehrerbildungsgesetz � benutze Kombination (BK) �<br />

Lehrer – Bildung – Gesetz<br />

• Bündelung (Verweis auf einen Oberbegriff)<br />

Bsp.: Zitrone � benutze Oberbegriff (BO) � Zitrusfrucht<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 216


Thesauri<br />

Deskriptorsatz / Beispiel: Standard-Thesaurus Wirtschaft<br />

Deskriptor<br />

Erläuterung<br />

Klasse<br />

NACE-<br />

Konkordanz<br />

Nicht-<br />

Deskriptoren<br />

HWWA<br />

Oberbegriffe<br />

Unterbegriffe<br />

verwandte<br />

Begriffe<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 217


Thesauri<br />

Relationen<br />

• Äquivalenzrelation<br />

– Synonyme<br />

– Quasi-Synonyme<br />

– abweichen<strong>der</strong> Sprachgebrauch (Bsp.:<br />

Massenkommunikationsmittel - Massenmedien)<br />

– Abkürzung (Bsp.: DNS – Desoxyribonucleinsäure)<br />

– gebräuchliche fremdsprachliche Bezeichnung (Bsp.:<br />

Computer – Rechenanlage)<br />

– Schreibweise (Bsp.: Fotografie, Photographie)<br />

– invertierte Form (Bsp.: verarbeitendes Gewerbe – Gewerbe,<br />

verarbeitendes)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 218


Relationen<br />

• Äquivalenzrelation<br />

Thesauri<br />

– Nichtdeskriptor – Deskriptor – Relation<br />

Abk.: BS (benutze Synonym) – BF (benutzt für)<br />

USE – UF (used for)<br />

Bsp.: Auto BF Personenkraftwagen<br />

Personenkraftwagen BS Auto<br />

– Nichtdeskriptor – Begriffskombination – Relation<br />

Abk.: BK (benutze Kombination) – KB (benutzt in Kombination)<br />

Bsp.: Binnenschifffahrt KB Binnenschifffahrtsstatistik<br />

Schifffahrtsstatistik KB Binnenschifffahrtsstatistik<br />

Binnenschifffahrtsstatistik BK Binnenschifffahrt -<br />

Schifffahrtsstatistik<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 219


Relationen<br />

Thesauri<br />

Hierarchierelation<br />

Abstraktionsrelation Bestandsrelation<br />

logische Sicht gegenständliche Sicht<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 220


Thesauri<br />

Relationen<br />

• Hierarchierelation (allgemein)<br />

– Nichtdeskriptor – Deskriptor – Hierarchierelation (Bündelung)<br />

Abk.: BO (benutze Oberbegriff) – FU (benutzt für Unterbegriff)<br />

Bsp.: Zitrusfrucht FU Zitrone<br />

Zitrone BO Zitrusfrucht<br />

– Deskriptor – Deskriptor – Relation (<strong>der</strong> Normalfall)<br />

Abk.: OB (Oberbegriff) – UB (Unterbegriff)<br />

BT (broa<strong>der</strong> term) – NT (narrower term)<br />

Bsp.: Universität OB Hochschule<br />

Hochschule UB Universität<br />

– Deskriptor – oberes Ende <strong>der</strong> Begriffsleiter<br />

Abk.: TT (Top Term)<br />

Bsp.: Universität TT Bildungseinrichtung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 221


Relationen<br />

Thesauri<br />

• Hierarchierelation. Version 1: Abstraktionsrelation<br />

• Der Begriffsinhalt des Unterbegriffs enthält mindestens ein<br />

Merkmal mehr als <strong>der</strong> Begriffsinhalt des Oberbegriffs.<br />

• Ober- und Unterbegriff gehören i.d.R. <strong>der</strong>selben Dimension an.<br />

Abk.: OA (Oberbegriff Abstraktionsrelation) – UA<br />

BTG (broa<strong>der</strong> term – generic) – NTG<br />

Bsp.: Meise OA Singvogel<br />

Singvogel UA Meise<br />

• Aus logischen Gründen kann es u.U. zwingend sein, Hierarchieebenen<br />

einzuführen, auch wenn es dazu keine Dokumente gibt<br />

(Stützdeskriptoren).<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 222


Thesauri<br />

• Hierarchierelation. Version 1: Abstraktionsrelation<br />

• Stützdeskriptor. Beispiel: Thesaurus Technik und Management<br />

Stützdeskriptoren<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 223


Thesauri<br />

• Hierarchierelation. Version 1: Abstraktionsrelation<br />

• Stützdeskriptor. Beispiel: Thesaurus Technik und Management<br />

Stützdeskriptor<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 224


Thesauri<br />

• Hierarchierelation. Version 1: Abstraktionsrelation<br />

• Beispiel einer Begriffsleiter als Baum<br />

Quelle: EMBASE<br />

bei Ovid<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 225


Relationen<br />

Thesauri<br />

• Hierarchierelation. Version 2: Bestandsrelation<br />

• Der übergeordnete Begriff (Holonym) entspricht einem Ganzen,<br />

<strong>der</strong> untergeordnete Begriff einem Bestandteil dieses Ganzen<br />

(Meronym).<br />

• alle Geographika sind Bestandsrelationen<br />

Abk.: SP (Verbandsbegriff) – TP (Teilbegriff)<br />

BTP (broa<strong>der</strong> term – partitive) – NTP<br />

Bsp.: Putenkeule SP Truthahn<br />

Truthahn TP Putenkeule<br />

Kerpen SP Erftkreis<br />

Erftkreis TP Kerpen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 226


Relationen<br />

• Hierarchierelation.<br />

Version 2:<br />

Bestandsrelation<br />

• Transitive<br />

Bestandsrelationen<br />

eignen sich gut für<br />

graphische<br />

Darstellungen<br />

• Beispiel:<br />

Hoppenstedt<br />

Firmendatenbank<br />

Thesauri<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 227


Thesauri<br />

Thesaurus als Recherchehilfsmittel bei <strong>der</strong><br />

hierarchischen Suche. Beispiel: STW bei GBI<br />

Suchargument:<br />

EU sowie alle Mitgliedslän<strong>der</strong><br />

Begriffe einsammeln:<br />

-Deskriptor<br />

-alle Unterbegriffe<br />

-alle Oberbegriffe<br />

-alle verwandten Begriffe<br />

-einzelne Begriffe<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 228


Thesauri<br />

Thesaurus als Recherchehilfsmittel bei <strong>der</strong><br />

hierarchischen Suche. Beispiel: STW bei GBI<br />

ausgewählte Begriffe<br />

„Begriffskorb“<br />

nächster Schritt:<br />

Auswahl <strong>der</strong> Datenbank<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 229


Thesauri<br />

Thesaurus als Recherchehilfsmittel bei <strong>der</strong><br />

hierarchischen Suche. Beispiel: STW bei GBI<br />

Die ausgewählten<br />

Begriffe werden<br />

in die Suchmaske<br />

übernommen und<br />

mit dem Booleschen<br />

ODER verbunden.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 230


Relationen<br />

• Assoziationsrelation<br />

Thesauri<br />

– nach DIN 1463 sehr allgemeine und unspezifische<br />

Relation<br />

– „verwandter“ Begriff<br />

– Begriffsbeziehung, die we<strong>der</strong> hierarchischer noch<br />

äquivalenter Art ist<br />

– im Sinne von „siehe auch“ o<strong>der</strong> „denke auch an“<br />

Abk.: VB (verwandter Begriff)<br />

RT (related term)<br />

Bsp.: Apfel VB Birne<br />

Birne VB Apfel<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 231


Thesauri<br />

Multilinguale Thesauri (nach DIN 1463/2)<br />

• Deskriptoren: müssen stets in allen Sprachen vorhanden<br />

sein<br />

• Nicht-Deskriptoren: es können zusätzlich zu übersetzten<br />

Nicht-Deskriptoren weitere Nicht-Deskriptoren für jede<br />

Sprache eingeführt werden<br />

• Hierarchierelation(en): es gibt nur genau EINE<br />

hierarchische Struktur<br />

– ggf. Stützdeskriptoren verwendet<br />

– ggf. neue Fremdworte in Sprache einführen<br />

• Assoziationsrelation: die Strukturen sollten multilingual<br />

übereinstimmen, es kann jedoch sprachabhängige<br />

Ausnahmen geben<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 232


Multilinguale Thesauri<br />

Thesauri<br />

• Fremdwort in einer Sprache (aufnehmen; ggf. Definition)<br />

Bsp.:<br />

deutsch: Teenager englisch: teenagers<br />

D: Person zwischen 13 und 19 Jahren<br />

• Wortprägung (wenn nicht als Fremdwort aufnehmbar, dann<br />

Übersetzung, ggf. mit Hinweis)<br />

Bsp.:<br />

französisch: enfant a cle deutsch: Schlüsselkind<br />

NE: equivalent du terme allemand<br />

„Schlüsselkind“<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 233


Thesauri<br />

Multilinguale Thesauri<br />

• Äquivalenz (problemlose Eins-zu-eins-Übersetzung)<br />

– sprachliche Verwandtschaft<br />

Bsp.: Physik (dt.) – physics (engl.) – physique (franz.)<br />

– sprachliche Unabhängigkeit; semantische Gleichheit<br />

Bsp.: Amsel (dt.) – blackbirds (engl.) – merle (franz.)<br />

– gleicher o<strong>der</strong> ähnlicher Begriffsumfang, an<strong>der</strong>er Begriffsinhalt<br />

Bsp.: alkoholfreies Getränk (dt.) – soft drinks (engl.) – boisson non<br />

alcoolisee (franz.)<br />

• Probleme mit <strong>der</strong> Äquivalenz<br />

– Teil-Äquivalenz (engerer o<strong>der</strong> weiterer Begriffsumfang)<br />

Bsp.: Wissenschaft – science<br />

Lösungsmöglichkeit: einen <strong>der</strong> Terme als Fremdwort einführen<br />

Deskriptorsatz englisch: Wissenschaft; SN: loan term adopted from<br />

German; NT science<br />

Deskriptorsatz deutsch: Wissenschaft; UB Naturwissenschaft<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 234


Thesauri<br />

Multilinguale Thesauri<br />

• Probleme mit <strong>der</strong> Äquivalenz<br />

– Begriffszerlegung bzw. –kombination<br />

Bsp.: skidding (engl.): rutschen und schleu<strong>der</strong>n<br />

Lösungsmöglichkeit: jeweils parallele Begriffe konstruieren<br />

Deskriptorsatz englisch: skidding; NT skidding (forwards), NT skidding<br />

(sideways)<br />

Deskriptorsatz deutsch: Rutschen/Schleu<strong>der</strong>n; UB Rutschen; UB<br />

Schleu<strong>der</strong>n<br />

• Homonym / Polysem sprachübergreifend<br />

– Lösung: Sprachkürzel als Homonymzusatz<br />

Bsp.: Gift (de) – poison; Geschenk – gift (en)<br />

• International gebräuchliche Abkürzungen<br />

– Lösung: internationale Variante verwenden; nationale Variante als<br />

Nicht-Deskriptor<br />

– nur nationale gebräuchliche Abkürzungen vermeiden<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 235


Thesauri<br />

Multilinguale Thesauri. Beispiel: Thesaurus Technik und Management<br />

Zielsprache deutsch<br />

Wörterbücher dt. – engl. und<br />

engl. - dt.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 236


Thesauri<br />

Multilinguale Thesauri. Beispiel: UNESCO Thesaurus<br />

Beispiel<br />

Zielsprache englisch<br />

Wörterbücher engl. – franz. –<br />

span.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 237


Thesauri<br />

Multilinguale Thesauri. Beispiel: UNESCO Thesaurus<br />

Deskriptorsatz<br />

Abk.: MT: Micro-Thesaurus<br />

FR: Deskriptor französisch<br />

SP: Deskriptor spanisch<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 238


Aspekte<br />

Thesauri<br />

• nähere Erläuterung eines Deskriptors mittels eines „Aspektes“<br />

• <strong>der</strong> Deskriptor bildet zusammen mit seinem Aspekt eine Einheit<br />

(keine UND-Verknüpfung)<br />

Quelle: EMBASE<br />

bei Ovid<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 239


Thesauri<br />

Relationen im Thesaurus, die über den DIN-Thesaurus<br />

hinausgehen<br />

• (Quasi-)Synonymie-Relation zwischen Deskriptoren<br />

– haben wir bereits bei <strong>der</strong> Schlagwortmethode kennengelernt<br />

– chronologische Relation (früher – später)<br />

Abk.: Deskriptor(en) des früheren Gegenstandes CS<br />

(chronologisch später) Deskriptor(en) des späteren<br />

Gegenstandes; umgekehrt: CF (chronologisch früher)<br />

– bei den Deskriptoren als Hinweis den Zeitraum angeben!<br />

Bsp.: Sindorf. H: eigenständige Gemeinde bis 31.12.1974<br />

Kerpen-Sindorf. H: Ortsteil von Kerpen ab 1.1.1975<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 240


• chronologische Relation<br />

Thesauri<br />

Bsp. (eineindeutige Relation):<br />

Sindorf CS Kerpen-Sindorf<br />

Kerpen-Sindorf CF Sindorf<br />

Bsp.: (einmehrdeutige Relation):<br />

Garmisch CS Garmisch-Partenkirchen<br />

Partenkirchen CS Garmisch-Partenkirchen<br />

Garmisch-Partenkirchen CF Garmisch<br />

CF Partenkirchen<br />

– Die chronologische Relation kann u.U. über mehrere Schritte<br />

laufen.<br />

Bsp.: Chemnitz CF Karl-Marx-Stadt<br />

Karl-Marx-Stadt CF Chemnitz [vor 1953]<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 241


Thesauri<br />

weitere Relationen (Vorschlag: Winfried Schmitz-Esser<br />

für die EXPO 2000)<br />

– Generik (analog zur Abstraktionsrelation des DIN-Thesaurus)<br />

Abk.: weiterer/engerer Begriff: WB – EB<br />

Bsp.: vegetal products EB coconuts<br />

coconuts WB vegetal products<br />

– Nützlichkeit<br />

Abk.: nützlich für (NF) – profitiert von (PV)<br />

Bsp.: tree planting NF water balance regulation<br />

water balance regulation PV tree planting<br />

– Schädlichkeit<br />

Abk.: schädlich für (SF) – wird beeinträchtigt von (WG)<br />

Bsp.: overfertilization SF biotopes<br />

biotopes WG overfertilization<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 242


Thesauri<br />

weitere Relationen (Vorschlag: Winfried Schmitz-<br />

Esser für die EXPO 2000)<br />

– Partition 1 (dinglich, gedanklich, ideell)<br />

Abk.: ist Bestandteil von (BV) – setzt sich zusammen<br />

aus (BA)<br />

Bsp.: booster BV missile<br />

missile BA booster<br />

– Partition 2 (geographisch, topographisch, administrativ)<br />

Abk.: ist Teil von (TV) – besteht aus den Teilen (BT)<br />

Bsp.: South America TV Latin America<br />

Latin American BT South America<br />

Winfried Schmitz-Esser: EXPO – INFO 2000. Visuelles Besucherinformationssystem für Weltausstellungen. –<br />

Berlin [u.a.]: Springer, 2000.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 243


Thesauri<br />

Allgemeine Thesaurusstruktur<br />

Deskriptor m in<br />

Sprache 1<br />

Rel 1<br />

Deskriptor m in<br />

Sprache i<br />

Deskriptor n in<br />

Sprache 1<br />

Deskriptor 1 in<br />

Sprache 1<br />

Rel 2<br />

Deskriptor n in<br />

Sprache i<br />

Rel 1 Rel 2<br />

Deskriptor 1 in<br />

Sprache i<br />

Nicht-Deskriptor<br />

Sprache i<br />

Nicht-Deskriptor<br />

Sprache i<br />

Nicht-Deskriptor<br />

Sprache i<br />

Nicht-Deskriptor<br />

Sprache i<br />

Deskriptor 1 in<br />

Sprache n<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 244


Thesauri<br />

Visualisierung eines Thesaurus für Laien<br />

Darstellung eines Deskriptors<br />

Deskriptor<br />

Definition / Hinweise:<br />

text text text text text text text<br />

text text text text text text text<br />

text text text text text text text<br />

text text text text text text text<br />

Graphik<br />

o<strong>der</strong><br />

Videosequenz<br />

Anzahl <strong>der</strong> Dokumente: [Zahl]<br />

Thema merken zurück zum Themenraum<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 245


Thesauri<br />

Visualisierung eines Thesaurus für Laien<br />

Darstellung eines Deskriptors. Beispiel<br />

Butter<br />

Definition:<br />

(grch. „bútyron“: Kuhquark)<br />

Speisefett, das aus Kuhmilch<br />

gewonnen wird. Beim Buttern in <strong>der</strong><br />

Molkerei wird <strong>der</strong> reife Milchrahm<br />

mechanisch bearbeitet, bis sich die<br />

Fettkügelchen absetzen.<br />

Graphik<br />

o<strong>der</strong><br />

Videosequenz<br />

Anzahl <strong>der</strong> Dokumente: 13<br />

Thema merken zurück zum Themenraum<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 246


Thesauri<br />

Visualisierung eines Thesaurus für Laien<br />

Darstellung <strong>der</strong> Relationen (Themenraum)<br />

Deskriptor<br />

Deskriptor<br />

Deskriptor<br />

Deskriptor<br />

Deskriptor<br />

Deskriptor<br />

ist nützlich für<br />

ist schädlich für<br />

Deskriptor<br />

Deskriptor<br />

Deskriptor<br />

ist Bestandteil von<br />

Deskriptor<br />

Deskriptor<br />

besteht aus den<br />

Teilen<br />

Deskriptor<br />

Deskriptor<br />

Deskriptor<br />

Deskriptor<br />

Deskriptor<br />

Deskriptor<br />

Deskriptor<br />

Deskriptor<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 247


Thesauri<br />

Visualisierung eines Thesaurus für Laien<br />

Darstellung <strong>der</strong> Relationen (Themenraum). Beispiel<br />

Braten<br />

Braten<br />

CholesterinCholesterinspiegelspiegel<br />

Brotbelag<br />

Brotbelag<br />

ist nützlich für<br />

ist schädlich für<br />

Herz<br />

Herz<br />

Butter<br />

ist Bestandteil von<br />

Magen<br />

Magen<br />

besteht aus den<br />

Teilen<br />

Milch<br />

Milch<br />

Butterfett<br />

Butterfett<br />

Molke<br />

Molke<br />

Salz<br />

Salz<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 248


Thesauri<br />

• Thesaurusauf- und –ausbau<br />

– Thesaurusaufbau<br />

• Sammlung <strong>der</strong> Fachbegriffe durch (sprach-)empirische<br />

Erhebungen; Quellen: Terminologie <strong>der</strong> Fachliteratur,<br />

Experten, potentielle Benutzer<br />

• Zusammenfassen (quasi-)synonymer Bezeichnungen;<br />

Auswahl <strong>der</strong> (vorläufigen) Vorzugsbenennungen<br />

• Überprüfung je<strong>der</strong> Vorzugsbenennung („Deskriptor-<br />

Kandidat“); Kriterien für Deskriptoren:<br />

– relative Häufigkeit in <strong>der</strong> Literatur<br />

– erwartetes Vorkommen bei Abfragen<br />

– Art <strong>der</strong> Relationen zu bereits akzeptierten Deskriptoren<br />

– Authentizität <strong>der</strong> Terminologie des Fachgebiets<br />

– Zweckmäßigkeit für die Erfassung von Inhalt und Umfang des<br />

Begriffs<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 249


Thesauri<br />

• Thesaurusauf- und –ausbau<br />

– Thesaurusausbau (Thesauruspflege)<br />

• Eliminierung von Deskriptoren (sofern diese beim<br />

Indexieren nicht o<strong>der</strong> kaum genutzt werden)<br />

– alle Relationen des Deskriptors werden mit gelöscht<br />

– beim Deskriptorsatz vermerken: verwendet bis ... [Datum]<br />

– o<strong>der</strong>: Dokumente neu indexieren<br />

• Differenzierung von Deskriptoren (sofern sehr viele<br />

Dokumente darunter fallen)<br />

– neue Deskriptoren als Unterbegriffe in den Thesaurus<br />

einführen<br />

– beim Deskriptorsatz vermerken: ohne Unterbegriffe<br />

verwendet bis ... [Datum]<br />

– o<strong>der</strong>: Dokumente neu indexieren<br />

• Aufnahme neuer Deskriptoren (beim Aufkommen neuer<br />

Terme im Fachgebiet)<br />

– neue Deskriptoren in die Relationen einhängen<br />

– beim Deskriptorsatz vermerken: verwendet ab ... [Datum]<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 250


Thesauri<br />

• Indexieren mittels eines Thesaurus<br />

– gleichordnendes Indexieren (nach DIN 31.623/2)<br />

Deskriptoren werden einem Dokument gleichrangig und<br />

unstrukturiert zugeordnet<br />

Beispiel: Ein Dokument behandle im ersten Teil den<br />

Export italienischer Weine nach Deutschland und im<br />

zweiten Teil den Import deutscher Autos nach Italien.<br />

Indexat:<br />

Export; Import; Italien; Deutschland; Wein; Auto<br />

Problem: führt u.U. zu Informationsballast (Bsp.: Suche<br />

nach dem Export deutscher Weine mit dem Argument<br />

„Wein AND Deutschland AND Export“ findet fälschlich<br />

unser Beispiel)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 251


Thesauri<br />

• Indexieren mittels eines Thesaurus<br />

– syntaktisches Indexieren (nach DIN 31.623/3)<br />

Deskriptoren werden einem Dokument unter Wahrung ihrer<br />

thematischen Zusammenhänge zugeordnet (Bildung von<br />

thematischen Teilmengen)<br />

Indexat:<br />

Wein – Export – Italien.<br />

Wein – Import – Deutschland.<br />

Auto – Export – Deutschland.<br />

Auto – Import – Italien.<br />

Italien – Deutschland – Außenhandel - Wein.<br />

Italien – Deutschland – Außenhandel - Auto.<br />

– Themenketten werden mit Abstandsoperator (etwa: SAME) und<br />

nicht mit dem Booleschen UND durchsucht<br />

– Probleme: wird ggf. von den Nutzern nicht verstanden; ist teuer<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 252


Thesauri<br />

Syntaktisches Indexieren Beispiel: HWWA<br />

Zwei Themenketten<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 253


• Gewichtetes Indexieren<br />

• Vorgehen<br />

Thesauri<br />

– Variante 1: intellektuelle Zuordnung von numerischen<br />

Werten zu den einzelnen Deskriptoren (wird <strong>der</strong>zeit nicht<br />

durchgeführt)<br />

– Variante 2: Zwei-Klassen-Verfahren:<br />

• Auszeichnung <strong>der</strong> zentralen Deskriptoren zu einem<br />

Dokument als „Fokus“ (beson<strong>der</strong>s wichtig in <strong>der</strong><br />

dokumentarischen Bezugseinheit abgehandelt)<br />

• Ziel: Ermöglichen des Suchens nach nur solchen<br />

Dokumenten, in denen das Thema zentral vorkommt<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 254


Thesauri<br />

Klasse 1 – Deskriptoren<br />

wichtig – Fokus<br />

(mit Sternchen *)<br />

Klasse 2 – Deskriptoren<br />

Quelle: EMBASE bei Ovid<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 255


Thesauri<br />

• Indexieren mittels eines Thesaurus. Vorgehen<br />

– dokumentarische Bezugseinheit (quer)lesen<br />

– Verstehen des Dokumenteninhalts<br />

– beson<strong>der</strong>e Konzentration auf Terme aus:<br />

• Titel<br />

• Einleitung<br />

• Zusammenfassung<br />

• Autorenabstract<br />

• Kapitelüberschriften<br />

• Bildtitel<br />

• hervorgehobene Textstellen<br />

• Sätze, die Schlussfolgerungen enthalten („Reizterme“:<br />

also, somit, ...)<br />

• häufig vorkommende Terme<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 256


• Indexieren<br />

– Ermittlung <strong>der</strong> Terme<br />

Thesauri<br />

• Extraktionsmethode:<br />

Entnahme von Termen, die im vorliegenden Text<br />

vorkommen (Minimierung <strong>der</strong> Gefahr von<br />

Missverständnissen)<br />

• Additionsmethode:<br />

Zuteilung von Termen, die im Text nicht enthalten<br />

sind (Achtung: Fehlinterpretationen sind möglich)<br />

einzig mögliche Methode bei nicht-textuellen Medien<br />

(Bil<strong>der</strong>n, Videosequenzen, ...)<br />

– alle ermittelten Terme notieren<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 257


Thesauri<br />

• Indexieren<br />

– Aufsuchen <strong>der</strong> ermittelten Terme im Thesaurus<br />

• ermittelter Term ist Deskriptor: Deskriptor übernehmen<br />

• ermittelter Term ist Nicht-Deskriptor: zugehörigen<br />

Deskriptor übernehmen<br />

• ermittelter Term ist we<strong>der</strong> Deskriptor noch Nicht-<br />

Deskriptor: Gibt es einen bestpassenden an<strong>der</strong>en<br />

Deskriptor? Wenn ja: diesen übernehmen<br />

• Wenn nein: 1) Term in Vorschlagsliste für die Modifikation<br />

des Thesaurus notieren; 2) ggf. Term als „freien Begriff“<br />

dem Dokument zuordnen<br />

• bei jedem Deskriptor den Relationen folgen: gibt es weitere<br />

passende Deskriptoren bei Oberbegriffen, Unterbegriffen,<br />

verwandten Begriffen usw.?<br />

• bei mehreren Kandidaten in <strong>der</strong> selben Begriffsleiter: ggf.<br />

nur den spezifischeren Deskriptor wählen (muss durch<br />

Regelwerk geklärt werden)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 258


Thesauri<br />

• Kriterien <strong>der</strong> Deskriptor-Auswahl: Indexierungstiefe<br />

• muss durch Regelwerk eindeutig vorgegeben sein (sonst<br />

würde die Datenbasis uneinheitlich indexiert)<br />

• Kriterium 1: Indexierungsbreite. Anzahl <strong>der</strong> zu vergebenden<br />

Deskriptoren (pro Dokument, pro Seite, pro Zeichen, ...)<br />

Bsp.: ifo Literaturdatenbank: ca. 0,5 bis 2 Deskriptoren pro<br />

Textseite<br />

Bsp.: Bibliodata: ca. 1 bis 2 Schlagworte pro Buch<br />

• Kriterium 2: Indexierungsspezifität. Trennschärfe <strong>der</strong><br />

Deskriptoren<br />

– bereits häufig vergebene Deskriptoren sind wenig selektiv<br />

– Deskriptoren, die hoch in einer Begriffsleiter stehen, sind u.U.<br />

wenig selektiv<br />

– deshalb: wenig spezifische Deskriptoren möglichst mit an<strong>der</strong>en,<br />

trennscharfen Deskriptoren kombinieren<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 259


Thesauri<br />

• Kriterien <strong>der</strong> Deskriptor-Auswahl:<br />

Dokumentationswürdigkeit von Deskriptoren<br />

– analog zur Dokumentationswürdigkeit von Dokumenten<br />

– (1) Relevanz im Dokument: Ist <strong>der</strong> Deskriptor im Rahmen<br />

des Dokumentes wichtig?<br />

– (2) Informationsbedarf <strong>der</strong> Nutzer: Braucht ein Nutzer das<br />

Dokument, <strong>der</strong> nach dem Deskriptor sucht? Sucht ein<br />

Nutzer überhaupt unter diesem Deskriptor nach dem<br />

Dokument?<br />

– (3) Bisheriger Stand <strong>der</strong> Datenbank: Gibt es „bessere“<br />

Dokumente zu dem Deskriptor? Sagt das Dokument zum<br />

Deskriptor etwas Neues aus?<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 260


Thesauri<br />

• Indexierungstiefe: Wie das Optimum finden?<br />

– zu wenige o<strong>der</strong> zu spezifische Deskriptoren: Informationsverlust<br />

– zu viele o<strong>der</strong> zu unspezifische Deskriptoren: Informationsballast<br />

– „gute“ Indexierung: Gratwan<strong>der</strong>ung zwischen Informationsverlust<br />

und Informationsballast<br />

• Indexierungstiefe und Nutzertyp (Laie vs. Experte)<br />

– Laie sucht Überblick UND Indexierungstiefe niedrig:<br />

Rechercheergebnis zufriedenstellend (+)<br />

– Laie sucht Überblick UND Indexierungstiefe hoch:<br />

Rechercheergebnis bringt zu viele Treffer (-)<br />

– Experte sucht Spezialwissen UND Indexierungstiefe niedrig:<br />

Rechercheergebnis bringt zu wenige genaue Treffer (-)<br />

– Experte sucht Spezialwissen UND Indexierungstiefe hoch:<br />

Rechercheergebnis zufriedenstellend (+)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 261


Thesauri<br />

• Sicherung gleichbleiben<strong>der</strong> Indexierungsqualität:<br />

Indexierungskonsistenz<br />

– Inter-Indexer-Konsistenz (Vergleich <strong>der</strong> Indexate zur<br />

selben DBE verschiedener Indexer)<br />

– Intra-Indexer-Konsistenz (Vergleich <strong>der</strong> Indexate des<br />

selben Indexers zur selben DBE zu unterschiedlichen<br />

Zeiten)<br />

– bei <strong>der</strong> Produktion <strong>der</strong> Datenbasis ist eine möglichst<br />

hohe Indexierungskonsistenz zu gewährleisten<br />

– Methode: in periodischen Abständen (etwa: monatlich)<br />

Tests durchführen; die Ergebnisse im Indexierer-Team<br />

besprechen; dabei:<br />

• Verbesserungen des Thesaurus (Thesauruspflege)<br />

• Verbesserungen des Indexierungshandbuchs<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 262


• Thesauri. Fazit<br />

Thesauri<br />

– In <strong>der</strong> kommerziellen Informationswirtschaft sind die<br />

Thesauri DIE Methode <strong>der</strong> <strong>Wissensrepräsentation</strong>.<br />

– Thesauri eignen sich auch für den Einsatz bei Intranets<br />

bzw. Enterprise Information Portals.<br />

– Es existieren weltweit weit über 1.000 Thesauri.<br />

– Der „Standard“: Der DIN-Thesaurus kennt Synonyme<br />

(Nicht-Deskriptor – Deskriptor-Relation), Hierarchierelationen<br />

(Abstraktions- und Bestandsrelation) sowie<br />

die Assoziationsrelation.<br />

– Weitere (2-stellige) Relationen sind problemlos<br />

hinzufügbar (etwa: Nützlichkeit – Schädlichkeit).<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 263


Thesauri<br />

• Thesauri. Fazit<br />

– Neben Profi-Oberflächen sollte man Thesaurus-<br />

Oberflächen für Laien herstellen, die diesen die<br />

Navigation erleichtern.<br />

– Thesauri werden ständig überarbeitet und dem Stand<br />

<strong>der</strong> Terminologie eines Faches angepasst (Thesauruspflege).<br />

– Indexierung geschieht entwe<strong>der</strong> gleichordnend (<strong>der</strong><br />

Standardfall) o<strong>der</strong> syntaktisch (durch Markierung <strong>der</strong><br />

Themenketten).<br />

– Die Qualität <strong>der</strong> Indexierung einer Datenbasis ist von <strong>der</strong><br />

Indexierungstiefe (Indexierungsbreite und –spezifität)<br />

und von <strong>der</strong> Indexierungskonsistenz abhängig.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 264


• Vorteile von Thesauri<br />

Thesauri<br />

– Navigation durch diverse Relationen möglich<br />

– Können die Strukturen eines Fachgebiets umfassend<br />

terminologisch abbilden<br />

– Arbeiten mit <strong>der</strong> natürlichen Sprache (ggf. Nachteil:<br />

Beschränkung auf eine Sprache; Ausgleich durch<br />

multilinguale Thesauri)<br />

– Sind (relativ) leicht modifizierbar (zumindest leichter als<br />

Klassifikationssysteme)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 265


• Nachteile von Thesauri<br />

Thesauri<br />

– Der Thesaurusaufbau und die Thesauruspflege ist<br />

aufwendig und damit (z.T.: sehr) teuer.<br />

– Laien kommen u.U. (insbeson<strong>der</strong>e, wenn keine eigenen<br />

Laien-Oberflächen geschaffen werden) mit Thesauri<br />

nicht zurecht.<br />

– Der Einsatz eines Thesaurus erfor<strong>der</strong>t zusätzlich den<br />

Einsatz spezifischer Software (etwa: Weiterleitung bei<br />

<strong>der</strong> Eingabe von Nicht-Deskriptoren, Einbeziehen von<br />

Deskriptoren aus Relationen in eine Suche)<br />

– Wie bei <strong>der</strong> Klassifikation bildet ein Thesaurus nur<br />

Begriffe und <strong>der</strong>en Relationen ab, aber nicht die<br />

Sachverhalte, die dazu ausgesagt werden (und die das<br />

Wissen des Fachbereichs repräsentieren)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 266


Textsprachliche Methoden<br />

Volltextspeicherung<br />

Titelindexierung<br />

Textwortmethode<br />

Zitationsindexierung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 267


• Volltextspeicherung<br />

Textsprachliche Methoden<br />

– Speicherung des Fließtextes im ASCII-Format (für die Suche)<br />

– Speicherung des Originallayouts im PDF-Format (für die<br />

Anzeige)<br />

– falls PDF nicht möglich: Fließtext (wenn möglich in Quasi-<br />

Faksimile) und Links zu Graphiken o<strong>der</strong> Abbildungen<br />

– Grundsatz: Volltexte nie „solo“ (ohne intellektuelle Inhaltserschließung<br />

o<strong>der</strong> ohne automatische Indexierung) ablegen<br />

• Suchfunktionalität bei Volltexten<br />

– einfache Boolesche Retrievalsysteme ungeeignet<br />

– Boolesche Systeme mit Abstandsoperatoren<br />

Mindestanfor<strong>der</strong>ung<br />

– Systeme mit automatischer Indexierung und mit Relevance<br />

Ranking erfor<strong>der</strong>lich<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 268


Textsprachliche Methoden<br />

• Volltextspeicherung: Warum nicht den Volltext<br />

ohne Inhaltserschließung?<br />

– Das Vorkommen eines Wortes bedeutet nicht, dass auch<br />

etwas darüber ausgesagt wird („Dieser Artikel sagt<br />

nichts über die Zustände in Ungarn aus“ als Treffer<br />

einer Suchfrage nach „Ungarn“).<br />

– keinerlei kontrolliertes Vokabular zur Suche vorhanden:<br />

• Probleme mit Synonymen und Homonymen<br />

• Probleme mit Fremdsprachen<br />

• elliptische Formulierungen o<strong>der</strong> Wortspiele<br />

– Der Volltext solo erfüllt nicht die Anfor<strong>der</strong>ung eines<br />

Informationsfilters.<br />

– Volltext (ASCII) ist nur zur ergänzenden Suche geeignet.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 269


• Volltextspeicherung<br />

Textsprachliche Methoden<br />

Zusammenspiel von:<br />

Metadaten,<br />

ASCII-Volltext,<br />

Faksimile (bei<br />

digitalen Dokumenten),<br />

Kopien-Service<br />

(bei nicht-digitalen<br />

Dokumenten)<br />

Beispiel:<br />

Konzeption <strong>der</strong> deutschen<br />

Virtuellen Fachbibliotheken<br />

( EconDoc; GetInfo;<br />

infoconnex; MedPilot)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 270


• Titelindexierung<br />

Textsprachliche Methoden<br />

– Übernahme von Stichworten aus den Sachtiteln von<br />

Büchern o<strong>der</strong> Artikeln<br />

– frühes Verfahren <strong>der</strong> <strong>Wissensrepräsentation</strong>; eingesetzt<br />

vor allem bei Registern<br />

– Methoden:<br />

• KWIC (Keyword in Context)<br />

• KWOC (Keyword out of Context)<br />

• KWAC (Keyword and Context)<br />

• Permutierte Stichworte<br />

• Stichworte in grammatischer Grundform<br />

• stets: Elimination von Stoppworten<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 271


• Titelindexierung<br />

KWIC<br />

Textsprachliche Methoden<br />

Beispiel: Titel: Mehrwerte von Information – Professionalisierung<br />

<strong>der</strong> Informationsarbeit (lfd.Nr.: 5)<br />

Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />

Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />

Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />

Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />

KWOC<br />

Information Mehrwerte von ... – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />

Informationsarbeit Mehrwerte von Information – Professionalisierung <strong>der</strong> ... 5<br />

Mehrwerte ... von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />

Professionalisierung Mehrwerte von Information – ... <strong>der</strong> Informationsarbeit 5<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 272


• Titelindexierung<br />

KWAC<br />

Textsprachliche Methoden<br />

Beispiel: Titel: Mehrwerte von Information – Professionalisierung<br />

<strong>der</strong> Informationsarbeit (lfd.Nr.: 5)<br />

Information Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />

Informationsarbeit Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />

Mehrwerte Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />

Professionalisierung Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />

Permutierte Stichworte (mit grammatischer Grundform)<br />

Information – Informationsarbeit 5<br />

Information – Mehrwert(e) 5<br />

Information – Professionalisierung 5<br />

Informationsarbeit – Information 5<br />

...<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 273


Textsprachliche Methoden<br />

• Titelindexierung<br />

– Vorteile<br />

• schnell zu erstellen<br />

• kostengünstig<br />

• bei gewissen bibliothekarischen Projekten (etwa<br />

Retrokatalogisierung): einzig praktikable Methode<br />

– Nachteile:<br />

• kein kontrolliertes Vokabular (analog zu den Problemen<br />

<strong>der</strong> Volltextspeicherung)<br />

• Informationsverlust<br />

– je nach Dokumenttyp (sehr hoch bei Zeitungsartikeln, bei<br />

Patenten und bei Büchern, weniger hoch bei wissenschaftlichen<br />

Artikeln)<br />

– je nach Fach (hoch bei Geisteswissenschaften, weniger hoch<br />

bei Naturwissenschaften und Medizin)<br />

– Beispiel: Philosophie / Artikel: Verlust von über 80% im<br />

Vergleich zur Textwortmethode<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 274


• Titelindexierung<br />

Textsprachliche Methoden<br />

– die Nachteile überwiegen<br />

– als einzige Methode <strong>der</strong> <strong>Wissensrepräsentation</strong> nicht<br />

geeignet<br />

– trotzdem: in Datenbanken spezielles Feld (bzw.<br />

speziellen Tag bei HTML- bzw. XML-Dokumenten) für die<br />

Aufnahme <strong>der</strong> Titel definieren, das u.U. im Retrieval<br />

genutzt werden kann<br />

– KWIC im Volltext bei <strong>der</strong> Ausgabe nutzen: die<br />

Suchargumente im Kontext (hervorgehoben) anzeigen<br />

KWIC bei <strong>der</strong><br />

Trefferliste von Google<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 275


Textwortmethode<br />

entwickelt von:<br />

Norbert Henrichs<br />

an <strong>der</strong><br />

Forschungsabt. für<br />

philosophische Information<br />

und Dokumentation <strong>der</strong><br />

Universität Düsseldorf<br />

(Ende <strong>der</strong> 60er Jahre des 20.<br />

Jahrhun<strong>der</strong>ts)<br />

Textsprachliche Methoden<br />

Ziel:<br />

Entwicklung einer<br />

wörterbuchunabhängigen<br />

Dokumentationsmethode.<br />

ursprünglicher Einsatzbereich:<br />

Philosophie<br />

Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969),<br />

122-131.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 276


• Textwortmethode<br />

– Einsatzgebiet<br />

Textsprachliche Methoden<br />

• außerhalb fester Terminologien<br />

– als einzige Methode (in Disziplinen mit prinzipiell nicht-fester<br />

Terminologie; etwa: Philosophie)<br />

– o<strong>der</strong> ergänzende Methode (zur Aufnahme von Begriffen, die<br />

ein aktuelle eingesetztes Klassifikationssystem o<strong>der</strong> ein<br />

Thesaurus nicht enthalten)<br />

• wenn noch keine Terminologie vorhanden ist<br />

(Textwortmethode bringt empirisches Termmaterial für den<br />

Aufbau von Dokumentationssprachen)<br />

– Basis <strong>der</strong> Wissensabbildung<br />

• ausschließlich <strong>der</strong> konkret vorliegende Text<br />

• KEIN vorgegebenes Begriffssystem<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 277


Textsprachliche Methoden<br />

• Textwortmethode<br />

– Methode<br />

• Auswahlverfahren zur Markierung von „Sucheinstiegen“ in<br />

Texte (N.B.: „Die Sprache ist das HAUS des Seins“,<br />

Heidegger. Texte werden als Häuser verstanden, die durch<br />

unterschiedliche Einstiege betreten werden.)<br />

• syntaktisches Indexieren: keine Einzelthemen, son<strong>der</strong>n<br />

thematische Ketten<br />

– Auswahlregeln<br />

• Textwörter aus Titeln und Zwischentiteln<br />

• häufig vorkommende Textwörter<br />

• Textwörter aus textlichen Schlüsselstellen<br />

• Bevorzugung von Neologismen<br />

• Bevorzugung von informationsreichen (Mehrwort-)<br />

Ausdrücken<br />

• je nach Textdichte ca. 0,5 bis 2 Textwörter pro Textseite im<br />

Durchschnitt<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 278


• Textwortmethode<br />

– Varianten<br />

Textsprachliche Methoden<br />

• nur originalsprachig (Henrichs‘ Methode). Problem: Nutzer<br />

muss alle einschlägigen Textwörter in allen Textsprachen<br />

<strong>der</strong> Datenbank kennen<br />

• originalsprachig mit zusätzlicher Übersetzung in eine<br />

Zielsprache (Methode <strong>der</strong> Datenbank „Grazer Schule“)<br />

– Indexierung<br />

• intellektuell (sehr aufwendig, daher sehr teuer)<br />

• Variante eines automatischen Indexierens (bislang noch<br />

nicht erprobt)<br />

• ermöglicht stets gewichtetes Retrieval<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 279


• Textwortmethode<br />

Textsprachliche Methoden<br />

– informetrische Verdichtungsmethoden<br />

• innerhalb genau einer Dokumentationseinheit<br />

– Gewichtungswert <strong>der</strong> Terme<br />

• gesamte Datenbasis o<strong>der</strong> Teilmenge davon<br />

– Wortfel<strong>der</strong><br />

– Häufigkeit und Wichtigkeit von Termen<br />

– semantische Netze von Termen (Themennetze)<br />

Wolfgang G. Stock: Textwortmethode [Norbert Henrichs zum 65.]. – In: Password Nr 7+8 (2000), S. 26-35.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 280


Textsprachliche Methoden<br />

• Textwortmethode. Beispiel eines Indexats<br />

Meinong, Alexius: Über Gegenstandstheorie, in: Untersuchungen<br />

zur Gegenstandstheorie und Psychologie, hg. v. Alexius Meinong.<br />

Leipzig: Johann Ambrosius Barth, 1904, 1-50.<br />

Thematischer Rahmen:<br />

Sachthemen: Gegenstandstheorie (1-18); Etwas (1); Gegenstand<br />

(1-15); Wirkliche, das (2-3); Erkenntnis (2,10); Objektiv (3,10); Sein<br />

(4,6-8); Existenz (4-5); Bestand (4); Sosein (5-6); Nichtsein (5);<br />

Unabhängigkeit (6); Gegenstand, reiner (7-8); Außersein (7-8);<br />

Quasisein (7); Psychologie (9); Erkenntnisgegenstand (10); Objekt<br />

(10); Logik, reine (11); Psychologismus (11-12); Erkenntnistheorie<br />

(12); Mathematik (13,18); Wissenschaft (14,18);<br />

Gegenstandstheorie, allgemeine (15); Gegenstandstheorie,<br />

spezielle (15,18); Philosophie (17); Metaphysik (17); Gegebene, das<br />

(17); Empirie (17); Apriorische, das (17); Gesamtheit-<strong>der</strong>-<br />

Wissenschaften (18)<br />

Namen: Mally, Ernst (6); Husserl, Edmund (11); Höfler, Alois (16)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 281


Textsprachliche Methoden<br />

• Textwortmethode mit Übersetzungsrelation. Beispiel eines<br />

Indexats<br />

Veber, France: 07. O samoopazovanju kot posebni metodi<br />

znanstvenega raziskovanja, in: France Veber: Analiticna<br />

Psihologija. - Ljubljana: Kleinmayr & Bamberg, 1924, 39-50.<br />

Thematischer Rahmen:<br />

Sachthemen in Originalsprache: Sachthemen in Einheitssprache:<br />

samoopazovanje (1-6) Selbstbeobachtung (1-6)<br />

metoda (1) Methode (1)<br />

dozivljaj (2,5) Erlebnis (2,5)<br />

psihologija (3) Psychologie (3)<br />

opazovanje (4) Beobachtung (4)<br />

pristnost (5) Echtheit (5)<br />

dozivljanje (5) Erleben (5)<br />

spoznanje (6) Erkenntnis (6)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 282


Textsprachliche Methoden<br />

Syntagmatische Relationen zwischen den Begriffen<br />

Basis für<br />

– Thesaurusaufbau<br />

– Wissenschaftsgeschichte<br />

– Nutzung als<br />

„einstellbarer“<br />

Thesaurus<br />

– Syntagma als<br />

Basis für<br />

Paradigma<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 283


Textsprachliche Methoden<br />

• Textwortmethode<br />

– Vorteile<br />

• nimmt die Sprache <strong>der</strong> Autoren ernst<br />

• keinerlei paradigmatische Relationen, kein kontrolliertes<br />

Vokabular<br />

• einsetzbar in Gebieten, in denen Dokumentationssprachen nicht<br />

anwendbar sind<br />

• objektive Basis (im Gegensatz zu Dokumentationssprachen, die<br />

die Texte stets durch die Brille ihres Systems sehen); damit<br />

relativ interpretationsarm<br />

• Basis für diverse Weiterverarbeitungen (Thesaurusaufbau,<br />

Wissenschaftsgeschichte usw.)<br />

– Nachteile<br />

• aufwendig und teuer<br />

• u.U. mangelhafte Indexierungskonsistenz<br />

• Retrieval schwierig (kann jedoch durch Übersetzungen und<br />

durch informetrische Funktionen gemil<strong>der</strong>t werden)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 284


Zitationsindexierung<br />

(Citation Indexing)<br />

entwickelt von:<br />

Eugene Garfield<br />

am<br />

Institute for Scientific<br />

Information (Philadelphia;<br />

europäische Zentrale: London)<br />

(Mitte/Ende <strong>der</strong> 50er Jahre des<br />

20. Jahrhun<strong>der</strong>ts)<br />

Textsprachliche Methoden<br />

Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 285


Textsprachliche Methoden<br />

• Einsatzgebiete: überall, wo zitiert wird<br />

– Recht: Urteile<br />

– Patente<br />

– wissenschaftliche Literatur<br />

• Grundidee: Das Notieren von Fußnoten (o<strong>der</strong> an<strong>der</strong>en<br />

bibliographischen Angaben) gibt über den Inhalt eines<br />

wissenschaftlichen Artikels Auskunft<br />

• das Verfahren erfor<strong>der</strong>t nur minimalen intellektuellen<br />

Aufwand und ist daher - als Methode <strong>der</strong><br />

Inhaltserschließung - relativ kostengünstig herzustellen<br />

• das Institute for Scientific Information (ISI) verfügt nahezu<br />

über eine Monopolstellung bei <strong>der</strong> zitatenanalytischen<br />

Auswertung wissenschaftlicher Literatur (Ausnahme:<br />

CiteSeer)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 286


Zitat 1<br />

Zitat 2<br />

Textsprachliche Methoden<br />

1 Stegmüller, Wolfgang: Probleme und Resultate <strong>der</strong><br />

Wissenschaftstheorie und Analytischen Philosophie. -<br />

Band 4: Personelle und Statistische Wahrscheinlichkeit.<br />

Studienausgabe Teil A. - Berlin; Heidelberg; New York:<br />

Springer, 1973, S. 5.<br />

2 ebd., S. 5.<br />

3 ebd., S. 5.<br />

4 ebd., S. 6.<br />

5 ebd., S. 6.<br />

Mehrfachnennungen werden übergangen<br />

6 Haller, Rudolf: Wandlungen <strong>der</strong> Wissenschaftsauffassung. -<br />

In: Erhard Busek; Wolfgang Mantl; Meinrad Peterlik (Hrsg.):<br />

Wissenschaft und Freiheit. - Wien: Verlag für <strong>Geschichte</strong><br />

und Politik; München: Oldenbourg, 1989, S. 46-58, hier: S.<br />

57.<br />

7 vgl. ebd., S. 55.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 287


Textsprachliche Methoden<br />

Zitieren<strong>der</strong> Artikel<br />

„Zitation“<br />

Informationsübermittlung<br />

Zitierter Artikel<br />

„Referenz“<br />

Reputation<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 288<br />

Zeit


Textsprachliche Methoden<br />

• Zitationsindexierung beim ISI. <strong>Geschichte</strong><br />

• Vorgeschichte: Sheppard‘s Citations, Zitationsindex für<br />

Gerichtsurteile (das Vorbild)<br />

• 1955: Garfield entwickelt die Idee wissenschaftlicher<br />

Zitationsindices<br />

• 1958: Gründung des Institute for Scientific Information (ISI)<br />

in Philadelphia, MA<br />

• erstes Produkt des ISI: Current Contents (CC)<br />

• 1961: Science Citation Index (SCI)<br />

• 1973: Social Sciences Citation Index (SSCI)<br />

• 1976: Journal Citation Reports (JCR)<br />

• 1978: Arts & Humanities Citation Index (A&HCI)<br />

• 1997: Web of Science (WoS)<br />

• 2001: Essential Science Indicators (ESI); Web of Knowledge<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 289


Textsprachliche Methoden<br />

• Zitatenindexierung wissenschaftlicher<br />

Zeitschriftenliteratur beim Web of Science:<br />

– SCI. Zuwachs: 17.000 Quellenartikel mit 300.000<br />

Zitationen pro Update (d.h. pro Woche); ab 1945<br />

– SSCI. Zuwachs: 2.800 Quellenartikel mit 50.000<br />

Zitationen pro Woche; ab 1956<br />

– A&HCI. Zuwachs: 2.200 Quellenartikel mit 15.000<br />

Zitationen; ab 1975<br />

• zusätzlich via Online-Archive (z.B. DIALOG)<br />

recherchierbar sowie (als Auftragsforschung)<br />

beim ISI (Research Services Group)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 290


Textsprachliche Methoden<br />

• Kriterien <strong>der</strong> Zeitschriftenauswahl (<strong>der</strong>zeit: rund 8.000 ausgewertet)<br />

• Kernzeitschriften pro Disziplin (Ausnutzung des Garfieldschen Gesetzes) -<br />

Problem: Gesetz sagt etwas über eine Anzahl von Zeitschriften im Kern aus,<br />

welche Titel jeweils darin sind, än<strong>der</strong>t sich andauernd<br />

• deshalb: intellektuelle Durchsicht neuer (o<strong>der</strong> neu angebotener) Zeitschriften<br />

(ca. 2000 Zeitschriften jährlich, Auswahl von rund 10-12%)<br />

• Auswahlkriterien nach „Basic Standards“<br />

– regelmäßige und termingerechte Erscheinungsweise<br />

– aussagekräftiger Zeitschriftentitel<br />

– aussagekräftige Artikeltitel<br />

– vollständige bibliographische Angaben bei Fuß- und Endnoten<br />

– englische Artikeltitel (bei nicht-englischer Literatur: Übersetzungen)<br />

– englische Abstracts, englische Keywords<br />

– Peer Review<br />

– internationale Ausrichtung (ggf. auch wichtige regionale Ausrichtung)<br />

– Neuigkeit des Inhalts (liegen schon ähnliche Zeitschriften beim ISI vor?)<br />

• Expertenurteile<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 291


Textsprachliche Methoden<br />

• Retrievalfunktionen bei Zitationsdatenbanken<br />

– Rekonstruktion <strong>der</strong><br />

Informationsübermittlungen nach „hinten“,<br />

d.h. zur zitierten Literatur (via Referenzen)<br />

– Rekonstruktion <strong>der</strong><br />

Informationsübermittlungen nach „vorne“, d.h.<br />

zur zitierenden Literatur (via Zitationen)<br />

– assoziatives Retrieval nach „verwandter“<br />

Literatur (über gemeinsame Referenzen)<br />

– (Zugang zu den Volltexten)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 292


Textsprachliche Methoden<br />

Web of Science<br />

Trefferanzeige<br />

Referenzen<br />

Zitationen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 293


Textsprachliche Methoden<br />

Web of Science<br />

Anzeige <strong>der</strong> Zitationen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 294


Textsprachliche Methoden<br />

• Zitationsindexierung. Probleme<br />

– Autoren zitieren nicht alle einschlägigen Quellen (u.a.<br />

„Super-Klassiker“)<br />

– Autoren zitieren Quellen, die nicht einschlägig sind (u.a.,<br />

weil sie die eigene Meinung stützen)<br />

– Autoren haben unterschiedliche Zitationsstile<br />

– Selbstzitationen („Inzest“)<br />

– Zitationskartell (Selbstzitation einer Gruppe)<br />

– Zitationsebenen (nach Blaise Cronin)<br />

• V. Lebenswerk (im Text, zitatenanalytisch nicht erfasst)<br />

• IV. Motiv (im Text, zitatenanalytisch nicht erfasst)<br />

• III. Werk: Buch, Artikel (zitatenanalytisch sauber fassbar)<br />

• II. Kapitel, Abschnitt (wird Ebene III zugeschrieben)<br />

• I. Detail (wird Ebene III zugeschrieben)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 295


Textsprachliche Methoden<br />

• Zitationsindexierung beim ISI. Probleme<br />

– Repräsentativität <strong>der</strong> selektierten Zeitschriften von<br />

Disziplin zu Disziplin (und von Land zu Land)<br />

unterschiedlich<br />

– Titel <strong>der</strong> Quellenartikel nur in englisch<br />

– Zitationen werden (mehr o<strong>der</strong> min<strong>der</strong>) einheitlich<br />

abgekürzt; für Laien: „Verstümmelung von Fußnoten“<br />

– versteckte Literaturangaben im Text werden nicht immer<br />

(bei SCI und SSCI: gar nicht) berücksichtigt<br />

– Publikations- und Zitationsraten des ISI haben große<br />

Bedeutung in <strong>der</strong> Wissenschaftsforschung und<br />

Wissenschaftsevaluation (auch z.B. bei<br />

Lehrstuhlbesetzungen); deshalb sehr wichtig: Kenntnis<br />

<strong>der</strong> methodischen Probleme bei <strong>der</strong><br />

Zitationsindexierung)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 296


• Navigation auf den<br />

Zitationen bei<br />

CrossRef<br />

– CrossRef:<br />

Zusammenschluss<br />

wichtiger<br />

Wissenschaftsverlage<br />

mit<br />

digitalen Volltexten<br />

– Die Artikel sind –<br />

über die<br />

Referenzen –<br />

miteinan<strong>der</strong> verlinkt<br />

– Technik: DOI<br />

(digital object<br />

identifyer)<br />

Textsprachliche Methoden<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 297


• Zitatenindexierung<br />

– Vorteile:<br />

Textsprachliche Methoden<br />

• ergänzt durch die beson<strong>der</strong>e Form <strong>der</strong> Wissensabbildung<br />

jede an<strong>der</strong>e Erschließungsmethode<br />

• ermöglicht Navigation über die Referenzen (CrossRef, ISI)<br />

und Zitationen (ISI, CiteSeer)<br />

• ermöglicht assoziatives Retrieval über die Menge gemeinsamer<br />

Referenzen bei unterschiedlichen Artikeln<br />

– Nachteile:<br />

• nur Artikel in Zeitschriften, Proceedings und<br />

Sammelbänden (keine Monographien) als Quellen<br />

• bei Referenzen wird u.U. „geschummelt“<br />

• praktische Probleme beim ISI: u.a. Auswahl <strong>der</strong><br />

Quellenwerke<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 298


Nicht-thematische Informationsfilter<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 299


Nicht-thematische Informationsfilter<br />

Nicht-thematischer Informationsfilter (1):<br />

Zielgruppe<br />

• je<strong>der</strong> dokumentarischen Bezugseinheit die spezifische(n)<br />

Zielgruppe(n) zuordnen<br />

• Grund: nicht jedes Dokument ist für jeden Nutzertyp<br />

interessant<br />

• Bsp.: bei fachlicher Literaturdatenbank:<br />

– interessierter Laie<br />

– Schüler (Oberstufe – Leistungskursniveau)<br />

– Student (B.A.-Niveau)<br />

– Student (M.A.-Niveau)<br />

– Forscher (mit allgemeinem Fachwissen)<br />

– Forscher (mit speziellem Fachwissen)<br />

• im Bsp.: Abfrage im Feld „Zielgruppe“ frei selektierbar;<br />

keine Zugangsbeschränkung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 300


Nicht-thematische Informationsfilter<br />

Nicht-thematischer Informationsfilter (1):<br />

Zielgruppe<br />

• Bsp.: bei unternehmensspezifischer Datenbank (im Intranet<br />

und Extranet):<br />

– (registrierter) Zulieferer<br />

– (an<strong>der</strong>er) Zulieferer<br />

– (registrierter) Kunde<br />

– (an<strong>der</strong>er) Kunde<br />

– Unternehmensmitarbeiter<br />

– Management<br />

– Forscher / Entwickler<br />

– Marketing<br />

– Betriebsrat<br />

• im Bsp.: Zugang zu bestimmten Dokumentationseinheiten<br />

nur mit geson<strong>der</strong>tem Passwort<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 301


Nicht-thematische Informationsfilter<br />

Nicht-thematischer Informationsfilter (1):<br />

Zielgruppe<br />

• Bsp.: bei Datenbank über Kunstwerke:<br />

– interessierter Laie<br />

– Kaufinteressent<br />

– Künstler<br />

– Kunsthistoriker<br />

– Politiker<br />

– Journalist<br />

• für jede Datenbank sind die Zielgruppen zu bestimmen<br />

(Segmentierung über empirische Erhebung o<strong>der</strong> –<br />

einfacher, aber unzuverlässiger – über „intuitive“<br />

Definition)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 302


Nicht-thematische Informationsfilter<br />

Nicht-thematischer Informationsfilter (2):<br />

Art <strong>der</strong> Themenbehandlung<br />

• Niveau <strong>der</strong> dokumentarischen Bezugseinheit hinsichtlich<br />

<strong>der</strong> Darstellung<br />

• nicht zu verwechseln mit dem Dokumenttyp (wie Zeitschriftenartikel,<br />

Artikel in Proceedings, Buch, Rezension)<br />

• Bsp.: bei fachlicher Literaturdatenbank<br />

– Überblicksartikel<br />

– empirische Studie<br />

– theoretische Abhandlung<br />

– methodologische Studie<br />

• Die Bezeichnungen für das Dokumentniveau sind als<br />

kontrolliertes Vokabular abzulegen.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 303


Nicht-thematische Informationsfilter<br />

Nicht-thematischer Informationsfilter (2):<br />

Art <strong>der</strong> Themenbehandlung<br />

Variante 1: Art <strong>der</strong> Themenbehandlung als Deskriptor<br />

Nachteil: „versteckt“ bei den thematischen Deskriptoren<br />

Quelle: EMBASE<br />

bei Ovid<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 304


Nicht-thematische Informationsfilter<br />

Nicht-thematischer Informationsfilter (2):<br />

Art <strong>der</strong> Themenbehandlung<br />

Variante 2: Art <strong>der</strong> Themenbehandlung als separates Feld<br />

Quelle: TEMA bei<br />

FIZ Technik<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 305


Nicht-thematische Informationsfilter<br />

Nicht-thematischer Informationsfilter (3):<br />

Verfallsdatum<br />

• nur bei zeitkritischen Dokumenten<br />

• Angabe eines Datums, nach dem die Dokumentationseinheit<br />

aus dem aktiven Informationssystem entfernt wird<br />

• entwe<strong>der</strong>: löschen<br />

• o<strong>der</strong>: im Archiv weiterhin bereithalten<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 306


Automatische Indexierung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 307


Automatische Indexierung<br />

• Automatische Indexierung unter Nutzung von Informationsfiltern<br />

• Hinweis: ohne definierte Informationsfilter: Textstatistik /<br />

Linktopologie (Vorl. „Einführung in die Informationswissenschaft“)<br />

• Voraussetzung: Einsatz informationslinguistischer Verfahren<br />

• Varianten:<br />

• (1) ohne Dokumentationswerkzeug: Klassifikation von<br />

Dokumenten nach Ähnlichkeit<br />

– a) permanent: Klassifikation über die gesamte Datenbasis<br />

– b) temporär: für jede Suchanfrage<br />

• (2) mit Dokumentationswerkzeug (Schlagwortliste,<br />

Klassifikationssystem, Thesaurus): Dokumentanalyse –<br />

Zuordnung von Notationen, Schlagworten bzw. Deskriptoren<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 308


Automatische Indexierung<br />

• Klassifikation von Dokumenten nach Ähnlichkeit<br />

• Ziel: Zusammenfassen ähnlicher Dokumente unter eine Klasse<br />

(möglichst große Ähnlichkeit innerhalb <strong>der</strong> Klasse, möglichst<br />

große Unähnlichkeit zu an<strong>der</strong>en Dokumenten bzw. Klassen)<br />

• Basis: Worte und (erkannte) Phrasen von jeweils zwei<br />

Dokumenten in Grundform o<strong>der</strong> Wortstamm<br />

• Anzahl <strong>der</strong> Worte/Phrasen in Dokument A: a<br />

• Anzahl <strong>der</strong> Worte/Phrasen in Dokument B: b<br />

• Anzahl <strong>der</strong> in A und B gemeinsam vorkommenden<br />

Worte/Phrasen: g<br />

• ggf. zusätzlich: jeweils Gewichtungswert (IDF, WDF, Position)<br />

jedes Wortes bzw. je<strong>der</strong> Phrase (i)<br />

Edie Rasmussen: Clustering Algorithms. – In: William B. Frakes; Ricardo Baezo-Yates (Hrsg.): Information<br />

Retrieval. Data Structures & Algorithms. – Upper Saddle River, NJ: Prentice Hall PTR, 1992, 419-442.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 309


Automatische Indexierung<br />

• Klassifikation von Dokumenten nach Ähnlichkeit<br />

• Ähnlichkeitsmaße<br />

• Koeffizient nach DICE<br />

• Ähnlichkeit (A,B) = 2g / (a + b)<br />

2 * Σ (Gewicht (i,A) * Gewicht (i,B))<br />

• gewichtete Ähnlichkeit (A,B) = ------------------------------------------------<br />

Σ (Gewicht (i,A)) 2 + Σ (Gewicht (i,B)) 2<br />

wobei i : Wort/Phrase in A und B<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 310


Automatische Indexierung<br />

• Klassifikation von Dokumenten nach Ähnlichkeit<br />

• Ähnlichkeitsmaße<br />

• Koeffizient nach JACCARD<br />

• Ähnlichkeit (A,B) = g / (a + b - g)<br />

Σ (Gewicht (i,A) * Gewicht (i,B) )<br />

• Ä (A,B) = --------------------------------------------------------------------------------------------<br />

Σ (Gewicht (i,A) ) 2 + Σ (Gewicht (i,B) ) 2 – Σ (Gewicht (i,A) * Gewicht (i,B) )<br />

wobei i : Wort/Phrase in A und B<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 311


Automatische Indexierung<br />

• Klassifikation von Dokumenten nach Ähnlichkeit<br />

• Ähnlichkeitsmaße<br />

• Cosinus-Koeffizient<br />

• Ähnlichkeit (A,B) = g / (a * b) 1/2<br />

Σ (Gewicht (i,A) * Gewicht (i,B))<br />

• Gew. Ähnlichkeit (A,B) = ------------------------------------------------------------<br />

( Σ (Gewicht (i,A)) 2 * Σ (Gewicht (i,B)) 2 ) 1/2<br />

wobei i : Wort/Phrase in A und B<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 312


Automatische Indexierung<br />

• Klassifikation von Dokumenten nach Ähnlichkeit<br />

• Ähnlichkeitsmaße<br />

• Beispiel: Dokument A: 100 Worte (a=100); Dokument B= 200 Worte<br />

(b=200); gemeinsame Worte in A und B: 15 (g=15)<br />

• Ähnlichkeit (A,B) nach DICE = 2g / (a + b), also: 30 / (100 + 200) = 0,1<br />

• Ähnlichkeit (A,B) nach JACCARD = g / (a + b - g), also<br />

15 / (100 + 200 – 15) = 15 / 285 = 0,053<br />

• Cosinus-Ähnlichkeit (A,B) = g / (a * b) 1/2, also: 15 / (100 * 200) 1/2 =<br />

15 / (20.000) 1/2 = 15 / 141,42 = 0,106<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 313


Automatische Indexierung<br />

• Klassifikation von Dokumenten nach Ähnlichkeit<br />

• Errechnung <strong>der</strong> Ähnlichkeit für alle Dokumentpaare (einer<br />

Datenbank o<strong>der</strong> eines Suchergebnisses)<br />

• Herstellen einer Ähnlichkeitsmatrix<br />

Dok1 1<br />

Dok1 Dok2 Dok3 Dokn<br />

Dok2 Ä(2,1) 1<br />

Dok3 Ä(3,1) Ä(3,2) 1<br />

...<br />

Dokn Ä(n,1) Ä(n,2) Ä(n,3) 1<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 314


Automatische Indexierung<br />

• Klassifikation von Dokumenten nach Ähnlichkeit<br />

• Clusteranalyse<br />

• Single-Link-Verfahren:<br />

– Ausgang: Paar (A,B) mit <strong>der</strong> höchsten Ähnlichkeit, das in noch keinem<br />

Cluster enthalten ist<br />

– Hinzufügen von allen Dokumenten, die mit A ähnlich sind (d.h. die<br />

einen Schwellenwert überschreiten), sagen wir: C und D<br />

– Hinzufügen von allen Dokumenten, die mit B ähnlich sind, sagen wir:<br />

E, F und G<br />

– Hinzufügen von allen Dokumenten, die mit C ähnlich sind<br />

– usw. ...<br />

– ... bis kein Dokument mehr vorhanden ist, das den Schwellenwert<br />

überschreitet<br />

– nächstes Paar (wie oben)<br />

• das Single-Link-Verfahren erzeugt u.U. sehr große Cluster<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 315


Automatische Indexierung<br />

• Klassifikation von Dokumenten nach Ähnlichkeit<br />

• Single-Link-Verfahren. Beispiel. Schwellenwert Ähnlichkeit = 0,2<br />

C<br />

H<br />

0,25<br />

0,30<br />

A B<br />

0,24<br />

0,27 0,21<br />

D<br />

I<br />

0,25<br />

0,29<br />

G<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 316<br />

E<br />

0,29<br />

J<br />

F<br />

0,22<br />

Klasse


Automatische Indexierung<br />

• Klassifikation von Dokumenten nach Ähnlichkeit<br />

• Clusteranalyse<br />

• Complete-Link-Verfahren:<br />

– Ausgang: Paar (A,B) mit <strong>der</strong> höchsten Ähnlichkeit, das in noch keinem<br />

Cluster enthalten ist<br />

– Hinzufügen von allen Dokumenten, die mit A und B ähnlich sind (d.h.<br />

einen Schwellenwert überschreiten)<br />

– und die untereinan<strong>der</strong> ähnlich sind (d.h. den Schwellenwert<br />

überschreiten)<br />

• das Complete-Link-Verfahren erzeugt u.U. sehr kleine Cluster<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 317


Automatische Indexierung<br />

• Klassifikation von Dokumenten nach Ähnlichkeit<br />

• Complete-Link-Verfahren. Beispiel. Alle Ähnlichkeitswerte liegen<br />

über dem Schwellenwert<br />

C<br />

H<br />

A B<br />

G<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 318<br />

F<br />

Klasse


Automatische Indexierung<br />

• Klassifikation von Dokumenten nach Ähnlichkeit<br />

• Clusteranalyse<br />

• Group-Average-Link-Verfahren:<br />

– Mittelstellung zwischen Single-Link- und Complete-Link-Verfahren<br />

– Ausgang: wie Single-Link-Verfahren<br />

– Errechnung <strong>der</strong> durchschnittlichen Ähnlichkeit aller Paare<br />

– durchschnittliche Ähnlichkeit als Schwellenwert<br />

– alle Paare verbleiben im Cluster, <strong>der</strong>en Ähnlichkeit über dem<br />

Schwellenwert liegen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 319


Automatische Indexierung<br />

• Klassifikation von Dokumenten nach Ähnlichkeit<br />

• Group-Average-Link-Verfahren. Beispiel. Entfernen <strong>der</strong> Paare, die<br />

unter <strong>der</strong> Durchschnittsähnlichkeit im Single-Link-Cluster (im<br />

Beispiel: 24,9) liegen<br />

A<br />

0,25<br />

0,30<br />

B<br />

C<br />

0,27<br />

H<br />

G<br />

0,25<br />

0,29<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 320<br />

E<br />

0,29<br />

F<br />

Klasse


Automatische Indexierung<br />

• Klassifikation von Dokumenten nach Ähnlichkeit<br />

• Nicht-hierarchische Klassifikation<br />

• Hierarchische Klassifikation<br />

– mehrfache Anwendung <strong>der</strong> Clusterbildung innerhalb bereits<br />

erkannter Cluster<br />

– Abbruch, wenn unterer Schwellenwert (minimale Anzahl von<br />

Dokumenten im Cluster) erreicht wird<br />

• letzter Schritt: Finden einer aussagekräftige Klassenbenennung<br />

(Wort(e)/Phrase(n) mit höchsten Gewichtungswerten)<br />

• Einsatzgebiet <strong>der</strong> Klassifikation nach Ähnlichkeit<br />

– unternehmensinterne Dokumentsammlungen, die überhaupt nicht<br />

indexiert worden sind<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 321


Automatische Indexierung<br />

• Automatische Zuordnung von Schlagworten<br />

• Voraussetzung: Dokumentationswerkzeug (Schlagwortliste,<br />

Klassifikationssystem, Thesaurus) liegt vor<br />

• Ansatz 1. Probabilistische Verfahren:<br />

Wie groß ist die Wahrscheinlichkeit, dass einem gegebenen<br />

Dokument ein bestimmtes Schlagwort (Schlagwort i.e.S.,<br />

Notation, Deskriptor) zuzuordnen ist?<br />

– Voraussetzung: Vorliegen von Wahrscheinlichkeitsinformationen<br />

(zum „Training“ des Systems)<br />

– Beispiel: AIR/PHYS<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 322


Automatische Indexierung<br />

• Automatische Zuordnung von Schlagworten<br />

• Ansatz 2: Textstatistische Verfahren: Welche Textworte<br />

(Phrasen) mit welcher Gewichtung müssen vorliegen, damit<br />

ein bestimmtes Schlagwort zuzuordnen ist?<br />

• Ansatz 3: Regelbasierte Verfahren: Wenn Textworte und<br />

ihre Umgebung gewissen Regeln folgen, wird ein<br />

bestimmtes Schlagwort zugeordnet.<br />

• Im praktischen Einsatz: Mischformen aus den drei<br />

Ansätzen<br />

– Beispiele: Reuters – Factiva („Intelligent Indexing“),<br />

Dialog Profound („InfoSort“), Dialog NewsEdge („Realtime<br />

Content Refinery System“) – Convera<br />

(„RetrievalWare“)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 323


Automatische Indexierung<br />

• Automatische Zuordnung von Schlagworten -<br />

probabilistisches Verfahren<br />

• Beispiel AIR/PHYS<br />

• Projekt <strong>der</strong> TH Darmstadt mit FIZ Karlsruhe<br />

• Physikdatenbank – Erschließungsbasis: Abstracts –<br />

Sprache: englisch<br />

• Erschließungswerkzeug: Physik-Thesaurus<br />

• ca. 392.000 intellektuell indexierte Dokumente (Abstracts<br />

und Deskriptoren) liegen vor und dienen als Basis für das<br />

Wörterbuch PHYS-PILOT<br />

Peter Biebricher; Norbert Fuhr; Gerhard Lustig; Michael Schwantner; Gerhard Knorz: The automatic indexing<br />

system AIR/PHYS – From research to application. – In: Proceedings of the 11th Annual International Conference<br />

on Research and Development in Information Retrieval. – New York: ACM, 1988, 333-342.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 324


• AIR/PHYS<br />

• Wörterbuch PHYS/PILOT<br />

Automatische Indexierung<br />

• Vokabular aus den intellektuell indexierten Dokumenten<br />

– #Dok(t) : Anzahl <strong>der</strong> Dokumente, die den Term t im Abstract<br />

enthalten<br />

– #Dok(t,s) : Anzahl <strong>der</strong> Dokumente aus #Dok(t), die den<br />

Deskriptor s enthalten<br />

• Wahrscheinlichkeit für ein Term-Deskriptor-Paar<br />

z(t,s) = #Dok(t,s) / #Dok(t)<br />

• Schwellenwerte<br />

– #Dok(t,s) = 2<br />

– z(t,s) = 0,29<br />

• Ergebnis: 800.000 Term-Deskriptor-Paare, davon 350.000<br />

genutzt<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 325


Automatische Indexierung<br />

• AIR/PHYS - Wörterbuch PHYS/PILOT – Beispiel<br />

Term Deskriptor #Dok(t,s) #Dok(t) z(t,s)<br />

stellar wind STELLARS WINDS 359 479 0,74<br />

molecular outflow 11 19 0,57<br />

hot star wind 13 17 0,76<br />

terminal stellar wind velocity 12 13 0,92<br />

Relationen im Thesaurus<br />

• Nicht-Deskriptor – Deskriptor<br />

• Hierarchie<br />

• Antonymie<br />

• formaler Einschluss (Bsp.: collision – atom collision)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 326


• AIR/PHYS - Indexierung<br />

Dokument d – Deskriptor s<br />

• a(x(d,s)) ist abhängig von<br />

Automatische Indexierung<br />

– z(t,s) – t ist im Abstract vorhanden, t-s ist als Relation erkannt<br />

– Häufigkeit des Auftretens von s im Abstract<br />

– Auftreten von s im Titel<br />

– ... weitere 30 Komponenten<br />

Relevanzbeschreibung<br />

x(d,s)<br />

Indexierungsgewicht<br />

g = a(x(d,s))<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 327


• AIR/PHYS – Indexierung<br />

Automatische Indexierung<br />

• a ist weiterhin abhängig von Deskriptor – Deskriptor – Relationen<br />

(etwa Begriff – Oberbegriff)<br />

• die Berechnung von a(x(d,s)) durchläuft mehrere Iterationsrunden<br />

• Transformation <strong>der</strong> gewichteten Deskriptorkandidaten in<br />

ungewichtete (0-1-Entscheidung)<br />

– wenn a(x(d,s)) größer als / gleich Schwellenwert � d wird durch s<br />

indexiert<br />

– wenn a(x(d,s)) kleiner als Schwellenwert � s wird nicht<br />

berücksichtigt<br />

• Güte <strong>der</strong> automatischen Indexierung (Stand: 1987)<br />

– 19% <strong>der</strong> Dokumente: von Indexern als brauchbar gewertet<br />

– 63%: brauchbar bei kleineren Korrekturen<br />

– 18%: unbrauchbar<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 328


• AIR/PHYS – Indexierung<br />

Automatische Indexierung<br />

• nur 44% <strong>der</strong> Deskriptoren sind durch die Relation z fundiert (also<br />

durch die bereits erkannten Zusammenhänge zwischen<br />

intellektuell zugeteilten Deskriptoren und Termen im Abstract)<br />

• bei halbautomatischer Indexierung (d.h. Fehlerkorrektur <strong>der</strong><br />

automatisch generierten Deskriptoren durch professionelle<br />

Indexer) steigt die Anzahl <strong>der</strong> erkannten Zusammenhänge<br />

zwischen t und s<br />

• das Wörterbuch wird fortgeschrieben<br />

• das System wird dadurch „trainiert“<br />

• das System müsste entsprechend fortlaufend besser werden<br />

• ... dies allerdings nur in <strong>der</strong> Theorie – die Datenbank PHYS und<br />

damit <strong>der</strong>en automatische Indexierung wurden inzwischen<br />

eingestellt<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 329


Automatische Indexierung<br />

• Automatische Zuordnung von Schlagworten –<br />

regelbasiertes Verfahren<br />

• Beispiel Construe-TIS<br />

• Projekt von Reuters Ltd. in Kooperation mit <strong>der</strong> Carnegie<br />

Group (Pittsburgh)<br />

• Datenbank mit Agenturmeldungen und Zeitungsartikeln –<br />

Erschließungsbasis: Volltexte – Sprachen: zunächst<br />

englisch, <strong>der</strong>zeit: 22<br />

• Erschließungswerkzeug: Reuters-Thesaurus (<strong>der</strong>zeit:<br />

„Factiva Intelligent Indexing“)<br />

Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of news<br />

stories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications<br />

of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 330


Automatische Indexierung<br />

• Topic Identification System (TIS)<br />

• Phase 1: Begriffserkennung<br />

• Begriff wird durch das Vorkommen bzw. Nicht-Vorkommen<br />

von Worten bzw. von Phrasen erkannt<br />

• Beispiel: Begriff GOLD (im Sinne einer Ware)<br />

• Operator &n : „und nicht in <strong>der</strong> selben Phrase“ (weitere<br />

Operatoren: „im selben Satz“, „im selben Dokument“)<br />

• beim Begriffssatz GOLD hinterlegt:<br />

(gold (&n (reserve ! medal ! jewelry))<br />

• im Text: „... gold production ...“ � GOLD<br />

• im Text: „... gold medal ...“ � NULL<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 331


Automatische Indexierung<br />

• Topic Identification System (TIS)<br />

• Phase 1: Begriffserkennung<br />

• Zuordnung eines Gewichtungswertes zu den Begriffen in<br />

Abhängigkeit von gemeinsam vorkommenden Termen<br />

• Beispiel: Begriff FOREIGN EXCHANGE<br />

• Satz 1: „... the Fed intervented in the money market ...“<br />

• Satz 2: „... currency speculation ...“<br />

• Satz 1 hat eine höhere Wahrscheinlichkeit für FOREIGN<br />

EXCHANGE als Satz 2<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 332


Automatische Indexierung<br />

• Topic Identification System (TIS)<br />

• Phase 2: Regeln für Kategorisierung (Klassierung)<br />

• Wenn-dann-Regeln mit Booleschen Operatoren; angewandt<br />

auf erkannte Begriffe<br />

• erkannter Begriff: „concept“; vorgegebener Deskriptor:<br />

„category“<br />

• Beispiel: Zuordnung des Deskriptors AUSTRALIAN<br />

DOLLAR zu einem Dokument<br />

• zu beachten: Dollars gibt es auch in den USA, in Singapur<br />

usw.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 333


Automatische Indexierung<br />

• Topic Identification System (TIS)<br />

• Phase 2: Regeln für Kategorisierung (Klassenbildung)<br />

• Regel:<br />

(if<br />

test: (or [australian-dollar-concept]<br />

(and [dollar-concept]<br />

[australia-concept]<br />

(not [us-dollar-concept])<br />

(not [singapure-dollar-concept])<br />

(not ...))<br />

action: (assign australian-dollar-category))<br />

• Solche Regeln können auf Satz-, Absatz- o<strong>der</strong> Textebene<br />

angewandt werden, alternativ auch auf Wortabstände.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 334


Automatische Indexierung<br />

• Topic Identification System (TIS)<br />

• Phase 2: Regeln für Kategorisierung (Klassenbildung)<br />

• Ein Text mit dem Satz<br />

„Australia announced today that it would devalue the<br />

dollar.“<br />

bekommt nach <strong>der</strong> Regel den Deskriptor AUSTRALIAN<br />

DOLLAR zugeordnet.<br />

• weitere Regeln berücksichtigen die Anzahl des<br />

Vorkommens eines Begriffs o<strong>der</strong> die Position im Text<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 335


Automatische Indexierung<br />

• Topic Identification System (TIS)<br />

• Phase 2: Regeln für Kategorisierung (Klassenbildung)<br />

• Regel<br />

(if<br />

test: or (and [gold-concept :scope headline 1]<br />

[gold-concept :scope body 1])<br />

[golf-concept :scope body 4])<br />

action: (assign gold catagory))<br />

• Anmerkung: Diese Regel kann durch textstatistische Maße<br />

(WDF, IDF, Positionswert) noch verfeinert werden.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 336


Weiteres Beispiel:<br />

Convera<br />

RetrievalWare<br />

Automatische Indexierung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 337


Abstracts<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 338


Grundlegende Literatur<br />

Abstracts<br />

• Brigitte Endres-Niggemeyer: Summarizing Information. –<br />

Berlin [u.a.]: Springer, 1998.<br />

• Edward T. Cremmins: The Art of Abstracting. - Philadelphia:<br />

ISI Press, 1982.<br />

• Harold Borko; C.L.Bernier: Abstracting Concepts and<br />

Methods. – New York: Academic Press, 1975.<br />

• Josef Koblitz: Methoden des Referierens von Dokumenten.<br />

– Leipzig: Bibliographisches Institut, 2 1968.<br />

• DIN 1426: Kurzreferate.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 339


Abstracts<br />

• Inhaltsangaben nach DIN 1426<br />

– Formen von Inhaltsangaben:<br />

• Auszug (Inf.verdichtung: nicht geeignet, da selektiv)<br />

• Zusammenfassung (Inf.verdichtung: nicht geeignet, da Kenntnis<br />

des Textes vorausgesetzt wird)<br />

• Rezension (Inf.verdichtung: nur sehr bedingt geeignet; i.d.R. zu<br />

lang – günstig aber als Zusatzinformation)<br />

• Literaturbericht (Inf.verdichtung über mehrere Dokumente,<br />

wegen zu großer Länge nicht geeignet)<br />

• Annotation (Inf.verdichtung über Stichworte: nicht geeignet, so<br />

etwas macht man mittels Thesaurus, Klassifikation o<strong>der</strong><br />

Textwortmethode)<br />

• Inhaltsverzeichnis (Inf.verdichtung: bei Monographien bedingt<br />

geeignet)<br />

• Sammelreferat (Inf.verdichtung über mehrere Dokumente; sehr<br />

geeignet)<br />

• Kurzreferat / Abstract (Inf.verdichtung eines Dokuments; sehr<br />

geeignet)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 340


Abstracts<br />

• Inhaltsangaben nach DIN 1426<br />

– Kurzreferat / Abstract (bei genau einer DBE – <strong>der</strong> Standardfall)<br />

Sammelreferat (bei mehreren DBE):<br />

• Vollständigkeit<br />

• Genauigkeit<br />

• Objektivität<br />

• Kürze<br />

• Verständlichkeit<br />

– Ziele:<br />

• grundlegende Inhalte <strong>der</strong> Dokumente sollen vom Nutzer schnell<br />

und exakt erkannt werden<br />

• die Relevanz <strong>der</strong> Dokumente für eine Fragestellung muss klar<br />

werden<br />

• Nutzer muss entscheiden können, ob <strong>der</strong> Volltext benötigt wird<br />

• letztlich: Fundierung einer ja/nein-Entscheidung, ob <strong>der</strong> Volltext<br />

eingesehen wird (dem Link gefolgt wird; das Dokument gekauft<br />

o<strong>der</strong> eine Übersetzung in Auftrag gegeben wird)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 341


Abstracts<br />

• Kurzreferat / Abstract<br />

– Glie<strong>der</strong>ung nach DIN 1463<br />

• zentrale Aussage des Dokuments<br />

• ggf. Dokumenttyp spezifizieren (etwa: Forschungsbericht; Letter)<br />

• ggf. Art <strong>der</strong> Themenbehandlung nennen (Überblick, theoretische<br />

Arbeit, empirische Arbeit)<br />

• Hypothesen<br />

• Zielsetzung<br />

• Bezug zu an<strong>der</strong>en Arbeiten<br />

• Methodik (Untersuchungsgegenstand, -methoden, -techniken)<br />

• Ergebnisse und Schlussfolgerungen<br />

• Herkunftsvermerk: entwe<strong>der</strong> „Autor“ o<strong>der</strong> Kürzel des Bearbeiters<br />

– Länge<br />

• Kurzmitteilung: max. 200 Zeichen<br />

• Zeitschriftenartikel: max. 500 Zeichen<br />

• umfangreiche Monographie: max. 1.000 Zeichen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 342


Abstracts<br />

• Kurzreferat / Abstract<br />

– Autorenabstract<br />

• Vorteile:<br />

– liegt mit <strong>der</strong> Publikation direkt vor<br />

– Autor bringt einschlägiges Fachwissen mit<br />

• Nachteile:<br />

– Autor ist nie objektiv<br />

– Autorensprache kann durchaus unverständlich sein<br />

– Inter-Abstractor-Konsistenz nicht gegeben<br />

– Fremdabstract<br />

• Vorteile:<br />

– objektiver (und wahrscheinlich verständlicher) als ein<br />

Autorenabstract<br />

– Konsistenz ist trainierbar<br />

– dokumentarisch-informationswissenschaftlicher Sachverstand<br />

• Nachteile:<br />

– muss erstellt werden (es fallen Kosten an)<br />

– Fachwissen ist nicht immer ausreichend vorhanden<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 343


• Kurzreferat / Abstract<br />

– Sprache<br />

Abstracts<br />

• in Zielsprache(n) <strong>der</strong> Datenbasis<br />

• Vorteil für Nutzer: Kurzüberblick auch über Dokumente in<br />

Sprachen, die <strong>der</strong> Nutzer nicht beherrscht<br />

• deshalb sinnvoll anzuschließen: Übersetzungsservice für<br />

die Volltexte<br />

• bei digital vorliegenden Dokumenten: u.U. langt zunächst<br />

eine automatische Übersetzung (Bsp.: AltaVista‘s<br />

Babelfish o<strong>der</strong> Google‘s „translate tool“)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 344


Abstracts<br />

• Kurzreferat / Abstract<br />

– NICHT ins Abstract gehören<br />

• Titel (wäre redundant)<br />

• Negativa (wäre im Retrieval über den Abstract-Index irreführend)<br />

– Problem: Wahrheitsgehalt<br />

• Lösung 1: Referieren ohne Überprüfung des Wahrheitsgehalts<br />

<strong>der</strong> Vorlage („... Die Quadratur des Kreises arbeitet nach <strong>der</strong><br />

Methode ...“)<br />

• Lösung 2: Überprüfung des Wahrheitsgehaltes <strong>der</strong> Vorlage und<br />

Markieren von zweifelhaften Aussagen („... Verf. behauptet, die<br />

Quadratur des Kreises geschehe nach <strong>der</strong> Methode ...“)<br />

– Typen des Kurzreferats / Abstracts<br />

• indikatives Referat<br />

• informatives Referat<br />

• analytisches Referat<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 345


Abstracts<br />

• Kurzreferat / Abstract: Was wird aufgenommen?<br />

– das, worum es in einem Text geht – „aboutness“<br />

• extensionale Aboutness: inhärente Aboutness eines<br />

Textes – diese ist Basis für Abstracts<br />

• intensionale Aboutness: Bedeutung (Stellenwert) eines<br />

Textes im Kontext an<strong>der</strong>er Texte – nicht für Abstracts<br />

geeignet<br />

– im Sinne <strong>der</strong> Textlinguistik: „Makrostruktur“ eines<br />

Textes<br />

• Entscheidung, was weggelassen wird<br />

• Entscheidung, was (aus den speziellen Aussagen)<br />

verallgemeinert wird<br />

Helen R. Tibbo: Abstracting, Information Retrieval and the Humanities. – Chicago; London: American Library<br />

Association, 1993. (Chapter 2: Abstracts and Abstracting. Fundamental Consi<strong>der</strong>ations, 18-39).<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 346


Abstracts<br />

• Kurzreferat / Abstract: homomorphe versus<br />

paramorphe Reduktion Text mit<br />

Makrostruktur<br />

homomorphe Reduktion<br />

paramorphe Reduktion<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 347


Abstracts<br />

• Kurzreferat / Abstract: homomorphe versus<br />

paramorphe Reduktion<br />

– isomorphe Reduktion: die Makrostrukturen von Text<br />

und Abstract sind gleich (etwa: Thema A im Text 25%<br />

und Thema B im Text 16% des Umfangs, dann auch im<br />

Abstract A 25% und B 16%) – faktisch nicht<br />

durchführbar<br />

– homomorphe Reduktion: die Makrostrukturen von Text<br />

und Abstract sind ähnlich – bei Abstracts anzustreben<br />

– paramorphe Reduktion: die Makrostrukturen von Text<br />

und Abstract sind unterschiedlich (böse gesagt: das<br />

Abstract liegt „daneben“ [para, grch. = neben]) – o<strong>der</strong><br />

u.U. positiv: perspektivisches Abstract<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 348


Abstracts<br />

• Texttypologie<br />

– erzählende Texte (<strong>Geschichte</strong>n, <strong>Geschichte</strong>, ...)<br />

– prozedurale Texte (Gebrauchsanweisungen, Rezepte, ...)<br />

– verhaltensbeeinflussende Texte (politische Reden,<br />

Werbetexte, ...)<br />

– erklärende Texte (wissenschaftliche Literatur, „Essays“, ...)<br />

• disziplinspezifische Texte<br />

– etwa: naturwissenschaftliche Texte mit i.d.R. straffer und<br />

anerkannter Strukturierung (hieran orientiert sich die<br />

deutsche Norm DIN 1463)<br />

– etwa: geisteswissenschaftliche Texte mit i.d.R. eher loser<br />

Strukturierung, wobei die Struktur allgemein kaum<br />

vorgegeben ist<br />

• Abstracts sind abhängig vom Texttyp <strong>der</strong> Vorlage<br />

und (bei erklärenden Texten) von <strong>der</strong> Fachdisziplin<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 349


Abstracts<br />

• disziplinspezifisches Abstracting. Beispiel<br />

• bei technischen Dokumenten (etwa Patenten o<strong>der</strong><br />

Gebrauchsmustern): zusätzlich zentral wichtige Zeichnung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 350


Abstracts<br />

• Indikatives Kurzreferat / Abstract<br />

Inhaltsanalyse<br />

referierwürdiges Dokument<br />

referierwürdige Inhaltskomponenten<br />

- Themen (weiße Kästen)<br />

- Aussagen zu den Themen<br />

(schraffierte Kästen)<br />

Indikatives Abstract:<br />

Wie<strong>der</strong>gabe <strong>der</strong> Themen in vollständigen Sätzen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 351


Abstracts<br />

• Indikatives Kurzreferat / Abstract - Beispiel<br />

• Russ, Hans: Einzelhandel (Ost): Optimistische<br />

Geschäftserwartungen<br />

• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3<br />

• Abstract: Die Geschäftslage des ostdeutschen Einzelhandels im<br />

Januar 1993 wird beschrieben. Skizziert wird <strong>der</strong> in den nächsten<br />

sechs Monaten zu erwartende Geschäftsverlauf. Im einzelnen<br />

geht es um den Gebrauchsgüterbereich und den Verbrauchsgüterbereich.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 352


Abstracts<br />

• Informatives Kurzreferat / Abstract<br />

Inhaltsanalyse<br />

referierwürdiges Dokument<br />

referierwürdige Inhaltskomponenten<br />

- Themen (weiße Kästen)<br />

- Aussagen zu den Themen<br />

(schraffierte Kästen)<br />

Informatives Abstract:<br />

Wie<strong>der</strong>gabe <strong>der</strong> Aussagen zu den Themen<br />

in vollständigen Sätzen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 353


Abstracts<br />

• Informatives Kurzreferat / Abstract – Beispiel<br />

• Russ, Hans: Einzelhandel (Ost): Optimistische<br />

Geschäftserwartungen<br />

• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3<br />

• Abstract: Die Geschäftslage des ostdeutschen Einzelhandels hat<br />

sich im Januar 1993 im Vergleich zum Vormonat deutlich<br />

verschlechtert. Hinsichtlich des in den nächsten sechs Monaten<br />

zu erwartenden Geschäftsverlaufs äußerten sich die Teilnehmer<br />

am ifo Konjunkturtest allerdings zuversichtlich. Im Gebrauchsgüterbereich<br />

ist die Geschäftslage im Durchschnitt zufriedenstellend;<br />

im Verbrauchsgüterbereich überwiegen negative Urteile.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 354


Abstracts<br />

• Analytisches Kurzreferat / Abstract (Strukturreferat)<br />

Inhaltsanalyse<br />

referierwürdiges Dokument<br />

referierwürdige Inhaltskomponenten<br />

- Themen (weiße Kästen)<br />

- Aussagen zu den Themen<br />

(schraffierte Kästen)<br />

Analytisches Abstract:<br />

Wie<strong>der</strong>gabe <strong>der</strong> Themen sowie <strong>der</strong><br />

Aussagen zu den Themen<br />

in tabellarischer Form<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 355


Abstracts<br />

• Analytisches Kurzreferat / Abstract – Beispiel<br />

• Russ, Hans: Einzelhandel (Ost): Optimistische<br />

Geschäftserwartungen<br />

• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3<br />

• Inhalt:<br />

• Gegenstand: Ostdeutscher Einzelhandel im Januar 1993<br />

• Methode: ifo Konjunkturtest<br />

• Ergebnisse:<br />

• --- Geschäftslage: merklich verschlechtert gegenüber Vormonat<br />

• --- Erwartungen: zuversichtlich (für die nächsten 6 Monate)<br />

• --- Gebrauchsgüter: schwache Umsatzeinbußen, zufriedenstellend<br />

• --- Verbrauchsgüter: starke Umsatzeinbußen, 1/3 aller<br />

Testteilnehmer äußern sich unzufrieden<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 356


Abstracts<br />

• Kurzreferat / Abstract - Vor- und Nachteile<br />

Vorteile Nachteile<br />

indikativ kostengünstig informationsarm<br />

unübersichtlich<br />

informativ informationsreich bei langen Vorlagen kaum<br />

durchzuführen<br />

unübersichtlich<br />

teuer<br />

analytisch informationsreich sehr teuer<br />

strukturiert nicht für jede Art von<br />

Vorlagen geeignet<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 357


Abstracts<br />

• Sammelreferat<br />

– Auswahl eines aktuellen („heißen“) Themas<br />

– Zusammenstellung <strong>der</strong> Menge einschlägiger Dokumente<br />

– Abstractingprozess wie bei Einzelabstract; jeweils<br />

jedoch bezug auf die Einzeldokumente nehmen (etwa<br />

durch End- o<strong>der</strong> Fußnoten)<br />

– außer Abstracting auch redaktionelle Arbeiten<br />

– Länge: 1 bis 3 Seiten<br />

– in den Endnoten o<strong>der</strong> in einer Bibliographie die<br />

bibliographischen Angaben <strong>der</strong> Dokumente nennen<br />

(ggf. dahin verlinken)<br />

– Einsatzgebiet: thematischer Pushdienst<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 358


Abstracts<br />

• Sammelreferat – Beispiel: KnowledgeSummaries<br />

Willi Bredemeier: Knowledge Summaries. Journalistische Professionalität mit Verbesserungsmöglichkeiten bei<br />

Themenfindung und Quellenauswahl. – In: Password Nr. 3 (2004), 10-15.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 359


Abstracts<br />

• Sammelreferat – Beispiel: KnowledgeSummaries<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 360


Abstracts<br />

• Automatisches Abstracting<br />

– Bemühungen seit Jahrzehnten; jedoch bisher in <strong>der</strong> Praxis wenig<br />

erfolgreich; nur experimentelle Systeme<br />

– Basismethode: Extraktion <strong>der</strong> „wichtigen“ Sätze aus einem Text<br />

anhand von Wahrscheinlichkeitswerten (P) für „Wichtigkeit“<br />

• (1) Satzlänge (Mindestlänge: etwa 5 Worte):<br />

P(1) = 0 für Sätze mit weniger als 5 Worten); P(1) = 1 für alle an<strong>der</strong>en<br />

Sätze<br />

• (2) Indikatorphrasen (Sätze, die gewisse Phrasen – z.B. „in<br />

conclusion“ – enthalten, werden hoch bewertet):<br />

P(2) für Sätze mit Indikatorphrasen > P(2) für Sätze ohne<br />

Indikatorphrasen<br />

Brigitte Endres-Niggemeyer: Textzusammenfassung. – In: Computerlinguistik und Sprachtechnologie. Eine<br />

Einführung. – München: Elsevier – Spektrum 2 2004, 511-516.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 361


Abstracts<br />

• Automatisches Abstracting<br />

• (3) Absatzstruktur (Sätze in den vor<strong>der</strong>en und hinteren Ansätzen<br />

werden höher bewertet als solche in mittleren Absätzen):<br />

P(3) für Sätze in den ersten n Absätzen bzw. in den letzten m<br />

Absätzen > P(3) für alle an<strong>der</strong>en Sätze<br />

• (4) Sätze ranken nach Termgewichten (für alle Terme WDF und IDF<br />

berechnen – Termgewichte jedes Satzes addieren):<br />

P(4) = Summe <strong>der</strong> Termgewichte im Satz<br />

• (5) ggf. Sätze, in denen Akronyme vorkommen (z.B. IBM, SPD), höher<br />

bewerten:<br />

P(5) für Sätze mit einem Akronym > P(5) für Sätze ohne Akronyme<br />

• Errechnung <strong>der</strong> Wichtigkeitswahrscheinlichkeit für jeden Satz:<br />

P(Satz) = P(1) * P(2) * P(3) * P(4) * P(5)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 362


Abstracts<br />

• Automatisches Abstracting<br />

• Sortierung <strong>der</strong> Sätze nach P(Satz)<br />

• Auszählen <strong>der</strong> Länge (Anzahl <strong>der</strong> Zeichen) für jeden Satz<br />

• Vergleich mit Schwellenwert (maximale Länge des Abstracts)<br />

• Markieren <strong>der</strong> ersten n Sätze, <strong>der</strong>en Gesamtzeichenanzahl unter <strong>der</strong><br />

maximalen Abstractlänge liegt<br />

• Herstellen <strong>der</strong> ursprünglichen Reihenfolge für diese n Sätze<br />

• diese n Sätze bilden das Abstract<br />

– verfeinerte Methoden<br />

• Vergleiche mit „Trainingsdaten“ (Abstracts professioneller –<br />

menschlicher – Abstracter sowie ihrer Ausgangstexte)<br />

• Kürzen von Sätzen<br />

• Zusammenfassen mehrerer Sätze<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 363


Abstracts<br />

• Abstracts. Fazit<br />

– Referate ergänzen den Titel einer DE und ermöglichen dem<br />

Nutzer zu entscheiden, ob die DBE benötigt wird (auch bei<br />

fremdsprachlicher Literatur: Übersetzung!)<br />

– außer bei sehr kurzen Dokumenten (z.B. Kurzmeldungen bei<br />

Zeitungsartikeln) benötigt jede DE ein Abstract<br />

– die Informationsverdichtung geschieht so knapp, aber auch so<br />

aussagekräftig wie möglich, die Makrostruktur <strong>der</strong> Vorlage bleibt<br />

(nahezu) erhalten (homomorphe Reduktion)<br />

– Referate sind abhängig vom Texttyp und vom Fach <strong>der</strong> DBE<br />

– Typen <strong>der</strong> Informationsverdichtung des Inhalts eines Dokuments<br />

sind das indikative, informative (Standard) und das analytische<br />

Abstract<br />

– technische Dokumente benötigen u.U. eine Zeichnung zur<br />

Unterstützung des Abstracts<br />

– Informationsverdichtung mehrerer Dokumente geschieht über<br />

Sammelreferate, eingesetzt als thematischer Pushdienst<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 364


• Abstracts. Fazit<br />

Abstracts<br />

– automatisches Abstracting: Berechnung <strong>der</strong> „Wichtigkeit“ von<br />

Sätzen innerhalb eines Dokuments (<strong>der</strong>zeit wenig ausgereifte<br />

Systeme)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 365


Informationsextraktion<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 366


• Informationsextraktion<br />

Informationsextraktion<br />

– bei <strong>der</strong> Suche nach o<strong>der</strong> <strong>der</strong> laufenden Beobachtung von<br />

konkreten Sachverhalten im WWW<br />

– nicht: Angabe einer Webseite<br />

– son<strong>der</strong>n: Angabe des Sachverhalts (und nur diesen) -<br />

analog zu den analytischen Kurzreferaten<br />

– die Sachverhalte werden den Webseiten entnommen (aus<br />

diesen „extrahiert“)<br />

– <strong>der</strong>zeitige Einsatzgebiete: vergleichende Informationen<br />

aus Webseiten bei Spezialsuchmaschinen o<strong>der</strong> Shopping<br />

Malls (z.B. Preisvergleiche); Informationsagenten<br />

Günter Neumann: Informationsextraktion. – In: Computerlinguistik und Sprachtechnologie. Eine<br />

Einführung. – München: Elsevier – Spektrum 2 2004, 502-510.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 367


Informationsextraktion<br />

• Informationsextraktion<br />

– vorgegeben: Menge von Objekten bzw. Merkmalen, die einen<br />

Sachverhalt bilden (z.B. Produktbezeichnung und Preis, Autor und<br />

Buch)<br />

– Extraktionsprozess: Wrapper („Einpacker“)<br />

• Startmenge: „typische“ Webseiten für die gesuchte Relation (bei Brin: 5<br />

Bücher mit <strong>der</strong>en Autorennamen)<br />

• Retrieval: Suche nach Webseiten, in denen die gesuchte Relation<br />

vorkommt (also die 5 Bücher und Autorennamen)<br />

• Erkennen <strong>der</strong> Muster des Ausdrucks des Sachverhaltes (<strong>der</strong> „patterns“)<br />

– Worte, die den Zusammenhang ausdrücken – z.B. „by author“,<br />

„written by“<br />

• Suche nach allen Webseiten, die einen solchen Sachverhalt<br />

ausdrücken<br />

– Ergebnis: konkrete Werte <strong>der</strong> Merkmale (z.B. Karl May - Winnetou)<br />

Sergey Brin: Extracting patterns and relations from the World Wide Web. – In: Lecture Notes in Computer Science,<br />

Vol. 1590. – Berlin [u.a.]: Springer, 1998, 172-183.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 368


Informationsextraktion<br />

• Informationsextraktion. Bsp.: Froogle<br />

Aus <strong>der</strong><br />

Webseite<br />

extrahiert:<br />

Produktname,<br />

Preis,<br />

Anbieter,<br />

Beschreibung,<br />

Bild<br />

Alternativverfahren:<br />

XML – Topic<br />

Map<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 369


Informationsextraktion<br />

• Informationsextraktion. Bsp.: Froogle<br />

Originalwebseite<br />

Produktname<br />

Beschreibung<br />

Preis<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 370


Informationsextraktion<br />

• Informationsextraktion<br />

– Ansätze:<br />

– (1) „Knowledge Engineering Approach“<br />

die Sachverhalte sowie die Muster (patterns) werden<br />

intellektuell erstellt<br />

– (2) „Automatically Trainable Systems“<br />

Suche nach Sachverhalten und Mustern mittels<br />

informationsstatistischer und –linguistischer<br />

Algorithmen (z.T. Verwendung von Trainingsdaten –<br />

etwa indexierte Korpora)<br />

– Weiterentwicklung <strong>der</strong> Forschungen zur Informationsextraktion<br />

durch MUC („Message Unterstanding<br />

Conferences“ – seit 1987)<br />

Douglas E. Appelt; David J. Israel: Introduction to Information Extraction Technology. – In: International Joint<br />

Conference on Artificial Intelligence 1999 (IJCAI-99).<br />

Line Eikvil: Information Extraction from World Wide Web. A Survey. – Oslo: Norwegian Computing Center,<br />

1999. – (Technical Report; 945).<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 371


Informationsextraktion<br />

• Informationsextraktion<br />

– Einsatz beim konkreten Informationsbedarf (Faktenfrage)<br />

• Kennzeichnung des Typs des Informationsbedarfs<br />

durch Nutzer<br />

• Beschreibung des gesuchten Sachverhalt (etwa<br />

1. „Wie heißt die Hauptstadt von NRW?“<br />

2. „Wie heißen die Hauptstädte aller 25 EU-Län<strong>der</strong>?“<br />

• automatisches Vorgehen nach Ansatz (2)<br />

„Automatically Trainable Systems“ – ggf. Dialog zur<br />

Abklärung <strong>der</strong> Mustererkennung<br />

• Aufsuchen <strong>der</strong> Webseiten – Informationsextraktion<br />

• Ausgabe nur des nachgefragten Sachverhalts<br />

zu Frage 1: Hauptstadt NRW : Düsseldorf (URL: ...)<br />

zu Frage 2: Hauptstadt Belgien : Brüssel (URL: ...)<br />

Hauptstadt Dänemark : Kopenhagen ...<br />

Hauptstadt Zypern : Nikosia (URL: ...)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 372


• Informationsagenten<br />

Informationsextraktion<br />

– laufende Beobachtung von Sachverhalten (Fakten) im<br />

WWW<br />

– periodischer Einsatz <strong>der</strong> Informationsextraktion („SDI<br />

für Fakten“)<br />

– Einsatzgebiet (Beispiel):<br />

• Wettbewerberbeobachtung (Personen im<br />

Management, Preisän<strong>der</strong>ungen, Umsatzzahlen, ...)<br />

Nicholas Kushmerick; Bernd Thomas: Adaptive Information Extraction. Core Technologies for Information Agents. –<br />

Koblenz: Universität Koblenz-Landau / Institut für Informatik, 2003. – (Fachberichte Informatik 9/2003).<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 373


Informationsextraktion<br />

• Informationsextraktion. Fazit<br />

– Informationsextraktion: Erkennen einzelner Sachverhalte,<br />

Extrahieren konkreter Sachverhalte aus digitalen Dokumenten<br />

• Einsatz innerhalb spezifischer Wissensbereiche (z.B.<br />

Produkte) – recht ausgereifte Systeme (z.B. Froogle)<br />

• Einsatz im WWW allgemein (beim konkreten<br />

Informationsbedarf) – <strong>der</strong>zeit Ansätze, keine laufenden<br />

Systeme)<br />

– Informationsagenten: SDI für Sachverhalte<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 374


Das „semantische Web“:<br />

Ontologien – Topic Maps<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 375


Grundlegende Literatur<br />

Semantisches Web<br />

• Dieter Fensel et al. (Eds.): Spinning the Semantic Web. –<br />

Cambridge, Mass.; London: MIT, 2003.<br />

• Richard Widhalm; Thomas Mück: Topic Maps. Semantische<br />

Suche im Internet. – Berlin [u.a.]: Springer, 2002.<br />

• Tim Berners-Lee: Semantic Web – XML 2000. (Folien).<br />

Online: www.w3.org/2000/Talks/1206-xml/2k-tbl<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 376


Semantisches Web<br />

• Ontologien<br />

– bilden ab: Objekte (durch Begriffe) – analog zu<br />

Dokumentationssprachen und<br />

– (zumindest rudimentär) Sachverhalte (durch Sätze in<br />

einer formalisierten Sprache) – analog zu Abstracts<br />

– Die „Ontologie“ ist die explizite Spezifizierung eines<br />

(i.d.R. sehr kleinen) Wissensbereiches, so dass dieser in<br />

einem Informationssystem abgebildet werden kann.<br />

– Aspekte<br />

• Relationen (2-stellig)<br />

• Funktionen (n-stellige Relationen)<br />

• Feldschema (Kategorien – Top Level Begriffe)<br />

• Klassen (Allgemeinbegriffe)<br />

• Instanzen (Individualbegriffe)<br />

• Axiome (Regeln)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 377


• Ontologien<br />

Semantisches Web<br />

– Ursprung: Forschungen zur Künstlichen Intelligenz (u.a.<br />

von Tom R. Gruber – Stanford Knowledge Systems Lab)<br />

– da Ontologien jeweils einen engen<br />

Wissensbereich repräsentieren, sind<br />

Konkordanzen zwischen unterschiedlichen<br />

Ontologien nötig<br />

– Realisierung in XML<br />

– RDF: Resource Description Framework<br />

– innerhalb RDF: URI (Universal Resource<br />

Identifier) – benutzt wie eine URL bei Links<br />

(enthält die Relationen bzw. Funktionen zwischen den<br />

Klassen bzw. Instanzen)<br />

Tom R. Gruber: A translation approach to portable ontologies. – In: Knowledge Acquisition 5 (1993), 199-220.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 378


• Ontologien<br />

Semantisches Web<br />

Das<br />

World Wide<br />

Web in<br />

heutiger<br />

Form<br />

Quelle:<br />

W3C<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 379


• Ontologien<br />

Semantisches Web<br />

Das<br />

World Wide<br />

Web<br />

mit<br />

Ontologie<br />

Quelle:<br />

W3C<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 380


• Ontologien<br />

– Schichtenmodell<br />

von<br />

Berners-Lee<br />

Semantisches Web<br />

Tim Berners-Lee: Semantic Web – XML 2000. (Folien). Online: www.w3.org/2000/Talks/1206-xml/2k-tbl<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 381


• Ontologien<br />

– Abfrageagenten<br />

Semantisches Web<br />

• übersetzen die Frage des Nutzers<br />

• kommunizieren via Ontologien mit Informationssystemen<br />

• geben bei (einfachen) Faktenfragen eine Antwort<br />

• bereiten Transaktionen vor<br />

• können sich auch auf (intelligente) Geräte richten<br />

– Beispiel 1: Gerätesteuerung<br />

• Stereoanlage läuft – Telefon klingelt: wenn Nutzer ans<br />

Telefon geht, schaltet sich die Stereoanlage leiser (Vor.:<br />

Stereoanlage ist URI; Regel: Wenn Telefongespräch, dann<br />

Anlage leise)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 382


• Ontologien<br />

Semantisches Web<br />

– Beispiel 2: Faktenfrage<br />

• Anfrage: „Welche Arznei hilft gegen Vampirbisse?“<br />

• Klassen: in Kategorie Arznei: Arznei, Vampirbissarznei<br />

• ... in Kategorie Krankheit: Vampirbiss<br />

• ... in Kategorie Nebenwirkungen: Unsterblichkeit<br />

• Instanz: Dracuex<br />

• Funktion: ... hilft gegen ... mit Nebenwirkung ... - 3-stellige<br />

Relation<br />

• Axiom: [Arznei] hilft gegen [Krankheit] mit Nebenwirkung<br />

[Nebenwirkung]<br />

• Relation: Vampirbissarznei UB Arznei<br />

• Relationen: ... ist ein/e ...; ... hat Nebenwirkung ...<br />

• Axiom: Dracuex ist eine Vampirbissarznei<br />

• Axiom: Dracuex hat Nebenwirkung Unsterblichkeit<br />

• Ausgabe: Dracuex hilft gegen Vampirbisse mit<br />

Nebenwirkung Unsterblichkeit<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 383


• Ontologien<br />

Semantisches Web<br />

– Beispiel 3: Transaktionsvorbereitung<br />

• Anfrage: Wo ist das nächstgelegene koreanische<br />

Restaurant, das gebratenen Hund führt und in einer halben<br />

Stunde für zwei Personen einen Tisch frei hat?<br />

– Einsatzbereiche von Ontologien<br />

• Intranet von Unternehmen<br />

• Kataloge im E-Commerce<br />

• Informationssysteme in (überschaubaren)<br />

Wissensbereichen<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 384


• Topic Maps<br />

Semantisches Web<br />

– Begriffe und (rudimentär) Sachverhalte<br />

(wie bei Ontologien)<br />

– Topic Maps sind eigene Dokumente, die<br />

auf an<strong>der</strong>e Dokumente verweisen (letztere<br />

haben mit den Topic Maps nichts zu tun)<br />

– aufgebaut seit Beginn <strong>der</strong> 90er Jahre;<br />

fe<strong>der</strong>führend u.a. Steven R. Newcomb<br />

und Michel Biezunski<br />

– geregelt durch ISO 13.250 (1999)<br />

– Basistechnik: XML (wichtig: DTD)<br />

– unter Verwendung von: URI<br />

– Einsatzbereiche:<br />

• Aufbaustruktur einer Website<br />

• Zugriff auf Dokumentmengen mittels<br />

unterschiedlicher Topic Maps<br />

Michel Biezunski<br />

Steve Newcomb<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 385


• Topic Maps<br />

– Topic: Begriff<br />

Semantisches Web<br />

– Topic Name: ähnlich wie Deskriptor im Thesaurus (mit<br />

Nicht-Deskriptoren als Synonymen)<br />

– Scope: Lösung des Homonymproblems (durch Zusatz)<br />

– Type: Einordnung eines Topic in eine Kategorie („vom<br />

Typ“)<br />

– Association Role: (n-stellige) Relation<br />

– Facet: Aussage zu einem Topic<br />

– Occurrence: Dokument (u.a. Webseite) – liegt außerhalb<br />

des Topic Map<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 386


• Topic Map (Beispiel)<br />

vom Typ<br />

Frankreich<br />

ist Haupt-<br />

Stadt von<br />

Paris<br />

Scope<br />

Semantisches Web<br />

Land<br />

grenzt an<br />

hat<br />

10 Mio.<br />

Einwohner<br />

Geographie<br />

Type<br />

vom Typ<br />

Deutschland<br />

Facet<br />

Role<br />

Mark<br />

„D-Mark“<br />

„Deutsche Mark“<br />

war<br />

Währung in<br />

Topic<br />

Occurrence<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 387


• Topic Maps<br />

• Website mit<br />

Topic Map<br />

Semantisches Web<br />

Michel Biezunski; Steven R. Newcomb: Topic Maps: The Inventor‘s Perspective on Subject-based Access.<br />

(Vortrag bei <strong>der</strong> Library of Congress, Okt. 2003).<br />

Online: www.coolheads.com/PUBS/LC2003/<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 388


Semantisches Web<br />

• Informationsverdichtung durch Ontologien o<strong>der</strong><br />

Topic Maps<br />

– Vorteile<br />

• nicht nur Begriffssysteme, son<strong>der</strong>n (zumindest<br />

rudimentär) Sachverhalte<br />

• „semantisches Retrieval“<br />

• zur Wissensabbildung in kleinen (überschaubaren)<br />

Wissensdomänen geeignet<br />

– Nachteile<br />

• <strong>der</strong> Wissensstand einer Zeit wird festgeschrieben (zwar<br />

nicht prinzipiell, aber faktisch wegen riesigem Aufwand,<br />

das semantische Netz aktuell zu halten)<br />

• sehr aufwendig in <strong>der</strong> Entwicklung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 389


Informationsfilter und<br />

Informationsverdichter im Überblick<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 390


Informationsfilter und –verdichter im Überblick<br />

Informationsfilter<br />

Thematische Filter Nicht-thematische Filter<br />

Textsprachl. Methoden Dokumentationsmethoden<br />

Volltext (ASCII)<br />

Titelindexierung<br />

Textwortmethode<br />

Zitationsindexierung<br />

Klassifikation<br />

Schlagwortmethode<br />

Thesaurus<br />

Zielgruppe<br />

Themenbehandlung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 391


Informationsfilter und –verdichter im Überblick<br />

Informationsextraktion<br />

Informationsagent<br />

Informationsverdichter<br />

Referate semantisches Web<br />

Kurzreferat<br />

indikativ<br />

informativ<br />

analytisch<br />

Sammelreferat<br />

Ontologie<br />

Topic Map<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 392


Informationsfilter und –verdichter im Überblick<br />

Informationsarchitektur<br />

• Aufbau eines unternehmensweiten Informationssystems<br />

• Zusammenwirken von (Wirtschafts-)Informatik (Hardware,<br />

Software, Netze), Betriebswirtschaftslehre (Management,<br />

Organisation) und Informationswissenschaft (Content,<br />

Informationsfilter, Informationsverdichter)<br />

• Sicherstellen <strong>der</strong> Interoperabilität (etwa mittels XML)<br />

• Metadaten (Aufbau von Regelwerken für Dokumentauswertung)<br />

• Informationsfilter (Aufbau einer o<strong>der</strong> mehrerer Begriffsordnungen<br />

• Informationsverdichtung (Aufbau von Regelwerken für Abstracting)<br />

• Nutzerschnittstellen<br />

• Organisation des laufenden Betriebs<br />

Alan Gilchrist; Barry Mahon (Eds.): Information Architecture. Designing Information Environments for<br />

Purpose. – London: Facet Publ., 2004.<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 393


Informationsfilter und –verdichter im Überblick<br />

Informationsarchitektur – strategisches<br />

Management <strong>der</strong> Informationsfilter und -verdichter<br />

• Aufbau des/<strong>der</strong> grundlegenden Informationsfilter/s<br />

• Grundsatzentscheidung: Welche Methoden einsetzen?<br />

• Kandidaten:<br />

– Klassifikation<br />

– Schlagwortmethode<br />

– Thesaurus<br />

– Textwortmethode<br />

– Zitationsindexierung<br />

– Ontologie / Topic Map<br />

• stets zusätzlich: Informationsverdichtung durch Abstracting<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 394


Informationsfilter und –verdichter im Überblick<br />

Informationsarchitektur – strategisches Management <strong>der</strong><br />

Informationsfilter und -verdichter<br />

• Festlegen von dokumentarischer/n Bezugseinheit/en und<br />

Dokumentationswürdigkeit<br />

• Variante 1: ein Kriterienpaket für alle Dokumente, stets<br />

gleichbleibende DBE<br />

• Variante 2: mehrere Kriterienpakete, abhängig von <strong>der</strong> Relevanz <strong>der</strong><br />

Dokumente für die Datenbank („Schalenmodell“ von Krause)<br />

– Kern (hochrelevante Dokumente): tiefe und qualitativ hochwertige<br />

Erschließung; Abstracts<br />

– Schale 1 (weniger relevante Dokumente): nur Erschließung (mit<br />

Thesaurus, Klassifikation, Schlagwortmethode), keine Abstracts<br />

– ...<br />

– Schale n (noch weniger relevante Dokumente): nur automatische<br />

Titelindexierung<br />

Jürgen Krause: Informationserschließung und –bereitstellung zwischen Deregulierung, Kommerzialisierung und<br />

weltweiter Vernutzung – Schalenmodell. – Bonn: IZ Sozialwissenschaften, 1996. – (IZ-Arbeitsbericht; 6).<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 395


Informationsfilter und –verdichter im Überblick<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 396


Informationsfilter und –verdichter im Überblick<br />

Informationsarchitektur – strategisches<br />

Management <strong>der</strong> Informationsfilter und –verdichter<br />

• Dokumentationseinheiten selbst erstellen und/o<strong>der</strong><br />

zukaufen?<br />

• soweit externe Dokumentationseinheiten vorhanden sind:<br />

kaufen!<br />

• mittels unternehmensinternen Indexierungsmethoden und<br />

Hilfsmitteln neu indexieren (möglichst vollautomatisch)<br />

• interne Dokumente können nur selbst bearbeitet werden<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 397


Informationsfilter und –verdichter im Überblick<br />

interne Dokumente:<br />

selbst indexieren!<br />

externe<br />

Dokumentationseinheiten:<br />

zukaufen! neu indexieren!<br />

Quelle:<br />

Factiva<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 398


Informationsfilter und –verdichter im Überblick<br />

Informationsarchitektur – Organisation des<br />

laufenden Betriebs<br />

• Input: Wer erstellt die Dokumentationseinheiten?<br />

• Variante 1: intellektuell<br />

– zuerst: Verfasser <strong>der</strong> dokumentarischen Bezugseinheiten<br />

(Abstracts, Deskriptoren/Notationen/Schlagworte)<br />

– dann: Korrekturen / Ergänzungen durch Informationswissenschaftler<br />

• Variante 2: automatisch<br />

– Verfasser stellen die Dokumente in das Informationssystem<br />

(Abstracts möglichst intellektuell erstellen!)<br />

– Indexieren erfolgt durch Software (etwa FAST, Convera<br />

o<strong>der</strong> Verity)<br />

• Variante 3: semiautomatisch<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 399


Informationsfilter und –verdichter im Überblick<br />

Informationsarchitektur – Organisation des<br />

laufenden Betriebs<br />

• Datenbank: Wer pflegt die Datenbank und die Informationsfilter?<br />

– technisch: Netzwerkadministration<br />

– Content: Content-Administration (Informationswissenschaftler)<br />

• Output: Wer recherchiert?<br />

– einfache Anfragen; Bearbeiten <strong>der</strong> SDI: Endnutzer<br />

– komplizierte Anfragen; Anlegen <strong>der</strong> SDI: Content-<br />

Administration<br />

– weitere Dienste (z.B. Mitarbeiterzeitschrift, nicht geor<strong>der</strong>te<br />

Pushdienste): Content-Administration<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 400


Informationsfilter und –verdichter im Überblick<br />

Informationsarchitektur – Organisation des<br />

laufenden Betriebs<br />

• Aufbau <strong>der</strong> grundlegenden Informationskompetenz beim<br />

Endnutzer<br />

– Einführung in die Systemtechnik (Softwareschulung)<br />

– Einführung in die Informationsfilter (zum Selbstindexieren<br />

und zum Recherchieren)<br />

– Einführung in die Informationsverdichtung (zum<br />

Verfassen <strong>der</strong> Abstracts)<br />

– laufende Betreuung („Coaching“) <strong>der</strong> Nutzer<br />

• Wie?<br />

– Seminare (werden nicht immer besucht, da die laufende<br />

Arbeit Vorrang hat)<br />

– „Lunch-time Kurse“ (Nutzung <strong>der</strong> Mittagspausen)<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 401


Informationsfilter und –verdichter im Überblick<br />

Informationsfilter und –verdichter hinsichtlich<br />

Präkombinationsgrad <strong>der</strong> Begriffe<br />

Prä- Prä- Post-<br />

kombination koordination koordination<br />

Klassifikation ++ + 0<br />

Schlagwortmethode 0 + ++<br />

Thesaurus 0 + ++<br />

Textwortmethode 0 ++ 0<br />

Zitationsindexierung 0 0 +<br />

Abstracts 0 0 0<br />

Ontologie / Topic Map ++ ++ +<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 402


Informationsfilter und –verdichter im Überblick<br />

Informationsfilter und –verdichter hinsichtlich Suchen<br />

und Stöbern („Browsen“)<br />

Suchen Stöbern<br />

Klassifikation + ++<br />

Schlagwortmethode + 0<br />

Thesaurus ++ ++*<br />

Textwortmethode +** +***<br />

Zitationsindexierung + 0<br />

Abstracts 0 0<br />

Ontologie / Topic Map ++ ++<br />

* : nur bei graphischer Aufbereitung<br />

** : Probleme wg. Vielfalt <strong>der</strong> Textworte und <strong>der</strong>en Sprachen<br />

*** : nur bei informetrischer Aufbereitung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 403


Informationsfilter und –verdichter im Überblick<br />

Informationsfilter und –verdichter hinsichtlich Spracheinsatz<br />

kontroll. Notations- natürliche<br />

Vokabular* sprache Sprache**<br />

Klassifikation 0 + 0<br />

Schlagwortmethode + 0 0<br />

Thesaurus + 0 0<br />

Textwortmethode 0 0 +<br />

Zitationsindexierung 0 0 +***<br />

Abstracts 0 0 +<br />

Ontologie / Topic Map + 0 0<br />

* : Vokabular einer natürlichen Sprache<br />

** : ohne jede terminologische Kontrolle<br />

*** : Zitation als Teil natürlicher Sprache<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 404


Informationsfilter und –verdichter im Überblick<br />

Informationsfilter und –verdichter in einem<br />

multinationalen (mehrsprachigen) Unternehmen<br />

mehrsprachig einsetzbar?<br />

Klassifikation ++<br />

Schlagwortmethode +*<br />

Thesaurus ++**<br />

Textwortmethode 0<br />

Zitationsindexierung ++<br />

Abstracts +*<br />

Ontologie / Topic Map +**<br />

* : Zugriff nur über genau eine Sprache<br />

** : nur wenn multilingual, ansonsten Zugriff nur über genau eine<br />

Sprache<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 405


Informationsfilter und –verdichter im Überblick<br />

Informationsfilter und –verdichter hinsichtlich<br />

paradigmatischer und syntagmatischer Relationen<br />

paradigm. syntagmatische<br />

Relation Relation<br />

Klassifikation + +<br />

Schlagwortmethode 0 +<br />

Thesaurus + +<br />

Textwortmethode 0 +<br />

Zitationsindexierung 0 +<br />

Abstracts 0 +*<br />

Ontologie / Topic Map + 0<br />

* : nur beim Einsatz von Text Mining<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 406


Informationsfilter und –verdichter im Überblick<br />

Informationsfilter und –verdichter hinsichtlich<br />

Än<strong>der</strong>barkeit (neue Begriffe aufnehmen, alte än<strong>der</strong>n)<br />

keinerlei Än<strong>der</strong>ung Än<strong>der</strong>ung<br />

Aufwand „unten“ in Struktur<br />

Klassifikation 0 + 0 (aufwendig)<br />

Schlagwortmethode + (nur Aufwand für Abstimmung)<br />

Thesaurus 0 + +<br />

Textwortmethode +<br />

Zitationsindexierung + (da keine Ordnung vorhanden)<br />

Abstracts + (da keine Ordnung vorhanden)<br />

Ontologie / Topic Map 0 + +<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 407


Fazit<br />

Informationsfilter und –verdichter im Überblick<br />

– Die Informationsarchitektur liegt im Bereich des strategischen<br />

Management und definiert die Grundlagen <strong>der</strong> Informationsversorgung<br />

eines Unternehmens.<br />

• Grundsatzentscheidung: Welche(r) Informationsfilter?<br />

• u.U. Schalenmodell realisieren<br />

• Entscheidung, welche Informationen gekauft und welche selbst<br />

erstellt werden<br />

• Organisation des laufenden Betriebs<br />

– Klärung <strong>der</strong> Anfor<strong>der</strong>ungen an die Informationsarchitektur<br />

(etwa: Ausbaufähigkeit <strong>der</strong> Begriffsordnung; Darstellbarkeit<br />

syntagmatischer Relationen) hinsichtlich <strong>der</strong> Informationsfilter<br />

und <strong>der</strong> Methoden zur Informationsverdichtung<br />

HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 408

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!