Geschichte der Wissensrepräsentation
Geschichte der Wissensrepräsentation
Geschichte der Wissensrepräsentation
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Heinrich-Heine-Universität Düsseldorf - Informationswissenschaft<br />
<strong>Wissensrepräsentation</strong><br />
Wolfgang G. Stock<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 1
<strong>Wissensrepräsentation</strong><br />
<strong>Wissensrepräsentation</strong> – Was ist das?<br />
Wissen – Informationsinhalt – „Content“<br />
Erschließen von Wissen<br />
Erschließen von Dokumenten<br />
genauer: Erschließen des Inhalts von Dokumenten<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 2
ASPEKT 1<br />
Aufbau von Werkzeugen<br />
<strong>der</strong><br />
<strong>Wissensrepräsentation</strong><br />
z.B.<br />
Aufbau eines Klassifikationssystems<br />
Thesaurusaufbau<br />
Regelwerk für Abstracting<br />
<strong>Wissensrepräsentation</strong><br />
ASPEKT 2<br />
Inhaltserschließung<br />
konkreter<br />
Dokumente<br />
z.B.<br />
Klassieren eines Buches nach dem<br />
Klassifikationssystem<br />
Indexieren nach dem Thesaurus<br />
Verfassen eines Abstracts<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 3
<strong>Wissensrepräsentation</strong><br />
• „<strong>Wissensrepräsentation</strong>“ : Abbildung von Wissen<br />
(„Content“) vor allem in digitalen Systemen; Erschließung<br />
des Informationsinhalts<br />
• Ziel: Wissen bei Bedarf (möglichst) exakt zu finden und in<br />
die aktuellen Arbeitsläufe einzubinden<br />
• hierbei benötigt:<br />
– METHODEN <strong>der</strong> <strong>Wissensrepräsentation</strong> (wie Thesaurus,<br />
Klassifikation usw.)<br />
– und konkrete WERKZEUGE (etwa den Standard-<br />
Thesaurus Wirtschaft o<strong>der</strong> die IPC)<br />
– praktische Tätigkeit: INDEXIEREN<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 4
<strong>Wissensrepräsentation</strong><br />
• inhaltlich erschlossene Retrievalsysteme finden Einsatz<br />
als<br />
– Suchwerkzeug für das WWW o<strong>der</strong> für einen<br />
Ausschnitt daraus (<strong>der</strong>zeit kaum realisiert)<br />
– Suchwerkzeug bei kommerziellen Anbietern<br />
elektronischer Informationsdienste (nahezu<br />
durchgängig realisiert)<br />
– Suchwerkzeug bei unternehmensweiten Intranets<br />
o<strong>der</strong> „Enterprise Information Portals“ (<strong>der</strong>zeit in<br />
„Boomphase“ im Zusammenhang mit Knowledge<br />
Management)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 5
Informationsbedarf<br />
Wissens- repräsentation<br />
Treffer<br />
Information<br />
Retrieval<br />
Frage<br />
DE<br />
Dokumentationseinheiten<br />
Vergleich<br />
<strong>der</strong><br />
Begriffe<br />
Information<br />
Indexing<br />
DBE<br />
Dok.<br />
Bezugseinheiten<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 6
<strong>Wissensrepräsentation</strong> / Themen (1)<br />
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
Begriffe und Begriffsordnungen:<br />
Gegenstände, Begriffe, Synonyme, Homonyme, Definitionen,<br />
Begriffsordnungen, paradigmatische und syntagmatische<br />
Relationen, Mono- und Polyhierarchie, Dimensionalität,<br />
Facetten<br />
Dokumente und ihre Strukturierung:<br />
Dokumente: Texte und Objekte - Datenstrukturierung<br />
(Metadaten) - Datenbankdesign - formale Erfassung,<br />
inhaltliche Erschließung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 7
<strong>Wissensrepräsentation</strong> / Themen (2)<br />
Dokumentationssprachen I: Klassifikationssysteme<br />
Klasse und Notation, Universalklassifikationen (Bsp.: Dezimalklassifikation),<br />
Technikklassifikationen (Bsp.: Internationale<br />
Patentklassifikation), Wirtschaftsklassifikationen (Bsp.: Branchen- und<br />
Produktklassifikationen), Klassifikationen im WWW (Bsp.: Yahoo!),<br />
Medizinklassifikation (Bsp.: ICD-10)<br />
Dokumentationssprachen II: Schlagwortmethode<br />
Dokumentationssprachen III: Thesauri<br />
Thesauruserstellung nach DIN 1463, Deskriptoren und Relationen,<br />
multilinguale Thesauri, gleichordnendes Indexieren, syntaktisches<br />
Indexieren, „höhere“ Thesaurusformen<br />
Bsp.: Standard-Thesaurus Wirtschaft, Thesaurus Technik und<br />
Management, EXPO-INFO 2000<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 8
<strong>Wissensrepräsentation</strong> / Themen (3)<br />
Textsprachliche Methoden:<br />
Volltextspeicherung, Titelindexierung,<br />
Textwortmethode, Bsp.: Datenbank zur österreichischen Philosophie,<br />
Zitationsindexierung, Bsp.: Web of Science (ISI)<br />
Nicht-thematische Informationsfilter:<br />
Zielgruppe, Art <strong>der</strong> Themenbehandlung, Verfallsdatum<br />
Automatische Indexierung:<br />
Klassifikation nach Ähnlichkeit – zuteilende Indexierung bei Einsatz einer<br />
Dokumentationsmethode<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 9
<strong>Wissensrepräsentation</strong> / Themen (4)<br />
Abstracts:<br />
Inhaltsangaben nach DIN 1426, indikative, informative, analytische<br />
Abstracts, Sammelreferate, automatisches Abstracting<br />
Informationsextraktion:<br />
Extraktionsmethoden, Informationsagenten<br />
Das semantische Web:<br />
Ontologien, Topic Maps<br />
Informationsfilter und –verdichter im Überblick:<br />
Informationsarchitektur, Zusammenfassung <strong>der</strong> Methoden <strong>der</strong><br />
<strong>Wissensrepräsentation</strong><br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 10
<strong>Wissensrepräsentation</strong> - Basisliteratur<br />
• Marianne Bu<strong>der</strong> et al. (Hrsg.): Grundlagen <strong>der</strong> praktischen Information<br />
und Dokumentation. – München: Saur, 4 1997.<br />
• Donald B. Cleveland; Ana D.Cleveland: Introduction to Indexing and<br />
Abstracting. – Englewood, NJ: Libraries Unlimited, 1990.<br />
• Heting Chu: Information Representation and Retrieval in the Digital Age.<br />
– Medford, NJ: Information Today, 2003. – (Chap. 1 – 4).<br />
• Robert Fugmann: Inhaltserschließung durch Indexieren: Prinzipien und<br />
Praxis. – Frankfurt: DGD, 1999.<br />
• Wilhelm Gaus: Dokumentations- und Ordnungslehre. – Berlin: Springer,<br />
2002.<br />
• Christa Ladewig: Grundlagen <strong>der</strong> inhaltlichen Erschließung. – Potsdam:<br />
Institut für Information und Dokumentation, 1997.<br />
• F. Wilfrid Lancaster: Indexing and Abstracting in Theory and Practice. –<br />
Champaigne, IL.: Graduate School of Library and Information Science,<br />
2 1998.<br />
• Wolfgang G. Stock: Informationswirtschaft. Management externen<br />
Wissens. - München; Wien: Oldenbourg, 2000. – (Kapitel 3).<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 11
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong>
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Aufstellordnungen in Bibliotheken (ab Antike)<br />
• Abstracts (19. Jahrhun<strong>der</strong>t)<br />
• Wortschätze (19. Jahrhun<strong>der</strong>t)<br />
• Klassifikationssysteme (19. Jahrhun<strong>der</strong>t)<br />
• Thesauri (ca. 1950)<br />
• Zitationsindexierung (ca. 1960)<br />
• Textwortmethode (ca. 1970)<br />
• automatische Indexierung mit kontrolliertem<br />
Vokabular (ca. 1990)<br />
• Topic Maps und Ontologien (ca. 1990)<br />
• semantisches Web (ca. 2010 – wenn überhaupt)<br />
Evgenij I. Samurin: <strong>Geschichte</strong> <strong>der</strong> bibliothekarisch-bibliographischen Klassifikation. – Pullach:<br />
Verl. Dokumentation, 1967 (Bd. 1), 1968 (Bd. 2).<br />
Ingetraut Dahlberg: Grundlagen universaler Wissensordnung. – Pullach: Verl. Dokumentation, 1974.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 13
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• „Pinakes“ des Kallimachos von Kyrene<br />
(ca. 310 – 240 v.Chr.)<br />
• systematischer Katalog <strong>der</strong> Bibliothek<br />
von Alexandria<br />
• Systematik für rund 120.000 Schriftrollen<br />
• Hauptklassen:<br />
– Rhetorik<br />
– Recht<br />
– Epik<br />
– Tragödie<br />
– Komödie<br />
– Lyrik<br />
– <strong>Geschichte</strong><br />
– Medizin<br />
– Mathematik<br />
– Naturwissenschaft<br />
– Verschiedenes<br />
Rudolf Blum: Kallimachos: The Alexandrian Library and the Origins of<br />
Bibliography. – Madison, Wisc.: Univ. of Wisconsin Press, 1991.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 14
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Systematik <strong>der</strong> Buchaufstellung im Mittelalter:<br />
„Geheimwissenschaft“<br />
Eco‘s „Labyrinth“ in „Der Name <strong>der</strong> Rose“<br />
Umberto Eco: Il nome della rosa. – Milano:<br />
Ed. Fabbri-Bompiani, 1980.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 15
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• „Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316)<br />
• universelles Begriffssystem<br />
auf <strong>der</strong> Basis <strong>der</strong> Kombinatorik<br />
• konzentrische Scheiben, jeweils mit<br />
zentralen Begriffen einer Kategorie<br />
• Scheiben können gedreht werden,<br />
so dass Kombinationen <strong>der</strong> Begriffe<br />
entstehen<br />
Norbert Henrichs: Wissensmanagement auf Pergament und<br />
Schweinsle<strong>der</strong>. Die ars magna des Raimundus Lullus. – In:<br />
Josef Herget; Rainer Kuhlen (Hrsg.): Pragmatische Aspekte<br />
beim Entwurf und Betrieb von Informationssystemen,<br />
Konstanz: Universitätsverl. Konstanz, 1990, S. 567-573.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 16
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• „Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 17
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Frühe Zeitschriften als Medium <strong>der</strong><br />
Wissensverdichtung<br />
• „Journal des Scavans“: erste Zeitschrift,<br />
gegründet 1665<br />
• Aufgabe: zunächst Überblicksartikel, da<br />
das Wissen in Büchern zu umfangreich<br />
wurde<br />
• später: Publikation von Forschungsberichten<br />
• Aufschwung <strong>der</strong> Zeitschriftenliteratur<br />
• Folge: auch das Wissen in Zeitschriften<br />
wurde zu umfangreich<br />
Manfred Bonitz: Notes on the development of secondary periodicals from the „Journal des Scavans“ to the<br />
„Pharmaceutisches Central-Blatt“. – In: International Forum on Information and Documentation 2 (1977) 1, S. 26-31.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 18
<strong>Geschichte</strong><br />
• Gründung von<br />
Referatezeitschriften<br />
• „Geburt“ <strong>der</strong> Abstracts als<br />
Form <strong>der</strong><br />
Wissensverdichtung<br />
• 1830: Pharmaceutisches<br />
Central-Blatt; später:<br />
Chemisches Zentralblatt<br />
• 1907: Chemical Abstracts<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 19
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Thesaurus of English Words and Phrases (1852)<br />
• Peter Mark Roget (1779 – 1869)<br />
• Sekretär <strong>der</strong> „Royal Society“ - London<br />
• Thesaurus kreiert: 1805; publiziert: 1852<br />
• System „of the ideas which are expressible<br />
by language“ – rund 15.000 Worte<br />
• Klassen:<br />
– I: Abstract Relations<br />
– II: Space<br />
– III: Matter<br />
– IV: Intellectual Faculties<br />
– V: Voluntary Powers<br />
• Synonymwörterbuch<br />
Werner Hüllen: A History of Roget‘s Thesaurus – Origins,<br />
Development, and Design. – Oxford: Oxford Univ. Press,<br />
2003.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 20
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Roget. Faksimile des ersten Eintrags<br />
(Skript zur ersten Auflage)<br />
• „Existence“<br />
• CLASS I: WORDS EXPRESSING<br />
ABSTRACT RELATIONS<br />
• SECTION I. EXISTENCE<br />
• 1. BEING, IN THE ABSTRACT<br />
• #1. Existence.-- N. existence, being,<br />
entity, ens[Lat], esse[Lat],subsistence.<br />
reality, actuality; positiveness c. adj.; fact,<br />
matter of fact, soberreality; truth c. 494;<br />
actual existence. presence c. (existence<br />
in space) 186; coexistence c. 120.<br />
stubborn fact, hard fact; ...<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 21
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• DDC (Dewey Decimal Classification) – 1876<br />
• Melvil (Melville Louis Kossuth) Dewey<br />
(1851 – 1931)<br />
• 1870: Student am Amherst College<br />
• stud. Hilfskraft an <strong>der</strong> Bibliothek<br />
• 1874: Abschluss in Bibliothekswesen<br />
• Aufbau eines Klassifikationssystem für die<br />
Bibliothek des Amherst College<br />
Stephen Gordon; Judith Kramer-Greene: Melvil Dewey: The Man and the Classification. – Albany: Forest Press,<br />
1983.<br />
Fremont Ri<strong>der</strong>: American Library Pioneers VI: Melvil Dewey. – Chicago: American Library Association,<br />
1972.<br />
Sarah Vahn: Melvin Dewey: His Enduring Presence in Librarianship. – Littletown: Libraries Unlimited,<br />
1978.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 22
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• DDC (Dewey Decimal Classification) – 1876<br />
• „A Classification and Subject Index for Cataloguing and<br />
Arranging the Books and Pamphlets of a Library“ (1876;<br />
anonym)<br />
• 1876: Bibliothekar in Boston<br />
• 1883: Bibliothekar am<br />
Columbia College (später:<br />
Direktor <strong>der</strong> New York State<br />
Library)<br />
• 1890: Präsident <strong>der</strong> ALA<br />
(American Library Association)<br />
Bibliothek des Amherst College<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 23
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• DDC. Grundidee: Notationen <strong>der</strong> Klassen als Dezimalzahlen<br />
– 000 Generalities<br />
– 100 Philosophy<br />
– 200 Religion<br />
– 300 Social Sciences<br />
– 400 Language<br />
– 500 Natural Sciences, Mathematics<br />
– 600 Technology (Applied Sciences)<br />
– 700 The Fine Arts<br />
– 800 Literature and Rhetoric<br />
– 900 Geography, History<br />
• Die Grundidee erweist sich als sehr<br />
erfolgreich.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 24
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• DDC. Beispiel einer Katalogkarte<br />
• Original von Dewey<br />
• Class 207:<br />
Religion: Study and<br />
Teaching<br />
• Book P:<br />
Princeton<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 25
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Paul Otlet (1868 - 1944 ) und Henri La Fontaine<br />
(1854 – 1943)<br />
• (1) „Väter“ <strong>der</strong> Dokumentation<br />
• (2) Einführung <strong>der</strong> dezimalen Klassifikation in<br />
Europa<br />
• (3) Gründung eines internationalen Verbandes für<br />
Dokumentation<br />
W. Boyd Rayward: The Universe of Information. The Work of Paul Otlet for Documentation and International<br />
Organization. – Moscow: VINITI, 1975.<br />
Eric H.W. van Binsbergen: La philosophie de la Classification décimale universelle. – Liège: Centre de<br />
Lecture Publique, 1994.<br />
Georges Lorphèvre: Henri LaFontaine, 1854-1943 – Paul Otlet, 1868-1944. – In: Revue de la Documentation<br />
21 (1954) 3, 89-103.<br />
Hervé Hasquin: Henri la Fontaine – un Prix Nobel de la Paix: tracé(s) d‘une vie. – Mons: Mundaneum, 2002.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 26
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Henri La Fontaine<br />
• geb. 1854 in Brüssel<br />
• Prof. für Internationales Recht<br />
• Mitglied des belgischen Senats<br />
• Friedensbewegung (u.a. Präsident<br />
des „International Peace Bureau“)<br />
• 1895: Gründung des „Institut<br />
International de Bibliographie“ (mit<br />
Otlet)<br />
• Friedensnobelpreis 1913<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 27
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Paul Otlet<br />
• geb. 1868 in Brüssel<br />
• 1895: Gründung des „Institut<br />
International de Bibliographie“ (mit La<br />
Fontaine)<br />
• ab 90er Jahre: Reorganisation und<br />
(französische) Übersetzung von Deweys<br />
Dezimalklassifikation<br />
• 1904-1907: Erste komplette Ausgabe <strong>der</strong><br />
„Classification Décimale Universelle“ –<br />
CDU („Universal Decimal Classification“<br />
– UDC bzw. „Dezimalklassifikation“ DK)<br />
• DK: Haupttafel (wie DDC) und<br />
„Anhängezahlen“<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 28
• Paul Otlet<br />
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• (mit La Fontaine): ab 1919 in<br />
Brüssel: Plan eines Zentrums für<br />
das gesamte Weltwissen –<br />
systematisch geordnet als Weltbibliographie:<br />
„Mundaneum“ (Plan<br />
scheiterte – Mundaneum heute<br />
Museum in Mons)<br />
• 1934: „Traité de documentation“ . –<br />
Bruxelles: Ed. Mundaneum.<br />
(Grundlagenwerk <strong>der</strong><br />
Dokumentation)<br />
www.mundaneum.be<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 29
• FID<br />
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• 1895: Institut International de<br />
Bibliographie (von Otlet und La<br />
Fontaine in Brüssel gegründet)<br />
• ab 1895: Publikation einzelner DK-<br />
Tafeln<br />
• 1931: Institut International de<br />
Documentation<br />
• 1986: Fédération Internationale<br />
d‘Information et de Documentation<br />
– FID (heute in Den Haag)<br />
Son<strong>der</strong>stempel <strong>der</strong> österreichischen Post<br />
www.fid.nl<br />
Cent ans de l‘Office International de Bibliographie: 1895 – 1995. – Mons: Ed. Mundaneum, 1995.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 30
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Shiyali Ramamrita Ranganathan (1892 – 1972)<br />
Facettenklassifikation<br />
• zunächst Bibliothekar (in Madras), danach<br />
Professor für Bibliothekswissenschaft (in<br />
Varanasi und Delhi), später Leiter des<br />
„Documentation Research and Training<br />
Centre“ (Bangalore)<br />
• Kritik <strong>der</strong> DDC / DK: zu starr<br />
• Einsatz von Facetten: „Colon Classification“<br />
(1933)<br />
• syntaktisches Indexieren mittels Ketten: „Headings and<br />
Canons“ (1955)<br />
Eugene Garfield: A tribute to S.R.Ranganathan. Part 1: Life and works. – In: Eugene Garfield: Essays of an<br />
Information Scientist. Vol. 7. – Philadelphia, PA: ISI Press, 1984, 37-44.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 31
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Shiyali Ramamrita Ranganathan (1892 – 1972)<br />
Facettenklassifikation<br />
• fünf Grundfacetten (PMEST)<br />
– Wer? – Personalität (Trennzeichen: , )<br />
– Was? – Material ( ; )<br />
– Wie? – Energie ( : „colon“)<br />
– Wo? – Raum ( . )<br />
– Wann? – Zeit ( ' )<br />
– zusätzlich: Disziplin<br />
• Beispiel: L,45;421:6;253:f.44‘N5<br />
Medizin , Lunge ; (Tuberkulose : Behandlung) ;<br />
(Röntgenstrahlen : Forschung) . Indien ' 2004<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 32
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Thesauri: DAS Vorbild<br />
MeSH<br />
• Medical Subject Headings (MeSH)<br />
• erstellt von <strong>der</strong> National Library of Medicine (USA)<br />
• entworfen ab ca. 1954 (Vorläufer ab ca. 1940)<br />
• publiziert mit dem neuen „Index Medicus“ 1960<br />
Carolyn E. Lipscomb: Medical Subject Headings (MeSH). – In: Bulletin of the Medical Library Association 88<br />
(2000), 265-266.<br />
W.D.Miles: A History of the National Library of Medicine. – Bethesda, MD: U.S. Dept. of Health and Human<br />
Services, 1982.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 33
• MeSH<br />
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• kontrolliertes Vokabular<br />
• Relationen zwischen den Begriffen<br />
• alphabetische Ordnung <strong>der</strong> Worte<br />
• systematische Ordnung <strong>der</strong> Begriffe<br />
• syntaktisches Indexieren durch Aspekte („subheadings“)<br />
möglich<br />
• gewichtete Indexierung im Zwei-Klassen-Verfahren<br />
• Thesaurus wird als dynamische Liste <strong>der</strong> Begriffe<br />
verstanden. Än<strong>der</strong>ungen sind je<strong>der</strong>zeit möglich<br />
• 1960: Start des Projektes MEDLARS (Medical Literature<br />
Analysis and Retrieval System) unter Einsatz von Computern<br />
• auch MeSH wird mittels EDVA gepflegt<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 34
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
Fokus-Deskriptor<br />
mit Subheading<br />
Fokus-Deskriptor<br />
Deskriptor mit<br />
Subheading<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 35
• Thesauri<br />
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• erweisen sich im Laufe <strong>der</strong> 60er Jahre (und später) als<br />
erfolgreich<br />
• eine Periode <strong>der</strong> Zweiteilung <strong>der</strong> Methoden <strong>der</strong><br />
<strong>Wissensrepräsentation</strong> beginnt:<br />
• (1) Klassifikationssysteme: Einsatz vor allem in Bibliotheken;<br />
Einsatz ohne Zuhilfenahme <strong>der</strong> EDV<br />
• (2) Thesauri: Einsatz vor allem bei fachlichen Datenbanken;<br />
EDV-Einsatz<br />
• zusätzlich: Suche nach alternativen Ansätzen<br />
I.Lerch: Das Dokumentationshilfsmittel Thesaurus. – In: Bibliothek. Forschung und Praxis 6 (1982), 47-73.<br />
N. Roberts: Historical studies in documentation: The pre-history of the information retrieval thesaurus. – In:<br />
Journal of Documentation 40 (1984), 271-285.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 36
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Zitationsindexierung<br />
• Eugene Garfield (1925 - )<br />
• ab 1951: Mitarbeit bei <strong>der</strong><br />
Medizindokumentation<br />
• Kritik an MeSH: Indexierung ist zu<br />
langsam; Vokabular ist zu starr;<br />
Indexierung fremdsprachiger<br />
Artikel problematisch<br />
• Entdeckung <strong>der</strong> wissenschaftlichen<br />
Fußnote als Hilfsmittel <strong>der</strong><br />
<strong>Wissensrepräsentation</strong><br />
• 1958: Gründung des Institute for Scientific Information (ISI)<br />
Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979. - Eugene Garfield; Wolfgang G. Stock:<br />
Citation Consciousness (Interview mit Garfield). – In: Password Nr. 6 (2002), 22-25.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 37
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Titelindexierung<br />
• Hans Peter Luhn (1896 – 1964)<br />
• geb. 1896 in Barmen; ab 1924 in den<br />
USA; ab 1941 bei IBM<br />
• Extraktion von Stichworten aus den<br />
Sachtiteln <strong>der</strong> Dokumente<br />
• 1958: Keyword in Context: KWIC<br />
• „Entdeckung“ des Leerzeichens<br />
• Stoppworte<br />
Claire K.Schultz: H.P.Luhn: Pioneer of Information Science – Selected Works. – London: Macmillan, 1968.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 38
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Textwortmethode<br />
• Norbert Henrichs (1935 - )<br />
• wörterbuchunabhängige<br />
Dokumentationsmethode<br />
• entwickelt an <strong>der</strong><br />
Forschungsabteilung für philosophische<br />
Information und Dokumentation <strong>der</strong> Universität<br />
Düsseldorf<br />
• ab ca. 1967<br />
Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969),<br />
122-131.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 39
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Erste Online-Informationsanbieter („Hosts“)<br />
• Entwicklungen in den 60er und frühen 70er Jahren<br />
• DIALOG (maßgeblich: Roger Summit); online: 1972<br />
• ORBIT (Carlos Cuadra); online: 1972 (heute: Questel-Orbit)<br />
• Mead Data Central (Richard Giering); online: 1973 (heute:<br />
Lexis-Nexis)<br />
• BRS (Jan Edgeland; Linda Palmer; Ron Quake); online: 1977<br />
(heute: Ovid Technologies)<br />
• Methoden und Werkzeuge <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
müssen online-tauglich werden.<br />
Charles P. Bourne; Trudi Bellardo Hahn: A History of Online Information Services, 1963-1976. – Cambridge, Mass.;<br />
London: MIT Press, 2003.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 40
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• 1989: Einführung <strong>der</strong> automatischen Indexierung beim Einsatz<br />
einer Dokumentationssprache<br />
• bei Reuters Ltd. London<br />
• eingesetzt wird CONSTRUE – TIS<br />
(Categorization of News STories Rapidly, Uniformly, and<br />
Extensible – Topic Identification System)<br />
• CONSTRUE-TIS: Entwicklung bei <strong>der</strong> Carnegie Group in<br />
Pittsburgh<br />
• arbeitet mit einer Zuverlässigkeit von 90% gegenüber<br />
menschlichen Indexern (zumindest nach eigenen Aussagen)<br />
Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of news<br />
stories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications<br />
of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 41
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• Tim Berners-Lee (1955 - )<br />
Sir Timothy John Berners-Lee<br />
• geb. 1955 in London<br />
• ab 1984: Mitarbeiter beim CERN<br />
• Entwicklung des WWW<br />
• August 1991: erste Webseite (CERN)<br />
1994: Gründung des World Wide Web<br />
Consortiums (Laboratory for Computer<br />
Science / MIT)<br />
seit 90er Jahre: Bemühungen um das<br />
semantische Web<br />
T.Berners-Lee; R.Cailliau; A.Luotonen; H.F.Nielsen; A.Secret: The World Wide Web. – In:<br />
Communications of the ACM 37 (1994) 8, 76-82.<br />
Tim Berners-Lee; Mark Fischetti: Weaving the Web. – San Francisco: Harper, 1999.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 42
• Winfried Gö<strong>der</strong>t<br />
<strong>Geschichte</strong> <strong>der</strong> <strong>Wissensrepräsentation</strong><br />
• <strong>der</strong> Experte für <strong>Wissensrepräsentation</strong> im<br />
deutschsprachigen Raum<br />
• Leiter des Labors für bibliographisches Information<br />
Retrieval <strong>der</strong> FH Köln<br />
• bibliographische Datenbank zur Inhaltserschließung<br />
• Linkliste zu Klassifikationssystemen und Thesauri im WWW<br />
• dt. Übersetzung <strong>der</strong> DDC<br />
Winfried Gö<strong>der</strong>t: Einführung in Probleme und Methoden <strong>der</strong> inhaltlichen Dokumenterschließung. – Köln: FH Köln,<br />
1997. – [Begleitmaterial zu Lehrveranstaltungen].<br />
Datenbank: www.fbi.fh-koeln.de/institut/labor/bir/suche.htm<br />
Linkliste: www.fbi.fh-koeln.de/institut/labor/bir/thesauri_new/index.htm<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 43
Begriffe und Begriffsordnungen
Begriffe und Begriffsordnungen<br />
Begriffe / Begriffsordnungen<br />
Grundlegende Literatur<br />
• DIN 2330: Begriffe und Benennungen<br />
• DIN 2331: Begriffssysteme und ihre Darstellung<br />
• ISO 704:2000: Terminology Work – Principles and Methods<br />
• Albert Menne: Einführung in die Methodologie. –<br />
Darmstadt: Wissenschaftliche Buchgesellschaft, 1980.<br />
• Tadeusz Pawlowski: Begriffsbildung und Definition. – Berlin<br />
/ New York: de Gruyter, 1980<br />
• Ingetraut Dahlberg: Die gegenstandsbezogene, analytische<br />
Begriffstheorie und ihre Definitionsarten. – In: Beiträge zur<br />
Begriffsanalyse. – Mannheim [u.a.]: BI Wissenschaftsverl.,<br />
1987, 9-22.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 45
GEGENSTAND<br />
Begriffe und Begriffsordnungen<br />
• Gegenstand: “alles, was uns entgegensteht”, “etwas als<br />
etwas erkennen”<br />
• Gegenstände im Rahmen <strong>der</strong> “Gegenstandstheorie”<br />
(Alexius Meinong):<br />
Gegenstand psychischer Akt Erlebnis Erlebni<br />
Objekt Empfindung / Phantasie Vorstellen<br />
Sachverhalt Urteil / Annahme Denken<br />
Alexius Meinng: Über Gegenstandstheorie. – In: A.Meinong (Hrsg.): Untersuchungen zur Gegenstandstheorie und<br />
Psychologie. – Leipzig: Barth, 1904, 1-50.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 46
Begriffe und Begriffsordnungen<br />
GEGENSTAND einer dokumentarischen Bezugseinheit (DBE)<br />
• Empfindungsobjekt: Information über reale Gegenstände (Bsp.: Baker<br />
Street in London)<br />
• Phantasieobjekt: Information über fiktive Gegenstände (Bsp.: Sherlock<br />
Holmes Wohnung in <strong>der</strong> Baker Street)<br />
• Urteilssachverhalt: Information über Tatsachenaussagen (im Rahmen<br />
einer Theorie für wahr angesehene Aussage)<br />
• Annahmesachverhalt: Information über hypothetische Aussagen (im<br />
Rahmen einer Theorie für plausibel angesehene Aussage, <strong>der</strong>en<br />
Wahrheit offen ist)<br />
OBJEKTE in DBE werden in DE durch Begriffe, SACHVERHALTE <strong>der</strong><br />
DBE werden in DE durch Sätze beschrieben.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 47
Begriffe und Begriffsordnungen<br />
BEGRIFF<br />
• Ein Begriff ist die Zusammenfassung gewisser<br />
Objekte unter eine Klasse.<br />
• Begriffsbestimmung<br />
– extensional (Begriffsumfang; Aufzählung <strong>der</strong><br />
Elemente <strong>der</strong> Klasse). M =df {x , x , ...., x , ...}<br />
1 2<br />
Bsp.: „Deutsche Bundeslän<strong>der</strong>“ =df<br />
{Nordrhein-Westfalen, Bayern, ..., Berlin}<br />
– intensional (Begriffsinhalt; Angabe <strong>der</strong><br />
klassen-bildenden Merkmale). M =df ∀x. f(x) u<br />
f‘(x) u f‘‘(x) ...<br />
Bsp.: „Deutsche Bundeslän<strong>der</strong>“ =df „ist ein<br />
Bundesland“ u „liegt in <strong>der</strong> Bundesrepublik<br />
Deutschland“<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 48<br />
i
BEGRIFF<br />
Benennung(en)<br />
z.B. Wort<br />
Begriffe und Begriffsordnungen<br />
Merkmale<br />
Objekt(e)<br />
Begriff (Klasse)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 49
(an<strong>der</strong>e) Zeichen<br />
Begriffe und Begriffsordnungen<br />
BEGRIFF<br />
Benennung(en)<br />
z.B. Wort<br />
„Wirklichkeit“<br />
Begriffe und Begriffsordnungen<br />
Merkmale<br />
Objekt(e)<br />
Nutzer<br />
Begriff (Klasse)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 48<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 50
BEGRIFF<br />
Begriffe und Begriffsordnungen<br />
• SYNTAKTIK. Struktur <strong>der</strong> Benennung;<br />
Beziehungen <strong>der</strong> Benennung (Zeichen) zu an<strong>der</strong>en<br />
Zeichen<br />
• SEMANTIK: Beziehungen zwischen Benennung<br />
(Zeichen) und Objekt (bzw. Vorstellungsinhalt)<br />
• PRAGMATIK: Beziehungen zwischen Benennung<br />
(Zeichen) und Zeichenbenutzer<br />
Was heißt das?<br />
BAPHA<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 51
BEGRIFF<br />
• Begriffsarten<br />
Begriffe und Begriffsordnungen<br />
– Individualbegriff (Klasse hat genau ein Element) –<br />
Benennung: (Eigen-)Name<br />
Bsp.: Karl Marx; Sherlock Holmes; Bayessches Theorem,<br />
2. Hauptsatz <strong>der</strong> Thermodynamik<br />
– Allgemeinbegriff (Klasse hat mehrere Elemente)<br />
Bsp.: Stuhl, Zahl, Studentin <strong>der</strong> Informationswissenschaft,<br />
NaCl<br />
– Kategorie (Begriff allgemeinster Art)<br />
Bsp.: Person, Materie, Energie, Raum, Zeit (à la<br />
Ranganathan)<br />
o<strong>der</strong>: Branche, Raum, Aspekt (im Kontext <strong>der</strong> Wirtschaft)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 52
Begriffe und Begriffsordnungen<br />
EXAKTHEIT von Begriffen<br />
• exakter Begriff: Klassengrenze ist genau bestimmbar<br />
• vager Begriff: Klassengrenze ist - an den „Rän<strong>der</strong>n“ - nicht genau<br />
bestimmbar, „fuzzy“)<br />
Beispiel: Stuhl-Museum von Max Black<br />
Max Black: Vagueness. An exercise in logical analysis. – In: Philosophy of Science 4 (1937), 425-455.<br />
SELBSTÄNDIGKEIT von Begriffen<br />
• kategorematischer Begriff: Begriff steht für sich allein<br />
• synkategorematischer Begriff: Begriff kann in einem Kontext nicht<br />
allein stehen<br />
Beispiel:<br />
10 - 12<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 53
Begriffe und Begriffsordnungen<br />
• Wort: (nicht unbedingt eindeutiger) sprachlicher Ausdruck<br />
eines Begriffs<br />
• Synonym: Begriff, <strong>der</strong> durch mehrere Worte ausgedrückt<br />
werden kann (Beispiel: Samstag, Sonnabend)<br />
• Homonym: Wort, das mehrere unterschiedliche Begriffe<br />
ausdrückt, wobei die Worte unterschiedlichen Ursprüngen<br />
entstammen (Beispiel: kosten [„schmecken“ - althochdt.<br />
koston], kosten [„wert sein“ - altfrz. coster])<br />
• Homophon: Homonym im Laut (Beispiel: Leere – Lehre)<br />
• Polysem: Wort, das mehrere unterschiedliche Begriffe<br />
ausdrückt, wobei die Worte einen gleichen Ursprung haben<br />
(Beispiel: Knie [Gelenk am Körper], Knie [Werkstück])<br />
• Der Unterschied zwischen Homonym und Polysem ist nicht<br />
immer klar; in <strong>der</strong> Informationswissenschaft werden die<br />
hierdurch entstehenden Probleme gemeinsam behandelt.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 54
Begriffe und Begriffsordnungen<br />
STICHWORT - SCHLAGWORT<br />
• Stichwort: Wort, das faktisch in einer dokumentarischen<br />
Bezugseinheit vorkommt („token“: konkrete Realisierung<br />
eines Wortes, eines „types“)<br />
• Lexem: grammatikalische Grundform eines Wortes<br />
Beispiel: ... den Kühen ... ; Lexem: Kuh<br />
• Wortstamm: entsteht durch Präfix- o<strong>der</strong> Suffixabtrennung<br />
Beispiel: ... retrieved ...; Stamm: retriev<br />
• Schlagwort: Wort (in Grundform), das einer dokumentarischen<br />
Bezugseinheit zugeordnet wird<br />
• Thema: Objekt, das in einer dokumentarischen<br />
Bezugseinheit abgehandelt wird; „das, worüber es geht“;<br />
Repräsentation eines Thema in einer Dokumentationseinheit:<br />
durch Stich- o<strong>der</strong> Schlagworte<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 55
Begriffe und Begriffsordnungen<br />
DEFINITION<br />
• (1) Definition als Abkürzung. Definiendum =df Definiens<br />
Beispiele: M =df 1.000<br />
Erpel =df männliche Ente<br />
• (2) Deutungsvorschrift von Kalkülen.<br />
Deutung bzw. Interpretation von Zeichen<br />
Beispiel: p ---> q v ~q<br />
w w w w f<br />
w w f w w<br />
f w w w f<br />
f w f w w<br />
Deutung: p, q Aussagevariablen; w, f Wahrheitswerte<br />
~ Negation; --> Implikation; v Disjunktion<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 56
Begriffe und Begriffsordnungen<br />
• (3) Begriffserklärung<br />
Begriff =df Teilbegriff 1 + Teilbegriff 2 + ...<br />
• Begriffssynthese: ausgehend von Teilbegriffen<br />
Begriffsanalyse: ausgehend vom Begriff<br />
• “Klassische” Variante: Definition durch genus und differentia<br />
– genus: Artbegriff<br />
– differentia: “wesenskonstitutiver” Unterschied<br />
– accidens: zufällige Eigenschaft (darf nicht verwendet werden)<br />
Beispiel “Homo est animal rationale”:<br />
Mensch =df Lebewesen + vernunftbegabt<br />
nicht: Mensch =df Lebewesen + Haarfarbe nicht blond<br />
• Begriffserklärungen eignen sich beson<strong>der</strong>s gut für hierarchische<br />
Begriffsordnungen (Klassifikation o<strong>der</strong> Thesaurus)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 57
Begriffe und Begriffsordnungen<br />
• (4) Zeichenerklärung (Nominaldefinition)<br />
Feststellung <strong>der</strong> Bedeutung eines Begriffes in einem<br />
bestimmten Kontext. Aussage mit (zu begründendem)<br />
Wahrheitsanspruch.<br />
Beispiele: “Metaphysik” bei Aristoteles<br />
“Steuererhöhung” bei <strong>der</strong> Bundesregierung<br />
“Armut” in <strong>der</strong> empirischen Sozialforschung<br />
• (5) Sacherklärung (Realdefinition)<br />
Feststellung <strong>der</strong> Bedeutung eines Begriffes durch das<br />
“Wesen” seines Gegenstandes. Aussage mit (zu<br />
begründendem) Wahrheitsanspruch.<br />
Beispiel: Artikel „Geschirrspülmaschine“ im Brockhaus<br />
• Zeichen- und Sacherklärungen kommen typisch in<br />
enzyklopädischen Wörterbüchern vor.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 58
Begriffe und Begriffsordnungen<br />
• (6) Explikation<br />
Übernahme (ggf. ungenauer) Alltagsbegriffe in die<br />
Wissenschaftssprache, dabei Präzisierung<br />
• Bedingungen:<br />
– wissenschaftliche Nützlichkeit<br />
– Präzision<br />
– Ähnlichkeit mit dem Ausgangsbegriff<br />
– Einfachheit<br />
Beispiel: Alltagsbegriff: Arbeit<br />
Physik: Arbeit =df Kraft * Weg * Winkel<br />
Soziologie: Arbeit =df auf ein wirtschaftliches<br />
Ziel gerichtete, planmäßige menschliche<br />
Tätigkeit<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 59
Begriffe und Begriffsordnungen<br />
• (7) Definition von Bedeutungsfamilien<br />
Einige Begriffe können nicht über eine Konjunktion von<br />
Merkmalen definiert werden, die für alle gelten; vielmehr<br />
liegen unterschiedliche Teilmengen vor (Ludwig<br />
Wittgenstein: “Familienähnlichkeit”)<br />
Beispiel: Gemüse =df Wurzel- und Knollengemüse, Blattund<br />
Stielgemüse, Fruchtgemüse, Kohlgemüse<br />
• (8) Persuasive Definition<br />
Begriffsbildung mit emotionalen Einstellungen (gefühlsmäßigen<br />
Assoziationen)<br />
Beispiele: rein (Waschmittelwerbung; positive Einstellung)<br />
Jude (Nazi-Deutschland; negative Einstellung)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 60
Begriffe und Begriffsordnungen<br />
• Im Überblick:<br />
Definitionsarten<br />
• (1) Definition als<br />
Abkürzung<br />
• (2) Deutungsvorschrift<br />
eines Kalküls<br />
• (3) Begriffserklärung<br />
• (4) Nominaldefinition<br />
• (5) Realdefinition<br />
• (6) Explikation<br />
• (7) Bedeutungsfamilien<br />
• (8) persuasive Definition<br />
• Definitionen in Systemen<br />
<strong>der</strong><br />
<strong>Wissensrepräsentation</strong>:<br />
• je<strong>der</strong> in einer Dokumentationssprache<br />
verwendete<br />
Begriff sollte in Extension<br />
und Intension klar und deutlich<br />
sein<br />
• für hierarchische Systeme<br />
eignen sich beson<strong>der</strong>s<br />
Begriffserklärungen und<br />
Definitionen mit Bedeutungsfamilien<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 61
Ordnung<br />
Begriffe und Begriffsordnungen<br />
• Gesamt einer Menge M von Objekten x, y, ... und einer<br />
Menge von Relationen ρ zwischen den Objekten<br />
O = M, ρ<br />
• Bei Begriffsordnungen sind die Objekte Begriffe und die<br />
Relationen Beziehungen zwischen Begriffen<br />
• Es gibt zweistellige Relationen (Bsp.: ρ = „x ist Oberbegriff<br />
von y“) und mehrstellige Relationen (Bsp.: ρ = „heilt x<br />
[jemanden] mittels y [Arznei] von z [Krankheit]“)<br />
• Relationen sind reflexiv (irreflexiv), symmetrisch<br />
(asymmetrisch) bzw. transitiv (intransitiv)<br />
R - S - T<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 62
Begriffe und Begriffsordnungen<br />
RST (bei zweistelligen Relationen)<br />
• Reflexivität: x ρ x (Bsp.: „ist identisch mit“)<br />
• Irreflexivität: -(x ρ x) (Bsp.: „ist Ursache von“)<br />
• Symmetrie: x ρ y � y ρ x (Bsp.: „ist gleich“)<br />
• Asymmetrie: x ρ y � -(y ρ x) (Bsp.: „liebt unglücklich)“<br />
• Transitivität: [(x ρ y) u (y ρ z)] � (x ρ z) (Bsp.: „ist größer als“)<br />
• Intransitivität: [(x ρ y) u (y ρ z)] � -(x ρ z) (Bsp.: „ist ähnlich mit“)<br />
Allgemeine Relationen in Begriffsordnungen<br />
• Äquivalenz: x ist äquivalent y (R - S - T)<br />
• Unterbegriff*: x ist Unterbegriff von y (-R - -S - T)<br />
• Oberbegriff*: x ist Oberbegriff von y (-R - -S - T)<br />
• verwandter Begriff: x ist mit y verwandt (-R - S - -T)<br />
* (Abstraktionsrelation)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 63
Begriffe und Begriffsordnungen<br />
Assoziationsrelation<br />
Relationen in Begriffssystemen<br />
Begriffsleiter<br />
A<br />
Topterm<br />
B C<br />
D Begriffs- E -reihe<br />
F<br />
Bottomterms<br />
Hierarchierelation<br />
Polyhierarchie<br />
G H I<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 64
Begriffe und Begriffsordnungen<br />
Terminologische Kontrolle<br />
• durch Zusammenfassung bestimmter Bezeichnungen zu<br />
einem Begriff (Synonyme, Akronyme, Quasi-Synonyme)<br />
mittels Äquivalenzrelation<br />
• durch Trennung homonymer Bezeichnungen zu unterschiedlichen<br />
Begriffen<br />
• ggf. durch Zerlegung („Zerlegungskontrolle“)<br />
• wenn möglich; stets wenn nötig: Definition<br />
• Arten terminologischer Kontrolle:<br />
– mit Vorzugsbenennungen (gearbeitet wird ausschließlich mit<br />
<strong>der</strong> Vorzugsbenennung; von den äquivalenten Bezeichnungen<br />
wird verwiesen)<br />
– ohne Vorzugsbenennungen (alle äquivalenten Bezeichnungen<br />
sind zugelassen; in <strong>der</strong> Datenbank werden sie zu einem Begriff<br />
zusammengefasst)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 65
Begriffe und Begriffsordnungen<br />
Relationen<br />
• Hierarchierelation (Begriffsleiter: Oberbegriff - Unterbegriff,<br />
Begriffsreihe: Begriffe in gleicher hierarchischen Ebene)<br />
– Abstraktionsrelation (logische Sicht)<br />
• Ein Unterbegriff im Sinne <strong>der</strong> Abstraktionsrelation hat alle<br />
Merkmale des Ausgangsbegriffs, dazu aber mindestens ein<br />
weiteres (Bsp.: Vogel - Singvogel)<br />
• stets transitiv<br />
– Bestandsrelation (gegenständliche Sicht: Meronyme<br />
[Teil einer Ganzheit]; Holonyme [Ganzheit von Teilen])<br />
• Ein Unterbegriff im Sinne <strong>der</strong> Bestandsrelation drückt<br />
einen Teil des Ausgangsbegriffs aus (Bsp.: Vogel - Kralle)<br />
• Geographika sind i.d.R. Begriffe in Bestandsrelation (Bsp.:<br />
Deutschland - Nordrhein-Westfalen - Regierungsbezirk<br />
Köln – Rhein-Erft-Kreis - Kerpen - Kerpen-Sindorf)<br />
• zwei Varianten: (a) transitiv – (b) intransitiv<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 66
Begriffe und Begriffsordnungen<br />
Bestandsrelation / Meronymie<br />
• Variante 1: transitiv (z.B. Geographica)<br />
Deutschland<br />
D<br />
NRW<br />
• Variante 2: nicht transitiv<br />
– Es gibt Bäume im Wald;<br />
aber auch welche außerhalb<br />
von Wäl<strong>der</strong>n.<br />
Wald<br />
Baum<br />
Rinde<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 67
Relationen<br />
Begriffe und Begriffsordnungen<br />
• Element-Klasse-Relation für Individualbegriffe<br />
• „... ist ein(e) ...“: x ist ein M<br />
• M =df {x 1, x 2, ...., x i, ...}, wobei x i Namen von<br />
Individualbegriffen sind<br />
• Beispiele:<br />
– {G.Schrö<strong>der</strong>, J.Fischer, H.Eichel, P.Struck, ...} ist ein Mitglied<br />
<strong>der</strong> <strong>der</strong>zeitigen Bundesregierung<br />
– {G.Schrö<strong>der</strong>, H.Eichel, P.Struck, R.Scharping, ...} ist ein<br />
Mitglied <strong>der</strong> SPD<br />
– Persil ist ein Waschmittel<br />
– Donald Duck ist ein Bewohner Entenhausens<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 68
Begriffe und Begriffsordnungen<br />
Relationen<br />
• weitere Relationen<br />
– Antonymie-Relation (Gegensätze)<br />
– Ähnlichkeitsrelation<br />
– Nachfolgerelation (Vorgänger - Nachfolger)<br />
– Kausalrelation (Ursache - Wirkung)<br />
• Nützlichkeitsrelation<br />
• Schädlichkeitsrelation<br />
– genetische Relation (Produzent - Produkt)<br />
– Herstellungsrelation (Material - Produkt)<br />
– Transmissionsrelation (Sen<strong>der</strong> - Empfänger)<br />
– instrumentelle Relation (Werkzeug - Anwendung des<br />
Werkzeugs)<br />
– funktionelle Relation (Argument - Funktion)<br />
– usw.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 69
Begriffe und Begriffsordnungen<br />
• Präkombinationsgrad (bei Begriffen mit mehreren<br />
Komponenten) - Zerlegungskontrolle<br />
– Präkombination: Kombination mehrerer Begriffe zu<br />
genau einen [zusammengesetzten] Begriff in <strong>der</strong><br />
Begriffsordnung<br />
(Bsp.: Mädchenhandelsschule)<br />
– Präkoordination: Kombination <strong>der</strong> Begriffe, die in <strong>der</strong><br />
Begriffsordnung vorkommen, durch Verkettung beim<br />
Information Indexing<br />
(Bsp.: Mädchen + Handelsschule bzw. Mädchenhandel +<br />
Schule) – macht <strong>der</strong> Indexer<br />
– Postkoordination: Kombination <strong>der</strong> Begriffe erst beim<br />
Information Retrieval<br />
(Bsp.: Mädchen UND Handelsschule bzw.<br />
Mädchenhandel UND Schule) – macht <strong>der</strong><br />
Recherchierende<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 70
Begriffe und Begriffsordnungen<br />
Monohierarchie:<br />
je<strong>der</strong> Begriff hat entwe<strong>der</strong> keinen o<strong>der</strong> genau einen<br />
Oberbegriff<br />
Obstbaum<br />
Kernobstbaum Steinobstbaum<br />
Apfelbaum Birnbaum Kirschbaum Pfirsichbaum<br />
Margarete Burkart: Dokumentationssprachen. – In: Grundlagen <strong>der</strong> praktischen Information und Dokumentation. –<br />
München [u.a.]: Saur, 3 1990, 143-182.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 71
Begriffe und Begriffsordnungen<br />
Polyhierarchie:<br />
ein Begriff kann mehrere Oberbegriffe haben<br />
Obstbaum<br />
Kernobstbaum Nutzholz<br />
Holzwirtschaft<br />
Apfelbaum Birnbaum Buche<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 72
Begriffe und Begriffsordnungen<br />
Dimensionalität: Anzahl <strong>der</strong> Dimensionen <strong>der</strong> klassenbildenden<br />
Merkmale bei <strong>der</strong> Bildung von Unterbegriffen<br />
– monodimensional (nur genau eine Dimension zugelassen).<br />
Bsp.: Obstbaum<br />
» Kernobstbaum<br />
» Steinobstbaum<br />
Klassenbildung durch die Dimension: Beschaffenheit des Samens<br />
– polydimensional (mehrere Dimensionen zugelassen)<br />
Bsp.: Obstbaum<br />
» Kernobstbaum<br />
» Steinobstbaum<br />
» hochstämmiger Obstbaum<br />
» nie<strong>der</strong>stämmiger Obstbaum<br />
Klassenbildung durch die zwei Dimensionen: Beschaffenheit des Samens<br />
und: Größe des Stammes<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 73
Begriffe und Begriffsordnungen<br />
Auflösung <strong>der</strong> Polydimensionalität<br />
• aus einer polydimensionalen Ordnung soll eine<br />
monodimensionale gebildet werden<br />
• schafft eine übersichtliche und logische Struktur<br />
Bsp.: Obstbaum<br />
• Obstbaum nach Samenbeschaffenheit<br />
– Steinobstbaum<br />
– Kernobstbaum<br />
• Obstbaum nach Stammgröße<br />
– hochstämmiger Obstbaum<br />
– nie<strong>der</strong>stämmiger Obstbaum<br />
Stützbegriff<br />
• bei <strong>der</strong> Auflösung <strong>der</strong> Polydimensionalität werden „Zwischenbegriffe“<br />
bzw. „Stützbegriffe“ kreiert<br />
• sehr wahrscheinlich gibt es keine DBE über solche Stützbegriffe<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 74
Begriffe und Begriffsordnungen<br />
Facettierte Begriffsordnung<br />
• Mehrere unterschiedliche Begriffsordnungen innerhalb<br />
eines Systems, aufgeteilt nach Kategorien<br />
Bsp.: drei Facetten (Obstbäume):<br />
Kategorie 1: Kategorie 2: Kategorie 3:<br />
Frucht Stammgröße Erntezeit<br />
Apfel hoch früh<br />
Birne nie<strong>der</strong> spät<br />
Bsp.: vier Facetten (Wirtschaftsnachrichten / Factiva):<br />
• Branche<br />
• Region<br />
• Aspekt<br />
• Unternehmen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 75
Begriffe und Begriffsordnungen<br />
Begriffsordnung und natürliche Sprache<br />
• unabhängig von natürlicher Sprache: Verwendung eines<br />
eigenen Vokabulars aus Ziffern und Buchstaben<br />
Bsp.: 291.213.4 (in <strong>der</strong> Dezimalklassifikation: Bezeichnung für<br />
„Ahnenkult. Kult <strong>der</strong> Hausgötter: Manen, Laren, Penaten“)<br />
Bsp.: H05B-3/00 (in <strong>der</strong> Internationalen Patentklassifikation:<br />
Bezeichnung für „elektrische Heizung / Wi<strong>der</strong>standsheizung“)<br />
• sprachabhängig (Verwendung von national- bzw. fachsprachigen<br />
Bezeichnungen)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 76
Begriffe und Begriffsordnungen<br />
• Paradigmatische<br />
Relation<br />
• „fest verdrahtete“ Begriffe<br />
durch Relationen in<br />
Begriffsordnungen<br />
• Bsp.: Obstbaum sei Oberbegriff<br />
zu Kernobstbaum<br />
Obstbaum<br />
Kernobstbaum<br />
paradigmatische<br />
Relation<br />
• Syntagmatische Relation<br />
• Begriffe, <strong>der</strong>en Beziehung<br />
dadurch zustande kommt,<br />
dass sie gemeinsam in DE<br />
auftreten<br />
• Bsp.: Eine DE enthalte:<br />
Obstbaum, Bauer, Steiermark<br />
Obstbaum<br />
Steiermark<br />
syntagmatische<br />
Relation<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 77
Begriffe und Begriffsordnungen<br />
Paradigmatische und syntagmatische Relation<br />
Singvögel füttern ihre Jungen<br />
Meisen füttern ihre Jungen mit Insekten<br />
Blaumeisen füttern ihre Jungen mit grünen Raupen<br />
paradigmatisch syntagmatisch<br />
„fest verdrahtet“ „im konkreten<br />
hier: Kontext“<br />
Hierarchierelation<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 78
Dokumente und ihre Strukturierung
Dokumente und ihre Strukturierung<br />
Was ist ein Dokument?<br />
• „Dokumentation“ (d.h. die Repräsentation des Wissens<br />
durch Indexieren o<strong>der</strong> Referieren) kommt von „Dokument“<br />
• klar: (gedruckter) Text ist „Dokument“<br />
• aber: Objekte als Dokumente? (Ansatz von Suzanne Briet)<br />
Gegenstand Dokument?<br />
Stern am Himmel nein<br />
Foto des Sterns ja<br />
Stein in einem Fluss nein<br />
Stein in einem Museum ja<br />
Tier in <strong>der</strong> Wildnis nein<br />
Tier im Zoo ja<br />
Michael K. Buckland: What is a document? – In: Journal of the American Society of Information Science 48<br />
(1997), 804-809.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 80
Dokumente und ihre Strukturierung<br />
Was ist ein Dokument?<br />
Kriterien:<br />
• 1. Materialität (physikalisch, einschließlich digital)<br />
• 2. Intentionalität (trägt Sinn bzw. Bedeutung)<br />
• 3. Erarbeitung (wird geschaffen)<br />
• 4. Wahrnehmung (wird als Dokument bezeichnet)<br />
Dokument<br />
• (A) Text<br />
• (B) (nicht-textuelles) Objekt<br />
• alle Dokumentformen werden sprachlich indexiert<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 81
Dokumente und ihre Strukturierung<br />
• (A 1) Publikationen<br />
– Bücher<br />
– (wissenschaftliche) Artikel<br />
– Zeitungsartikel, Agenturmeldungen<br />
– Gesetze, Erlasse<br />
– Urteile<br />
– Normen<br />
– Patente, Gebrauchsmuster,<br />
Geschmacksmuster, Marken<br />
– Hochschulschriften<br />
– Noten<br />
– Kartenwerke<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 82
Dokumente und ihre Strukturierung<br />
• (A 2) an<strong>der</strong>e, nicht (formal) publizierte Texte<br />
– digitale Dokumente im Internet<br />
– Akten<br />
– an<strong>der</strong>e Archivmaterialien<br />
(z.B. Nachlässe)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 83
Dokumente und ihre Strukturierung<br />
• (B 1) WTM-Fakten (Wissenschaft / Technik / Medizin)<br />
– Stoffe und ihre Eigenschaften<br />
– Krankheiten und ihre Symptome<br />
– Patienten (Krankenakten)<br />
– demographische Daten<br />
– statistische Daten<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 84
• (B 2) Wirtschaft<br />
– Branchen<br />
Dokumente und ihre Strukturierung<br />
– Unternehmen<br />
– Produkte<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 85
Dokumente und ihre Strukturierung<br />
• (B 3) audiovisuelle Dokumente<br />
– Bil<strong>der</strong><br />
– Filme / Filmsequenzen<br />
• Son<strong>der</strong>form: generische Sequenzen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 86
Dokumente und ihre Strukturierung<br />
• (B 3) audiovisuelle Dokumente<br />
– Ton (Schall)<br />
• Musik<br />
• gesprochene Sprache („Wortarchiv“)<br />
• Geräusche<br />
• (B 4) multimediale Dokumente (Mischformen)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 87
Dokumente und ihre Strukturierung<br />
• (B 5) Museumsdokumente<br />
– archäologische Funde<br />
– Kunstwerke<br />
– kulturgeschichtliche Gegenstände<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 88
Dokumente und ihre Strukturierung<br />
• Die Einheit <strong>der</strong> Dokumente (Texte – Objekte):<br />
Dokumentarische Bezugseinheit (DBE)<br />
stets gleichbleibende Einheit <strong>der</strong> Vorlagen, die in einen<br />
Informationsspeicher aufgenommen werden, hierbei ggf.<br />
analytische „Zerlegung“ <strong>der</strong> Vorlagen<br />
Beispiele:<br />
Buch (als Ganzes) - Buchkapitel<br />
dto. - Abbildung; Tabelle<br />
Zeitschrift (als Ganzes) - Artikel<br />
Korrespondenz - einzelner Brief<br />
Film - Filmsequenz<br />
Münzsammlung - einzelne Münze<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 89
Dokumente und ihre Strukturierung<br />
• Was wird in die Datenbank aufgenommen?<br />
Dokumentationswürdigkeit<br />
Kriterienkatalog, <strong>der</strong> die Entscheidung fundiert, ob eine<br />
bestimmte DBE in den Informationsspeicher aufgenommen<br />
wird o<strong>der</strong> nicht<br />
Grundaspekte:<br />
– Relevanz des Dokuments<br />
– Informationsbedarf <strong>der</strong> Nutzer<br />
– bisheriger Stand <strong>der</strong> Datenbank<br />
Spezifische Aspekte:<br />
– thematische Kriterien<br />
– formale Kriterien (Bsp.: nur wissenschaftliche Artikel;<br />
nur HTML-Dateien)<br />
– Finanzrahmen - Personalressourcen - Zeit<br />
– ggf.: Neuigkeit<br />
– ggf.: kritische Prüfung des Inhalts<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 90
Dokumente und ihre Strukturierung<br />
• Datenstrukturierung:<br />
Identifikation kleinster<br />
Beschreibungseinheiten für<br />
bestimmte Typen von<br />
dokumentarischen<br />
Bezugseinheiten (DBE)<br />
• Bsp.: wissenschaftlicher<br />
Aufsatz. FELDER:<br />
• Autor(en)<br />
• Sachtitel<br />
• Zeitschriftentitel<br />
Metadaten<br />
• Jahrgang<br />
• Seitenzahl<br />
• Themen usw.<br />
• Dokumentstrukturierung:<br />
Zerlegung eines bestimmten Types<br />
von dokumentarischen<br />
Bezugseinheiten (DBE) - auch - im<br />
Sinne von Markup-Sprachen<br />
• Bsp.: wissenschaftlicher Aufsatz.<br />
STRUKTUR:<br />
• Sachtitel<br />
• Autor(en)<br />
• Titel des 1. Abschnitts<br />
• Text des 1. Abschnitts:<br />
Strukturdaten<br />
Problemstellung<br />
• darin: Fußnote(n)<br />
• Titel des 2. Abschnitts<br />
• Text des 2. Abschnitts: Methodik<br />
usw.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 91
Dokumente und ihre Strukturierung<br />
Dokumentstrukturierung (bei digitalen Dokumenten)<br />
– Beschreibung einer Dokumentstruktur innerhalb des<br />
Dokuments mittels einer beson<strong>der</strong>en Sprache (Markup<br />
Language, Seitenbeschreibungssprache)<br />
– für Textverarbeitung und -publikation (seit 1986): Standardized<br />
Generalized Markup Language (SGML). Umfassendes Konzept<br />
einer Markup-Sprache<br />
– für Beschreibung verlinkter Dokumente (seit 1989): Hypertext<br />
Markup Language (HTML). Eingeschränkte Sprache (ohne<br />
Möglichkeit zur wissensabbildenden Dokumentstrukturierung),<br />
dafür aber für Hypertextstrukturen anwendbar<br />
– Seitenbeschreibung und Hypertext: eXtensible Markup<br />
Language (XML). Bündelung <strong>der</strong> Vorteile von SGML und<br />
HTML. „Industriestandard“. <strong>Wissensrepräsentation</strong> möglich.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 92
Dokumente und ihre Strukturierung<br />
• Datenstrukturierung / Definition <strong>der</strong> Metadaten:<br />
Vorgehen<br />
• 1. Datenbankdesign: Feldschema<br />
• 2. Zusammenspiel <strong>der</strong> Datenbanken (falls mehrere)<br />
• 3. Beschreibung <strong>der</strong> Fel<strong>der</strong><br />
– Suchfel<strong>der</strong> (möglichst kontrolliertes Vokabular)<br />
– Anzeigefel<strong>der</strong><br />
• 4. Regelwerk (konkrete Anweisungen für jedes Feld)<br />
• 5. (ggf.) Nutzung von Hilfsmitteln (z.B. Normlisten von<br />
Län<strong>der</strong>namen o<strong>der</strong> Thesauri)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 93
Dokumente und ihre Strukturierung<br />
Datenstrukturierung<br />
• Datenbankdesign: Beschreibung des Dokuments in einem<br />
Feldschema, dabei Festlegung von Merkmalen für jedes Feld<br />
– Feldname Jahrgang<br />
– Kurzbezeichnung YR<br />
– Schlüsselfeld (ja, nein) nein<br />
– Anzahl Werte (ein Wert, genau 1 Wert<br />
mehrere Werte: Subfel<strong>der</strong>)<br />
– Typ <strong>der</strong> Feldwerte (alpha- ganze Zahl<br />
numerisch, Formel, Datum,<br />
Betrag, Text, ganze Zahl, ...)<br />
– Normdaten ja<br />
– ggf.: Feldlänge 4 Stellen<br />
– Index (ja, nein) ja<br />
• Wortindex ja<br />
• Phrasenindex nein<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 94
Dokumente und ihre Strukturierung<br />
• Zusammenspiel <strong>der</strong> Datenbanken<br />
• Beispiel:<br />
Kunstwerke<br />
• Categories for the<br />
Descriptions of Works<br />
of Art (CDWA)<br />
• Getty Standards<br />
Program<br />
Categories for the Descriptions of Works of Art.<br />
www.getty.edu/research/conducting_research/standards/cdwa/index.html<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 95
Dokumente und ihre Strukturierung<br />
• Feldsschema. Beispiel: Kunstwerke<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 96
Dokumente und ihre Strukturierung<br />
• Feldbeschreibung. Beispiel: Feld: Abmessungen - Subfeld:<br />
Dimensionen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 97
• Feldschema.<br />
Beispiel:<br />
Wissenschaftliche<br />
Literatur<br />
Dokumente und ihre Strukturierung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 98
Ansicht<br />
einer<br />
Webseite<br />
Dokumente und ihre Strukturierung<br />
Beispiel: Webseite<br />
Metadaten<br />
in<br />
„Meta Tags“<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 99
Dokumente und ihre Strukturierung<br />
formalbibliographische<br />
Metadaten<br />
formale<br />
Erfassung<br />
Metadaten<br />
inhaltsbezogene<br />
Metadaten<br />
Inhaltserschließung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 100
Dokumente und ihre Strukturierung<br />
Metadaten: Formale Erfassung<br />
• Abbildung nicht inhaltsbezogener Informationen <strong>der</strong><br />
dokumentarischen Bezugseinheit auf die Erfassungsfel<strong>der</strong><br />
einer Datenbank<br />
• für jedes Feld werden Erfassungsregeln definiert<br />
• soweit möglich: für jedes Feld werden Normdaten<br />
gesammelt<br />
• Regelwerk für formale Erfassung von<br />
Bibliotheksmaterialen: AACR (Anglo-American Cataloging<br />
Rules) (mit Son<strong>der</strong>regeln für audiovisuelle Materialien,<br />
Musikalien, Karten und unselbständig erschienener Werke)<br />
• für die Erfassung von Internet-Dokumenten werden die<br />
Dublin-Core-Elements diskutiert<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 101
Dokumente und ihre Strukturierung<br />
Formale Erfassung / Regelwerk / Normdaten<br />
Beispiel: ... wenn man versucht, ohne auszukommen<br />
Register:<br />
Henzinger M<br />
Monika Henzinger<br />
Henzinger Monika<br />
Henzinger Monika R<br />
Monika R Henzinger<br />
Henzinger Monika Rauch<br />
Monika Rauch Henzinger<br />
Henzinger Monika R.<br />
Monika Rauch-Henzinger<br />
Henzinger, M<br />
Monika R. Henzinger<br />
Henzinger, Monika<br />
Rauch Henzinger Monika<br />
Henzinger, Monika R<br />
Henzinger, Monika Rauch<br />
Rauch Henzinger, Monika<br />
Henzinger, Monika R.<br />
Rauch-Henzinger Monika<br />
Rauch-Henzinger, Monika<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 102
Dokumente und ihre Strukturierung<br />
Formale Erfassung / Regelwerk / Normdaten<br />
• mit Regel: bei Personennamen Ansetzung: Nachname<br />
Komma Leerzeichen Vorname (ausgeschrieben)<br />
Leerzeichen zweiter Vorname o<strong>der</strong> Mittelname (nur erster<br />
Buchstabe mit Punkt)<br />
• Beispiel: Register: Henzinger, Monika R.<br />
Rauch, Monika<br />
• mit Normdaten: je Person ein Datensatz<br />
Name in Normform:Henzinger, Monika R.<br />
Geburtsdatum: tt.mm.jjjj<br />
Zusatzinformationen: ehemalige Forschungsleiterin Google<br />
Verweis: Rauch, Monika<br />
• Beispiel: Register: Henzinger, Monika R.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 103
Dokumente und ihre Strukturierung<br />
Formale Erfassung / Regelwerk / Normdaten. Beispiele:<br />
Gertrud von Le Fort Le Fort, Gertrud von (dt.)<br />
Ernst Aus‘m Weerth Aus‘m Weerth, Ernst (dt.)<br />
Julia Rauh-von <strong>der</strong> Schule Rauh-von <strong>der</strong> Schule, Julia (dt.)<br />
Jean de la Fontaine La Fontaine, Jean de (fr.)<br />
Louis de Broglie Broglie, Louis de (fr.)<br />
Louis de Rouvroy Duc de Saint-Simon, Louis de Rouvroy<br />
Saint-Simon Duc de (fr.)<br />
Ali ibn Haduga Ibn Haduga, Ali (arab.)<br />
Lola Réz (verh.: Kosáry) Kosáryné-Réz, Lola (ungar.)<br />
Anton <strong>der</strong> Kin<strong>der</strong>en Kin<strong>der</strong>en, Anton <strong>der</strong> (nl.)<br />
Anton Du Perron Du Perron, Anton (nl.)<br />
Andrej N. Rimskij-Korsakov Rimskij-Korsakov, Andrej Nikolajevich (russ.)<br />
Constance Lytton (Tochter Lytton, Lady Constance (engl. UK)<br />
eines Dukes)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 104
Formale Erfassung<br />
Dokumente und ihre Strukturierung<br />
• Ansetzung <strong>der</strong> Namen von Körperschaften<br />
– Beispiel „untergeordnete Körperschaft“: Referat Frauenpolitik <strong>der</strong> SPD.<br />
Ansetzungsform: Sozialdemokratische Partei Deutschlands / Referat<br />
Frauenpolitik<br />
– Beispiel „selbständige Körperschaft“: ifo Institut, München.<br />
Ansetzungsform: ifo Institut für Wirtschaftsforschung e.V. <br />
– Beispiel „Gebietskörperschaft“: Kongeriget Danmark.<br />
Ansetzungsform: Danmark. Bsp.: Polizeidirektion Bonn.<br />
Ansetzungsform: Nordrhein-Westfalen / Polizeidirektion <br />
• bei nicht-lateinischen Schriften: Transliteration (etwa nach: ISO)<br />
– Beispiel: BAPHA (bulg.). Transliteration: Varna<br />
• bei allen Ansetzungen: Verweise von möglichen Varianten auf die<br />
Normansetzung<br />
Uta Krischker: Formale Analyse (Erfassung) von Dokumenten. – In: Grundlagen <strong>der</strong> praktischen<br />
Information und Dokumentation. – München [u.a.]: Saur, 3 1990, 63-89.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 105
Formale Erfassung.<br />
Dokumente und ihre Strukturierung<br />
• Erfassung von Webseiten<br />
• „Dublin Core Elements“ Feldname (Version 1.0)<br />
– Titel title<br />
– Autor/Urheber creator<br />
– Thema/Schlagwörter subject<br />
(vorgeschlagen: kontrolliertes Vokabular o<strong>der</strong> Klassifikation)<br />
– Inhaltsbeschreibung description<br />
(Abstract bzw. Beschreibung nicht-textueller Dokumente)<br />
– Herausgeber/Verlag publisher<br />
– an<strong>der</strong>er Beteiligter contributor<br />
(etwa: Illustrator, Übersetzer)<br />
– Datum (in <strong>der</strong> Form: yyyy-mm-dd) date<br />
– Dokumenttyp resource type<br />
(etwa: Homepage, Arbeitspapier, Gedicht, Foto)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 106
Dokumente und ihre Strukturierung<br />
• „Dublin Core Elements“ (2) Feldname (Version 1.0)<br />
– Datenformat format<br />
(Dateityp, ggf. Dateigröße)<br />
– Identifikation <strong>der</strong> Ressource identifier<br />
(URL [uniform resource locator], DOI [digital object identifier], ...)<br />
– Quelle source<br />
– Sprache language<br />
– Beziehungen relation<br />
– thematische Abdeckung coverage<br />
(räumliche und zeitliche Charakteristika des Inhalts)<br />
– Rechte rights<br />
(Vermerk über Rechteinhaber)<br />
• Bisher konnten sich die „Dublin Core Elements“ im WWW [noch?]<br />
nicht durchsetzen.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 107
Dokumente und ihre Strukturierung<br />
• Metadaten: Inhaltserschließung<br />
• Abbildung inhaltsbezogener Informationen <strong>der</strong> dokumentarischen<br />
Bezugseinheit auf die Erschließungsfel<strong>der</strong> einer Datenbank<br />
• Inhaltserschließung geschieht durch INDEXIEREN und<br />
REFERIEREN<br />
– Indexieren ist die Abbildung <strong>der</strong> Themen (ggf. <strong>der</strong><br />
Themenkomplexe) durch Begriffe (Ursprung des Wortes:<br />
Buchindex)<br />
– Referieren ist die Abbildung <strong>der</strong> thematisierten Sachverhalte<br />
durch (wenige) Sätze<br />
• Inhaltserschließung geschieht entwe<strong>der</strong> automatisch o<strong>der</strong><br />
intellektuell (o<strong>der</strong> Mischform)<br />
• Inhaltserschließung macht von eigenen Methoden und von<br />
spezifischen Werkzeugen Gebrauch.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 108
Dokumente und ihre Strukturierung<br />
Funktion 1:<br />
Informationsfilter<br />
Inhaltserschließung<br />
Funktion 2:<br />
Informationsverdichtung<br />
Indexieren Referieren<br />
Optimales Suchen und Finden von Dokumenten<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 109
Dokumentationssprachen I:<br />
Klassifikationssysteme<br />
(Taxonomien)
Klassifikationssysteme<br />
Klassifikation - Grundlegende Literatur<br />
• Brian Buchanan: Bibliothekarische Klassifikationstheorie. –<br />
München: Saur, 1989.<br />
• DIN 32705: Klassifikationssysteme<br />
• Konrad Umlauf: Einführung in die bibliothekarische Klassifikationstheorie<br />
und –praxis. – Berlin: HU / Inst. f. Bibl.wiss., 1999.<br />
(www.ib.hu-berlin.de/~kumlau/handreichungen/h67/).<br />
• Advances in Classification Research. Proceedings of the xxth ASIS&T<br />
SIG/CR Workshop. – Medford: Information Today (<strong>der</strong>zeit Bd. 13,<br />
2004).<br />
• Hans-Jürgen Manecke: Klassifikation. – In: Grundlagen <strong>der</strong><br />
praktischen Information und Dokumentation. – München: Saur, 4 1997,<br />
141-159.<br />
• Evgenij I. Samurin: <strong>Geschichte</strong> <strong>der</strong> bibliothekarisch-bibliographischen<br />
Klassifikation. – Pullach: Verl. Dokumentation, 1967 (Bd. 1),<br />
1968 (Bd. 2).<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 111
Klassifikationssysteme<br />
Klassifikation ist ein Hilfsmittel zur ORDNUNG von<br />
Gegenständen o<strong>der</strong> von Wissen über Gegenstände<br />
– praktische Aufgabe: Ordnen von Gegenständen (in einem<br />
Lager, im Supermarkt, im Küchenschrank, ...)<br />
– informationswissenschaftliche und -praktische Aufgabe:<br />
Anordnen, Bei-, Neben- und Einordnen, Einteilen,<br />
Gruppieren, Unterordnen, Zusammenordnen, Zuordnen von<br />
Wissen<br />
– wissenschaftliche Aufgabe: angemessene Darstellung von<br />
Wissenseinheiten (z.B. Taxonomie in <strong>der</strong> Biologie:<br />
„Systema naturae“ von Carl von Linné, o<strong>der</strong> Physik:<br />
Periodensystem <strong>der</strong> Elemente)<br />
– erkenntnisvermittelnde Aufgabe: Aufhellung von<br />
Zusammenhängen anhand geordneten Wissens<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 112
Klassifikationssysteme<br />
Grundbegriffe<br />
• Klasse: (intensional o<strong>der</strong> extensional) definierter Gegenstand<br />
(Allgemein- o<strong>der</strong> Individualbegriff)<br />
• Klassifizieren: Erstellen eines Klassifikationssystems; Bilden<br />
von Klassen<br />
• Klassieren: Einordnen von DBE in Klassen<br />
• Notation: nicht-natürlichsprachiges Wort als Name einer<br />
Klasse<br />
• Bezeichnungen: natürlichsprachige Übersetzungen einer<br />
Notation<br />
• Die Erstellung und Weiterentwicklung von Klassifikationssystemen<br />
ist in Deutschland normiert.<br />
• DIN 32705. Klassifikationssysteme (1987)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 113
Klassifikationssysteme<br />
Notationsformen<br />
• strukturabbildend hierarchische Notation (Notation bildet<br />
Hierarchierelation ab). Bsp.:<br />
Klasse A: Notation: 1<br />
Klasse B: Notation: 11<br />
Klasse D: Notation: 111<br />
Klasse C: Notation: 15<br />
• sequentielle Notation. Bsp.:<br />
Klasse A: Notation: 1<br />
Klasse B: Notation: 3<br />
Klasse D: Notation: 8<br />
Klasse C: Notation: 5<br />
Relationen in Begriffssystemen<br />
Begriffsleiter<br />
Assoziationsrelation<br />
Topterm<br />
Bottomterms<br />
Hierarchierelation<br />
Polyhierarchie<br />
G H I<br />
• hierarchisch-sequentielle Notation - Mischform (Notation auf<br />
gewissen Hierarchieebenen hierarchisch, sonst sequentiell)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 114<br />
A<br />
B C<br />
D Begriffs- E -reihe<br />
F
Klassifikationssysteme<br />
• Vorteil <strong>der</strong> Notation: international einsetzbar<br />
Beispiel:<br />
vacuum cleaner<br />
Staubsauger<br />
dammsugaren<br />
aspirateur DK 648.525<br />
aspiratore di polvere<br />
aspirador de polvo<br />
odkurzacz<br />
• Nachteil <strong>der</strong> Notation: mnemotechnisch nicht<br />
beherrschbar<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 115
Klassifikationssysteme<br />
• Präkombinationsgrad <strong>der</strong> Begriffe: i.d.R. hoch (präkombinierte<br />
Begriffe bevorzugt). Bsp.: „Witterungsabläufe in Mittelgebirgslagen<br />
subtropischer Zonen“ als 1 Klasse<br />
• i.d.R. monohierarchisch (ohne Unterscheidung nach Abstraktionsund<br />
Bestandsrelation); zusätzlich: (Quasi-)Synonyme;<br />
Assoziationsrelation sehr eingeschränkt<br />
• häufig: neben einer Basiskategorie weitere spezielle Kategorien<br />
(als „Anhängezahlen“, „Ergänzungszahlen“ o<strong>der</strong> „Indexcodes“)<br />
• Klassifikationssystem:<br />
– (1) Lexikon: systematische Tafeln, ggf. Hilfstafeln (jeweils Notationen<br />
und Bezeichnung/en); hierzu: Register (mit Synonymen)<br />
– (2) Grammatik: spezielle Zeichen, Regeln für den Umgang mit den<br />
Zeichen<br />
– (3) Hinweise: u.a. Anmerkungen, Querverweise o<strong>der</strong> Vorrangregeln<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 116
Klassifikationssysteme<br />
• Grundlegende Regeln:<br />
– ein Objekt - eine Klasse<br />
– damit: ein Objekt - eine Notation<br />
– eine Notation - mehrere Bezeichnungen (Fremdsprachen,<br />
Akronyme, Synonyme)<br />
– jede Bezeichnung sollte für sich selbst sprechen (u.U.<br />
definierende Zusätze anbringen)<br />
– Einstieg für Nutzer über Systematik (Notationen) und<br />
Bezeichnungen (möglichst in unterschiedlichen natürlichen<br />
Sprachen) gewährleisten<br />
– homonyme Bezeichnungen in die einzelnen Objekte überführen<br />
und auf unterschiedliche Klassen verweisen<br />
– i.d.R. monodimensional (polydimensional nur in Ausnahmefällen)<br />
– Polyhierarchie schlecht o<strong>der</strong> gar nicht ausdrückbar<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 117
Klassifikationssysteme<br />
Klassifikationstypen nach Einsatzgebieten<br />
– Universalklassifikationen<br />
• zur Ordnung von Beständen (sprachlich wie fachlich)<br />
universal ausgerichteter Informationseinrichtungen (z.B.<br />
Universitätsbibliotheken)<br />
• als Zugangshilfe zu Dokumenten im World Wide Web<br />
– Klassifikationen gewerblicher Schutzrechte<br />
– Wirtschaftsklassifikationen<br />
• Branchenklassifikationen (auch zum Zwecke amtlicher<br />
Statistik)<br />
• Produktklassifikationen<br />
– Geographische Klassifikationen<br />
– Medizinische Klassifikationen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 118
Klassifikationssysteme<br />
Universalklassifikationen<br />
• Dewey Decimal Classification (DDC) - von Melvil<br />
Dewey 1876 erstmals eingeführt<br />
• Dezimalklassifikation (DK / UDC / CDU) - auf <strong>der</strong><br />
Basis <strong>der</strong> DDC von Paul Otlet und Henri LaFontaine<br />
um 1900 entwickelt<br />
• Colon Classification (CC) - facettierte Klassifikation<br />
von S.R.Ranganathan (1. Aufl. 1933)<br />
• Allgemeine Systematik für Öffentliche Bibliotheken<br />
(ASB) - als Aufstellordnung in ÖBs (seit 1956)<br />
verwendet<br />
• Yahoo! - Klassifikation<br />
• Open Directory Project (ODP) - Systeme zur<br />
Klassierung von Websites<br />
DK:<br />
unser<br />
1. Beispiel<br />
Yahoo!<br />
unser<br />
2. Beispiel<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 119
Klassifikationssysteme<br />
Dezimalklassifikation (DK)<br />
• Haupttafel / Aufbau:<br />
– 0 Allgemeines<br />
– 1 Philosophie, Psychologie<br />
– 2 Religion, Theologie<br />
– 3 Sozialwissenschaften<br />
– 4 [<strong>der</strong>zeit frei]<br />
– 5 Mathematik, Naturwissenschaften<br />
– 6 Angewandte Wissenschaften, Medizin, Technik<br />
– 7 Kunst, Musik, Sport, Spiele<br />
– 8 Literaturwissenschaft, Sprachwissenschaft<br />
– 9 Geographie, Biographien, <strong>Geschichte</strong><br />
I.C.McIlwaine: The Universal Decimal Classification: Guide to its Use. – The Hague: UDC Consortium, 2000.<br />
Karl Fill: Einführung in das Wesen <strong>der</strong> Dezimalklassifikation. - Berlin, Köln: Beuth Verl., 1981.<br />
Online: www.udcc.org/ (Ausschnitte aus <strong>der</strong> DK)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 120
Klassifikationssysteme<br />
Dezimalklassifikation (DK) - Notationsbeispiel 1<br />
2 Religion, Theologie<br />
29 Nichtchristliche Religionen<br />
291 Allgemeine und vergleichende Religionswissenschaft<br />
291.2 Religiöse Lehren. Dogmen<br />
291.21 Gottheiten. Gegenstand <strong>der</strong> Religion. Verehrung <strong>der</strong><br />
Gottheiten. Göttersagen. Funktionen <strong>der</strong> Götter. Götterund<br />
Geisterwelten<br />
291.213 Verehrung von Menschen, Halbgöttern, Helden,<br />
Heiligen, Herrschern (Apotheose)<br />
291.213.4 Ahnenkult. Kult <strong>der</strong> Hausgötter: Manen, Laren,<br />
Penaten<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 121
Klassifikationssysteme<br />
Dezimalklassifikation (DK) - Notationsbeispiel 2<br />
669 Metallurgie. Metalle und Legierungen<br />
669.1 Eisenhüttenkunde. Eisen und Stahl<br />
669.16 Herstellung von Roheisen<br />
669.162 Roheisenerzeugung. Erste Schmelzung<br />
669.162.2 Hochöfen<br />
669.162.26 Betrieb von Hochöfen<br />
669.162.266 Hochofenabstich<br />
669.162.266.2 Roheisenabstich<br />
669.162.266.23 Abstechen in Gießbetten und Herstellen <strong>der</strong> Masselbetten<br />
669.162.266.232 Abstechen in Gießbetten<br />
669.162.266.232.6 Abstechen in Gießmaschinen<br />
669.162.266.232.64 in Gießmaschinen mit endlosen Bän<strong>der</strong>n<br />
synkategorematischer Begriff; wird erst mit nächsthöherer Ebene vollständig.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 122
Klassifikationssysteme<br />
• Neben den Systematischen Tafeln hat die DK für spezielle<br />
Kategorien Ergänzungstafeln<br />
• Allgemeine Ergänzungszahlen<br />
KATEGORIE SYMBOL<br />
– Sprache =...<br />
– Form (0...)<br />
– Ort (1/... bis 9/...)<br />
– Zeit „...“<br />
– Materialien -03<br />
– Personen -05<br />
• Beson<strong>der</strong>e Ergänzungszahlen<br />
– Kennzeichnungen (-...)<br />
– Aspekte u.a. (.0...)<br />
– Synthese (’...)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 123
• Allgemeine Ergänzungszahlen<br />
<strong>der</strong> Sprache (Beispiele)<br />
– =00 mehrsprachig<br />
– =20 englisch<br />
– =30 deutsch<br />
– =392 friesisch<br />
– =393 nie<strong>der</strong>ländisch<br />
– =393.2 flämisch<br />
– =393.6 afrikaans<br />
– =40 französisch<br />
– =490 provenzalisch<br />
– =499 katalanisch<br />
– =50 italienisch<br />
– =60 spanisch<br />
Klassifikationssysteme<br />
• Allgemeine Ergänzungszahlen<br />
<strong>der</strong> Zeit (Beispiele)<br />
– „-“ vorchristliche Zeit<br />
– „+“ christliche Zeit<br />
– „04/14“ Mittelalter<br />
– „15/19“ Neuzeit<br />
– „32“ Jahreszeiten<br />
– „321“ Frühling<br />
– „322“ Sommer<br />
– ...<br />
– „36“ Zeit in Sicht <strong>der</strong><br />
Not<br />
– „362“ Friedenszeit<br />
– „364“ Kriegszeit<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 124
• Beson<strong>der</strong>e Ergänzungszahlen<br />
(Aspekte) im Bereich DK 7<br />
(Beispiele)<br />
– 7.061 Fälschungen<br />
Klassifikationssysteme<br />
– 7.07 Arten <strong>der</strong><br />
Beschäftigung mit<br />
Kunst<br />
– 7.071 Künstler<br />
– 7.072 Kunstwissenschaft<br />
– 7.073 Kunstliebhaber<br />
– 7.075 Kunsthändler<br />
– 7.078 öffentliche<br />
För<strong>der</strong>ung <strong>der</strong><br />
Kunst<br />
• Systematische Tafel im Bereich<br />
DK 7 (Ausschnitt)<br />
– 737.1 Münzen<br />
– 738.5 Mosaik<br />
– 739.8 Nippes<br />
• Kombination Systematik-Notation<br />
und beson<strong>der</strong>e Ergänzungszahl<br />
– 737.1.061 Fälschungen von<br />
Münzen<br />
– 738.5.061 Fälschungen von<br />
Mosaiken<br />
– 739.8.075 Händler von<br />
Nippes<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 125
DK-Register<br />
Klassifikationssysteme<br />
• enthält in einer natürlichen Sprache alle Benennungen <strong>der</strong><br />
Notationen aus den systematischen Tafeln und aus den<br />
Ergänzungstafeln<br />
• enthält Synonyme und Quasi-Synonyme <strong>der</strong> Benennungen<br />
• Assoziationsrelation („siehe auch“)<br />
• unterscheidet Homonyme bzw. Polyseme<br />
Ausschnittbeispiele:<br />
Deutschland (Geographie) 914.3<br />
--- (<strong>Geschichte</strong>) 943<br />
--- (Ortsanhängezahl) (43)<br />
Dock ... siehe auch Trockendocks<br />
Pinakothek siehe Gemäldegalerien<br />
Schlangen (Zoologie) 598.12<br />
Schlangen (Tierzucht) 636.98<br />
Notation aus<br />
systematischer Tafel<br />
Notation aus<br />
Ergänzungstafel<br />
Assoziationsrelation<br />
Synonym<br />
Homonymkontrolle<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 126
Mehrere Klassen verbinden<br />
(syntaktisches Indexieren)<br />
– (1.) Beziehung. Symbol: :<br />
Beispiel: Lichtbrechung von<br />
Rubinen<br />
Rubin 549.517.1<br />
Lichtbrechung 535.323<br />
also: 549.517.1:535.323<br />
– (2.) Beiordnung. Symbol: +<br />
Beispiel: Mathematik und Physik<br />
Mathematik 51<br />
Physik 53<br />
also: 51+53<br />
Klassifikationssysteme<br />
– (3.) gerichtete Beziehung<br />
Symbol: ::<br />
Beispiel: Verkehrsmedizin<br />
Verkehr 656<br />
Medizin 61<br />
also: 61::656<br />
– (4.) Erstreckung (von-bis)<br />
Symbol: /<br />
Beispiel: <strong>der</strong> Gesamtbereich<br />
Biologie, Botanik, Zoologie<br />
Biologie 57<br />
Botanik 58<br />
Zoologie 59<br />
also: 57/59<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 127
• (5.) Kombination einer DK-<br />
Zahl <strong>der</strong> Haupttafel mit einer<br />
allgemeinen Ergänzungszahl<br />
• Zahl aus Haupttafel [Zeichen<br />
für Typ <strong>der</strong> Ergänzungszahl]<br />
Ergänzungszahl<br />
• Beispiel: Prostitution in<br />
Deutschland<br />
Prostitution 176.5<br />
Zeichen für Ort (...)<br />
allgemeine Ergänzungszahl<br />
Deutschland 43<br />
also: 176.5(43)<br />
Klassifikationssysteme<br />
• (6.) Kombination einer DK-Zahl<br />
<strong>der</strong> Haupttafel mit einer<br />
speziellen Ergänzungszahl<br />
Zahl aus Haupttafel [Zeichen für<br />
Typ <strong>der</strong> Ergänzungszahl]<br />
Ergänzungszahl für markierten<br />
Bereich<br />
Beispiel: Fälschungen von<br />
Mosaiken (siehe oben!)<br />
Mosaik 738.5<br />
Zeichen Ergänzungszahl.0 ...<br />
spezielle Ergänzungszahl<br />
Fälschungen 61<br />
(darf im Bereich 7 eingesetzt<br />
werden)<br />
also: 738.5.061<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 128
Klassifikationssysteme<br />
Fallbeispiel: DK-Suche beim Katalog <strong>der</strong> ETH Zürich: Index<br />
Suchargument<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 129
Klassifikationssysteme<br />
DK-Suche beim Katalog <strong>der</strong> ETH Zürich: Katalogkarte<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 130
Yahoo!<br />
• Grün<strong>der</strong> und <strong>der</strong>zeitige<br />
CEOs: Jerry Yang und<br />
David Filo<br />
• entstanden 1993 aus<br />
einem Verzeichnis von<br />
Bookmarks<br />
• Yahoo: (unsympathische)<br />
Wesen aus „Gullivers<br />
Reisen“; Akronym für „yet<br />
another hierarchical<br />
officious oracle“ o<strong>der</strong><br />
auch schlicht Ausruf<br />
Klassifikationssysteme<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 131
Klassifikationssysteme<br />
Polydimensionale Ordnung<br />
@: Wechsel <strong>der</strong> Begriffsleiter<br />
(unechte) Polyhierarchie<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 132
Klassifikationssysteme<br />
Zuordnung einer<br />
Website zu mehreren<br />
Klassen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 133
Klassifikationssysteme<br />
88mal<br />
Frauen als<br />
Benennung<br />
für<br />
unterschiedliche<br />
Klassen<br />
Klassenbezeichnungen<br />
bei<br />
Yahoo! sind<br />
synkategorematisch.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 134
„Game$“<br />
Yahoo ! - Baumstruktur (Ausschnitt / fingiertes Beispiel: Suche<br />
nach: „The Game of Go“) - Patent US 5991756<br />
Yahoo's Main Menu<br />
1 Recreation 16 Restaurants<br />
5 URL<br />
2 Games<br />
3 Board Games<br />
4 Go<br />
9 Boating<br />
„Go$“<br />
7 Chess<br />
6 URL 8 Tournaments<br />
20 Food To Go<br />
21 Joe's Pizza To Go<br />
22 "To Go" Delivery Services<br />
Kein direkter<br />
Treffer<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 135
Yahoo! Suchalgorithmus<br />
Klassifikationssysteme<br />
• bei Phrase: Anzeige <strong>der</strong> direkten Treffer (Categories [d.h.:<br />
Klassenbenennungen], Sites, News)<br />
• sonst: Elimination von Stoppwörtern<br />
• automatische Rechtsfragmentierung (stets: SUCHTERM*)<br />
• bei genau 1 Suchwort sowie bei mit ODER verknüpften<br />
Suchwörtern: Anzeige <strong>der</strong> direkten Treffer<br />
• bei mehreren mit UND verknüpften Suchwörtern:<br />
• 1. Anzeige <strong>der</strong> direkten Treffer<br />
• 2. Anzeige <strong>der</strong> indirekten Treffer (min. 1 Suchwort direkter Treffer,<br />
an<strong>der</strong>es Suchwort Unterbegriff eines direkten Treffers) -<br />
Aufhebung <strong>der</strong> Probleme mit den Synkategoremata<br />
Jiong Wu: Information Retrieval from Hierarchical Compound Documents / Yahoo Inc. – Patent US 5991756 vom<br />
23.11.1999. – Mechtild Stock; Wolfgang G. Stock: Recherchieren im Internet. – Renningen: expert-verl., 2004, Kap. 2.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 136
Dokument<br />
Dokumentenspeicher<br />
Suchmaschine<br />
The Game<br />
of Go<br />
Anfrage<br />
Trefferliste<br />
Anfrage<br />
Wortindex<br />
Ausgabeliste<br />
1 9 - Recreation Desc. Fun Cat.<br />
2 8 1 Games Desc. - Cat.<br />
3 8 2 Board Games Desc. - Cat.<br />
4 6 3 Go Desc. - Cat.<br />
5 - 4 Title / URL Desc. - Site<br />
6 - 4 Title / URL Desc. - Site<br />
7 8 3 Chess Desc. - Cat.<br />
8 ... 7 Tournements Desc. Contests Cat.<br />
9 ... 1 Boating Desc. Sailing Cat.<br />
...<br />
Game: 2, 3, Null<br />
Gamele: 10,12, Null<br />
Gan<strong>der</strong>: 39, 67, 102, Null<br />
...<br />
Go: 4, 20, 21, 22, ...<br />
Gobble: 82, 102, Null<br />
...<br />
The: Ignore<br />
Dok. Zeit Intervall <strong>der</strong> "Kin<strong>der</strong>"<br />
1 xxx 00/00/0000 2-9 -<br />
2 xxx 00/00/0000 3-8 -<br />
3 xxx 00/00/0000 4-8 -<br />
4 xxx 00/00/0000 5-6 -<br />
5 xxx 00/00/0000 ∅ 10<br />
6 xxx 00/00/0000 ∅ 5<br />
Gewichtung<br />
Struktur <strong>der</strong><br />
Indices<br />
bei<br />
Yahoo!<br />
Patent<br />
US 5991756<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 137
Klassifikationssysteme<br />
Klassifikation gewerblicher Schutzrechte<br />
• Patente und Gebrauchsmuster:<br />
– Internationale Patentklassifikation (IPC)<br />
– ECLA<br />
• Marken:<br />
– Wiener Klassifikation <strong>der</strong> figürlichen Darstellungen<br />
– Nizza Klassifikation <strong>der</strong> Waren<br />
• Geschmacksmuster:<br />
– Locarno Klassifikation <strong>der</strong> Waren<br />
• alle Klassifikationen gewerblicher Schutzrechte werden von<br />
<strong>der</strong> World Intellectual Property Organization (WIPO) in Genf<br />
gepflegt<br />
unsere<br />
Beispiele<br />
Online: classifications.wipo.int<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 138
Klassifikationssysteme<br />
Internationale Patentklassifikation / International<br />
Patent Classification (IPC)<br />
• nach dem Straßburger Abkommen über die IPC (1971; in<br />
Kraft getreten 1975) einheitliche Klassierung aller<br />
Patentschriften weltweit<br />
• neben den Patentämtern halten sich alle Datenbankproduzenten<br />
beim Indexieren an die IPC<br />
• Gegenstandsbereich: alles, was patentiert werden kann,<br />
d.h. alle technischen Gegenstände (Anm.: Dieser Bereich<br />
kann sich von Zeit zu Zeit wandeln; z.Z. etwa bei den<br />
Softwarepatenten)<br />
• <strong>der</strong>zeit (7.Aufl.) rund 69.000 Klassen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 139
Klassifikationssysteme<br />
IPC - Lexikon in 8 Sektionen:<br />
– A Täglicher Lebensbedarf (ca. 7.500 Gruppen)<br />
– B Arbeitsverfahren; Transportieren (16.500)<br />
– C Chemie; Hüttenwesen (13.500)<br />
– D Textilien; Papier (3.000)<br />
– E Bauwesen; Erdbohren; Bergbau (3.000)<br />
– F Maschinenbau; Beleuchtung; Heizung;<br />
Waffen; Sprengen (8.000)<br />
– G Physik (7.000)<br />
– H Elektrotechnik (7.000)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 140
Struktur <strong>der</strong> IPC<br />
Sektion: 1 Stelle (z.B. B)<br />
Klassifikationssysteme<br />
- Klasse: 2 weitere Stellen (z.B. B64)<br />
- Unterklasse: 1 Stelle (z.B. B64C)<br />
- Gruppen: 3 Stellen (z.B. B64C 025)<br />
- Hauptgruppe: 2 Stellen stets 00 (z.B. B64C 025/00)<br />
- Untergruppe: i.d.R 2 Stellen (nicht 00), u.U. bis zu<br />
4 Stellen (z.B. B64C 025/02)<br />
• bis zur Gruppenebene: Notationen strukturabbildend hierarchisch<br />
• Untergruppenebene: Notationen sequentiell<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 141
Klassifikationssysteme<br />
B Arbeitsverfahren; Transportieren<br />
B64 Luftfahrzeuge; Flugwesen; Raumfahrt<br />
B64C Flugzeuge; Hubschrauber; Drehflügelflugz.<br />
B64C 025 --<br />
B64C 025/00 Start- bzw. Landegestelle<br />
B64C 025/02 . Fahrgestelle<br />
B64C 025/08 .. nicht fest angeordnet, z.B. abwerfbar<br />
B64C 025/10 ... einfahrbar, klappbar o<strong>der</strong> dgl.<br />
B64C 025/18 .... Betätigungsmittel<br />
B64C 025/26 ..... Steuerung o<strong>der</strong> Verriegelung dafür<br />
B64C 025/30 ...... Notbetätigung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 142
Hinweise<br />
Klassifikationssysteme<br />
– allgemeine Querverweise<br />
Beispiel: H05B 3/03 Wi<strong>der</strong>standsheizung / Elektroden<br />
(elektrothermische Behandlung von Erzen C22B 4/00)<br />
– Vorrangregel (falls ein Gegenstand an mehreren Stellen<br />
klassiert werden kann, aber nur an einer Stelle klassiert<br />
werden sollte)<br />
Beispiel: H05B 3/40 Heizelemente ... (3/62, 3/68, 3/78<br />
haben Vorrang)<br />
– Orientierungsverweis (Hinweis auf verwandte<br />
Gegenstände)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 143
Hybrid-System<br />
Klassifikationssysteme<br />
– Hybrid-Systeme: an manchen Stellen <strong>der</strong> IPC sind Index-Codes<br />
vorgesehen, die nur in Verbindung mit (dort definierten) an<strong>der</strong>en<br />
Notationen zu verwenden sind (statt des Schrägstriches hier:<br />
Doppelpunkt). Beispiel: B62D (Motorfahrzeuge), B62D 101:00<br />
(Fahrgeschwindigkeit)<br />
– analog zu den speziellen Ergänzungstafeln <strong>der</strong> DK<br />
– verbundene Index-Codes: Darstellung einer Notation und eines<br />
Index-Codes in einer Klammer; Beispiel: (C08F 210/16, 214:06) -<br />
Themenkette i.S. syntaktischen Indexierens<br />
– nicht verbundene Index-Codes: Darstellung des Index-Codes<br />
allein als allgemeine Zusatzinformation<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 144
Klassifikationssysteme<br />
• Klassierung von Erfindungsobjekten<br />
– Funktionsorientierung eines Gegenstandes (z.B. Kolben) und<br />
Anwendungsorientierung eines Gegenstandes (z.B. Anordnung von<br />
Kolben in einem Motor) berücksichtigen!<br />
– System als Ganzes sei Gegenstand: dann auch die nicht trivialen<br />
Einzelheiten klassieren (z.B. gesamte Radaufhängung: wenn wichtig,<br />
auch die Blattfe<strong>der</strong> berücksichtigen)!<br />
– chemische Formeln (insb. organische Verbindungen): alle vollständig<br />
identifizierten Verbindungen berücksichtigen!<br />
– soviele IPC-Notationen wie nötig, um alle Ansprüche des Patentes<br />
wie<strong>der</strong>zugeben<br />
– die Notation(en) des Hauptanspruches als erste nennen, dann<br />
Nebenansprüche (einige Patentämter klassieren nur den<br />
Hauptanspruch)<br />
– X-Notationen: X (an beliebiger Stelle einer Notation) zeigt an, dass die<br />
IPC den abzubildenden Gegenstand nicht genau trifft; hier ist<br />
Handlungsbedarf für Weiterentwicklungen <strong>der</strong> IPC<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 145
Klassifikationssysteme<br />
• Klassierung von Erfindungsobjekten<br />
– Hauptklasse(n)<br />
Hauptansprüche <strong>der</strong> Erfindungsschrift<br />
– Nebenklasse(n)<br />
Nebenansprüche <strong>der</strong> Erfindungsschrift<br />
– Doppelstrichklasse(n)<br />
„Zusatzinformationen“; nicht rechtlicher, son<strong>der</strong>n<br />
ausschließlich technischer Natur (von den<br />
Erfindungsinformationen durch einen Doppelstrich //<br />
getrennt)<br />
– Indexklasse(n)<br />
verbundene / unverbundene Indexcodes<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 146
Klassifikationssysteme<br />
Fallbeispiel: IPC bei DEPATISnet (DPMA)<br />
• Suche in <strong>der</strong> IPC: mit schwarzem Balken am Rand:<br />
Indexcodes; sonst: Notationen<br />
Notationen<br />
Index-<br />
Codes<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 147
Indexcodes<br />
Klassifikationssysteme<br />
IPC in <strong>der</strong> Version bei DEPATISnet<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 148
Klassifikationssysteme<br />
Detailsuche<br />
<strong>der</strong> Expertenmaske<br />
nach:<br />
Hauptklasse,<br />
Nebenklasse,<br />
Doppelstrichklasse,<br />
Indexklasse<br />
möglich<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 149
Klassifikationssysteme<br />
Anzeige <strong>der</strong><br />
bibliographischen<br />
und<br />
inhaltserschließenden<br />
Informationen<br />
zusätzlich:<br />
Volltext<br />
(PDF)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 150
Klassifikationssysteme<br />
ECLA: European Classification System<br />
– IPC: in gewissen Technikbereichen nicht tief genug<br />
geglie<strong>der</strong>t<br />
– ECLA erweitert IPC „nach unten“ und verfeinert das<br />
System<br />
– erarbeitet beim Europäischen Patentamt; wird bei<br />
einigen großen Patentdatenbanken bei Questel-Orbit<br />
eingesetzt<br />
– Bsp.: H04N-007/24C12M2<br />
IPC ECLA<br />
– z.T. diverse neue Klassen (und damit lange Notationen)<br />
David T. Dickens: The ECLA Classification System. – In: World Patent Information 16 (1994), 28-32.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 151
Klassifikationssysteme<br />
ECLA: Bsp. G06F-17/30 Information Retrieval<br />
Online: l2.espacenet.com/espacenet/eclasrch<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 152
Klassifikationssysteme<br />
Wiener Klassifikation <strong>der</strong> figürlichen Darstellungen<br />
– Einsatz bei Markendatenbanken zur inhaltlichen<br />
Beschreibung von Bildmarken (wie die „lila Kuh“ von<br />
Milka)<br />
– seit 1973 (verabschiedet in Wien) international<br />
eingesetzt<br />
– 3 Hierarchieebenen:<br />
• 29 Kategorien<br />
• 144 Abteilungen<br />
• 1.634 Sektionen (in Haupt- und Hilfstafeln)<br />
– formale Graphikelemente (etwa 26: geometrische<br />
Figuren o<strong>der</strong> 29: Farben) und inhaltliche Aspekte (etwa<br />
2: Menschen o<strong>der</strong> 22: Musikinstrumente)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 153
Klassifikationssysteme<br />
Wiener Klassifikation <strong>der</strong> figürlichen Darstellungen / Ausschnitt<br />
– 03 Animals<br />
• 03.01 Quadrupeds (Series I)<br />
– 03.01.01. Lions<br />
– 03.01.04. Tigers or other large felines<br />
– 03.01.06. Cats or other small felines<br />
– 03.01.08. Dogs, wolves, foxes<br />
• ... (gekürzt)<br />
• Auxiliary Section Associated with Principal Section 3.1.1<br />
– A 03.01.02 Heraldic lions<br />
– Auxiliary Section Associated with Principal Section 3.1.1-3.1.15<br />
– A 03.01.17 Animals of Series I standing<br />
– A 03.01.24 Animals of Series I stylized<br />
– Klassierungsbeispiel: stilisierter Hund<br />
– 03.01.08 / 03.01.24<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 154
Klassifikationssysteme<br />
Wirtschaftsklassifikationen<br />
• Klassifikationen <strong>der</strong> Amtlichen Statistik<br />
– NACE (Europäische Union)<br />
– WZ 03 (Deutschland)<br />
– SIC (USA - veraltet)<br />
– NAICS (Nordamerika)<br />
• Spezielle Branchenklassifikationen<br />
– European Business Classification (Schober)<br />
• Produktklassifikationen<br />
– Predicasts Product Codes (Gale Group)<br />
– Kompass<br />
– Dun & Bradstreet SIC<br />
Anneliese Krobath: Analyse von amtlichen und proprietären Wirtschaftsklassifikationen anhand eines Kriterienkatalogs.<br />
– Dipl.-Arb. Karl-Franzens-Univ. Graz, 2004.<br />
Mechtild Stock; Wolfgang G. Stock: Qualität professioneller Firmeninformationen im World Wide Web. - In:<br />
Willi Bredemeier et al.: Die Branche elektronischer Geschäftsinformation in Deutschland 2000/2001. –<br />
Hattingen; Kerpen; Köln, 2001, Kap. 3.2: Branchen- und Produktklassifikationen, 355-377.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 155
NACE<br />
Klassifikationssysteme<br />
• Nomenclature général des activités économiques dans les<br />
Communautés Européens<br />
• NACE (Rev. 1) seit 1993 verbindliche Klassifikation <strong>der</strong><br />
Wirtschaftszweige in <strong>der</strong> EU<br />
• 4-stellige Notationen; <strong>der</strong>zeit 640 Klassen<br />
• 3 Hierarchieebenen Beispiel<br />
– Abteilung (2 Stellen) 29<br />
– Gruppen (1 weitere Stelle) 29.5<br />
– Klassen (1 weitere Stelle) 29.56<br />
– zusätzlich: Abschnitte (Buchstabennotationen),die Abteilungen<br />
sequentiell zusammenfassen, Bsp.: D für die Abteilungen 15 - 37<br />
NACE Rev. 1: Statistische Systematik <strong>der</strong> Wirtschaftszweige in <strong>der</strong> Europäischen Gemeinschaft. – Luxembourg:<br />
Amt für Amtliche Veröffentlichungen <strong>der</strong> Europäischen Gemeinschaften, 1996. – (Themenkreis 2: Wirtschaft<br />
und Finanzen; Reihe E: Methoden). - Letzte Än<strong>der</strong>ung: NACE Rev. 1.1 (2003).<br />
Online: europa.eu.int/comm/eurostat/ramon/geninfo/geninfo_de.html<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 156
Klassifikationssysteme<br />
A Land- und Fortwirtschaft 01, 02<br />
B<br />
C<br />
D<br />
Fischerei und Fischzucht<br />
Bergbau und Gewinnung von Steinen und Erden<br />
Verarbeitendes Gewerbe<br />
NACE<br />
1. Hierarchie-<br />
05<br />
10 bis 14<br />
15 bis 37<br />
E Energie- und Wasserversorgung ebene<br />
40, 41<br />
F Baugewerbe 45<br />
G Handel, Instandhaltung und Reparatur von Kraftfahrzeugen<br />
und Gebrauchsgütern 50 bis 52<br />
H Gastgewerbe 55<br />
I Verkehr und Nachrichtenübermittlung 60 bis 64<br />
J Kredit- und Versicherungsgewerbe 65 bis 67<br />
K Grundstücks- und Wohnungswesen, Vermietung beweglicher<br />
Sachen, Erbringung von Dienstleistungen f. Unternehmen 70 bis 74<br />
L Öffentliche Verwaltung, Verteidigung, Sozialversicherung 75<br />
M Erziehung und Unterricht 80<br />
N Gesundheits-, Veterinär- und Sozialwesen 85<br />
O Erbringung von sonstigen öffentlichen und<br />
persönlichen Dienstleistungen 90 bis 93<br />
P Private Haushalte 95<br />
Q Exterritoriale Organisationen und Körperschaften 99<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 157
Klassifikationssysteme<br />
WZ 93 / WZ 03<br />
• Übernahme <strong>der</strong> NACE in die deutsche amtliche Statistik ab<br />
1993 als „Klassifikation <strong>der</strong> Wirtschaftszweige“ (WZ 93) –<br />
Überarbeitung 2003<br />
• 5-stelliger Code (die letzte Stelle gilt nur für Deutschland)<br />
• 1.700 Klassen<br />
• Einsatz bei<br />
– Statistisches Bundesamt, Bürgel, Creditreform, Hoppenstedt,<br />
AZ Bertelsmann, Schober<br />
• Achtung: z.T. Klassen ohne Än<strong>der</strong>ung <strong>der</strong> Definition gegenüber<br />
Oberbegriffen<br />
• Beispiel: 35.3 (Luft- und Raumfahrzeugbau)<br />
– 35.30 (Luft- und Raumfahrzeugbau (bis hierhin: NACE Rev. 1) - ohne<br />
Informationsgewinn<br />
» 35.30.0 (Luft- und Raumfahrzeugbau (5. Stelle <strong>der</strong> WZ 93) - wie<strong>der</strong>um<br />
ohne Informationsgewinn<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 158
Klassifikationssysteme<br />
NACE - WZ 03 / Beispiel: Druckmaschinen<br />
• 29 (Maschinenbau)<br />
• 29.5 (Herstellung von Maschinen für sonstige<br />
bestimmte Wirtschaftszweige)<br />
• 29.56 (Herstellung von Maschinen für bestimmte<br />
Wirtschaftszweige a.n.g.) - bis hierhin: NACE<br />
• 29.56.1 (Herstellung von Maschinen für das<br />
Druckgewerbe) - nur für den Gebrauch in Deutschland<br />
Alphabetisches Verzeichnis zur Klassifikation <strong>der</strong> Wirtschaftszweige, Ausgabe 1993. – Stuttgart:<br />
Metzler-Poeschel, 1993.<br />
Online: www.destatis.de/allg/d/klassif/wz2003.htm<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 159
Klassifikationssysteme<br />
Standard Industrial Classification (SIC)<br />
• 1939 - 1997 Klassifikation <strong>der</strong> Amtlichen Statistik <strong>der</strong> USA<br />
• letzte erschienene Revision: 1987<br />
• abgelöst durch NAICS 1997<br />
• wird <strong>der</strong>zeit noch von vielen Informationsproduzenten<br />
eingesetzt, u.a. Information Access Group, Dun &<br />
Bradstreet, Hoppenstedt, Schober<br />
• 4-stellige Notationen - rund 1.000 Klassen<br />
• hierarchischer Notationsaufbau, 4 Hierarchieebenen<br />
• stets mit „0“ auf vier Stellen aufgefüllt<br />
Online: www.osha.gov/oshstats/sicser.html<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 160
SIC / Grundstruktur<br />
Klassifikationssysteme<br />
– 0 Landwirtschaft, Forstwirtschaft, Fischerei<br />
– 1 Bergbau, Rohstoffe, Hoch- und Tiefbau<br />
– 2 Herstellung kurzlebiger Verbrauchsgüter<br />
– 3 Herstellung langlebiger Gebrauchsgüter<br />
– 4 Transport, Nachrichtentechnik, Versorgungsbetriebe<br />
– 5 Groß- und Einzelhandel<br />
– 6 Finanzdienstleistungen<br />
– 7 (an<strong>der</strong>e) Dienstleistungen<br />
– 8 Gesundheit und Bildung<br />
– 9 Staat, Regierung<br />
SIC / Beispiel: Druckmaschinen<br />
3000 (Herstellung langlebiger Gebrauchsgüter)<br />
3500 (Maschinenbau)<br />
3550 (Maschinenbau - Spezialmaschinen)<br />
3555 (Maschinenbau - Druck)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 161
Klassifikationssysteme<br />
NAICS / North American Industry Classification System<br />
• keine SIC-Revision, son<strong>der</strong>n neues System<br />
– durchgehend neu: Notationen<br />
– aus SIC unverän<strong>der</strong>t übernommen: 422 Klassen<br />
– aus SIC revidiert übernommen: 390 Klassen<br />
– neue Klassen: 358 Klassen (z.B. „51 Information“)<br />
– 6-stelliger Code - 1.170 Klassen<br />
– 5 Hierarchieebenen<br />
• Sektoren (2 Stellen) - sequentielle Notationen<br />
• Subsektor (1 weitere Stelle) - ab hier hierarchische Notationen<br />
• Branchengruppe (1 Stelle)<br />
• Branche (1 Stelle) - bis hierhin international (NAFTA-Län<strong>der</strong>)<br />
• Teilbranche (1 Stelle) - landesspezifisch für USA, Kanada,<br />
Mexiko<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 162
• 11 Agriculture, Forestry, Fishing<br />
and Hunting<br />
• 21 Mining<br />
• 22 Utilities<br />
• 23 Construction<br />
• 31-33 Manufacturing<br />
• 42 Wholesale Trade<br />
• 44-45 Retail Trade<br />
• 48-49 Transportation and<br />
Warehousing<br />
• 51 Information<br />
• 52 Finance and Insurance<br />
• 53 Real Estate and Rental and<br />
Leasing<br />
• 54 Professional, Scientific, and<br />
Technical Services<br />
Klassifikationssysteme<br />
• 55 Management of Companies and<br />
Enterprises<br />
• 56 Administrative and Support and<br />
Waste Management and<br />
Remediation Services<br />
• 61 Educational Services<br />
• 62 Health Care and Social<br />
Assistance<br />
• 71 Arts, Entertainment, and<br />
Recreation<br />
• 72 Accommodation and Food<br />
Services<br />
• 81 Other Services (except Public<br />
Administration)<br />
• 92 Public Administration<br />
NAICS: 1. Hierarchieebene<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 163
Klassifikationssysteme<br />
NAICS<br />
• eingesetzt bei:<br />
– Amtlicher Statistik USA, Kanada und Mexiko<br />
– Datenbanken <strong>der</strong> Gale Group (u.a. PROMT)<br />
– (einigen) Firmendatenbanken in den USA<br />
• Beispiel: Druckmaschinen<br />
– 31 - 33 (Manufacturing)<br />
– 333 (Machinery Manufacturing)<br />
– 3332 (Industrial Machinery Manufacturing)<br />
– 33329 (Other Industrial Machinery Manufacturing)<br />
– 333293 (Printing Machinery and Equipment<br />
Manufacturing)<br />
North American Industry Classification System. – Lanham, MD: Bernan Press, 1998. Letzte Än<strong>der</strong>ung: NAICS 2002.<br />
Ruth A. Pagell; Patricia J.S. Weaver: NAICS: NAFTA‘s industrial classification system. – In: Business Information<br />
Review 14 (1997) 1, 36-44.<br />
Online: www.naics.com<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 164
Klassifikationssysteme<br />
Spezielle Branchenklassifikation: Schober<br />
– „European Business Classification“ (EBC)<br />
– rund 10.000 Klassen für Wirtschaftsbranchen und<br />
Wirtschaftsaktivitäten zur Unterstützung <strong>der</strong> Suche in einer<br />
B-to-B-Adressdatenbank<br />
– Beispiele für Klassen <strong>der</strong> Wirtschaftsaktivitäten<br />
• 6679 DIMA Düsseldorf<br />
• 5273 INFOBASE Intern. Fachmesse für Kommunikation Frankfurt<br />
– Beispiel Druckmaschinen<br />
• 703 Druckmaschinen Hersteller<br />
• 2557 Papier- und Druckmaschinen Hersteller<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 165
Klassifikationssysteme<br />
Produktklassifikation 1: Gale-Codes (Predicasts-Codes)<br />
• angelehnt an SIC; erweitert auf 7 Stellen<br />
• Beispiel: 0174 (Zitrusfrüchte)<br />
– 0174007 Pampelmusen<br />
– 0174012 Zitronen<br />
– 0174013 Limonen<br />
– 0174015 Apfelsinen<br />
– 0174019 Mandarinen<br />
– 0174021 Tangelos<br />
– 0174022 Temples<br />
– 0174024 Orangen, Valencia<br />
– 0174099 Zítrusfrüchte, sonstige<br />
• Einsatz: in diversen Gale-Datenbanken<br />
Online: support.dialog.com/searchaids/dialog/galecodes/<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 166
Klassifikationssysteme<br />
Produktklassifikation 2: Dun & Bradstreet SIC<br />
• Erweiterung <strong>der</strong> SIC um zwei weitere Hierarchieebenen<br />
(jeweils 2-stellig)<br />
• über 18.000 Klassen<br />
• Stellen 1 bis 4: SIC<br />
• Stellen 5 und 6: Produktgruppe<br />
• Stellen 7 und 8: Produkte<br />
• wie bei SIC üblich: Auffüllen nach rechts freier Stellen<br />
durch Nullen<br />
• Einsatz: (geplant bzw. <strong>der</strong>zeit in Arbeit): bei <strong>der</strong> D&B-<br />
Firmendatenbank<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 167
Klassifikationssysteme<br />
D&B SIC. Beispiel Druckmaschinen<br />
35550000 (Printing Trades Machinery)<br />
35550100 (Printing Presses)<br />
35550101 (Presses, Envelope, Printing)<br />
35550102 (Presses, Gravure)<br />
35550200 (Printing Plades)<br />
35550201 (Plates, Metal: Engravers')<br />
35550202 (Plates, Offset)<br />
usw. (gekürzt)<br />
35559900 (Printing Trades Machinery, NEC)<br />
35559901 (Bronzing or Dusting Machines for the Printing Trade)<br />
usw. (gekürzt)<br />
35559906 (Typographic Numbering Machines).<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 168
Klassifikationssysteme<br />
Produktklassifikation 3: Kompass<br />
• Eigenes Produktklassifikationssystem <strong>der</strong> Kompass-<br />
Firmendatenbanken<br />
• Gegenstand: B-to-B Produkte und Dienstleistungen - rund<br />
50.000 Klassen<br />
• 3 Hierarchieebenen:<br />
– Branche (2-stellig)<br />
– Fachgruppen (weitere 3 Stellen)<br />
– Produkte (weitere 2 Stellen)<br />
• auf <strong>der</strong> Ebene <strong>der</strong> Fachgruppe zusätzlich: I / E (Import- bzw.<br />
Exportaktivitäten einer Firma)<br />
• auf <strong>der</strong> Ebene <strong>der</strong> Produkte zusätzlich P / D / S (Produktion,<br />
Distribution, Service)<br />
Online: www.kompass.com/<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 169
Kompass<br />
Klassifikationssysteme<br />
Meist hierarchisch strukturiert:<br />
• 20 (Nahrungs- und Genussmittel)<br />
• 20420 (Fische in Konserven und an<strong>der</strong>en Verpackungen)<br />
• 2042052 (Fischfrikadellen, -bällchen und -kuchen in Dosen)<br />
• ... aber mit Ausnahmen:<br />
• 20427 (Fische in Konserven und an<strong>der</strong>en Verpackungen /<br />
Landesspezifische Produkte / Frankreich)<br />
• 2042701 (Bouillabaisse in Konserven)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 170
Klassifikationssysteme<br />
44 (Maschinen und Anlagen für die Zellstoff-, Papier- und Druckindustrie.<br />
Büromaschinen und Anlagen für die elektronische Datenverarbeitung)<br />
44140 (Druckmaschinen und Zubehör / Teil 1)<br />
4414001 (Druckmaschinen, Hochdruck, Flachdruckprinzip)<br />
4414002 (Druckmaschinen, Hochdruck, Rotationsoffsetprinzip)<br />
usw. (gekürzt)<br />
4414053 (Druckmaschinen, Heliografieverfahren)<br />
44141 (Druckmaschinen und Zubehör / Teil 2)<br />
4414122 (Druckmaschinen, Mehrfarben)<br />
4414124 (Druckmaschinen, multifunktional)<br />
usw. (gekürzt)<br />
4414151 (Zylin<strong>der</strong> für Druckmaschinen)<br />
4414152 (Trockner für Druckmaschinen)<br />
usw. (gekürzt)<br />
44149 (Druckmaschinen und Zubehör)<br />
4414901 (Andruckpressen, Flexodruck, Anilindruck)<br />
44160 (Spezielle Druckmaschinen und Zubehör)<br />
usw. (gekürzt)<br />
Kompass.<br />
Bsp.: Druckmaschinen<br />
Achtung<br />
bei 44140<br />
und 44141:<br />
Sequentielle<br />
Notation!<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 171
Klassifikationssysteme<br />
Branchen-Ebene:<br />
Import / Export<br />
Produkt-Ebene:<br />
Produzent / Handel /<br />
Dienstleister<br />
Kompass-Klassifikation<br />
Suchoberfläche<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 172
Klassifikationssysteme<br />
Geographische Klassifikationen<br />
– finden in diversen Datenbanken (auch Wirtschaftsdatenbanken)<br />
zusätzlich zu an<strong>der</strong>en Systemen Einsatz<br />
– haben ihre Wurzeln teilweise in <strong>der</strong> amtlichen Statistik<br />
und finden auch dort ihren Einsatz<br />
– werden auch als Gebietsbeschreibungen in wissenschaftlichen<br />
Untersuchungen (etwa Regionalforschung<br />
o<strong>der</strong> Ökonomie) verwendet<br />
– bedeutende Klassifikationssysteme<br />
• NUTS<br />
• Gale Group Country Codes<br />
• sowie Derivate davon<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 173
NUTS. Nomenclature des unités<br />
territoriales statistiques<br />
– entwickelt von <strong>der</strong> EU zur<br />
amtlichen Statistik und zur<br />
Verwendung bei eigenen<br />
Datenbanken (etwa TED)<br />
– hierarchisches System<br />
• Landesbezeichnung (2-stellig<br />
mit Buchstaben)<br />
• Untereinheit (1-stellig mit<br />
Zahlen; falls mehr als 10<br />
Untereinheiten: zusätzlich mit<br />
Buchstaben)<br />
• weitere Untereinheiten (bis zur<br />
Kreisebene bzw. bis zu den<br />
kreisfreien Städten)<br />
Klassifikationssysteme<br />
Beispiele:<br />
AT Österreich<br />
AT2 Südösterreich<br />
AT22 Steiermark<br />
AT221 Graz<br />
DE Deutschland<br />
DEA Nordrhein-Westfalen<br />
DEA2 Regierungsbezirk Köln<br />
DEA27 Rhein-Erft-Kreis<br />
DEA2A Oberbergischer<br />
Kreis<br />
Online: europa.eu.int/comm/ramon/nuts/home_regions_de.html<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 174
Klassifikationssysteme<br />
NUTS: Suche via Landkarten<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 175
Klassifikationssysteme<br />
GALE Group Country Codes<br />
– entwickelt von Predicasts, übernommen von Gale<br />
– <strong>der</strong>zeit Industriestandard im Bereich <strong>der</strong> Wirtschaftsdatenbanken<br />
– beinhaltet Weltregionen (0 bis 9), Staatengemeinschaften (soweit<br />
vorhanden) und einzelne Län<strong>der</strong><br />
– Glie<strong>der</strong>ung<br />
• 0 Internationales<br />
• 1 Nordamerika<br />
• 2 Mittelamerika<br />
• 3 Südamerika<br />
• 4 Europa<br />
• 5 Karibik<br />
• 6 Afrika<br />
• 7 Mittlerer Osten<br />
• 8 Australien, Ozeanien<br />
• 9 Asien<br />
Online: support.dialog.com/searchaids/dialog/galecodes/<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 176
GALE Group Country Codes<br />
– Beispiele:<br />
1 Nordamerika<br />
1USA USA gesamt<br />
Klassifikationssysteme<br />
1U9 Staaten <strong>der</strong> Westküste<br />
1U9CA Kalifornien<br />
Achtung: Suchen nach USA gesamt und ihrer Staaten in <strong>der</strong><br />
Form: 1U*<br />
4 Europa<br />
4EU Europäische Union<br />
4EUGE Deutschland<br />
Hier nicht strukturabbildend<br />
hierarchische Notation<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 177
Klassifikationssysteme<br />
Derivate <strong>der</strong> GALE Group Country Codes<br />
• da die Gale CC nur bis zur Län<strong>der</strong>ebene reichen, gibt es<br />
Erweiterungen<br />
• Beispiel: Län<strong>der</strong>code <strong>der</strong> ifo Literaturdatenbank für Deutschland<br />
• bis Län<strong>der</strong>ebene: wie Gale CC (also für Deutschland: 4EUGE)<br />
• Bundeslän<strong>der</strong>gruppe (1-stellig, N für neue Län<strong>der</strong>, A für alte<br />
Bundeslän<strong>der</strong>)<br />
• Bundesland (3-stellig, Buchstabencodes)<br />
• Kreise, Städte (Autokennzeichen)<br />
• Beispiel:<br />
– 4EUGE Deutschland<br />
– 4EUGEA alte Bundeslän<strong>der</strong><br />
– 4EUGEABAY Bayern<br />
– 4EUGEABAYFFB Landkreis Fürstenfeldbruck<br />
– 4EUGEABAYFS Landkreis Freising<br />
Bei letzter Hierarchieebene:<br />
sequentielle<br />
Notation<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 178
Klassifikationssysteme<br />
Medizinklassifikation: International Statistical Classification<br />
of Diseases – Ausgabe 10 (ICD-10)<br />
• Auf internationaler Ebene erstellt von <strong>der</strong> World Health<br />
Organization (WHO)<br />
• In Deutschland gepflegt von DIMDI (Köln)<br />
• Einsatz:<br />
– Abrechnung im öffentlichen Gesundheitswesen (u.a.<br />
Krankenhäusern)<br />
– Abrechnung <strong>der</strong> nie<strong>der</strong>gelassenen Ärzte<br />
– Statistik (u.a. Todesursachenstatistik)<br />
• Haupttafeln mit „Schlüsselnummern“ (Notationen)<br />
• Bei den Klassen (i.d.R. bei den Dreistellern): Definitionen<br />
• Klassierregeln für die jeweiligen Klassen<br />
• Allgemeine Klassierregeln<br />
• Zusatzkennzeichen (allgemeine Ergänzungszeichen)<br />
Online: www.dimdi.de/dynamic/de/klassi/download/index.html<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 179
Klassifikationssysteme<br />
ICD-10 – Haupttafel in 21 Kapiteln. Beispiele:<br />
A00-B99 I. Infektiöse und parasitäre Krankheiten<br />
C00-D48 II. Neubildungen<br />
D50-D89 III. Krankheiten des Blutes<br />
E00-E90 IV. Ernährungs- und Stoffwechselkrankheiten<br />
F00-F99 V. Psychische und Verhaltensstörungen<br />
G00-G99 VI. Krankheiten des Nervensystems<br />
H00-H59 VII. Augenkrankheiten<br />
H60-H95 VIII. Ohrenkrankheiten<br />
...<br />
S00-T98 XIX. Verletzungen, Vergiftungen und an<strong>der</strong>e Folgen<br />
äußerer Ursachen<br />
V01-Y98 XX. Äußere Ursachen von Morbidität und Mortalität<br />
Z00-Z99 XXI. Faktoren, die den Gesundheitszustand beeinflussen<br />
und zur Inanspruchnahme des Gesundheitswesens<br />
führen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 180
Klassifikationssysteme<br />
ICD-10. Beispiel Haupttafel: Verletzung nach Fahrradunfall<br />
V01-Y98 Äußere Ursachen von Morbidität und Mortalität<br />
V01-X59 Unfälle<br />
V01-V99 Transportmittelunfälle<br />
V01-V09 Fußgänger bei Transportmittelunfall verletzt<br />
V10-V19 Benutzer eines Fahrrades bei Transportmittelunfall<br />
verletzt<br />
V10 Benutzer eines Fahrrades bei Zusammenstoß mit<br />
Fußgänger o<strong>der</strong> Tier verletzt<br />
V11 Benutzer eines Fahrrades bei Zusammenstoß mit<br />
einem an<strong>der</strong>en Fahrrad verletzt<br />
...<br />
V18 Benutzer eines Fahrrades bei Transportmittelunfall<br />
ohne Zusammenstoß verletzt<br />
jeweils: 4. Stelle: beson<strong>der</strong>e Ergänzungszahl<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 181
Klassifikationssysteme<br />
ICD-10. Beispiel Haupttafel: Fahrradunfall<br />
Beson<strong>der</strong>e Ergänzungszahlen bei V10-V18:<br />
.0 Fahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt<br />
.1 Mitfahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt<br />
...<br />
.3 Person beim Auf- und Absteigen verletzt<br />
...<br />
Notation einer Verletzung durch Stürzen beim Aufsteigen auf ein<br />
Fahrrad (ohne Zusammenstoß)<br />
V18.3<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 182
Klassifikationssysteme<br />
ICD-10. Allgemeine Klassierregeln<br />
(1) Kreuz-Stern-System<br />
– Mit einem Kreuz (+) versehene Klassen bedürfen einer Ergänzung<br />
– Mit einem Stern (*) versehene Klassen dürfen nur an eine Kreuz-<br />
Klasse angebunden werden.<br />
– Beispiel: diabetische Retinopathie bei Typ I-Diabetes<br />
• E10 Primär insulinabhängiger Diabetes mellitus<br />
• .3+ (beson<strong>der</strong>e Ergänzungszahl) mit Augenkomplikationen<br />
• H36.0* Retinopathia diabetica<br />
• Also: E10.3+H36.0*<br />
(2) Optionale Klassen<br />
– Mit einem Ausrufezeichen (!) versehene Klassen dürfen an eine<br />
an<strong>der</strong>e Klasse angebunden werden.<br />
Beispiel: Z51.0! Strahlentherapie-Sitzung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 183
ICD-10<br />
Klassifikationssysteme<br />
– Zusatzkennzeichen (allgemeine<br />
Ergänzungsnotationen)<br />
– Es sind max. 2 (<strong>der</strong> 6) Zusatzkennzeichen hinter<br />
einer Notation zugelassen<br />
– R rechts<br />
– L links<br />
– B beidseits<br />
– V Verdachtsdiagnose<br />
– Z (symptomloser) Zustand nach <strong>der</strong><br />
betreffenden Diagnose<br />
– A ausgeschlossene Diagnose<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 184
ICD-10<br />
Diagnosethesaurus<br />
– Register zur ICD<br />
– rund 60.000 Einträge<br />
Klassifikationssysteme<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 185
ICD-10 bei DIMDI<br />
Klassifikationssysteme<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 186
Klassifikationssysteme<br />
Klassifikationen. Fazit<br />
• Klassifikationssysteme spielen eine nicht umgehbare Rolle<br />
in <strong>der</strong> Informationswirtschaft<br />
• Universalklassifikationen: Nutzung vorwiegend in großen<br />
Bibliotheken<br />
• WWW: Wenn im Web überhaupt intellektuell ausgewertet<br />
wird, dann klassifikatorisch<br />
• Gewerbliche Schutzrechte (Patente, Gebrauchsmuster,<br />
Marken, Geschmacksmuster): international eingesetzte und<br />
akzeptierte Systeme. Die professionelle Suche nach<br />
Schutzrechtsdokumente geht ausschließlich über die<br />
jeweiligen Klassifikationssysteme.<br />
• Wirtschaft: in vielen Wirtschaftsdatenbanken werden<br />
Branchen- o<strong>der</strong> Produktklassifikationen eingesetzt<br />
• Medizin: keine Abrechnung, keine Statistik ohne ICD<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 187
Klassifikationen. Fazit<br />
Klassifikationssysteme<br />
• Es gibt einige Klassifikationssysteme, die sich herstellerübergreifend<br />
durchgesetzt haben:<br />
– Wirtschaft<br />
• in Europa: NACE<br />
• in Nordamerika: NAICS<br />
• weltweit (obwohl veraltet): SIC<br />
– Gewerbliche Schutzrechte<br />
• Patente, Gebrauchsmuster: IPC<br />
• Marken: Wiener Klassifikation, Nizza Klassifikation<br />
– Län<strong>der</strong><br />
• Gale CC<br />
• NUTS<br />
– Medizin: ICD<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 188
Klassifikationen. Fazit<br />
Klassifikationssysteme<br />
• Aus den „Standardsystemen“ werden Derivate abgeleitet:<br />
• WZ 93 aus NACE<br />
• Gale Product-Codes aus SIC<br />
• D&B-Product-Codes aus SIC<br />
• ifo Län<strong>der</strong>code aus Gale CC<br />
• zusätzlich existieren herstellerspezifische Klassifikationssysteme<br />
(Schobers EBC, Kompass, ...)<br />
• Eigene, selbsterstellte Klassifikationen eignen sich zum<br />
Einsatz in unternehmensweiten Netzen (Intranets,<br />
Enterprise Information Portals) sowie zur Strukturierung<br />
von Katalogen (im E-Commerce)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 189
Klassifikationssysteme<br />
Vorteile von Klassifikationen (egal, ob bei<br />
professionellen Datenbanken o<strong>der</strong> in [irgendeinem]<br />
Unternehmen)<br />
– übersichtliche Navigation durch die Hierarchieebenen<br />
– sprachunabhängiges System (ggf. Nachteil: Notationen sind<br />
für Laien kaum recherchierbar; Ausgleich durch<br />
natürlichsprachige Oberflächen)<br />
– vielfältige Ausdrucksmöglichkeiten durch Trennung von<br />
Haupttafeln und Ergänzungstafeln<br />
– einfaches hierarchisches Retrieval durch Truncation (bei<br />
strukturabbildend hierarchischen Notationen)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 190
Klassifikationssysteme<br />
Nachteile von Klassifikationen<br />
– Die Struktur ist zwar nach unten hin stetig erweiterbar, aber<br />
nur sehr schwer im Grundaufbau zu verän<strong>der</strong>n.<br />
Beispiele für Probleme:<br />
• DK: bildet die Wissenschaftsstruktur des späten<br />
19.Jahrhun<strong>der</strong>ts ab<br />
• SIC: musste als Ganzes abgelöst werden, da die neueren<br />
wirtschaftlichen Entwicklungen (etwa: Aufkommen <strong>der</strong><br />
Dienstleistungen) nicht integriert werden konnten<br />
– Bei den Relationen dominiert eindeutig die Hierarchierelation<br />
(in <strong>der</strong> monohierarchischen Variante). Alle Gegenstände, die<br />
sich „natürlich“ monohierarchisch glie<strong>der</strong>n, können gut<br />
klassifikatorisch erfasst werden; alle an<strong>der</strong>en nicht.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 191
Dokumentationssprachen II:<br />
Schlagwortmethode<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 192
Schlagwortmethode<br />
Schlagwortmethode<br />
• einfache Form <strong>der</strong> verbalen Inhaltserschließung<br />
• kontrolliertes Vokabular (Schlagworte)<br />
• Vokabular wird <strong>der</strong> natürlichen Sprache entnommen<br />
• Einteilung des Gesamtvokabulars in Facetten<br />
(empfehlenswert, aber nicht zwingend)<br />
• Relationen:<br />
– (Quasi-)Synonymie (BF: benutzt für)<br />
– Assoziation (allgemeiner „siehe auch“-Verweis;<br />
VB: verwandter Begriff))<br />
– chronologische Verweisung (falls nötig)<br />
– keine Hierarchierelationen (ansonsten läge ein Thesaurus<br />
vor)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 193
Schlagwortmethode<br />
Beispiel: RSWK („Regeln für den Schlagwortkatalog“<br />
und SWD („Schlagwortnormdatei“)<br />
• eingesetzt bei deutschen Bibliotheken<br />
• erarbeitet ab 80er Jahre des 20. Jahrhun<strong>der</strong>ts von <strong>der</strong> DBI-<br />
Kommission für Sacherschließung; Publikation 1986<br />
• Einsatz von Facetten (Person – Ort – „Sache“ – Zeit –<br />
Form)<br />
• teilweise Verwendung hierarchischer Relationen („auf dem<br />
Weg zu einem Thesaurus“; hier nicht berücksichtigt)<br />
Regeln für den Schlagwortkatalog: RSWK. – Berlin: Deutsches Bibliotheksinstitut, 3 1998.<br />
Beispielsammlung zu den Regeln für den Schlagwortkatalog. – Berlin: Deutsches Bibliotheksinstitut, 1991.<br />
Konrad Umlauf: Regeln für den Schlagwortkatalog. Die Grundregeln <strong>der</strong> RSWK. – Berlin: HU Berlin / Institut<br />
für Bibliothekswissenschaft, 1999. – (Berliner Handreichungen zur Bibliothekswissenschaft; 66).<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 194
Schlagwortmethode<br />
RSWK / SWD<br />
• syntaktisches Indexieren durch Schlagwortketten<br />
• Schlagwortketten sind stets in <strong>der</strong> Reihenfolge Person –<br />
Ort – „Sache“ – Zeit – Form anzugeben<br />
• jede Kette drückt ein Objekt <strong>der</strong> dokumentarischen<br />
Bezugseinheit möglichst präzise und vollständig aus<br />
• Wahl des engsten Schlagwortes<br />
– Bsp.: Objekt „Untersuchungen zum HAWIK“<br />
– Schlagwort: HAWIK<br />
– nicht: Intelligenztest / Kind / HAWIK (mitunter problematisch!)<br />
• Vermeiden von Pleonasmen<br />
– überflüssige Häufung sinngleicher Bezeichnungen (z.B.<br />
Zukunftsprognose)<br />
– problematisch bei wenig bekannten Begriffen (z.B.<br />
Nuraghenkultur; hier entfällt „Sardinien“ als pleonastisch)<br />
• Homonymzusatz (z.B. Atlas )<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 195
RSWK / SWD.<br />
Personenschlagwort<br />
• Eigennamen von Personen<br />
(einschließlich fiktiver<br />
Personen)<br />
• Familiennamen (z.B.<br />
Fugger )<br />
• umfassende Liste von<br />
Ansetzungsvarianten<br />
• in SWD in Facette p<br />
Schlagwortmethode<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 196
RSWK / SWD.<br />
Geographisches und<br />
ethnographische<br />
Schlagwort<br />
• Namen von<br />
Gebietskörperschaften<br />
• Namen von Landschaften,<br />
Flüssen, Gebirgen,<br />
Wegstrecken usw.<br />
• Namen von Völkern,<br />
Rassen, Stämmen<br />
• in SWD in Facette g<br />
Schlagwortmethode<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 197
Schlagwortmethode<br />
RSWK / SWD. Geographisches und<br />
ethnographische Schlagwort<br />
• Namensän<strong>der</strong>ungen (z.B. St. Piterburch - St. Petersburg –<br />
Petrograd – Leningrad – St. Petersburg)<br />
• Variante 1:<br />
aktueller Name<br />
als Schlagwort,<br />
Verweise von<br />
allen an<strong>der</strong>en<br />
Namen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 198
Schlagwortmethode<br />
RSWK / SWD. Geographisches und<br />
ethnographische Schlagwort<br />
• Namensän<strong>der</strong>ungen (z.B. St. Piterburch - St. Petersburg –<br />
Petrograd – Leningrad – St. Petersburg)<br />
• Variante 2: Chronologische Relation (früher – später)<br />
– CF (chronologisch früher) – CS (chronologisch später)<br />
– zusätzlich: Hinweis auf den Zeitraum<br />
• Leningrad (Hinweis: 1924 – 1991)<br />
CF Petrograd (dort Hinweis: 1919 – 1924)<br />
CS Sankt Petersburg (dort Hinweis: ab 1991)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 199
Schlagwortmethode<br />
RSWK / SWD. Sachschlagwort<br />
• in SWD in Facette s<br />
MO: mehrgliedriger Oberbegriff<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 200
Schlagwortmethode<br />
RSWK / SWD. Sachschlagwort<br />
• Einzelbegriff (Bsp.: Pest)<br />
• Kompositum (Bsp.: Luftverschmutzung)<br />
• Adjektiv-Substantiv-Verbindung (Bsp.: Juristische Person)<br />
• ggf. mit Homonymzusatz (Bsp.: Krebs )<br />
• stehende Wendung (Bsp.: Information und Dokumentation)<br />
• Beson<strong>der</strong>heit: Werktitel (Facette t)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 201
Schlagwortmethode<br />
RSWK / SWD. Zeitschlagwort<br />
• Variante 1: Verbale Epochenbezeichnung<br />
o<strong>der</strong> historische<br />
Einzelereignisse (als Sachschlagwort)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 202
Schlagwortmethode<br />
RSWK / SWD. Zeitschlagwort<br />
• Variante 2: konkrete Jahresangaben in Verbindung mit<br />
„<strong>Geschichte</strong>“ (o<strong>der</strong> „Prognose“ o.ä.)<br />
• nicht in SWD enthalten<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 203
Schlagwortmethode<br />
RSWK / SWD. Formschlagwort<br />
• Erscheinungsweise, literarische o<strong>der</strong> physische Form <strong>der</strong><br />
dokumentarischen Bezugseinheit<br />
• nur zu berücksichtigen, wenn <strong>der</strong> Inhalt tangiert wird<br />
(ansonsten bei formalen Angaben unter Dokumenttyp)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 204
Schlagwortmethode<br />
RSWK / SWD. Ansetzung von Namen von<br />
Körperschaften<br />
• ortsgebundene Körperschaften (stets unter dem Ort<br />
anzusetzen)<br />
• Facette c<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 205
Schlagwortmethode<br />
RSWK / SWD. Ansetzung von Namen von<br />
Körperschaften<br />
• nicht ortsgebundene Körperschaften, darunter alle<br />
Wirtschaftsbetriebe (unter dem Körperschaftsnamen<br />
anzusetzen) – Facette k<br />
• bei Namenswechsel: chronologische Relation (CF – CS)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 206
Schlagwortmethode<br />
RSWK / SWD. Syntaktisches Indexieren durch<br />
Schlagwortketten<br />
• pro Kette ein Objekt<br />
• so viele Ketten wie unterschiedliche Objekte<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 207
Dokumentationssprachen III:<br />
Thesauri<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 208
Thesaurus<br />
Grundlegende Literatur<br />
Thesauri<br />
• Jean Aitchison, Alan Gilchrist, David Bowden: Thesaurus<br />
Construction and Use. - London: Fitzroy Dearborn, 4 2000<br />
• DIN 1463/1: Erstellung und Weiterentwicklung von Thesauri<br />
• DIN 1463/2: Multilinguale Thesauri<br />
• DIN 31623/1; DIN31623/2; DIN 31623/3: Indexierung zur<br />
inhaltlichen Erschließung von Dokumenten<br />
• Winfried Schmitz-Esser: EXPO-INFO 2000. - Berlin [u.a.]:<br />
Springer, 2000<br />
• Gernot Wersig: Thesaurus-Leitfaden. – München [u.a.]: Saur,<br />
2 1985<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 209
Thesauri<br />
Thesaurus<br />
Einsatzgebiete<br />
– in eng umgrenzten Fachgebieten<br />
• Terminologie eines Faches<br />
• Terminologie eines Unternehmens<br />
– in Gebieten, wo fachliches Wissen durch ein (von den<br />
betreffenden Fachleuten akzeptiertes) Begriffssystem<br />
repräsentiert werden kann<br />
– wenn ausschließlich mit Begriffen <strong>der</strong> natürlichen Sprache<br />
gearbeitet werden soll<br />
– wenn die Struktur des Gebietes über eine monohierarchische<br />
Ordnung hinausgeht<br />
– Anmerkung: Klassifikation und Thesaurus schließen sich<br />
nicht gegenseitig aus. Geschickt eingesetzt, ergänzen sie<br />
sich.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 210
Thesauri<br />
„Thesaurus“ nach DIN 1463/1<br />
„Ein Thesaurus im Bereich <strong>der</strong> Information und Dokumentation<br />
ist eine geordnete Zusammenstellung von Begriffen und ihren<br />
(vorwiegend natürlichsprachigen) Bezeichnungen, die in einem<br />
Dokumentationsgebiet zum Indexieren, Speichern und<br />
Wie<strong>der</strong>auffinden dient.“<br />
• Merkmale eines Thesaurus:<br />
• 1. Terminologische Kontrolle durch natürlichsprachige<br />
DESKRIPTOREN<br />
• 2. Beziehungen zwischen den Begriffen bzw. Bezeichnungen<br />
durch (zweistellige) RELATIONEN<br />
• Thesaurus-Software (Freeware, nicht optimal, aber zum Üben<br />
geeignet):<br />
• Thew33 von Tim Craven (Univ. of Western Ontario)<br />
• http://publish.uwo.ca/~craven/freeware.htm<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 211
Terminologische Kontrolle<br />
Thesauri<br />
– durch Deskriptoren (Vorzugsbenennungen)<br />
– durch Nicht-Deskriptoren (Verweise auf Deskriptoren)<br />
– <strong>der</strong> Deskriptor und die zugehörigen Nicht-Deskriptoren sind<br />
entwe<strong>der</strong> Synonyme (Bsp.: Heirat, Eheschließung) o<strong>der</strong><br />
Quasi-Synonyme, je nach Zweck des Thesaurus als synonym<br />
„erklärte“ Bezeichnungen (Bsp.: Retrieval, Recherche in<br />
einem Wirtschaftsthesaurus)<br />
– sowohl beim Indexieren als auch bei Recherchieren wird<br />
ausschließlich mit Deskriptoren gearbeitet werden<br />
– eine Recherche mit einem Nicht-Deskriptor im CT-Feld einer<br />
professionellen Datenbank führt stets zu null Treffern<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 212
Thesauri<br />
Deskriptoren<br />
– sollten in <strong>der</strong> Fachliteratur verwendete Terminologie<br />
wi<strong>der</strong>spiegeln<br />
– Einwort- wie Mehrwort-Deskriptoren sind möglich<br />
– Mehrwort-Deskriptoren in <strong>der</strong> natürlichen Wortfolge<br />
belassen<br />
– bei Mehrwortbegriffen, die in ihre Aspekte zerlegt<br />
werden sollen: Zerlegungskontrolle<br />
• morphologische Zerlegung (Bsp.: Blumengesteck �<br />
Blume, Gesteck; falsches Bsp.: Eisenbahn � Eisen, Bahn)<br />
• semantische Zerlegung (Bsp.: Eisenbahn: Schienenbahn,<br />
Überlandverkehr)<br />
– zerlegen? (Postkoordination)<br />
• nur dann, wenn die Kombination <strong>der</strong> Einzelbegriffe den<br />
korrekten Mehrwortbegriff ergibt<br />
• nicht, wenn eine hohe begriffliche Spezifizierung<br />
angestrebt wird<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 213
Thesauri<br />
Deskriptoren<br />
– nicht zerlegen? (Präkombination)<br />
• dann, wenn die Einzelbegriffe eine an<strong>der</strong>e Bedeutung als die<br />
Präkombination haben (Bsp.: Schlüsselbein,<br />
Öffentlichkeitsarbeit)<br />
• wenn ballastarme Suche ermöglicht werden soll<br />
• ggf. Einsatz eines Kombinationsverweises (Bsp.:<br />
Bibliotheksstatistik � benutze Kombination � Statistik,<br />
Bibliothek<br />
– Wortarten<br />
• vorzugsweise Substantive; Verben in substantivierter Form<br />
• Adjektive an Substantiv gebunden (Bsp.: Internationale<br />
Beziehungen)<br />
• Substantiv im Nominativ Singular; Ausnahmen bei nicht<br />
gebräuchlichen Singularformen (Bsp.: Eltern) o<strong>der</strong> bei<br />
Bedeutungsunterschied Singular – Plural (Bsp.: Kosten)<br />
• Abkürzungen bzw. Akronyme nur bei Bekanntheit (Bsp.: UKW)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 214
Deskriptoren<br />
– Homonyme / Polyseme:<br />
Thesauri<br />
• Unterscheidung durch Klammerzusatz als klärendes Element<br />
Bsp. Homonym: Kiefer [Knochen] – Kiefer [Nadelholz]<br />
Bsp. Polysem: Knie [Gelenk] – Knie [Werkstück]<br />
• Unterscheidung durch Verweise von homonymen Nicht-Deskriptoren<br />
auf eindeutige Deskriptoren<br />
Bsp.: Eiweiß � benutze Synonym � Eiklar � o<strong>der</strong> � Protein<br />
– Deskriptorsatz<br />
• Bezeichnung des Deskriptors<br />
• Auflistung aller Nicht-Deskriptoren<br />
• Auflistung aller Deskriptoren, mit denen <strong>der</strong> Deskriptor in direkter<br />
Beziehung steht<br />
• Erläuterung zum Gebrauch (nicht zwingend) – Abk.: H (Hinweis) o<strong>der</strong><br />
SN (Scope Note)<br />
• Definition (nicht zwingend)<br />
• Übersetzungen (nicht zwingend)<br />
• Konkordanzen zu an<strong>der</strong>en Erschließungssystemen (nicht zwingend)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 215
Nicht-Deskriptoren<br />
Thesauri<br />
– verweisen auf „ihren“ Deskriptor<br />
– alle Synonyme des Deskriptors auflisten<br />
– alle Quasi-Synonyme und weitere Bezeichnungen auflisten<br />
– Varianten:<br />
• Äquivalenz (Synonyme und Quasi-Synonyme)<br />
Bsp: Heirat � benutze Synonym (BS) � Eheschließung<br />
• Begriffskombination (Verweis von einem Mehrwort-Nicht-<br />
Deskriptor auf die einzelnen zerlegten Deskriptoren)<br />
Bsp.: Lehrerbildungsgesetz � benutze Kombination (BK) �<br />
Lehrer – Bildung – Gesetz<br />
• Bündelung (Verweis auf einen Oberbegriff)<br />
Bsp.: Zitrone � benutze Oberbegriff (BO) � Zitrusfrucht<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 216
Thesauri<br />
Deskriptorsatz / Beispiel: Standard-Thesaurus Wirtschaft<br />
Deskriptor<br />
Erläuterung<br />
Klasse<br />
NACE-<br />
Konkordanz<br />
Nicht-<br />
Deskriptoren<br />
HWWA<br />
Oberbegriffe<br />
Unterbegriffe<br />
verwandte<br />
Begriffe<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 217
Thesauri<br />
Relationen<br />
• Äquivalenzrelation<br />
– Synonyme<br />
– Quasi-Synonyme<br />
– abweichen<strong>der</strong> Sprachgebrauch (Bsp.:<br />
Massenkommunikationsmittel - Massenmedien)<br />
– Abkürzung (Bsp.: DNS – Desoxyribonucleinsäure)<br />
– gebräuchliche fremdsprachliche Bezeichnung (Bsp.:<br />
Computer – Rechenanlage)<br />
– Schreibweise (Bsp.: Fotografie, Photographie)<br />
– invertierte Form (Bsp.: verarbeitendes Gewerbe – Gewerbe,<br />
verarbeitendes)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 218
Relationen<br />
• Äquivalenzrelation<br />
Thesauri<br />
– Nichtdeskriptor – Deskriptor – Relation<br />
Abk.: BS (benutze Synonym) – BF (benutzt für)<br />
USE – UF (used for)<br />
Bsp.: Auto BF Personenkraftwagen<br />
Personenkraftwagen BS Auto<br />
– Nichtdeskriptor – Begriffskombination – Relation<br />
Abk.: BK (benutze Kombination) – KB (benutzt in Kombination)<br />
Bsp.: Binnenschifffahrt KB Binnenschifffahrtsstatistik<br />
Schifffahrtsstatistik KB Binnenschifffahrtsstatistik<br />
Binnenschifffahrtsstatistik BK Binnenschifffahrt -<br />
Schifffahrtsstatistik<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 219
Relationen<br />
Thesauri<br />
Hierarchierelation<br />
Abstraktionsrelation Bestandsrelation<br />
logische Sicht gegenständliche Sicht<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 220
Thesauri<br />
Relationen<br />
• Hierarchierelation (allgemein)<br />
– Nichtdeskriptor – Deskriptor – Hierarchierelation (Bündelung)<br />
Abk.: BO (benutze Oberbegriff) – FU (benutzt für Unterbegriff)<br />
Bsp.: Zitrusfrucht FU Zitrone<br />
Zitrone BO Zitrusfrucht<br />
– Deskriptor – Deskriptor – Relation (<strong>der</strong> Normalfall)<br />
Abk.: OB (Oberbegriff) – UB (Unterbegriff)<br />
BT (broa<strong>der</strong> term) – NT (narrower term)<br />
Bsp.: Universität OB Hochschule<br />
Hochschule UB Universität<br />
– Deskriptor – oberes Ende <strong>der</strong> Begriffsleiter<br />
Abk.: TT (Top Term)<br />
Bsp.: Universität TT Bildungseinrichtung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 221
Relationen<br />
Thesauri<br />
• Hierarchierelation. Version 1: Abstraktionsrelation<br />
• Der Begriffsinhalt des Unterbegriffs enthält mindestens ein<br />
Merkmal mehr als <strong>der</strong> Begriffsinhalt des Oberbegriffs.<br />
• Ober- und Unterbegriff gehören i.d.R. <strong>der</strong>selben Dimension an.<br />
Abk.: OA (Oberbegriff Abstraktionsrelation) – UA<br />
BTG (broa<strong>der</strong> term – generic) – NTG<br />
Bsp.: Meise OA Singvogel<br />
Singvogel UA Meise<br />
• Aus logischen Gründen kann es u.U. zwingend sein, Hierarchieebenen<br />
einzuführen, auch wenn es dazu keine Dokumente gibt<br />
(Stützdeskriptoren).<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 222
Thesauri<br />
• Hierarchierelation. Version 1: Abstraktionsrelation<br />
• Stützdeskriptor. Beispiel: Thesaurus Technik und Management<br />
Stützdeskriptoren<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 223
Thesauri<br />
• Hierarchierelation. Version 1: Abstraktionsrelation<br />
• Stützdeskriptor. Beispiel: Thesaurus Technik und Management<br />
Stützdeskriptor<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 224
Thesauri<br />
• Hierarchierelation. Version 1: Abstraktionsrelation<br />
• Beispiel einer Begriffsleiter als Baum<br />
Quelle: EMBASE<br />
bei Ovid<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 225
Relationen<br />
Thesauri<br />
• Hierarchierelation. Version 2: Bestandsrelation<br />
• Der übergeordnete Begriff (Holonym) entspricht einem Ganzen,<br />
<strong>der</strong> untergeordnete Begriff einem Bestandteil dieses Ganzen<br />
(Meronym).<br />
• alle Geographika sind Bestandsrelationen<br />
Abk.: SP (Verbandsbegriff) – TP (Teilbegriff)<br />
BTP (broa<strong>der</strong> term – partitive) – NTP<br />
Bsp.: Putenkeule SP Truthahn<br />
Truthahn TP Putenkeule<br />
Kerpen SP Erftkreis<br />
Erftkreis TP Kerpen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 226
Relationen<br />
• Hierarchierelation.<br />
Version 2:<br />
Bestandsrelation<br />
• Transitive<br />
Bestandsrelationen<br />
eignen sich gut für<br />
graphische<br />
Darstellungen<br />
• Beispiel:<br />
Hoppenstedt<br />
Firmendatenbank<br />
Thesauri<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 227
Thesauri<br />
Thesaurus als Recherchehilfsmittel bei <strong>der</strong><br />
hierarchischen Suche. Beispiel: STW bei GBI<br />
Suchargument:<br />
EU sowie alle Mitgliedslän<strong>der</strong><br />
Begriffe einsammeln:<br />
-Deskriptor<br />
-alle Unterbegriffe<br />
-alle Oberbegriffe<br />
-alle verwandten Begriffe<br />
-einzelne Begriffe<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 228
Thesauri<br />
Thesaurus als Recherchehilfsmittel bei <strong>der</strong><br />
hierarchischen Suche. Beispiel: STW bei GBI<br />
ausgewählte Begriffe<br />
„Begriffskorb“<br />
nächster Schritt:<br />
Auswahl <strong>der</strong> Datenbank<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 229
Thesauri<br />
Thesaurus als Recherchehilfsmittel bei <strong>der</strong><br />
hierarchischen Suche. Beispiel: STW bei GBI<br />
Die ausgewählten<br />
Begriffe werden<br />
in die Suchmaske<br />
übernommen und<br />
mit dem Booleschen<br />
ODER verbunden.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 230
Relationen<br />
• Assoziationsrelation<br />
Thesauri<br />
– nach DIN 1463 sehr allgemeine und unspezifische<br />
Relation<br />
– „verwandter“ Begriff<br />
– Begriffsbeziehung, die we<strong>der</strong> hierarchischer noch<br />
äquivalenter Art ist<br />
– im Sinne von „siehe auch“ o<strong>der</strong> „denke auch an“<br />
Abk.: VB (verwandter Begriff)<br />
RT (related term)<br />
Bsp.: Apfel VB Birne<br />
Birne VB Apfel<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 231
Thesauri<br />
Multilinguale Thesauri (nach DIN 1463/2)<br />
• Deskriptoren: müssen stets in allen Sprachen vorhanden<br />
sein<br />
• Nicht-Deskriptoren: es können zusätzlich zu übersetzten<br />
Nicht-Deskriptoren weitere Nicht-Deskriptoren für jede<br />
Sprache eingeführt werden<br />
• Hierarchierelation(en): es gibt nur genau EINE<br />
hierarchische Struktur<br />
– ggf. Stützdeskriptoren verwendet<br />
– ggf. neue Fremdworte in Sprache einführen<br />
• Assoziationsrelation: die Strukturen sollten multilingual<br />
übereinstimmen, es kann jedoch sprachabhängige<br />
Ausnahmen geben<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 232
Multilinguale Thesauri<br />
Thesauri<br />
• Fremdwort in einer Sprache (aufnehmen; ggf. Definition)<br />
Bsp.:<br />
deutsch: Teenager englisch: teenagers<br />
D: Person zwischen 13 und 19 Jahren<br />
• Wortprägung (wenn nicht als Fremdwort aufnehmbar, dann<br />
Übersetzung, ggf. mit Hinweis)<br />
Bsp.:<br />
französisch: enfant a cle deutsch: Schlüsselkind<br />
NE: equivalent du terme allemand<br />
„Schlüsselkind“<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 233
Thesauri<br />
Multilinguale Thesauri<br />
• Äquivalenz (problemlose Eins-zu-eins-Übersetzung)<br />
– sprachliche Verwandtschaft<br />
Bsp.: Physik (dt.) – physics (engl.) – physique (franz.)<br />
– sprachliche Unabhängigkeit; semantische Gleichheit<br />
Bsp.: Amsel (dt.) – blackbirds (engl.) – merle (franz.)<br />
– gleicher o<strong>der</strong> ähnlicher Begriffsumfang, an<strong>der</strong>er Begriffsinhalt<br />
Bsp.: alkoholfreies Getränk (dt.) – soft drinks (engl.) – boisson non<br />
alcoolisee (franz.)<br />
• Probleme mit <strong>der</strong> Äquivalenz<br />
– Teil-Äquivalenz (engerer o<strong>der</strong> weiterer Begriffsumfang)<br />
Bsp.: Wissenschaft – science<br />
Lösungsmöglichkeit: einen <strong>der</strong> Terme als Fremdwort einführen<br />
Deskriptorsatz englisch: Wissenschaft; SN: loan term adopted from<br />
German; NT science<br />
Deskriptorsatz deutsch: Wissenschaft; UB Naturwissenschaft<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 234
Thesauri<br />
Multilinguale Thesauri<br />
• Probleme mit <strong>der</strong> Äquivalenz<br />
– Begriffszerlegung bzw. –kombination<br />
Bsp.: skidding (engl.): rutschen und schleu<strong>der</strong>n<br />
Lösungsmöglichkeit: jeweils parallele Begriffe konstruieren<br />
Deskriptorsatz englisch: skidding; NT skidding (forwards), NT skidding<br />
(sideways)<br />
Deskriptorsatz deutsch: Rutschen/Schleu<strong>der</strong>n; UB Rutschen; UB<br />
Schleu<strong>der</strong>n<br />
• Homonym / Polysem sprachübergreifend<br />
– Lösung: Sprachkürzel als Homonymzusatz<br />
Bsp.: Gift (de) – poison; Geschenk – gift (en)<br />
• International gebräuchliche Abkürzungen<br />
– Lösung: internationale Variante verwenden; nationale Variante als<br />
Nicht-Deskriptor<br />
– nur nationale gebräuchliche Abkürzungen vermeiden<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 235
Thesauri<br />
Multilinguale Thesauri. Beispiel: Thesaurus Technik und Management<br />
Zielsprache deutsch<br />
Wörterbücher dt. – engl. und<br />
engl. - dt.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 236
Thesauri<br />
Multilinguale Thesauri. Beispiel: UNESCO Thesaurus<br />
Beispiel<br />
Zielsprache englisch<br />
Wörterbücher engl. – franz. –<br />
span.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 237
Thesauri<br />
Multilinguale Thesauri. Beispiel: UNESCO Thesaurus<br />
Deskriptorsatz<br />
Abk.: MT: Micro-Thesaurus<br />
FR: Deskriptor französisch<br />
SP: Deskriptor spanisch<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 238
Aspekte<br />
Thesauri<br />
• nähere Erläuterung eines Deskriptors mittels eines „Aspektes“<br />
• <strong>der</strong> Deskriptor bildet zusammen mit seinem Aspekt eine Einheit<br />
(keine UND-Verknüpfung)<br />
Quelle: EMBASE<br />
bei Ovid<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 239
Thesauri<br />
Relationen im Thesaurus, die über den DIN-Thesaurus<br />
hinausgehen<br />
• (Quasi-)Synonymie-Relation zwischen Deskriptoren<br />
– haben wir bereits bei <strong>der</strong> Schlagwortmethode kennengelernt<br />
– chronologische Relation (früher – später)<br />
Abk.: Deskriptor(en) des früheren Gegenstandes CS<br />
(chronologisch später) Deskriptor(en) des späteren<br />
Gegenstandes; umgekehrt: CF (chronologisch früher)<br />
– bei den Deskriptoren als Hinweis den Zeitraum angeben!<br />
Bsp.: Sindorf. H: eigenständige Gemeinde bis 31.12.1974<br />
Kerpen-Sindorf. H: Ortsteil von Kerpen ab 1.1.1975<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 240
• chronologische Relation<br />
Thesauri<br />
Bsp. (eineindeutige Relation):<br />
Sindorf CS Kerpen-Sindorf<br />
Kerpen-Sindorf CF Sindorf<br />
Bsp.: (einmehrdeutige Relation):<br />
Garmisch CS Garmisch-Partenkirchen<br />
Partenkirchen CS Garmisch-Partenkirchen<br />
Garmisch-Partenkirchen CF Garmisch<br />
CF Partenkirchen<br />
– Die chronologische Relation kann u.U. über mehrere Schritte<br />
laufen.<br />
Bsp.: Chemnitz CF Karl-Marx-Stadt<br />
Karl-Marx-Stadt CF Chemnitz [vor 1953]<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 241
Thesauri<br />
weitere Relationen (Vorschlag: Winfried Schmitz-Esser<br />
für die EXPO 2000)<br />
– Generik (analog zur Abstraktionsrelation des DIN-Thesaurus)<br />
Abk.: weiterer/engerer Begriff: WB – EB<br />
Bsp.: vegetal products EB coconuts<br />
coconuts WB vegetal products<br />
– Nützlichkeit<br />
Abk.: nützlich für (NF) – profitiert von (PV)<br />
Bsp.: tree planting NF water balance regulation<br />
water balance regulation PV tree planting<br />
– Schädlichkeit<br />
Abk.: schädlich für (SF) – wird beeinträchtigt von (WG)<br />
Bsp.: overfertilization SF biotopes<br />
biotopes WG overfertilization<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 242
Thesauri<br />
weitere Relationen (Vorschlag: Winfried Schmitz-<br />
Esser für die EXPO 2000)<br />
– Partition 1 (dinglich, gedanklich, ideell)<br />
Abk.: ist Bestandteil von (BV) – setzt sich zusammen<br />
aus (BA)<br />
Bsp.: booster BV missile<br />
missile BA booster<br />
– Partition 2 (geographisch, topographisch, administrativ)<br />
Abk.: ist Teil von (TV) – besteht aus den Teilen (BT)<br />
Bsp.: South America TV Latin America<br />
Latin American BT South America<br />
Winfried Schmitz-Esser: EXPO – INFO 2000. Visuelles Besucherinformationssystem für Weltausstellungen. –<br />
Berlin [u.a.]: Springer, 2000.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 243
Thesauri<br />
Allgemeine Thesaurusstruktur<br />
Deskriptor m in<br />
Sprache 1<br />
Rel 1<br />
Deskriptor m in<br />
Sprache i<br />
Deskriptor n in<br />
Sprache 1<br />
Deskriptor 1 in<br />
Sprache 1<br />
Rel 2<br />
Deskriptor n in<br />
Sprache i<br />
Rel 1 Rel 2<br />
Deskriptor 1 in<br />
Sprache i<br />
Nicht-Deskriptor<br />
Sprache i<br />
Nicht-Deskriptor<br />
Sprache i<br />
Nicht-Deskriptor<br />
Sprache i<br />
Nicht-Deskriptor<br />
Sprache i<br />
Deskriptor 1 in<br />
Sprache n<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 244
Thesauri<br />
Visualisierung eines Thesaurus für Laien<br />
Darstellung eines Deskriptors<br />
Deskriptor<br />
Definition / Hinweise:<br />
text text text text text text text<br />
text text text text text text text<br />
text text text text text text text<br />
text text text text text text text<br />
Graphik<br />
o<strong>der</strong><br />
Videosequenz<br />
Anzahl <strong>der</strong> Dokumente: [Zahl]<br />
Thema merken zurück zum Themenraum<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 245
Thesauri<br />
Visualisierung eines Thesaurus für Laien<br />
Darstellung eines Deskriptors. Beispiel<br />
Butter<br />
Definition:<br />
(grch. „bútyron“: Kuhquark)<br />
Speisefett, das aus Kuhmilch<br />
gewonnen wird. Beim Buttern in <strong>der</strong><br />
Molkerei wird <strong>der</strong> reife Milchrahm<br />
mechanisch bearbeitet, bis sich die<br />
Fettkügelchen absetzen.<br />
Graphik<br />
o<strong>der</strong><br />
Videosequenz<br />
Anzahl <strong>der</strong> Dokumente: 13<br />
Thema merken zurück zum Themenraum<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 246
Thesauri<br />
Visualisierung eines Thesaurus für Laien<br />
Darstellung <strong>der</strong> Relationen (Themenraum)<br />
Deskriptor<br />
Deskriptor<br />
Deskriptor<br />
Deskriptor<br />
Deskriptor<br />
Deskriptor<br />
ist nützlich für<br />
ist schädlich für<br />
Deskriptor<br />
Deskriptor<br />
Deskriptor<br />
ist Bestandteil von<br />
Deskriptor<br />
Deskriptor<br />
besteht aus den<br />
Teilen<br />
Deskriptor<br />
Deskriptor<br />
Deskriptor<br />
Deskriptor<br />
Deskriptor<br />
Deskriptor<br />
Deskriptor<br />
Deskriptor<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 247
Thesauri<br />
Visualisierung eines Thesaurus für Laien<br />
Darstellung <strong>der</strong> Relationen (Themenraum). Beispiel<br />
Braten<br />
Braten<br />
CholesterinCholesterinspiegelspiegel<br />
Brotbelag<br />
Brotbelag<br />
ist nützlich für<br />
ist schädlich für<br />
Herz<br />
Herz<br />
Butter<br />
ist Bestandteil von<br />
Magen<br />
Magen<br />
besteht aus den<br />
Teilen<br />
Milch<br />
Milch<br />
Butterfett<br />
Butterfett<br />
Molke<br />
Molke<br />
Salz<br />
Salz<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 248
Thesauri<br />
• Thesaurusauf- und –ausbau<br />
– Thesaurusaufbau<br />
• Sammlung <strong>der</strong> Fachbegriffe durch (sprach-)empirische<br />
Erhebungen; Quellen: Terminologie <strong>der</strong> Fachliteratur,<br />
Experten, potentielle Benutzer<br />
• Zusammenfassen (quasi-)synonymer Bezeichnungen;<br />
Auswahl <strong>der</strong> (vorläufigen) Vorzugsbenennungen<br />
• Überprüfung je<strong>der</strong> Vorzugsbenennung („Deskriptor-<br />
Kandidat“); Kriterien für Deskriptoren:<br />
– relative Häufigkeit in <strong>der</strong> Literatur<br />
– erwartetes Vorkommen bei Abfragen<br />
– Art <strong>der</strong> Relationen zu bereits akzeptierten Deskriptoren<br />
– Authentizität <strong>der</strong> Terminologie des Fachgebiets<br />
– Zweckmäßigkeit für die Erfassung von Inhalt und Umfang des<br />
Begriffs<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 249
Thesauri<br />
• Thesaurusauf- und –ausbau<br />
– Thesaurusausbau (Thesauruspflege)<br />
• Eliminierung von Deskriptoren (sofern diese beim<br />
Indexieren nicht o<strong>der</strong> kaum genutzt werden)<br />
– alle Relationen des Deskriptors werden mit gelöscht<br />
– beim Deskriptorsatz vermerken: verwendet bis ... [Datum]<br />
– o<strong>der</strong>: Dokumente neu indexieren<br />
• Differenzierung von Deskriptoren (sofern sehr viele<br />
Dokumente darunter fallen)<br />
– neue Deskriptoren als Unterbegriffe in den Thesaurus<br />
einführen<br />
– beim Deskriptorsatz vermerken: ohne Unterbegriffe<br />
verwendet bis ... [Datum]<br />
– o<strong>der</strong>: Dokumente neu indexieren<br />
• Aufnahme neuer Deskriptoren (beim Aufkommen neuer<br />
Terme im Fachgebiet)<br />
– neue Deskriptoren in die Relationen einhängen<br />
– beim Deskriptorsatz vermerken: verwendet ab ... [Datum]<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 250
Thesauri<br />
• Indexieren mittels eines Thesaurus<br />
– gleichordnendes Indexieren (nach DIN 31.623/2)<br />
Deskriptoren werden einem Dokument gleichrangig und<br />
unstrukturiert zugeordnet<br />
Beispiel: Ein Dokument behandle im ersten Teil den<br />
Export italienischer Weine nach Deutschland und im<br />
zweiten Teil den Import deutscher Autos nach Italien.<br />
Indexat:<br />
Export; Import; Italien; Deutschland; Wein; Auto<br />
Problem: führt u.U. zu Informationsballast (Bsp.: Suche<br />
nach dem Export deutscher Weine mit dem Argument<br />
„Wein AND Deutschland AND Export“ findet fälschlich<br />
unser Beispiel)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 251
Thesauri<br />
• Indexieren mittels eines Thesaurus<br />
– syntaktisches Indexieren (nach DIN 31.623/3)<br />
Deskriptoren werden einem Dokument unter Wahrung ihrer<br />
thematischen Zusammenhänge zugeordnet (Bildung von<br />
thematischen Teilmengen)<br />
Indexat:<br />
Wein – Export – Italien.<br />
Wein – Import – Deutschland.<br />
Auto – Export – Deutschland.<br />
Auto – Import – Italien.<br />
Italien – Deutschland – Außenhandel - Wein.<br />
Italien – Deutschland – Außenhandel - Auto.<br />
– Themenketten werden mit Abstandsoperator (etwa: SAME) und<br />
nicht mit dem Booleschen UND durchsucht<br />
– Probleme: wird ggf. von den Nutzern nicht verstanden; ist teuer<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 252
Thesauri<br />
Syntaktisches Indexieren Beispiel: HWWA<br />
Zwei Themenketten<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 253
• Gewichtetes Indexieren<br />
• Vorgehen<br />
Thesauri<br />
– Variante 1: intellektuelle Zuordnung von numerischen<br />
Werten zu den einzelnen Deskriptoren (wird <strong>der</strong>zeit nicht<br />
durchgeführt)<br />
– Variante 2: Zwei-Klassen-Verfahren:<br />
• Auszeichnung <strong>der</strong> zentralen Deskriptoren zu einem<br />
Dokument als „Fokus“ (beson<strong>der</strong>s wichtig in <strong>der</strong><br />
dokumentarischen Bezugseinheit abgehandelt)<br />
• Ziel: Ermöglichen des Suchens nach nur solchen<br />
Dokumenten, in denen das Thema zentral vorkommt<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 254
Thesauri<br />
Klasse 1 – Deskriptoren<br />
wichtig – Fokus<br />
(mit Sternchen *)<br />
Klasse 2 – Deskriptoren<br />
Quelle: EMBASE bei Ovid<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 255
Thesauri<br />
• Indexieren mittels eines Thesaurus. Vorgehen<br />
– dokumentarische Bezugseinheit (quer)lesen<br />
– Verstehen des Dokumenteninhalts<br />
– beson<strong>der</strong>e Konzentration auf Terme aus:<br />
• Titel<br />
• Einleitung<br />
• Zusammenfassung<br />
• Autorenabstract<br />
• Kapitelüberschriften<br />
• Bildtitel<br />
• hervorgehobene Textstellen<br />
• Sätze, die Schlussfolgerungen enthalten („Reizterme“:<br />
also, somit, ...)<br />
• häufig vorkommende Terme<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 256
• Indexieren<br />
– Ermittlung <strong>der</strong> Terme<br />
Thesauri<br />
• Extraktionsmethode:<br />
Entnahme von Termen, die im vorliegenden Text<br />
vorkommen (Minimierung <strong>der</strong> Gefahr von<br />
Missverständnissen)<br />
• Additionsmethode:<br />
Zuteilung von Termen, die im Text nicht enthalten<br />
sind (Achtung: Fehlinterpretationen sind möglich)<br />
einzig mögliche Methode bei nicht-textuellen Medien<br />
(Bil<strong>der</strong>n, Videosequenzen, ...)<br />
– alle ermittelten Terme notieren<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 257
Thesauri<br />
• Indexieren<br />
– Aufsuchen <strong>der</strong> ermittelten Terme im Thesaurus<br />
• ermittelter Term ist Deskriptor: Deskriptor übernehmen<br />
• ermittelter Term ist Nicht-Deskriptor: zugehörigen<br />
Deskriptor übernehmen<br />
• ermittelter Term ist we<strong>der</strong> Deskriptor noch Nicht-<br />
Deskriptor: Gibt es einen bestpassenden an<strong>der</strong>en<br />
Deskriptor? Wenn ja: diesen übernehmen<br />
• Wenn nein: 1) Term in Vorschlagsliste für die Modifikation<br />
des Thesaurus notieren; 2) ggf. Term als „freien Begriff“<br />
dem Dokument zuordnen<br />
• bei jedem Deskriptor den Relationen folgen: gibt es weitere<br />
passende Deskriptoren bei Oberbegriffen, Unterbegriffen,<br />
verwandten Begriffen usw.?<br />
• bei mehreren Kandidaten in <strong>der</strong> selben Begriffsleiter: ggf.<br />
nur den spezifischeren Deskriptor wählen (muss durch<br />
Regelwerk geklärt werden)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 258
Thesauri<br />
• Kriterien <strong>der</strong> Deskriptor-Auswahl: Indexierungstiefe<br />
• muss durch Regelwerk eindeutig vorgegeben sein (sonst<br />
würde die Datenbasis uneinheitlich indexiert)<br />
• Kriterium 1: Indexierungsbreite. Anzahl <strong>der</strong> zu vergebenden<br />
Deskriptoren (pro Dokument, pro Seite, pro Zeichen, ...)<br />
Bsp.: ifo Literaturdatenbank: ca. 0,5 bis 2 Deskriptoren pro<br />
Textseite<br />
Bsp.: Bibliodata: ca. 1 bis 2 Schlagworte pro Buch<br />
• Kriterium 2: Indexierungsspezifität. Trennschärfe <strong>der</strong><br />
Deskriptoren<br />
– bereits häufig vergebene Deskriptoren sind wenig selektiv<br />
– Deskriptoren, die hoch in einer Begriffsleiter stehen, sind u.U.<br />
wenig selektiv<br />
– deshalb: wenig spezifische Deskriptoren möglichst mit an<strong>der</strong>en,<br />
trennscharfen Deskriptoren kombinieren<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 259
Thesauri<br />
• Kriterien <strong>der</strong> Deskriptor-Auswahl:<br />
Dokumentationswürdigkeit von Deskriptoren<br />
– analog zur Dokumentationswürdigkeit von Dokumenten<br />
– (1) Relevanz im Dokument: Ist <strong>der</strong> Deskriptor im Rahmen<br />
des Dokumentes wichtig?<br />
– (2) Informationsbedarf <strong>der</strong> Nutzer: Braucht ein Nutzer das<br />
Dokument, <strong>der</strong> nach dem Deskriptor sucht? Sucht ein<br />
Nutzer überhaupt unter diesem Deskriptor nach dem<br />
Dokument?<br />
– (3) Bisheriger Stand <strong>der</strong> Datenbank: Gibt es „bessere“<br />
Dokumente zu dem Deskriptor? Sagt das Dokument zum<br />
Deskriptor etwas Neues aus?<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 260
Thesauri<br />
• Indexierungstiefe: Wie das Optimum finden?<br />
– zu wenige o<strong>der</strong> zu spezifische Deskriptoren: Informationsverlust<br />
– zu viele o<strong>der</strong> zu unspezifische Deskriptoren: Informationsballast<br />
– „gute“ Indexierung: Gratwan<strong>der</strong>ung zwischen Informationsverlust<br />
und Informationsballast<br />
• Indexierungstiefe und Nutzertyp (Laie vs. Experte)<br />
– Laie sucht Überblick UND Indexierungstiefe niedrig:<br />
Rechercheergebnis zufriedenstellend (+)<br />
– Laie sucht Überblick UND Indexierungstiefe hoch:<br />
Rechercheergebnis bringt zu viele Treffer (-)<br />
– Experte sucht Spezialwissen UND Indexierungstiefe niedrig:<br />
Rechercheergebnis bringt zu wenige genaue Treffer (-)<br />
– Experte sucht Spezialwissen UND Indexierungstiefe hoch:<br />
Rechercheergebnis zufriedenstellend (+)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 261
Thesauri<br />
• Sicherung gleichbleiben<strong>der</strong> Indexierungsqualität:<br />
Indexierungskonsistenz<br />
– Inter-Indexer-Konsistenz (Vergleich <strong>der</strong> Indexate zur<br />
selben DBE verschiedener Indexer)<br />
– Intra-Indexer-Konsistenz (Vergleich <strong>der</strong> Indexate des<br />
selben Indexers zur selben DBE zu unterschiedlichen<br />
Zeiten)<br />
– bei <strong>der</strong> Produktion <strong>der</strong> Datenbasis ist eine möglichst<br />
hohe Indexierungskonsistenz zu gewährleisten<br />
– Methode: in periodischen Abständen (etwa: monatlich)<br />
Tests durchführen; die Ergebnisse im Indexierer-Team<br />
besprechen; dabei:<br />
• Verbesserungen des Thesaurus (Thesauruspflege)<br />
• Verbesserungen des Indexierungshandbuchs<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 262
• Thesauri. Fazit<br />
Thesauri<br />
– In <strong>der</strong> kommerziellen Informationswirtschaft sind die<br />
Thesauri DIE Methode <strong>der</strong> <strong>Wissensrepräsentation</strong>.<br />
– Thesauri eignen sich auch für den Einsatz bei Intranets<br />
bzw. Enterprise Information Portals.<br />
– Es existieren weltweit weit über 1.000 Thesauri.<br />
– Der „Standard“: Der DIN-Thesaurus kennt Synonyme<br />
(Nicht-Deskriptor – Deskriptor-Relation), Hierarchierelationen<br />
(Abstraktions- und Bestandsrelation) sowie<br />
die Assoziationsrelation.<br />
– Weitere (2-stellige) Relationen sind problemlos<br />
hinzufügbar (etwa: Nützlichkeit – Schädlichkeit).<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 263
Thesauri<br />
• Thesauri. Fazit<br />
– Neben Profi-Oberflächen sollte man Thesaurus-<br />
Oberflächen für Laien herstellen, die diesen die<br />
Navigation erleichtern.<br />
– Thesauri werden ständig überarbeitet und dem Stand<br />
<strong>der</strong> Terminologie eines Faches angepasst (Thesauruspflege).<br />
– Indexierung geschieht entwe<strong>der</strong> gleichordnend (<strong>der</strong><br />
Standardfall) o<strong>der</strong> syntaktisch (durch Markierung <strong>der</strong><br />
Themenketten).<br />
– Die Qualität <strong>der</strong> Indexierung einer Datenbasis ist von <strong>der</strong><br />
Indexierungstiefe (Indexierungsbreite und –spezifität)<br />
und von <strong>der</strong> Indexierungskonsistenz abhängig.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 264
• Vorteile von Thesauri<br />
Thesauri<br />
– Navigation durch diverse Relationen möglich<br />
– Können die Strukturen eines Fachgebiets umfassend<br />
terminologisch abbilden<br />
– Arbeiten mit <strong>der</strong> natürlichen Sprache (ggf. Nachteil:<br />
Beschränkung auf eine Sprache; Ausgleich durch<br />
multilinguale Thesauri)<br />
– Sind (relativ) leicht modifizierbar (zumindest leichter als<br />
Klassifikationssysteme)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 265
• Nachteile von Thesauri<br />
Thesauri<br />
– Der Thesaurusaufbau und die Thesauruspflege ist<br />
aufwendig und damit (z.T.: sehr) teuer.<br />
– Laien kommen u.U. (insbeson<strong>der</strong>e, wenn keine eigenen<br />
Laien-Oberflächen geschaffen werden) mit Thesauri<br />
nicht zurecht.<br />
– Der Einsatz eines Thesaurus erfor<strong>der</strong>t zusätzlich den<br />
Einsatz spezifischer Software (etwa: Weiterleitung bei<br />
<strong>der</strong> Eingabe von Nicht-Deskriptoren, Einbeziehen von<br />
Deskriptoren aus Relationen in eine Suche)<br />
– Wie bei <strong>der</strong> Klassifikation bildet ein Thesaurus nur<br />
Begriffe und <strong>der</strong>en Relationen ab, aber nicht die<br />
Sachverhalte, die dazu ausgesagt werden (und die das<br />
Wissen des Fachbereichs repräsentieren)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 266
Textsprachliche Methoden<br />
Volltextspeicherung<br />
Titelindexierung<br />
Textwortmethode<br />
Zitationsindexierung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 267
• Volltextspeicherung<br />
Textsprachliche Methoden<br />
– Speicherung des Fließtextes im ASCII-Format (für die Suche)<br />
– Speicherung des Originallayouts im PDF-Format (für die<br />
Anzeige)<br />
– falls PDF nicht möglich: Fließtext (wenn möglich in Quasi-<br />
Faksimile) und Links zu Graphiken o<strong>der</strong> Abbildungen<br />
– Grundsatz: Volltexte nie „solo“ (ohne intellektuelle Inhaltserschließung<br />
o<strong>der</strong> ohne automatische Indexierung) ablegen<br />
• Suchfunktionalität bei Volltexten<br />
– einfache Boolesche Retrievalsysteme ungeeignet<br />
– Boolesche Systeme mit Abstandsoperatoren<br />
Mindestanfor<strong>der</strong>ung<br />
– Systeme mit automatischer Indexierung und mit Relevance<br />
Ranking erfor<strong>der</strong>lich<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 268
Textsprachliche Methoden<br />
• Volltextspeicherung: Warum nicht den Volltext<br />
ohne Inhaltserschließung?<br />
– Das Vorkommen eines Wortes bedeutet nicht, dass auch<br />
etwas darüber ausgesagt wird („Dieser Artikel sagt<br />
nichts über die Zustände in Ungarn aus“ als Treffer<br />
einer Suchfrage nach „Ungarn“).<br />
– keinerlei kontrolliertes Vokabular zur Suche vorhanden:<br />
• Probleme mit Synonymen und Homonymen<br />
• Probleme mit Fremdsprachen<br />
• elliptische Formulierungen o<strong>der</strong> Wortspiele<br />
– Der Volltext solo erfüllt nicht die Anfor<strong>der</strong>ung eines<br />
Informationsfilters.<br />
– Volltext (ASCII) ist nur zur ergänzenden Suche geeignet.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 269
• Volltextspeicherung<br />
Textsprachliche Methoden<br />
Zusammenspiel von:<br />
Metadaten,<br />
ASCII-Volltext,<br />
Faksimile (bei<br />
digitalen Dokumenten),<br />
Kopien-Service<br />
(bei nicht-digitalen<br />
Dokumenten)<br />
Beispiel:<br />
Konzeption <strong>der</strong> deutschen<br />
Virtuellen Fachbibliotheken<br />
( EconDoc; GetInfo;<br />
infoconnex; MedPilot)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 270
• Titelindexierung<br />
Textsprachliche Methoden<br />
– Übernahme von Stichworten aus den Sachtiteln von<br />
Büchern o<strong>der</strong> Artikeln<br />
– frühes Verfahren <strong>der</strong> <strong>Wissensrepräsentation</strong>; eingesetzt<br />
vor allem bei Registern<br />
– Methoden:<br />
• KWIC (Keyword in Context)<br />
• KWOC (Keyword out of Context)<br />
• KWAC (Keyword and Context)<br />
• Permutierte Stichworte<br />
• Stichworte in grammatischer Grundform<br />
• stets: Elimination von Stoppworten<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 271
• Titelindexierung<br />
KWIC<br />
Textsprachliche Methoden<br />
Beispiel: Titel: Mehrwerte von Information – Professionalisierung<br />
<strong>der</strong> Informationsarbeit (lfd.Nr.: 5)<br />
Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />
Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />
Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />
Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />
KWOC<br />
Information Mehrwerte von ... – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />
Informationsarbeit Mehrwerte von Information – Professionalisierung <strong>der</strong> ... 5<br />
Mehrwerte ... von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />
Professionalisierung Mehrwerte von Information – ... <strong>der</strong> Informationsarbeit 5<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 272
• Titelindexierung<br />
KWAC<br />
Textsprachliche Methoden<br />
Beispiel: Titel: Mehrwerte von Information – Professionalisierung<br />
<strong>der</strong> Informationsarbeit (lfd.Nr.: 5)<br />
Information Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />
Informationsarbeit Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />
Mehrwerte Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />
Professionalisierung Mehrwerte von Information – Professionalisierung <strong>der</strong> Informationsarbeit 5<br />
Permutierte Stichworte (mit grammatischer Grundform)<br />
Information – Informationsarbeit 5<br />
Information – Mehrwert(e) 5<br />
Information – Professionalisierung 5<br />
Informationsarbeit – Information 5<br />
...<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 273
Textsprachliche Methoden<br />
• Titelindexierung<br />
– Vorteile<br />
• schnell zu erstellen<br />
• kostengünstig<br />
• bei gewissen bibliothekarischen Projekten (etwa<br />
Retrokatalogisierung): einzig praktikable Methode<br />
– Nachteile:<br />
• kein kontrolliertes Vokabular (analog zu den Problemen<br />
<strong>der</strong> Volltextspeicherung)<br />
• Informationsverlust<br />
– je nach Dokumenttyp (sehr hoch bei Zeitungsartikeln, bei<br />
Patenten und bei Büchern, weniger hoch bei wissenschaftlichen<br />
Artikeln)<br />
– je nach Fach (hoch bei Geisteswissenschaften, weniger hoch<br />
bei Naturwissenschaften und Medizin)<br />
– Beispiel: Philosophie / Artikel: Verlust von über 80% im<br />
Vergleich zur Textwortmethode<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 274
• Titelindexierung<br />
Textsprachliche Methoden<br />
– die Nachteile überwiegen<br />
– als einzige Methode <strong>der</strong> <strong>Wissensrepräsentation</strong> nicht<br />
geeignet<br />
– trotzdem: in Datenbanken spezielles Feld (bzw.<br />
speziellen Tag bei HTML- bzw. XML-Dokumenten) für die<br />
Aufnahme <strong>der</strong> Titel definieren, das u.U. im Retrieval<br />
genutzt werden kann<br />
– KWIC im Volltext bei <strong>der</strong> Ausgabe nutzen: die<br />
Suchargumente im Kontext (hervorgehoben) anzeigen<br />
KWIC bei <strong>der</strong><br />
Trefferliste von Google<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 275
Textwortmethode<br />
entwickelt von:<br />
Norbert Henrichs<br />
an <strong>der</strong><br />
Forschungsabt. für<br />
philosophische Information<br />
und Dokumentation <strong>der</strong><br />
Universität Düsseldorf<br />
(Ende <strong>der</strong> 60er Jahre des 20.<br />
Jahrhun<strong>der</strong>ts)<br />
Textsprachliche Methoden<br />
Ziel:<br />
Entwicklung einer<br />
wörterbuchunabhängigen<br />
Dokumentationsmethode.<br />
ursprünglicher Einsatzbereich:<br />
Philosophie<br />
Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969),<br />
122-131.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 276
• Textwortmethode<br />
– Einsatzgebiet<br />
Textsprachliche Methoden<br />
• außerhalb fester Terminologien<br />
– als einzige Methode (in Disziplinen mit prinzipiell nicht-fester<br />
Terminologie; etwa: Philosophie)<br />
– o<strong>der</strong> ergänzende Methode (zur Aufnahme von Begriffen, die<br />
ein aktuelle eingesetztes Klassifikationssystem o<strong>der</strong> ein<br />
Thesaurus nicht enthalten)<br />
• wenn noch keine Terminologie vorhanden ist<br />
(Textwortmethode bringt empirisches Termmaterial für den<br />
Aufbau von Dokumentationssprachen)<br />
– Basis <strong>der</strong> Wissensabbildung<br />
• ausschließlich <strong>der</strong> konkret vorliegende Text<br />
• KEIN vorgegebenes Begriffssystem<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 277
Textsprachliche Methoden<br />
• Textwortmethode<br />
– Methode<br />
• Auswahlverfahren zur Markierung von „Sucheinstiegen“ in<br />
Texte (N.B.: „Die Sprache ist das HAUS des Seins“,<br />
Heidegger. Texte werden als Häuser verstanden, die durch<br />
unterschiedliche Einstiege betreten werden.)<br />
• syntaktisches Indexieren: keine Einzelthemen, son<strong>der</strong>n<br />
thematische Ketten<br />
– Auswahlregeln<br />
• Textwörter aus Titeln und Zwischentiteln<br />
• häufig vorkommende Textwörter<br />
• Textwörter aus textlichen Schlüsselstellen<br />
• Bevorzugung von Neologismen<br />
• Bevorzugung von informationsreichen (Mehrwort-)<br />
Ausdrücken<br />
• je nach Textdichte ca. 0,5 bis 2 Textwörter pro Textseite im<br />
Durchschnitt<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 278
• Textwortmethode<br />
– Varianten<br />
Textsprachliche Methoden<br />
• nur originalsprachig (Henrichs‘ Methode). Problem: Nutzer<br />
muss alle einschlägigen Textwörter in allen Textsprachen<br />
<strong>der</strong> Datenbank kennen<br />
• originalsprachig mit zusätzlicher Übersetzung in eine<br />
Zielsprache (Methode <strong>der</strong> Datenbank „Grazer Schule“)<br />
– Indexierung<br />
• intellektuell (sehr aufwendig, daher sehr teuer)<br />
• Variante eines automatischen Indexierens (bislang noch<br />
nicht erprobt)<br />
• ermöglicht stets gewichtetes Retrieval<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 279
• Textwortmethode<br />
Textsprachliche Methoden<br />
– informetrische Verdichtungsmethoden<br />
• innerhalb genau einer Dokumentationseinheit<br />
– Gewichtungswert <strong>der</strong> Terme<br />
• gesamte Datenbasis o<strong>der</strong> Teilmenge davon<br />
– Wortfel<strong>der</strong><br />
– Häufigkeit und Wichtigkeit von Termen<br />
– semantische Netze von Termen (Themennetze)<br />
Wolfgang G. Stock: Textwortmethode [Norbert Henrichs zum 65.]. – In: Password Nr 7+8 (2000), S. 26-35.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 280
Textsprachliche Methoden<br />
• Textwortmethode. Beispiel eines Indexats<br />
Meinong, Alexius: Über Gegenstandstheorie, in: Untersuchungen<br />
zur Gegenstandstheorie und Psychologie, hg. v. Alexius Meinong.<br />
Leipzig: Johann Ambrosius Barth, 1904, 1-50.<br />
Thematischer Rahmen:<br />
Sachthemen: Gegenstandstheorie (1-18); Etwas (1); Gegenstand<br />
(1-15); Wirkliche, das (2-3); Erkenntnis (2,10); Objektiv (3,10); Sein<br />
(4,6-8); Existenz (4-5); Bestand (4); Sosein (5-6); Nichtsein (5);<br />
Unabhängigkeit (6); Gegenstand, reiner (7-8); Außersein (7-8);<br />
Quasisein (7); Psychologie (9); Erkenntnisgegenstand (10); Objekt<br />
(10); Logik, reine (11); Psychologismus (11-12); Erkenntnistheorie<br />
(12); Mathematik (13,18); Wissenschaft (14,18);<br />
Gegenstandstheorie, allgemeine (15); Gegenstandstheorie,<br />
spezielle (15,18); Philosophie (17); Metaphysik (17); Gegebene, das<br />
(17); Empirie (17); Apriorische, das (17); Gesamtheit-<strong>der</strong>-<br />
Wissenschaften (18)<br />
Namen: Mally, Ernst (6); Husserl, Edmund (11); Höfler, Alois (16)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 281
Textsprachliche Methoden<br />
• Textwortmethode mit Übersetzungsrelation. Beispiel eines<br />
Indexats<br />
Veber, France: 07. O samoopazovanju kot posebni metodi<br />
znanstvenega raziskovanja, in: France Veber: Analiticna<br />
Psihologija. - Ljubljana: Kleinmayr & Bamberg, 1924, 39-50.<br />
Thematischer Rahmen:<br />
Sachthemen in Originalsprache: Sachthemen in Einheitssprache:<br />
samoopazovanje (1-6) Selbstbeobachtung (1-6)<br />
metoda (1) Methode (1)<br />
dozivljaj (2,5) Erlebnis (2,5)<br />
psihologija (3) Psychologie (3)<br />
opazovanje (4) Beobachtung (4)<br />
pristnost (5) Echtheit (5)<br />
dozivljanje (5) Erleben (5)<br />
spoznanje (6) Erkenntnis (6)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 282
Textsprachliche Methoden<br />
Syntagmatische Relationen zwischen den Begriffen<br />
Basis für<br />
– Thesaurusaufbau<br />
– Wissenschaftsgeschichte<br />
– Nutzung als<br />
„einstellbarer“<br />
Thesaurus<br />
– Syntagma als<br />
Basis für<br />
Paradigma<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 283
Textsprachliche Methoden<br />
• Textwortmethode<br />
– Vorteile<br />
• nimmt die Sprache <strong>der</strong> Autoren ernst<br />
• keinerlei paradigmatische Relationen, kein kontrolliertes<br />
Vokabular<br />
• einsetzbar in Gebieten, in denen Dokumentationssprachen nicht<br />
anwendbar sind<br />
• objektive Basis (im Gegensatz zu Dokumentationssprachen, die<br />
die Texte stets durch die Brille ihres Systems sehen); damit<br />
relativ interpretationsarm<br />
• Basis für diverse Weiterverarbeitungen (Thesaurusaufbau,<br />
Wissenschaftsgeschichte usw.)<br />
– Nachteile<br />
• aufwendig und teuer<br />
• u.U. mangelhafte Indexierungskonsistenz<br />
• Retrieval schwierig (kann jedoch durch Übersetzungen und<br />
durch informetrische Funktionen gemil<strong>der</strong>t werden)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 284
Zitationsindexierung<br />
(Citation Indexing)<br />
entwickelt von:<br />
Eugene Garfield<br />
am<br />
Institute for Scientific<br />
Information (Philadelphia;<br />
europäische Zentrale: London)<br />
(Mitte/Ende <strong>der</strong> 50er Jahre des<br />
20. Jahrhun<strong>der</strong>ts)<br />
Textsprachliche Methoden<br />
Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 285
Textsprachliche Methoden<br />
• Einsatzgebiete: überall, wo zitiert wird<br />
– Recht: Urteile<br />
– Patente<br />
– wissenschaftliche Literatur<br />
• Grundidee: Das Notieren von Fußnoten (o<strong>der</strong> an<strong>der</strong>en<br />
bibliographischen Angaben) gibt über den Inhalt eines<br />
wissenschaftlichen Artikels Auskunft<br />
• das Verfahren erfor<strong>der</strong>t nur minimalen intellektuellen<br />
Aufwand und ist daher - als Methode <strong>der</strong><br />
Inhaltserschließung - relativ kostengünstig herzustellen<br />
• das Institute for Scientific Information (ISI) verfügt nahezu<br />
über eine Monopolstellung bei <strong>der</strong> zitatenanalytischen<br />
Auswertung wissenschaftlicher Literatur (Ausnahme:<br />
CiteSeer)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 286
Zitat 1<br />
Zitat 2<br />
Textsprachliche Methoden<br />
1 Stegmüller, Wolfgang: Probleme und Resultate <strong>der</strong><br />
Wissenschaftstheorie und Analytischen Philosophie. -<br />
Band 4: Personelle und Statistische Wahrscheinlichkeit.<br />
Studienausgabe Teil A. - Berlin; Heidelberg; New York:<br />
Springer, 1973, S. 5.<br />
2 ebd., S. 5.<br />
3 ebd., S. 5.<br />
4 ebd., S. 6.<br />
5 ebd., S. 6.<br />
Mehrfachnennungen werden übergangen<br />
6 Haller, Rudolf: Wandlungen <strong>der</strong> Wissenschaftsauffassung. -<br />
In: Erhard Busek; Wolfgang Mantl; Meinrad Peterlik (Hrsg.):<br />
Wissenschaft und Freiheit. - Wien: Verlag für <strong>Geschichte</strong><br />
und Politik; München: Oldenbourg, 1989, S. 46-58, hier: S.<br />
57.<br />
7 vgl. ebd., S. 55.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 287
Textsprachliche Methoden<br />
Zitieren<strong>der</strong> Artikel<br />
„Zitation“<br />
Informationsübermittlung<br />
Zitierter Artikel<br />
„Referenz“<br />
Reputation<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 288<br />
Zeit
Textsprachliche Methoden<br />
• Zitationsindexierung beim ISI. <strong>Geschichte</strong><br />
• Vorgeschichte: Sheppard‘s Citations, Zitationsindex für<br />
Gerichtsurteile (das Vorbild)<br />
• 1955: Garfield entwickelt die Idee wissenschaftlicher<br />
Zitationsindices<br />
• 1958: Gründung des Institute for Scientific Information (ISI)<br />
in Philadelphia, MA<br />
• erstes Produkt des ISI: Current Contents (CC)<br />
• 1961: Science Citation Index (SCI)<br />
• 1973: Social Sciences Citation Index (SSCI)<br />
• 1976: Journal Citation Reports (JCR)<br />
• 1978: Arts & Humanities Citation Index (A&HCI)<br />
• 1997: Web of Science (WoS)<br />
• 2001: Essential Science Indicators (ESI); Web of Knowledge<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 289
Textsprachliche Methoden<br />
• Zitatenindexierung wissenschaftlicher<br />
Zeitschriftenliteratur beim Web of Science:<br />
– SCI. Zuwachs: 17.000 Quellenartikel mit 300.000<br />
Zitationen pro Update (d.h. pro Woche); ab 1945<br />
– SSCI. Zuwachs: 2.800 Quellenartikel mit 50.000<br />
Zitationen pro Woche; ab 1956<br />
– A&HCI. Zuwachs: 2.200 Quellenartikel mit 15.000<br />
Zitationen; ab 1975<br />
• zusätzlich via Online-Archive (z.B. DIALOG)<br />
recherchierbar sowie (als Auftragsforschung)<br />
beim ISI (Research Services Group)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 290
Textsprachliche Methoden<br />
• Kriterien <strong>der</strong> Zeitschriftenauswahl (<strong>der</strong>zeit: rund 8.000 ausgewertet)<br />
• Kernzeitschriften pro Disziplin (Ausnutzung des Garfieldschen Gesetzes) -<br />
Problem: Gesetz sagt etwas über eine Anzahl von Zeitschriften im Kern aus,<br />
welche Titel jeweils darin sind, än<strong>der</strong>t sich andauernd<br />
• deshalb: intellektuelle Durchsicht neuer (o<strong>der</strong> neu angebotener) Zeitschriften<br />
(ca. 2000 Zeitschriften jährlich, Auswahl von rund 10-12%)<br />
• Auswahlkriterien nach „Basic Standards“<br />
– regelmäßige und termingerechte Erscheinungsweise<br />
– aussagekräftiger Zeitschriftentitel<br />
– aussagekräftige Artikeltitel<br />
– vollständige bibliographische Angaben bei Fuß- und Endnoten<br />
– englische Artikeltitel (bei nicht-englischer Literatur: Übersetzungen)<br />
– englische Abstracts, englische Keywords<br />
– Peer Review<br />
– internationale Ausrichtung (ggf. auch wichtige regionale Ausrichtung)<br />
– Neuigkeit des Inhalts (liegen schon ähnliche Zeitschriften beim ISI vor?)<br />
• Expertenurteile<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 291
Textsprachliche Methoden<br />
• Retrievalfunktionen bei Zitationsdatenbanken<br />
– Rekonstruktion <strong>der</strong><br />
Informationsübermittlungen nach „hinten“,<br />
d.h. zur zitierten Literatur (via Referenzen)<br />
– Rekonstruktion <strong>der</strong><br />
Informationsübermittlungen nach „vorne“, d.h.<br />
zur zitierenden Literatur (via Zitationen)<br />
– assoziatives Retrieval nach „verwandter“<br />
Literatur (über gemeinsame Referenzen)<br />
– (Zugang zu den Volltexten)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 292
Textsprachliche Methoden<br />
Web of Science<br />
Trefferanzeige<br />
Referenzen<br />
Zitationen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 293
Textsprachliche Methoden<br />
Web of Science<br />
Anzeige <strong>der</strong> Zitationen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 294
Textsprachliche Methoden<br />
• Zitationsindexierung. Probleme<br />
– Autoren zitieren nicht alle einschlägigen Quellen (u.a.<br />
„Super-Klassiker“)<br />
– Autoren zitieren Quellen, die nicht einschlägig sind (u.a.,<br />
weil sie die eigene Meinung stützen)<br />
– Autoren haben unterschiedliche Zitationsstile<br />
– Selbstzitationen („Inzest“)<br />
– Zitationskartell (Selbstzitation einer Gruppe)<br />
– Zitationsebenen (nach Blaise Cronin)<br />
• V. Lebenswerk (im Text, zitatenanalytisch nicht erfasst)<br />
• IV. Motiv (im Text, zitatenanalytisch nicht erfasst)<br />
• III. Werk: Buch, Artikel (zitatenanalytisch sauber fassbar)<br />
• II. Kapitel, Abschnitt (wird Ebene III zugeschrieben)<br />
• I. Detail (wird Ebene III zugeschrieben)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 295
Textsprachliche Methoden<br />
• Zitationsindexierung beim ISI. Probleme<br />
– Repräsentativität <strong>der</strong> selektierten Zeitschriften von<br />
Disziplin zu Disziplin (und von Land zu Land)<br />
unterschiedlich<br />
– Titel <strong>der</strong> Quellenartikel nur in englisch<br />
– Zitationen werden (mehr o<strong>der</strong> min<strong>der</strong>) einheitlich<br />
abgekürzt; für Laien: „Verstümmelung von Fußnoten“<br />
– versteckte Literaturangaben im Text werden nicht immer<br />
(bei SCI und SSCI: gar nicht) berücksichtigt<br />
– Publikations- und Zitationsraten des ISI haben große<br />
Bedeutung in <strong>der</strong> Wissenschaftsforschung und<br />
Wissenschaftsevaluation (auch z.B. bei<br />
Lehrstuhlbesetzungen); deshalb sehr wichtig: Kenntnis<br />
<strong>der</strong> methodischen Probleme bei <strong>der</strong><br />
Zitationsindexierung)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 296
• Navigation auf den<br />
Zitationen bei<br />
CrossRef<br />
– CrossRef:<br />
Zusammenschluss<br />
wichtiger<br />
Wissenschaftsverlage<br />
mit<br />
digitalen Volltexten<br />
– Die Artikel sind –<br />
über die<br />
Referenzen –<br />
miteinan<strong>der</strong> verlinkt<br />
– Technik: DOI<br />
(digital object<br />
identifyer)<br />
Textsprachliche Methoden<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 297
• Zitatenindexierung<br />
– Vorteile:<br />
Textsprachliche Methoden<br />
• ergänzt durch die beson<strong>der</strong>e Form <strong>der</strong> Wissensabbildung<br />
jede an<strong>der</strong>e Erschließungsmethode<br />
• ermöglicht Navigation über die Referenzen (CrossRef, ISI)<br />
und Zitationen (ISI, CiteSeer)<br />
• ermöglicht assoziatives Retrieval über die Menge gemeinsamer<br />
Referenzen bei unterschiedlichen Artikeln<br />
– Nachteile:<br />
• nur Artikel in Zeitschriften, Proceedings und<br />
Sammelbänden (keine Monographien) als Quellen<br />
• bei Referenzen wird u.U. „geschummelt“<br />
• praktische Probleme beim ISI: u.a. Auswahl <strong>der</strong><br />
Quellenwerke<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 298
Nicht-thematische Informationsfilter<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 299
Nicht-thematische Informationsfilter<br />
Nicht-thematischer Informationsfilter (1):<br />
Zielgruppe<br />
• je<strong>der</strong> dokumentarischen Bezugseinheit die spezifische(n)<br />
Zielgruppe(n) zuordnen<br />
• Grund: nicht jedes Dokument ist für jeden Nutzertyp<br />
interessant<br />
• Bsp.: bei fachlicher Literaturdatenbank:<br />
– interessierter Laie<br />
– Schüler (Oberstufe – Leistungskursniveau)<br />
– Student (B.A.-Niveau)<br />
– Student (M.A.-Niveau)<br />
– Forscher (mit allgemeinem Fachwissen)<br />
– Forscher (mit speziellem Fachwissen)<br />
• im Bsp.: Abfrage im Feld „Zielgruppe“ frei selektierbar;<br />
keine Zugangsbeschränkung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 300
Nicht-thematische Informationsfilter<br />
Nicht-thematischer Informationsfilter (1):<br />
Zielgruppe<br />
• Bsp.: bei unternehmensspezifischer Datenbank (im Intranet<br />
und Extranet):<br />
– (registrierter) Zulieferer<br />
– (an<strong>der</strong>er) Zulieferer<br />
– (registrierter) Kunde<br />
– (an<strong>der</strong>er) Kunde<br />
– Unternehmensmitarbeiter<br />
– Management<br />
– Forscher / Entwickler<br />
– Marketing<br />
– Betriebsrat<br />
• im Bsp.: Zugang zu bestimmten Dokumentationseinheiten<br />
nur mit geson<strong>der</strong>tem Passwort<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 301
Nicht-thematische Informationsfilter<br />
Nicht-thematischer Informationsfilter (1):<br />
Zielgruppe<br />
• Bsp.: bei Datenbank über Kunstwerke:<br />
– interessierter Laie<br />
– Kaufinteressent<br />
– Künstler<br />
– Kunsthistoriker<br />
– Politiker<br />
– Journalist<br />
• für jede Datenbank sind die Zielgruppen zu bestimmen<br />
(Segmentierung über empirische Erhebung o<strong>der</strong> –<br />
einfacher, aber unzuverlässiger – über „intuitive“<br />
Definition)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 302
Nicht-thematische Informationsfilter<br />
Nicht-thematischer Informationsfilter (2):<br />
Art <strong>der</strong> Themenbehandlung<br />
• Niveau <strong>der</strong> dokumentarischen Bezugseinheit hinsichtlich<br />
<strong>der</strong> Darstellung<br />
• nicht zu verwechseln mit dem Dokumenttyp (wie Zeitschriftenartikel,<br />
Artikel in Proceedings, Buch, Rezension)<br />
• Bsp.: bei fachlicher Literaturdatenbank<br />
– Überblicksartikel<br />
– empirische Studie<br />
– theoretische Abhandlung<br />
– methodologische Studie<br />
• Die Bezeichnungen für das Dokumentniveau sind als<br />
kontrolliertes Vokabular abzulegen.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 303
Nicht-thematische Informationsfilter<br />
Nicht-thematischer Informationsfilter (2):<br />
Art <strong>der</strong> Themenbehandlung<br />
Variante 1: Art <strong>der</strong> Themenbehandlung als Deskriptor<br />
Nachteil: „versteckt“ bei den thematischen Deskriptoren<br />
Quelle: EMBASE<br />
bei Ovid<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 304
Nicht-thematische Informationsfilter<br />
Nicht-thematischer Informationsfilter (2):<br />
Art <strong>der</strong> Themenbehandlung<br />
Variante 2: Art <strong>der</strong> Themenbehandlung als separates Feld<br />
Quelle: TEMA bei<br />
FIZ Technik<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 305
Nicht-thematische Informationsfilter<br />
Nicht-thematischer Informationsfilter (3):<br />
Verfallsdatum<br />
• nur bei zeitkritischen Dokumenten<br />
• Angabe eines Datums, nach dem die Dokumentationseinheit<br />
aus dem aktiven Informationssystem entfernt wird<br />
• entwe<strong>der</strong>: löschen<br />
• o<strong>der</strong>: im Archiv weiterhin bereithalten<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 306
Automatische Indexierung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 307
Automatische Indexierung<br />
• Automatische Indexierung unter Nutzung von Informationsfiltern<br />
• Hinweis: ohne definierte Informationsfilter: Textstatistik /<br />
Linktopologie (Vorl. „Einführung in die Informationswissenschaft“)<br />
• Voraussetzung: Einsatz informationslinguistischer Verfahren<br />
• Varianten:<br />
• (1) ohne Dokumentationswerkzeug: Klassifikation von<br />
Dokumenten nach Ähnlichkeit<br />
– a) permanent: Klassifikation über die gesamte Datenbasis<br />
– b) temporär: für jede Suchanfrage<br />
• (2) mit Dokumentationswerkzeug (Schlagwortliste,<br />
Klassifikationssystem, Thesaurus): Dokumentanalyse –<br />
Zuordnung von Notationen, Schlagworten bzw. Deskriptoren<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 308
Automatische Indexierung<br />
• Klassifikation von Dokumenten nach Ähnlichkeit<br />
• Ziel: Zusammenfassen ähnlicher Dokumente unter eine Klasse<br />
(möglichst große Ähnlichkeit innerhalb <strong>der</strong> Klasse, möglichst<br />
große Unähnlichkeit zu an<strong>der</strong>en Dokumenten bzw. Klassen)<br />
• Basis: Worte und (erkannte) Phrasen von jeweils zwei<br />
Dokumenten in Grundform o<strong>der</strong> Wortstamm<br />
• Anzahl <strong>der</strong> Worte/Phrasen in Dokument A: a<br />
• Anzahl <strong>der</strong> Worte/Phrasen in Dokument B: b<br />
• Anzahl <strong>der</strong> in A und B gemeinsam vorkommenden<br />
Worte/Phrasen: g<br />
• ggf. zusätzlich: jeweils Gewichtungswert (IDF, WDF, Position)<br />
jedes Wortes bzw. je<strong>der</strong> Phrase (i)<br />
Edie Rasmussen: Clustering Algorithms. – In: William B. Frakes; Ricardo Baezo-Yates (Hrsg.): Information<br />
Retrieval. Data Structures & Algorithms. – Upper Saddle River, NJ: Prentice Hall PTR, 1992, 419-442.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 309
Automatische Indexierung<br />
• Klassifikation von Dokumenten nach Ähnlichkeit<br />
• Ähnlichkeitsmaße<br />
• Koeffizient nach DICE<br />
• Ähnlichkeit (A,B) = 2g / (a + b)<br />
2 * Σ (Gewicht (i,A) * Gewicht (i,B))<br />
• gewichtete Ähnlichkeit (A,B) = ------------------------------------------------<br />
Σ (Gewicht (i,A)) 2 + Σ (Gewicht (i,B)) 2<br />
wobei i : Wort/Phrase in A und B<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 310
Automatische Indexierung<br />
• Klassifikation von Dokumenten nach Ähnlichkeit<br />
• Ähnlichkeitsmaße<br />
• Koeffizient nach JACCARD<br />
• Ähnlichkeit (A,B) = g / (a + b - g)<br />
Σ (Gewicht (i,A) * Gewicht (i,B) )<br />
• Ä (A,B) = --------------------------------------------------------------------------------------------<br />
Σ (Gewicht (i,A) ) 2 + Σ (Gewicht (i,B) ) 2 – Σ (Gewicht (i,A) * Gewicht (i,B) )<br />
wobei i : Wort/Phrase in A und B<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 311
Automatische Indexierung<br />
• Klassifikation von Dokumenten nach Ähnlichkeit<br />
• Ähnlichkeitsmaße<br />
• Cosinus-Koeffizient<br />
• Ähnlichkeit (A,B) = g / (a * b) 1/2<br />
Σ (Gewicht (i,A) * Gewicht (i,B))<br />
• Gew. Ähnlichkeit (A,B) = ------------------------------------------------------------<br />
( Σ (Gewicht (i,A)) 2 * Σ (Gewicht (i,B)) 2 ) 1/2<br />
wobei i : Wort/Phrase in A und B<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 312
Automatische Indexierung<br />
• Klassifikation von Dokumenten nach Ähnlichkeit<br />
• Ähnlichkeitsmaße<br />
• Beispiel: Dokument A: 100 Worte (a=100); Dokument B= 200 Worte<br />
(b=200); gemeinsame Worte in A und B: 15 (g=15)<br />
• Ähnlichkeit (A,B) nach DICE = 2g / (a + b), also: 30 / (100 + 200) = 0,1<br />
• Ähnlichkeit (A,B) nach JACCARD = g / (a + b - g), also<br />
15 / (100 + 200 – 15) = 15 / 285 = 0,053<br />
• Cosinus-Ähnlichkeit (A,B) = g / (a * b) 1/2, also: 15 / (100 * 200) 1/2 =<br />
15 / (20.000) 1/2 = 15 / 141,42 = 0,106<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 313
Automatische Indexierung<br />
• Klassifikation von Dokumenten nach Ähnlichkeit<br />
• Errechnung <strong>der</strong> Ähnlichkeit für alle Dokumentpaare (einer<br />
Datenbank o<strong>der</strong> eines Suchergebnisses)<br />
• Herstellen einer Ähnlichkeitsmatrix<br />
Dok1 1<br />
Dok1 Dok2 Dok3 Dokn<br />
Dok2 Ä(2,1) 1<br />
Dok3 Ä(3,1) Ä(3,2) 1<br />
...<br />
Dokn Ä(n,1) Ä(n,2) Ä(n,3) 1<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 314
Automatische Indexierung<br />
• Klassifikation von Dokumenten nach Ähnlichkeit<br />
• Clusteranalyse<br />
• Single-Link-Verfahren:<br />
– Ausgang: Paar (A,B) mit <strong>der</strong> höchsten Ähnlichkeit, das in noch keinem<br />
Cluster enthalten ist<br />
– Hinzufügen von allen Dokumenten, die mit A ähnlich sind (d.h. die<br />
einen Schwellenwert überschreiten), sagen wir: C und D<br />
– Hinzufügen von allen Dokumenten, die mit B ähnlich sind, sagen wir:<br />
E, F und G<br />
– Hinzufügen von allen Dokumenten, die mit C ähnlich sind<br />
– usw. ...<br />
– ... bis kein Dokument mehr vorhanden ist, das den Schwellenwert<br />
überschreitet<br />
– nächstes Paar (wie oben)<br />
• das Single-Link-Verfahren erzeugt u.U. sehr große Cluster<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 315
Automatische Indexierung<br />
• Klassifikation von Dokumenten nach Ähnlichkeit<br />
• Single-Link-Verfahren. Beispiel. Schwellenwert Ähnlichkeit = 0,2<br />
C<br />
H<br />
0,25<br />
0,30<br />
A B<br />
0,24<br />
0,27 0,21<br />
D<br />
I<br />
0,25<br />
0,29<br />
G<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 316<br />
E<br />
0,29<br />
J<br />
F<br />
0,22<br />
Klasse
Automatische Indexierung<br />
• Klassifikation von Dokumenten nach Ähnlichkeit<br />
• Clusteranalyse<br />
• Complete-Link-Verfahren:<br />
– Ausgang: Paar (A,B) mit <strong>der</strong> höchsten Ähnlichkeit, das in noch keinem<br />
Cluster enthalten ist<br />
– Hinzufügen von allen Dokumenten, die mit A und B ähnlich sind (d.h.<br />
einen Schwellenwert überschreiten)<br />
– und die untereinan<strong>der</strong> ähnlich sind (d.h. den Schwellenwert<br />
überschreiten)<br />
• das Complete-Link-Verfahren erzeugt u.U. sehr kleine Cluster<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 317
Automatische Indexierung<br />
• Klassifikation von Dokumenten nach Ähnlichkeit<br />
• Complete-Link-Verfahren. Beispiel. Alle Ähnlichkeitswerte liegen<br />
über dem Schwellenwert<br />
C<br />
H<br />
A B<br />
G<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 318<br />
F<br />
Klasse
Automatische Indexierung<br />
• Klassifikation von Dokumenten nach Ähnlichkeit<br />
• Clusteranalyse<br />
• Group-Average-Link-Verfahren:<br />
– Mittelstellung zwischen Single-Link- und Complete-Link-Verfahren<br />
– Ausgang: wie Single-Link-Verfahren<br />
– Errechnung <strong>der</strong> durchschnittlichen Ähnlichkeit aller Paare<br />
– durchschnittliche Ähnlichkeit als Schwellenwert<br />
– alle Paare verbleiben im Cluster, <strong>der</strong>en Ähnlichkeit über dem<br />
Schwellenwert liegen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 319
Automatische Indexierung<br />
• Klassifikation von Dokumenten nach Ähnlichkeit<br />
• Group-Average-Link-Verfahren. Beispiel. Entfernen <strong>der</strong> Paare, die<br />
unter <strong>der</strong> Durchschnittsähnlichkeit im Single-Link-Cluster (im<br />
Beispiel: 24,9) liegen<br />
A<br />
0,25<br />
0,30<br />
B<br />
C<br />
0,27<br />
H<br />
G<br />
0,25<br />
0,29<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 320<br />
E<br />
0,29<br />
F<br />
Klasse
Automatische Indexierung<br />
• Klassifikation von Dokumenten nach Ähnlichkeit<br />
• Nicht-hierarchische Klassifikation<br />
• Hierarchische Klassifikation<br />
– mehrfache Anwendung <strong>der</strong> Clusterbildung innerhalb bereits<br />
erkannter Cluster<br />
– Abbruch, wenn unterer Schwellenwert (minimale Anzahl von<br />
Dokumenten im Cluster) erreicht wird<br />
• letzter Schritt: Finden einer aussagekräftige Klassenbenennung<br />
(Wort(e)/Phrase(n) mit höchsten Gewichtungswerten)<br />
• Einsatzgebiet <strong>der</strong> Klassifikation nach Ähnlichkeit<br />
– unternehmensinterne Dokumentsammlungen, die überhaupt nicht<br />
indexiert worden sind<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 321
Automatische Indexierung<br />
• Automatische Zuordnung von Schlagworten<br />
• Voraussetzung: Dokumentationswerkzeug (Schlagwortliste,<br />
Klassifikationssystem, Thesaurus) liegt vor<br />
• Ansatz 1. Probabilistische Verfahren:<br />
Wie groß ist die Wahrscheinlichkeit, dass einem gegebenen<br />
Dokument ein bestimmtes Schlagwort (Schlagwort i.e.S.,<br />
Notation, Deskriptor) zuzuordnen ist?<br />
– Voraussetzung: Vorliegen von Wahrscheinlichkeitsinformationen<br />
(zum „Training“ des Systems)<br />
– Beispiel: AIR/PHYS<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 322
Automatische Indexierung<br />
• Automatische Zuordnung von Schlagworten<br />
• Ansatz 2: Textstatistische Verfahren: Welche Textworte<br />
(Phrasen) mit welcher Gewichtung müssen vorliegen, damit<br />
ein bestimmtes Schlagwort zuzuordnen ist?<br />
• Ansatz 3: Regelbasierte Verfahren: Wenn Textworte und<br />
ihre Umgebung gewissen Regeln folgen, wird ein<br />
bestimmtes Schlagwort zugeordnet.<br />
• Im praktischen Einsatz: Mischformen aus den drei<br />
Ansätzen<br />
– Beispiele: Reuters – Factiva („Intelligent Indexing“),<br />
Dialog Profound („InfoSort“), Dialog NewsEdge („Realtime<br />
Content Refinery System“) – Convera<br />
(„RetrievalWare“)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 323
Automatische Indexierung<br />
• Automatische Zuordnung von Schlagworten -<br />
probabilistisches Verfahren<br />
• Beispiel AIR/PHYS<br />
• Projekt <strong>der</strong> TH Darmstadt mit FIZ Karlsruhe<br />
• Physikdatenbank – Erschließungsbasis: Abstracts –<br />
Sprache: englisch<br />
• Erschließungswerkzeug: Physik-Thesaurus<br />
• ca. 392.000 intellektuell indexierte Dokumente (Abstracts<br />
und Deskriptoren) liegen vor und dienen als Basis für das<br />
Wörterbuch PHYS-PILOT<br />
Peter Biebricher; Norbert Fuhr; Gerhard Lustig; Michael Schwantner; Gerhard Knorz: The automatic indexing<br />
system AIR/PHYS – From research to application. – In: Proceedings of the 11th Annual International Conference<br />
on Research and Development in Information Retrieval. – New York: ACM, 1988, 333-342.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 324
• AIR/PHYS<br />
• Wörterbuch PHYS/PILOT<br />
Automatische Indexierung<br />
• Vokabular aus den intellektuell indexierten Dokumenten<br />
– #Dok(t) : Anzahl <strong>der</strong> Dokumente, die den Term t im Abstract<br />
enthalten<br />
– #Dok(t,s) : Anzahl <strong>der</strong> Dokumente aus #Dok(t), die den<br />
Deskriptor s enthalten<br />
• Wahrscheinlichkeit für ein Term-Deskriptor-Paar<br />
z(t,s) = #Dok(t,s) / #Dok(t)<br />
• Schwellenwerte<br />
– #Dok(t,s) = 2<br />
– z(t,s) = 0,29<br />
• Ergebnis: 800.000 Term-Deskriptor-Paare, davon 350.000<br />
genutzt<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 325
Automatische Indexierung<br />
• AIR/PHYS - Wörterbuch PHYS/PILOT – Beispiel<br />
Term Deskriptor #Dok(t,s) #Dok(t) z(t,s)<br />
stellar wind STELLARS WINDS 359 479 0,74<br />
molecular outflow 11 19 0,57<br />
hot star wind 13 17 0,76<br />
terminal stellar wind velocity 12 13 0,92<br />
Relationen im Thesaurus<br />
• Nicht-Deskriptor – Deskriptor<br />
• Hierarchie<br />
• Antonymie<br />
• formaler Einschluss (Bsp.: collision – atom collision)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 326
• AIR/PHYS - Indexierung<br />
Dokument d – Deskriptor s<br />
• a(x(d,s)) ist abhängig von<br />
Automatische Indexierung<br />
– z(t,s) – t ist im Abstract vorhanden, t-s ist als Relation erkannt<br />
– Häufigkeit des Auftretens von s im Abstract<br />
– Auftreten von s im Titel<br />
– ... weitere 30 Komponenten<br />
Relevanzbeschreibung<br />
x(d,s)<br />
Indexierungsgewicht<br />
g = a(x(d,s))<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 327
• AIR/PHYS – Indexierung<br />
Automatische Indexierung<br />
• a ist weiterhin abhängig von Deskriptor – Deskriptor – Relationen<br />
(etwa Begriff – Oberbegriff)<br />
• die Berechnung von a(x(d,s)) durchläuft mehrere Iterationsrunden<br />
• Transformation <strong>der</strong> gewichteten Deskriptorkandidaten in<br />
ungewichtete (0-1-Entscheidung)<br />
– wenn a(x(d,s)) größer als / gleich Schwellenwert � d wird durch s<br />
indexiert<br />
– wenn a(x(d,s)) kleiner als Schwellenwert � s wird nicht<br />
berücksichtigt<br />
• Güte <strong>der</strong> automatischen Indexierung (Stand: 1987)<br />
– 19% <strong>der</strong> Dokumente: von Indexern als brauchbar gewertet<br />
– 63%: brauchbar bei kleineren Korrekturen<br />
– 18%: unbrauchbar<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 328
• AIR/PHYS – Indexierung<br />
Automatische Indexierung<br />
• nur 44% <strong>der</strong> Deskriptoren sind durch die Relation z fundiert (also<br />
durch die bereits erkannten Zusammenhänge zwischen<br />
intellektuell zugeteilten Deskriptoren und Termen im Abstract)<br />
• bei halbautomatischer Indexierung (d.h. Fehlerkorrektur <strong>der</strong><br />
automatisch generierten Deskriptoren durch professionelle<br />
Indexer) steigt die Anzahl <strong>der</strong> erkannten Zusammenhänge<br />
zwischen t und s<br />
• das Wörterbuch wird fortgeschrieben<br />
• das System wird dadurch „trainiert“<br />
• das System müsste entsprechend fortlaufend besser werden<br />
• ... dies allerdings nur in <strong>der</strong> Theorie – die Datenbank PHYS und<br />
damit <strong>der</strong>en automatische Indexierung wurden inzwischen<br />
eingestellt<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 329
Automatische Indexierung<br />
• Automatische Zuordnung von Schlagworten –<br />
regelbasiertes Verfahren<br />
• Beispiel Construe-TIS<br />
• Projekt von Reuters Ltd. in Kooperation mit <strong>der</strong> Carnegie<br />
Group (Pittsburgh)<br />
• Datenbank mit Agenturmeldungen und Zeitungsartikeln –<br />
Erschließungsbasis: Volltexte – Sprachen: zunächst<br />
englisch, <strong>der</strong>zeit: 22<br />
• Erschließungswerkzeug: Reuters-Thesaurus (<strong>der</strong>zeit:<br />
„Factiva Intelligent Indexing“)<br />
Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of news<br />
stories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications<br />
of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 330
Automatische Indexierung<br />
• Topic Identification System (TIS)<br />
• Phase 1: Begriffserkennung<br />
• Begriff wird durch das Vorkommen bzw. Nicht-Vorkommen<br />
von Worten bzw. von Phrasen erkannt<br />
• Beispiel: Begriff GOLD (im Sinne einer Ware)<br />
• Operator &n : „und nicht in <strong>der</strong> selben Phrase“ (weitere<br />
Operatoren: „im selben Satz“, „im selben Dokument“)<br />
• beim Begriffssatz GOLD hinterlegt:<br />
(gold (&n (reserve ! medal ! jewelry))<br />
• im Text: „... gold production ...“ � GOLD<br />
• im Text: „... gold medal ...“ � NULL<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 331
Automatische Indexierung<br />
• Topic Identification System (TIS)<br />
• Phase 1: Begriffserkennung<br />
• Zuordnung eines Gewichtungswertes zu den Begriffen in<br />
Abhängigkeit von gemeinsam vorkommenden Termen<br />
• Beispiel: Begriff FOREIGN EXCHANGE<br />
• Satz 1: „... the Fed intervented in the money market ...“<br />
• Satz 2: „... currency speculation ...“<br />
• Satz 1 hat eine höhere Wahrscheinlichkeit für FOREIGN<br />
EXCHANGE als Satz 2<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 332
Automatische Indexierung<br />
• Topic Identification System (TIS)<br />
• Phase 2: Regeln für Kategorisierung (Klassierung)<br />
• Wenn-dann-Regeln mit Booleschen Operatoren; angewandt<br />
auf erkannte Begriffe<br />
• erkannter Begriff: „concept“; vorgegebener Deskriptor:<br />
„category“<br />
• Beispiel: Zuordnung des Deskriptors AUSTRALIAN<br />
DOLLAR zu einem Dokument<br />
• zu beachten: Dollars gibt es auch in den USA, in Singapur<br />
usw.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 333
Automatische Indexierung<br />
• Topic Identification System (TIS)<br />
• Phase 2: Regeln für Kategorisierung (Klassenbildung)<br />
• Regel:<br />
(if<br />
test: (or [australian-dollar-concept]<br />
(and [dollar-concept]<br />
[australia-concept]<br />
(not [us-dollar-concept])<br />
(not [singapure-dollar-concept])<br />
(not ...))<br />
action: (assign australian-dollar-category))<br />
• Solche Regeln können auf Satz-, Absatz- o<strong>der</strong> Textebene<br />
angewandt werden, alternativ auch auf Wortabstände.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 334
Automatische Indexierung<br />
• Topic Identification System (TIS)<br />
• Phase 2: Regeln für Kategorisierung (Klassenbildung)<br />
• Ein Text mit dem Satz<br />
„Australia announced today that it would devalue the<br />
dollar.“<br />
bekommt nach <strong>der</strong> Regel den Deskriptor AUSTRALIAN<br />
DOLLAR zugeordnet.<br />
• weitere Regeln berücksichtigen die Anzahl des<br />
Vorkommens eines Begriffs o<strong>der</strong> die Position im Text<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 335
Automatische Indexierung<br />
• Topic Identification System (TIS)<br />
• Phase 2: Regeln für Kategorisierung (Klassenbildung)<br />
• Regel<br />
(if<br />
test: or (and [gold-concept :scope headline 1]<br />
[gold-concept :scope body 1])<br />
[golf-concept :scope body 4])<br />
action: (assign gold catagory))<br />
• Anmerkung: Diese Regel kann durch textstatistische Maße<br />
(WDF, IDF, Positionswert) noch verfeinert werden.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 336
Weiteres Beispiel:<br />
Convera<br />
RetrievalWare<br />
Automatische Indexierung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 337
Abstracts<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 338
Grundlegende Literatur<br />
Abstracts<br />
• Brigitte Endres-Niggemeyer: Summarizing Information. –<br />
Berlin [u.a.]: Springer, 1998.<br />
• Edward T. Cremmins: The Art of Abstracting. - Philadelphia:<br />
ISI Press, 1982.<br />
• Harold Borko; C.L.Bernier: Abstracting Concepts and<br />
Methods. – New York: Academic Press, 1975.<br />
• Josef Koblitz: Methoden des Referierens von Dokumenten.<br />
– Leipzig: Bibliographisches Institut, 2 1968.<br />
• DIN 1426: Kurzreferate.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 339
Abstracts<br />
• Inhaltsangaben nach DIN 1426<br />
– Formen von Inhaltsangaben:<br />
• Auszug (Inf.verdichtung: nicht geeignet, da selektiv)<br />
• Zusammenfassung (Inf.verdichtung: nicht geeignet, da Kenntnis<br />
des Textes vorausgesetzt wird)<br />
• Rezension (Inf.verdichtung: nur sehr bedingt geeignet; i.d.R. zu<br />
lang – günstig aber als Zusatzinformation)<br />
• Literaturbericht (Inf.verdichtung über mehrere Dokumente,<br />
wegen zu großer Länge nicht geeignet)<br />
• Annotation (Inf.verdichtung über Stichworte: nicht geeignet, so<br />
etwas macht man mittels Thesaurus, Klassifikation o<strong>der</strong><br />
Textwortmethode)<br />
• Inhaltsverzeichnis (Inf.verdichtung: bei Monographien bedingt<br />
geeignet)<br />
• Sammelreferat (Inf.verdichtung über mehrere Dokumente; sehr<br />
geeignet)<br />
• Kurzreferat / Abstract (Inf.verdichtung eines Dokuments; sehr<br />
geeignet)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 340
Abstracts<br />
• Inhaltsangaben nach DIN 1426<br />
– Kurzreferat / Abstract (bei genau einer DBE – <strong>der</strong> Standardfall)<br />
Sammelreferat (bei mehreren DBE):<br />
• Vollständigkeit<br />
• Genauigkeit<br />
• Objektivität<br />
• Kürze<br />
• Verständlichkeit<br />
– Ziele:<br />
• grundlegende Inhalte <strong>der</strong> Dokumente sollen vom Nutzer schnell<br />
und exakt erkannt werden<br />
• die Relevanz <strong>der</strong> Dokumente für eine Fragestellung muss klar<br />
werden<br />
• Nutzer muss entscheiden können, ob <strong>der</strong> Volltext benötigt wird<br />
• letztlich: Fundierung einer ja/nein-Entscheidung, ob <strong>der</strong> Volltext<br />
eingesehen wird (dem Link gefolgt wird; das Dokument gekauft<br />
o<strong>der</strong> eine Übersetzung in Auftrag gegeben wird)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 341
Abstracts<br />
• Kurzreferat / Abstract<br />
– Glie<strong>der</strong>ung nach DIN 1463<br />
• zentrale Aussage des Dokuments<br />
• ggf. Dokumenttyp spezifizieren (etwa: Forschungsbericht; Letter)<br />
• ggf. Art <strong>der</strong> Themenbehandlung nennen (Überblick, theoretische<br />
Arbeit, empirische Arbeit)<br />
• Hypothesen<br />
• Zielsetzung<br />
• Bezug zu an<strong>der</strong>en Arbeiten<br />
• Methodik (Untersuchungsgegenstand, -methoden, -techniken)<br />
• Ergebnisse und Schlussfolgerungen<br />
• Herkunftsvermerk: entwe<strong>der</strong> „Autor“ o<strong>der</strong> Kürzel des Bearbeiters<br />
– Länge<br />
• Kurzmitteilung: max. 200 Zeichen<br />
• Zeitschriftenartikel: max. 500 Zeichen<br />
• umfangreiche Monographie: max. 1.000 Zeichen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 342
Abstracts<br />
• Kurzreferat / Abstract<br />
– Autorenabstract<br />
• Vorteile:<br />
– liegt mit <strong>der</strong> Publikation direkt vor<br />
– Autor bringt einschlägiges Fachwissen mit<br />
• Nachteile:<br />
– Autor ist nie objektiv<br />
– Autorensprache kann durchaus unverständlich sein<br />
– Inter-Abstractor-Konsistenz nicht gegeben<br />
– Fremdabstract<br />
• Vorteile:<br />
– objektiver (und wahrscheinlich verständlicher) als ein<br />
Autorenabstract<br />
– Konsistenz ist trainierbar<br />
– dokumentarisch-informationswissenschaftlicher Sachverstand<br />
• Nachteile:<br />
– muss erstellt werden (es fallen Kosten an)<br />
– Fachwissen ist nicht immer ausreichend vorhanden<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 343
• Kurzreferat / Abstract<br />
– Sprache<br />
Abstracts<br />
• in Zielsprache(n) <strong>der</strong> Datenbasis<br />
• Vorteil für Nutzer: Kurzüberblick auch über Dokumente in<br />
Sprachen, die <strong>der</strong> Nutzer nicht beherrscht<br />
• deshalb sinnvoll anzuschließen: Übersetzungsservice für<br />
die Volltexte<br />
• bei digital vorliegenden Dokumenten: u.U. langt zunächst<br />
eine automatische Übersetzung (Bsp.: AltaVista‘s<br />
Babelfish o<strong>der</strong> Google‘s „translate tool“)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 344
Abstracts<br />
• Kurzreferat / Abstract<br />
– NICHT ins Abstract gehören<br />
• Titel (wäre redundant)<br />
• Negativa (wäre im Retrieval über den Abstract-Index irreführend)<br />
– Problem: Wahrheitsgehalt<br />
• Lösung 1: Referieren ohne Überprüfung des Wahrheitsgehalts<br />
<strong>der</strong> Vorlage („... Die Quadratur des Kreises arbeitet nach <strong>der</strong><br />
Methode ...“)<br />
• Lösung 2: Überprüfung des Wahrheitsgehaltes <strong>der</strong> Vorlage und<br />
Markieren von zweifelhaften Aussagen („... Verf. behauptet, die<br />
Quadratur des Kreises geschehe nach <strong>der</strong> Methode ...“)<br />
– Typen des Kurzreferats / Abstracts<br />
• indikatives Referat<br />
• informatives Referat<br />
• analytisches Referat<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 345
Abstracts<br />
• Kurzreferat / Abstract: Was wird aufgenommen?<br />
– das, worum es in einem Text geht – „aboutness“<br />
• extensionale Aboutness: inhärente Aboutness eines<br />
Textes – diese ist Basis für Abstracts<br />
• intensionale Aboutness: Bedeutung (Stellenwert) eines<br />
Textes im Kontext an<strong>der</strong>er Texte – nicht für Abstracts<br />
geeignet<br />
– im Sinne <strong>der</strong> Textlinguistik: „Makrostruktur“ eines<br />
Textes<br />
• Entscheidung, was weggelassen wird<br />
• Entscheidung, was (aus den speziellen Aussagen)<br />
verallgemeinert wird<br />
Helen R. Tibbo: Abstracting, Information Retrieval and the Humanities. – Chicago; London: American Library<br />
Association, 1993. (Chapter 2: Abstracts and Abstracting. Fundamental Consi<strong>der</strong>ations, 18-39).<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 346
Abstracts<br />
• Kurzreferat / Abstract: homomorphe versus<br />
paramorphe Reduktion Text mit<br />
Makrostruktur<br />
homomorphe Reduktion<br />
paramorphe Reduktion<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 347
Abstracts<br />
• Kurzreferat / Abstract: homomorphe versus<br />
paramorphe Reduktion<br />
– isomorphe Reduktion: die Makrostrukturen von Text<br />
und Abstract sind gleich (etwa: Thema A im Text 25%<br />
und Thema B im Text 16% des Umfangs, dann auch im<br />
Abstract A 25% und B 16%) – faktisch nicht<br />
durchführbar<br />
– homomorphe Reduktion: die Makrostrukturen von Text<br />
und Abstract sind ähnlich – bei Abstracts anzustreben<br />
– paramorphe Reduktion: die Makrostrukturen von Text<br />
und Abstract sind unterschiedlich (böse gesagt: das<br />
Abstract liegt „daneben“ [para, grch. = neben]) – o<strong>der</strong><br />
u.U. positiv: perspektivisches Abstract<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 348
Abstracts<br />
• Texttypologie<br />
– erzählende Texte (<strong>Geschichte</strong>n, <strong>Geschichte</strong>, ...)<br />
– prozedurale Texte (Gebrauchsanweisungen, Rezepte, ...)<br />
– verhaltensbeeinflussende Texte (politische Reden,<br />
Werbetexte, ...)<br />
– erklärende Texte (wissenschaftliche Literatur, „Essays“, ...)<br />
• disziplinspezifische Texte<br />
– etwa: naturwissenschaftliche Texte mit i.d.R. straffer und<br />
anerkannter Strukturierung (hieran orientiert sich die<br />
deutsche Norm DIN 1463)<br />
– etwa: geisteswissenschaftliche Texte mit i.d.R. eher loser<br />
Strukturierung, wobei die Struktur allgemein kaum<br />
vorgegeben ist<br />
• Abstracts sind abhängig vom Texttyp <strong>der</strong> Vorlage<br />
und (bei erklärenden Texten) von <strong>der</strong> Fachdisziplin<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 349
Abstracts<br />
• disziplinspezifisches Abstracting. Beispiel<br />
• bei technischen Dokumenten (etwa Patenten o<strong>der</strong><br />
Gebrauchsmustern): zusätzlich zentral wichtige Zeichnung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 350
Abstracts<br />
• Indikatives Kurzreferat / Abstract<br />
Inhaltsanalyse<br />
referierwürdiges Dokument<br />
referierwürdige Inhaltskomponenten<br />
- Themen (weiße Kästen)<br />
- Aussagen zu den Themen<br />
(schraffierte Kästen)<br />
Indikatives Abstract:<br />
Wie<strong>der</strong>gabe <strong>der</strong> Themen in vollständigen Sätzen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 351
Abstracts<br />
• Indikatives Kurzreferat / Abstract - Beispiel<br />
• Russ, Hans: Einzelhandel (Ost): Optimistische<br />
Geschäftserwartungen<br />
• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3<br />
• Abstract: Die Geschäftslage des ostdeutschen Einzelhandels im<br />
Januar 1993 wird beschrieben. Skizziert wird <strong>der</strong> in den nächsten<br />
sechs Monaten zu erwartende Geschäftsverlauf. Im einzelnen<br />
geht es um den Gebrauchsgüterbereich und den Verbrauchsgüterbereich.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 352
Abstracts<br />
• Informatives Kurzreferat / Abstract<br />
Inhaltsanalyse<br />
referierwürdiges Dokument<br />
referierwürdige Inhaltskomponenten<br />
- Themen (weiße Kästen)<br />
- Aussagen zu den Themen<br />
(schraffierte Kästen)<br />
Informatives Abstract:<br />
Wie<strong>der</strong>gabe <strong>der</strong> Aussagen zu den Themen<br />
in vollständigen Sätzen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 353
Abstracts<br />
• Informatives Kurzreferat / Abstract – Beispiel<br />
• Russ, Hans: Einzelhandel (Ost): Optimistische<br />
Geschäftserwartungen<br />
• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3<br />
• Abstract: Die Geschäftslage des ostdeutschen Einzelhandels hat<br />
sich im Januar 1993 im Vergleich zum Vormonat deutlich<br />
verschlechtert. Hinsichtlich des in den nächsten sechs Monaten<br />
zu erwartenden Geschäftsverlaufs äußerten sich die Teilnehmer<br />
am ifo Konjunkturtest allerdings zuversichtlich. Im Gebrauchsgüterbereich<br />
ist die Geschäftslage im Durchschnitt zufriedenstellend;<br />
im Verbrauchsgüterbereich überwiegen negative Urteile.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 354
Abstracts<br />
• Analytisches Kurzreferat / Abstract (Strukturreferat)<br />
Inhaltsanalyse<br />
referierwürdiges Dokument<br />
referierwürdige Inhaltskomponenten<br />
- Themen (weiße Kästen)<br />
- Aussagen zu den Themen<br />
(schraffierte Kästen)<br />
Analytisches Abstract:<br />
Wie<strong>der</strong>gabe <strong>der</strong> Themen sowie <strong>der</strong><br />
Aussagen zu den Themen<br />
in tabellarischer Form<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 355
Abstracts<br />
• Analytisches Kurzreferat / Abstract – Beispiel<br />
• Russ, Hans: Einzelhandel (Ost): Optimistische<br />
Geschäftserwartungen<br />
• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3<br />
• Inhalt:<br />
• Gegenstand: Ostdeutscher Einzelhandel im Januar 1993<br />
• Methode: ifo Konjunkturtest<br />
• Ergebnisse:<br />
• --- Geschäftslage: merklich verschlechtert gegenüber Vormonat<br />
• --- Erwartungen: zuversichtlich (für die nächsten 6 Monate)<br />
• --- Gebrauchsgüter: schwache Umsatzeinbußen, zufriedenstellend<br />
• --- Verbrauchsgüter: starke Umsatzeinbußen, 1/3 aller<br />
Testteilnehmer äußern sich unzufrieden<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 356
Abstracts<br />
• Kurzreferat / Abstract - Vor- und Nachteile<br />
Vorteile Nachteile<br />
indikativ kostengünstig informationsarm<br />
unübersichtlich<br />
informativ informationsreich bei langen Vorlagen kaum<br />
durchzuführen<br />
unübersichtlich<br />
teuer<br />
analytisch informationsreich sehr teuer<br />
strukturiert nicht für jede Art von<br />
Vorlagen geeignet<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 357
Abstracts<br />
• Sammelreferat<br />
– Auswahl eines aktuellen („heißen“) Themas<br />
– Zusammenstellung <strong>der</strong> Menge einschlägiger Dokumente<br />
– Abstractingprozess wie bei Einzelabstract; jeweils<br />
jedoch bezug auf die Einzeldokumente nehmen (etwa<br />
durch End- o<strong>der</strong> Fußnoten)<br />
– außer Abstracting auch redaktionelle Arbeiten<br />
– Länge: 1 bis 3 Seiten<br />
– in den Endnoten o<strong>der</strong> in einer Bibliographie die<br />
bibliographischen Angaben <strong>der</strong> Dokumente nennen<br />
(ggf. dahin verlinken)<br />
– Einsatzgebiet: thematischer Pushdienst<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 358
Abstracts<br />
• Sammelreferat – Beispiel: KnowledgeSummaries<br />
Willi Bredemeier: Knowledge Summaries. Journalistische Professionalität mit Verbesserungsmöglichkeiten bei<br />
Themenfindung und Quellenauswahl. – In: Password Nr. 3 (2004), 10-15.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 359
Abstracts<br />
• Sammelreferat – Beispiel: KnowledgeSummaries<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 360
Abstracts<br />
• Automatisches Abstracting<br />
– Bemühungen seit Jahrzehnten; jedoch bisher in <strong>der</strong> Praxis wenig<br />
erfolgreich; nur experimentelle Systeme<br />
– Basismethode: Extraktion <strong>der</strong> „wichtigen“ Sätze aus einem Text<br />
anhand von Wahrscheinlichkeitswerten (P) für „Wichtigkeit“<br />
• (1) Satzlänge (Mindestlänge: etwa 5 Worte):<br />
P(1) = 0 für Sätze mit weniger als 5 Worten); P(1) = 1 für alle an<strong>der</strong>en<br />
Sätze<br />
• (2) Indikatorphrasen (Sätze, die gewisse Phrasen – z.B. „in<br />
conclusion“ – enthalten, werden hoch bewertet):<br />
P(2) für Sätze mit Indikatorphrasen > P(2) für Sätze ohne<br />
Indikatorphrasen<br />
Brigitte Endres-Niggemeyer: Textzusammenfassung. – In: Computerlinguistik und Sprachtechnologie. Eine<br />
Einführung. – München: Elsevier – Spektrum 2 2004, 511-516.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 361
Abstracts<br />
• Automatisches Abstracting<br />
• (3) Absatzstruktur (Sätze in den vor<strong>der</strong>en und hinteren Ansätzen<br />
werden höher bewertet als solche in mittleren Absätzen):<br />
P(3) für Sätze in den ersten n Absätzen bzw. in den letzten m<br />
Absätzen > P(3) für alle an<strong>der</strong>en Sätze<br />
• (4) Sätze ranken nach Termgewichten (für alle Terme WDF und IDF<br />
berechnen – Termgewichte jedes Satzes addieren):<br />
P(4) = Summe <strong>der</strong> Termgewichte im Satz<br />
• (5) ggf. Sätze, in denen Akronyme vorkommen (z.B. IBM, SPD), höher<br />
bewerten:<br />
P(5) für Sätze mit einem Akronym > P(5) für Sätze ohne Akronyme<br />
• Errechnung <strong>der</strong> Wichtigkeitswahrscheinlichkeit für jeden Satz:<br />
P(Satz) = P(1) * P(2) * P(3) * P(4) * P(5)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 362
Abstracts<br />
• Automatisches Abstracting<br />
• Sortierung <strong>der</strong> Sätze nach P(Satz)<br />
• Auszählen <strong>der</strong> Länge (Anzahl <strong>der</strong> Zeichen) für jeden Satz<br />
• Vergleich mit Schwellenwert (maximale Länge des Abstracts)<br />
• Markieren <strong>der</strong> ersten n Sätze, <strong>der</strong>en Gesamtzeichenanzahl unter <strong>der</strong><br />
maximalen Abstractlänge liegt<br />
• Herstellen <strong>der</strong> ursprünglichen Reihenfolge für diese n Sätze<br />
• diese n Sätze bilden das Abstract<br />
– verfeinerte Methoden<br />
• Vergleiche mit „Trainingsdaten“ (Abstracts professioneller –<br />
menschlicher – Abstracter sowie ihrer Ausgangstexte)<br />
• Kürzen von Sätzen<br />
• Zusammenfassen mehrerer Sätze<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 363
Abstracts<br />
• Abstracts. Fazit<br />
– Referate ergänzen den Titel einer DE und ermöglichen dem<br />
Nutzer zu entscheiden, ob die DBE benötigt wird (auch bei<br />
fremdsprachlicher Literatur: Übersetzung!)<br />
– außer bei sehr kurzen Dokumenten (z.B. Kurzmeldungen bei<br />
Zeitungsartikeln) benötigt jede DE ein Abstract<br />
– die Informationsverdichtung geschieht so knapp, aber auch so<br />
aussagekräftig wie möglich, die Makrostruktur <strong>der</strong> Vorlage bleibt<br />
(nahezu) erhalten (homomorphe Reduktion)<br />
– Referate sind abhängig vom Texttyp und vom Fach <strong>der</strong> DBE<br />
– Typen <strong>der</strong> Informationsverdichtung des Inhalts eines Dokuments<br />
sind das indikative, informative (Standard) und das analytische<br />
Abstract<br />
– technische Dokumente benötigen u.U. eine Zeichnung zur<br />
Unterstützung des Abstracts<br />
– Informationsverdichtung mehrerer Dokumente geschieht über<br />
Sammelreferate, eingesetzt als thematischer Pushdienst<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 364
• Abstracts. Fazit<br />
Abstracts<br />
– automatisches Abstracting: Berechnung <strong>der</strong> „Wichtigkeit“ von<br />
Sätzen innerhalb eines Dokuments (<strong>der</strong>zeit wenig ausgereifte<br />
Systeme)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 365
Informationsextraktion<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 366
• Informationsextraktion<br />
Informationsextraktion<br />
– bei <strong>der</strong> Suche nach o<strong>der</strong> <strong>der</strong> laufenden Beobachtung von<br />
konkreten Sachverhalten im WWW<br />
– nicht: Angabe einer Webseite<br />
– son<strong>der</strong>n: Angabe des Sachverhalts (und nur diesen) -<br />
analog zu den analytischen Kurzreferaten<br />
– die Sachverhalte werden den Webseiten entnommen (aus<br />
diesen „extrahiert“)<br />
– <strong>der</strong>zeitige Einsatzgebiete: vergleichende Informationen<br />
aus Webseiten bei Spezialsuchmaschinen o<strong>der</strong> Shopping<br />
Malls (z.B. Preisvergleiche); Informationsagenten<br />
Günter Neumann: Informationsextraktion. – In: Computerlinguistik und Sprachtechnologie. Eine<br />
Einführung. – München: Elsevier – Spektrum 2 2004, 502-510.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 367
Informationsextraktion<br />
• Informationsextraktion<br />
– vorgegeben: Menge von Objekten bzw. Merkmalen, die einen<br />
Sachverhalt bilden (z.B. Produktbezeichnung und Preis, Autor und<br />
Buch)<br />
– Extraktionsprozess: Wrapper („Einpacker“)<br />
• Startmenge: „typische“ Webseiten für die gesuchte Relation (bei Brin: 5<br />
Bücher mit <strong>der</strong>en Autorennamen)<br />
• Retrieval: Suche nach Webseiten, in denen die gesuchte Relation<br />
vorkommt (also die 5 Bücher und Autorennamen)<br />
• Erkennen <strong>der</strong> Muster des Ausdrucks des Sachverhaltes (<strong>der</strong> „patterns“)<br />
– Worte, die den Zusammenhang ausdrücken – z.B. „by author“,<br />
„written by“<br />
• Suche nach allen Webseiten, die einen solchen Sachverhalt<br />
ausdrücken<br />
– Ergebnis: konkrete Werte <strong>der</strong> Merkmale (z.B. Karl May - Winnetou)<br />
Sergey Brin: Extracting patterns and relations from the World Wide Web. – In: Lecture Notes in Computer Science,<br />
Vol. 1590. – Berlin [u.a.]: Springer, 1998, 172-183.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 368
Informationsextraktion<br />
• Informationsextraktion. Bsp.: Froogle<br />
Aus <strong>der</strong><br />
Webseite<br />
extrahiert:<br />
Produktname,<br />
Preis,<br />
Anbieter,<br />
Beschreibung,<br />
Bild<br />
Alternativverfahren:<br />
XML – Topic<br />
Map<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 369
Informationsextraktion<br />
• Informationsextraktion. Bsp.: Froogle<br />
Originalwebseite<br />
Produktname<br />
Beschreibung<br />
Preis<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 370
Informationsextraktion<br />
• Informationsextraktion<br />
– Ansätze:<br />
– (1) „Knowledge Engineering Approach“<br />
die Sachverhalte sowie die Muster (patterns) werden<br />
intellektuell erstellt<br />
– (2) „Automatically Trainable Systems“<br />
Suche nach Sachverhalten und Mustern mittels<br />
informationsstatistischer und –linguistischer<br />
Algorithmen (z.T. Verwendung von Trainingsdaten –<br />
etwa indexierte Korpora)<br />
– Weiterentwicklung <strong>der</strong> Forschungen zur Informationsextraktion<br />
durch MUC („Message Unterstanding<br />
Conferences“ – seit 1987)<br />
Douglas E. Appelt; David J. Israel: Introduction to Information Extraction Technology. – In: International Joint<br />
Conference on Artificial Intelligence 1999 (IJCAI-99).<br />
Line Eikvil: Information Extraction from World Wide Web. A Survey. – Oslo: Norwegian Computing Center,<br />
1999. – (Technical Report; 945).<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 371
Informationsextraktion<br />
• Informationsextraktion<br />
– Einsatz beim konkreten Informationsbedarf (Faktenfrage)<br />
• Kennzeichnung des Typs des Informationsbedarfs<br />
durch Nutzer<br />
• Beschreibung des gesuchten Sachverhalt (etwa<br />
1. „Wie heißt die Hauptstadt von NRW?“<br />
2. „Wie heißen die Hauptstädte aller 25 EU-Län<strong>der</strong>?“<br />
• automatisches Vorgehen nach Ansatz (2)<br />
„Automatically Trainable Systems“ – ggf. Dialog zur<br />
Abklärung <strong>der</strong> Mustererkennung<br />
• Aufsuchen <strong>der</strong> Webseiten – Informationsextraktion<br />
• Ausgabe nur des nachgefragten Sachverhalts<br />
zu Frage 1: Hauptstadt NRW : Düsseldorf (URL: ...)<br />
zu Frage 2: Hauptstadt Belgien : Brüssel (URL: ...)<br />
Hauptstadt Dänemark : Kopenhagen ...<br />
Hauptstadt Zypern : Nikosia (URL: ...)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 372
• Informationsagenten<br />
Informationsextraktion<br />
– laufende Beobachtung von Sachverhalten (Fakten) im<br />
WWW<br />
– periodischer Einsatz <strong>der</strong> Informationsextraktion („SDI<br />
für Fakten“)<br />
– Einsatzgebiet (Beispiel):<br />
• Wettbewerberbeobachtung (Personen im<br />
Management, Preisän<strong>der</strong>ungen, Umsatzzahlen, ...)<br />
Nicholas Kushmerick; Bernd Thomas: Adaptive Information Extraction. Core Technologies for Information Agents. –<br />
Koblenz: Universität Koblenz-Landau / Institut für Informatik, 2003. – (Fachberichte Informatik 9/2003).<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 373
Informationsextraktion<br />
• Informationsextraktion. Fazit<br />
– Informationsextraktion: Erkennen einzelner Sachverhalte,<br />
Extrahieren konkreter Sachverhalte aus digitalen Dokumenten<br />
• Einsatz innerhalb spezifischer Wissensbereiche (z.B.<br />
Produkte) – recht ausgereifte Systeme (z.B. Froogle)<br />
• Einsatz im WWW allgemein (beim konkreten<br />
Informationsbedarf) – <strong>der</strong>zeit Ansätze, keine laufenden<br />
Systeme)<br />
– Informationsagenten: SDI für Sachverhalte<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 374
Das „semantische Web“:<br />
Ontologien – Topic Maps<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 375
Grundlegende Literatur<br />
Semantisches Web<br />
• Dieter Fensel et al. (Eds.): Spinning the Semantic Web. –<br />
Cambridge, Mass.; London: MIT, 2003.<br />
• Richard Widhalm; Thomas Mück: Topic Maps. Semantische<br />
Suche im Internet. – Berlin [u.a.]: Springer, 2002.<br />
• Tim Berners-Lee: Semantic Web – XML 2000. (Folien).<br />
Online: www.w3.org/2000/Talks/1206-xml/2k-tbl<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 376
Semantisches Web<br />
• Ontologien<br />
– bilden ab: Objekte (durch Begriffe) – analog zu<br />
Dokumentationssprachen und<br />
– (zumindest rudimentär) Sachverhalte (durch Sätze in<br />
einer formalisierten Sprache) – analog zu Abstracts<br />
– Die „Ontologie“ ist die explizite Spezifizierung eines<br />
(i.d.R. sehr kleinen) Wissensbereiches, so dass dieser in<br />
einem Informationssystem abgebildet werden kann.<br />
– Aspekte<br />
• Relationen (2-stellig)<br />
• Funktionen (n-stellige Relationen)<br />
• Feldschema (Kategorien – Top Level Begriffe)<br />
• Klassen (Allgemeinbegriffe)<br />
• Instanzen (Individualbegriffe)<br />
• Axiome (Regeln)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 377
• Ontologien<br />
Semantisches Web<br />
– Ursprung: Forschungen zur Künstlichen Intelligenz (u.a.<br />
von Tom R. Gruber – Stanford Knowledge Systems Lab)<br />
– da Ontologien jeweils einen engen<br />
Wissensbereich repräsentieren, sind<br />
Konkordanzen zwischen unterschiedlichen<br />
Ontologien nötig<br />
– Realisierung in XML<br />
– RDF: Resource Description Framework<br />
– innerhalb RDF: URI (Universal Resource<br />
Identifier) – benutzt wie eine URL bei Links<br />
(enthält die Relationen bzw. Funktionen zwischen den<br />
Klassen bzw. Instanzen)<br />
Tom R. Gruber: A translation approach to portable ontologies. – In: Knowledge Acquisition 5 (1993), 199-220.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 378
• Ontologien<br />
Semantisches Web<br />
Das<br />
World Wide<br />
Web in<br />
heutiger<br />
Form<br />
Quelle:<br />
W3C<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 379
• Ontologien<br />
Semantisches Web<br />
Das<br />
World Wide<br />
Web<br />
mit<br />
Ontologie<br />
Quelle:<br />
W3C<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 380
• Ontologien<br />
– Schichtenmodell<br />
von<br />
Berners-Lee<br />
Semantisches Web<br />
Tim Berners-Lee: Semantic Web – XML 2000. (Folien). Online: www.w3.org/2000/Talks/1206-xml/2k-tbl<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 381
• Ontologien<br />
– Abfrageagenten<br />
Semantisches Web<br />
• übersetzen die Frage des Nutzers<br />
• kommunizieren via Ontologien mit Informationssystemen<br />
• geben bei (einfachen) Faktenfragen eine Antwort<br />
• bereiten Transaktionen vor<br />
• können sich auch auf (intelligente) Geräte richten<br />
– Beispiel 1: Gerätesteuerung<br />
• Stereoanlage läuft – Telefon klingelt: wenn Nutzer ans<br />
Telefon geht, schaltet sich die Stereoanlage leiser (Vor.:<br />
Stereoanlage ist URI; Regel: Wenn Telefongespräch, dann<br />
Anlage leise)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 382
• Ontologien<br />
Semantisches Web<br />
– Beispiel 2: Faktenfrage<br />
• Anfrage: „Welche Arznei hilft gegen Vampirbisse?“<br />
• Klassen: in Kategorie Arznei: Arznei, Vampirbissarznei<br />
• ... in Kategorie Krankheit: Vampirbiss<br />
• ... in Kategorie Nebenwirkungen: Unsterblichkeit<br />
• Instanz: Dracuex<br />
• Funktion: ... hilft gegen ... mit Nebenwirkung ... - 3-stellige<br />
Relation<br />
• Axiom: [Arznei] hilft gegen [Krankheit] mit Nebenwirkung<br />
[Nebenwirkung]<br />
• Relation: Vampirbissarznei UB Arznei<br />
• Relationen: ... ist ein/e ...; ... hat Nebenwirkung ...<br />
• Axiom: Dracuex ist eine Vampirbissarznei<br />
• Axiom: Dracuex hat Nebenwirkung Unsterblichkeit<br />
• Ausgabe: Dracuex hilft gegen Vampirbisse mit<br />
Nebenwirkung Unsterblichkeit<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 383
• Ontologien<br />
Semantisches Web<br />
– Beispiel 3: Transaktionsvorbereitung<br />
• Anfrage: Wo ist das nächstgelegene koreanische<br />
Restaurant, das gebratenen Hund führt und in einer halben<br />
Stunde für zwei Personen einen Tisch frei hat?<br />
– Einsatzbereiche von Ontologien<br />
• Intranet von Unternehmen<br />
• Kataloge im E-Commerce<br />
• Informationssysteme in (überschaubaren)<br />
Wissensbereichen<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 384
• Topic Maps<br />
Semantisches Web<br />
– Begriffe und (rudimentär) Sachverhalte<br />
(wie bei Ontologien)<br />
– Topic Maps sind eigene Dokumente, die<br />
auf an<strong>der</strong>e Dokumente verweisen (letztere<br />
haben mit den Topic Maps nichts zu tun)<br />
– aufgebaut seit Beginn <strong>der</strong> 90er Jahre;<br />
fe<strong>der</strong>führend u.a. Steven R. Newcomb<br />
und Michel Biezunski<br />
– geregelt durch ISO 13.250 (1999)<br />
– Basistechnik: XML (wichtig: DTD)<br />
– unter Verwendung von: URI<br />
– Einsatzbereiche:<br />
• Aufbaustruktur einer Website<br />
• Zugriff auf Dokumentmengen mittels<br />
unterschiedlicher Topic Maps<br />
Michel Biezunski<br />
Steve Newcomb<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 385
• Topic Maps<br />
– Topic: Begriff<br />
Semantisches Web<br />
– Topic Name: ähnlich wie Deskriptor im Thesaurus (mit<br />
Nicht-Deskriptoren als Synonymen)<br />
– Scope: Lösung des Homonymproblems (durch Zusatz)<br />
– Type: Einordnung eines Topic in eine Kategorie („vom<br />
Typ“)<br />
– Association Role: (n-stellige) Relation<br />
– Facet: Aussage zu einem Topic<br />
– Occurrence: Dokument (u.a. Webseite) – liegt außerhalb<br />
des Topic Map<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 386
• Topic Map (Beispiel)<br />
vom Typ<br />
Frankreich<br />
ist Haupt-<br />
Stadt von<br />
Paris<br />
Scope<br />
Semantisches Web<br />
Land<br />
grenzt an<br />
hat<br />
10 Mio.<br />
Einwohner<br />
Geographie<br />
Type<br />
vom Typ<br />
Deutschland<br />
Facet<br />
Role<br />
Mark<br />
„D-Mark“<br />
„Deutsche Mark“<br />
war<br />
Währung in<br />
Topic<br />
Occurrence<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 387
• Topic Maps<br />
• Website mit<br />
Topic Map<br />
Semantisches Web<br />
Michel Biezunski; Steven R. Newcomb: Topic Maps: The Inventor‘s Perspective on Subject-based Access.<br />
(Vortrag bei <strong>der</strong> Library of Congress, Okt. 2003).<br />
Online: www.coolheads.com/PUBS/LC2003/<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 388
Semantisches Web<br />
• Informationsverdichtung durch Ontologien o<strong>der</strong><br />
Topic Maps<br />
– Vorteile<br />
• nicht nur Begriffssysteme, son<strong>der</strong>n (zumindest<br />
rudimentär) Sachverhalte<br />
• „semantisches Retrieval“<br />
• zur Wissensabbildung in kleinen (überschaubaren)<br />
Wissensdomänen geeignet<br />
– Nachteile<br />
• <strong>der</strong> Wissensstand einer Zeit wird festgeschrieben (zwar<br />
nicht prinzipiell, aber faktisch wegen riesigem Aufwand,<br />
das semantische Netz aktuell zu halten)<br />
• sehr aufwendig in <strong>der</strong> Entwicklung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 389
Informationsfilter und<br />
Informationsverdichter im Überblick<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 390
Informationsfilter und –verdichter im Überblick<br />
Informationsfilter<br />
Thematische Filter Nicht-thematische Filter<br />
Textsprachl. Methoden Dokumentationsmethoden<br />
Volltext (ASCII)<br />
Titelindexierung<br />
Textwortmethode<br />
Zitationsindexierung<br />
Klassifikation<br />
Schlagwortmethode<br />
Thesaurus<br />
Zielgruppe<br />
Themenbehandlung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 391
Informationsfilter und –verdichter im Überblick<br />
Informationsextraktion<br />
Informationsagent<br />
Informationsverdichter<br />
Referate semantisches Web<br />
Kurzreferat<br />
indikativ<br />
informativ<br />
analytisch<br />
Sammelreferat<br />
Ontologie<br />
Topic Map<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 392
Informationsfilter und –verdichter im Überblick<br />
Informationsarchitektur<br />
• Aufbau eines unternehmensweiten Informationssystems<br />
• Zusammenwirken von (Wirtschafts-)Informatik (Hardware,<br />
Software, Netze), Betriebswirtschaftslehre (Management,<br />
Organisation) und Informationswissenschaft (Content,<br />
Informationsfilter, Informationsverdichter)<br />
• Sicherstellen <strong>der</strong> Interoperabilität (etwa mittels XML)<br />
• Metadaten (Aufbau von Regelwerken für Dokumentauswertung)<br />
• Informationsfilter (Aufbau einer o<strong>der</strong> mehrerer Begriffsordnungen<br />
• Informationsverdichtung (Aufbau von Regelwerken für Abstracting)<br />
• Nutzerschnittstellen<br />
• Organisation des laufenden Betriebs<br />
Alan Gilchrist; Barry Mahon (Eds.): Information Architecture. Designing Information Environments for<br />
Purpose. – London: Facet Publ., 2004.<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 393
Informationsfilter und –verdichter im Überblick<br />
Informationsarchitektur – strategisches<br />
Management <strong>der</strong> Informationsfilter und -verdichter<br />
• Aufbau des/<strong>der</strong> grundlegenden Informationsfilter/s<br />
• Grundsatzentscheidung: Welche Methoden einsetzen?<br />
• Kandidaten:<br />
– Klassifikation<br />
– Schlagwortmethode<br />
– Thesaurus<br />
– Textwortmethode<br />
– Zitationsindexierung<br />
– Ontologie / Topic Map<br />
• stets zusätzlich: Informationsverdichtung durch Abstracting<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 394
Informationsfilter und –verdichter im Überblick<br />
Informationsarchitektur – strategisches Management <strong>der</strong><br />
Informationsfilter und -verdichter<br />
• Festlegen von dokumentarischer/n Bezugseinheit/en und<br />
Dokumentationswürdigkeit<br />
• Variante 1: ein Kriterienpaket für alle Dokumente, stets<br />
gleichbleibende DBE<br />
• Variante 2: mehrere Kriterienpakete, abhängig von <strong>der</strong> Relevanz <strong>der</strong><br />
Dokumente für die Datenbank („Schalenmodell“ von Krause)<br />
– Kern (hochrelevante Dokumente): tiefe und qualitativ hochwertige<br />
Erschließung; Abstracts<br />
– Schale 1 (weniger relevante Dokumente): nur Erschließung (mit<br />
Thesaurus, Klassifikation, Schlagwortmethode), keine Abstracts<br />
– ...<br />
– Schale n (noch weniger relevante Dokumente): nur automatische<br />
Titelindexierung<br />
Jürgen Krause: Informationserschließung und –bereitstellung zwischen Deregulierung, Kommerzialisierung und<br />
weltweiter Vernutzung – Schalenmodell. – Bonn: IZ Sozialwissenschaften, 1996. – (IZ-Arbeitsbericht; 6).<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 395
Informationsfilter und –verdichter im Überblick<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 396
Informationsfilter und –verdichter im Überblick<br />
Informationsarchitektur – strategisches<br />
Management <strong>der</strong> Informationsfilter und –verdichter<br />
• Dokumentationseinheiten selbst erstellen und/o<strong>der</strong><br />
zukaufen?<br />
• soweit externe Dokumentationseinheiten vorhanden sind:<br />
kaufen!<br />
• mittels unternehmensinternen Indexierungsmethoden und<br />
Hilfsmitteln neu indexieren (möglichst vollautomatisch)<br />
• interne Dokumente können nur selbst bearbeitet werden<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 397
Informationsfilter und –verdichter im Überblick<br />
interne Dokumente:<br />
selbst indexieren!<br />
externe<br />
Dokumentationseinheiten:<br />
zukaufen! neu indexieren!<br />
Quelle:<br />
Factiva<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 398
Informationsfilter und –verdichter im Überblick<br />
Informationsarchitektur – Organisation des<br />
laufenden Betriebs<br />
• Input: Wer erstellt die Dokumentationseinheiten?<br />
• Variante 1: intellektuell<br />
– zuerst: Verfasser <strong>der</strong> dokumentarischen Bezugseinheiten<br />
(Abstracts, Deskriptoren/Notationen/Schlagworte)<br />
– dann: Korrekturen / Ergänzungen durch Informationswissenschaftler<br />
• Variante 2: automatisch<br />
– Verfasser stellen die Dokumente in das Informationssystem<br />
(Abstracts möglichst intellektuell erstellen!)<br />
– Indexieren erfolgt durch Software (etwa FAST, Convera<br />
o<strong>der</strong> Verity)<br />
• Variante 3: semiautomatisch<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 399
Informationsfilter und –verdichter im Überblick<br />
Informationsarchitektur – Organisation des<br />
laufenden Betriebs<br />
• Datenbank: Wer pflegt die Datenbank und die Informationsfilter?<br />
– technisch: Netzwerkadministration<br />
– Content: Content-Administration (Informationswissenschaftler)<br />
• Output: Wer recherchiert?<br />
– einfache Anfragen; Bearbeiten <strong>der</strong> SDI: Endnutzer<br />
– komplizierte Anfragen; Anlegen <strong>der</strong> SDI: Content-<br />
Administration<br />
– weitere Dienste (z.B. Mitarbeiterzeitschrift, nicht geor<strong>der</strong>te<br />
Pushdienste): Content-Administration<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 400
Informationsfilter und –verdichter im Überblick<br />
Informationsarchitektur – Organisation des<br />
laufenden Betriebs<br />
• Aufbau <strong>der</strong> grundlegenden Informationskompetenz beim<br />
Endnutzer<br />
– Einführung in die Systemtechnik (Softwareschulung)<br />
– Einführung in die Informationsfilter (zum Selbstindexieren<br />
und zum Recherchieren)<br />
– Einführung in die Informationsverdichtung (zum<br />
Verfassen <strong>der</strong> Abstracts)<br />
– laufende Betreuung („Coaching“) <strong>der</strong> Nutzer<br />
• Wie?<br />
– Seminare (werden nicht immer besucht, da die laufende<br />
Arbeit Vorrang hat)<br />
– „Lunch-time Kurse“ (Nutzung <strong>der</strong> Mittagspausen)<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 401
Informationsfilter und –verdichter im Überblick<br />
Informationsfilter und –verdichter hinsichtlich<br />
Präkombinationsgrad <strong>der</strong> Begriffe<br />
Prä- Prä- Post-<br />
kombination koordination koordination<br />
Klassifikation ++ + 0<br />
Schlagwortmethode 0 + ++<br />
Thesaurus 0 + ++<br />
Textwortmethode 0 ++ 0<br />
Zitationsindexierung 0 0 +<br />
Abstracts 0 0 0<br />
Ontologie / Topic Map ++ ++ +<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 402
Informationsfilter und –verdichter im Überblick<br />
Informationsfilter und –verdichter hinsichtlich Suchen<br />
und Stöbern („Browsen“)<br />
Suchen Stöbern<br />
Klassifikation + ++<br />
Schlagwortmethode + 0<br />
Thesaurus ++ ++*<br />
Textwortmethode +** +***<br />
Zitationsindexierung + 0<br />
Abstracts 0 0<br />
Ontologie / Topic Map ++ ++<br />
* : nur bei graphischer Aufbereitung<br />
** : Probleme wg. Vielfalt <strong>der</strong> Textworte und <strong>der</strong>en Sprachen<br />
*** : nur bei informetrischer Aufbereitung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 403
Informationsfilter und –verdichter im Überblick<br />
Informationsfilter und –verdichter hinsichtlich Spracheinsatz<br />
kontroll. Notations- natürliche<br />
Vokabular* sprache Sprache**<br />
Klassifikation 0 + 0<br />
Schlagwortmethode + 0 0<br />
Thesaurus + 0 0<br />
Textwortmethode 0 0 +<br />
Zitationsindexierung 0 0 +***<br />
Abstracts 0 0 +<br />
Ontologie / Topic Map + 0 0<br />
* : Vokabular einer natürlichen Sprache<br />
** : ohne jede terminologische Kontrolle<br />
*** : Zitation als Teil natürlicher Sprache<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 404
Informationsfilter und –verdichter im Überblick<br />
Informationsfilter und –verdichter in einem<br />
multinationalen (mehrsprachigen) Unternehmen<br />
mehrsprachig einsetzbar?<br />
Klassifikation ++<br />
Schlagwortmethode +*<br />
Thesaurus ++**<br />
Textwortmethode 0<br />
Zitationsindexierung ++<br />
Abstracts +*<br />
Ontologie / Topic Map +**<br />
* : Zugriff nur über genau eine Sprache<br />
** : nur wenn multilingual, ansonsten Zugriff nur über genau eine<br />
Sprache<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 405
Informationsfilter und –verdichter im Überblick<br />
Informationsfilter und –verdichter hinsichtlich<br />
paradigmatischer und syntagmatischer Relationen<br />
paradigm. syntagmatische<br />
Relation Relation<br />
Klassifikation + +<br />
Schlagwortmethode 0 +<br />
Thesaurus + +<br />
Textwortmethode 0 +<br />
Zitationsindexierung 0 +<br />
Abstracts 0 +*<br />
Ontologie / Topic Map + 0<br />
* : nur beim Einsatz von Text Mining<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 406
Informationsfilter und –verdichter im Überblick<br />
Informationsfilter und –verdichter hinsichtlich<br />
Än<strong>der</strong>barkeit (neue Begriffe aufnehmen, alte än<strong>der</strong>n)<br />
keinerlei Än<strong>der</strong>ung Än<strong>der</strong>ung<br />
Aufwand „unten“ in Struktur<br />
Klassifikation 0 + 0 (aufwendig)<br />
Schlagwortmethode + (nur Aufwand für Abstimmung)<br />
Thesaurus 0 + +<br />
Textwortmethode +<br />
Zitationsindexierung + (da keine Ordnung vorhanden)<br />
Abstracts + (da keine Ordnung vorhanden)<br />
Ontologie / Topic Map 0 + +<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 407
Fazit<br />
Informationsfilter und –verdichter im Überblick<br />
– Die Informationsarchitektur liegt im Bereich des strategischen<br />
Management und definiert die Grundlagen <strong>der</strong> Informationsversorgung<br />
eines Unternehmens.<br />
• Grundsatzentscheidung: Welche(r) Informationsfilter?<br />
• u.U. Schalenmodell realisieren<br />
• Entscheidung, welche Informationen gekauft und welche selbst<br />
erstellt werden<br />
• Organisation des laufenden Betriebs<br />
– Klärung <strong>der</strong> Anfor<strong>der</strong>ungen an die Informationsarchitektur<br />
(etwa: Ausbaufähigkeit <strong>der</strong> Begriffsordnung; Darstellbarkeit<br />
syntagmatischer Relationen) hinsichtlich <strong>der</strong> Informationsfilter<br />
und <strong>der</strong> Methoden zur Informationsverdichtung<br />
HHU Düsseldorf – SS 2004 <strong>Wissensrepräsentation</strong> 408