Geschichte der Wissensrepräsentation

Heinrich-Heine-Universität Düsseldorf - Informationswissenschaft 

Wissensrepräsentation 

Wolfgang G. Stock 

HHU Düsseldorf – SS 2004 Wissensrepräsentation 1


Wissensrepräsentation – Was ist das? 

Wissen – Informationsinhalt – „Content“ 

Erschließen von Wissen 

Erschließen von Dokumenten 

genauer: Erschließen des Inhalts von Dokumenten 


ASPEKT 1 

Aufbau von Werkzeugen 

der 


z.B. 

Aufbau eines Klassifikationssystems 

Thesaurusaufbau 

Regelwerk für Abstracting 


ASPEKT 2 

Inhaltserschließung 

konkreter 

Dokumente 

z.B. 

Klassieren eines Buches nach dem 

Klassifikationssystem 

Indexieren nach dem Thesaurus 

Verfassen eines Abstracts 



• „Wissensrepräsentation“ : Abbildung von Wissen 

(„Content“) vor allem in digitalen Systemen; Erschließung 

des Informationsinhalts 

• Ziel: Wissen bei Bedarf (möglichst) exakt zu finden und in 

die aktuellen Arbeitsläufe einzubinden 

• hierbei benötigt: 

– METHODEN der Wissensrepräsentation (wie Thesaurus, 

Klassifikation usw.) 

– und konkrete WERKZEUGE (etwa den Standard- 

Thesaurus Wirtschaft oder die IPC) 

– praktische Tätigkeit: INDEXIEREN 



• inhaltlich erschlossene Retrievalsysteme finden Einsatz 

als 

– Suchwerkzeug für das WWW oder für einen 

Ausschnitt daraus (derzeit kaum realisiert) 

– Suchwerkzeug bei kommerziellen Anbietern 

elektronischer Informationsdienste (nahezu 

durchgängig realisiert) 

– Suchwerkzeug bei unternehmensweiten Intranets 

oder „Enterprise Information Portals“ (derzeit in 

„Boomphase“ im Zusammenhang mit Knowledge 

Management) 


Informationsbedarf 

Wissens- repräsentation 

Treffer 

Information 

Retrieval 

Frage 

DE 

Dokumentationseinheiten 

Vergleich 


Begriffe 

Information 

Indexing 

DBE 

Dok. 

Bezugseinheiten 


Wissensrepräsentation / Themen (1) 

Geschichte der Wissensrepräsentation 

Begriffe und Begriffsordnungen: 

Gegenstände, Begriffe, Synonyme, Homonyme, Definitionen, 

Begriffsordnungen, paradigmatische und syntagmatische 

Relationen, Mono- und Polyhierarchie, Dimensionalität, 

Facetten 

Dokumente und ihre Strukturierung: 

Dokumente: Texte und Objekte - Datenstrukturierung 

(Metadaten) - Datenbankdesign - formale Erfassung, 

inhaltliche Erschließung 



Dokumentationssprachen I: Klassifikationssysteme 

Klasse und Notation, Universalklassifikationen (Bsp.: Dezimalklassifikation), 

Technikklassifikationen (Bsp.: Internationale 

Patentklassifikation), Wirtschaftsklassifikationen (Bsp.: Branchen- und 

Produktklassifikationen), Klassifikationen im WWW (Bsp.: Yahoo!), 

Medizinklassifikation (Bsp.: ICD-10) 

Dokumentationssprachen II: Schlagwortmethode 

Dokumentationssprachen III: Thesauri 

Thesauruserstellung nach DIN 1463, Deskriptoren und Relationen, 

multilinguale Thesauri, gleichordnendes Indexieren, syntaktisches 

Indexieren, „höhere“ Thesaurusformen 

Bsp.: Standard-Thesaurus Wirtschaft, Thesaurus Technik und 

Management, EXPO-INFO 2000 



Textsprachliche Methoden: 

Volltextspeicherung, Titelindexierung, 

Textwortmethode, Bsp.: Datenbank zur österreichischen Philosophie, 

Zitationsindexierung, Bsp.: Web of Science (ISI) 

Nicht-thematische Informationsfilter: 

Zielgruppe, Art der Themenbehandlung, Verfallsdatum 

Automatische Indexierung: 

Klassifikation nach Ähnlichkeit – zuteilende Indexierung bei Einsatz einer 

Dokumentationsmethode 



Abstracts: 

Inhaltsangaben nach DIN 1426, indikative, informative, analytische 

Abstracts, Sammelreferate, automatisches Abstracting 

Informationsextraktion: 

Extraktionsmethoden, Informationsagenten 

Das semantische Web: 

Ontologien, Topic Maps 

Informationsfilter und –verdichter im Überblick: 

Informationsarchitektur, Zusammenfassung der Methoden der 



Wissensrepräsentation - Basisliteratur 

• Marianne Buder et al. (Hrsg.): Grundlagen der praktischen Information 

und Dokumentation. – München: Saur, 4 1997. 

• Donald B. Cleveland; Ana D.Cleveland: Introduction to Indexing and 

Abstracting. – Englewood, NJ: Libraries Unlimited, 1990. 

• Heting Chu: Information Representation and Retrieval in the Digital Age. 

– Medford, NJ: Information Today, 2003. – (Chap. 1 – 4). 

• Robert Fugmann: Inhaltserschließung durch Indexieren: Prinzipien und 

Praxis. – Frankfurt: DGD, 1999. 

• Wilhelm Gaus: Dokumentations- und Ordnungslehre. – Berlin: Springer, 

2002. 

• Christa Ladewig: Grundlagen der inhaltlichen Erschließung. – Potsdam: 

Institut für Information und Dokumentation, 1997. 

• F. Wilfrid Lancaster: Indexing and Abstracting in Theory and Practice. – 

Champaigne, IL.: Graduate School of Library and Information Science, 

2 1998. 

• Wolfgang G. Stock: Informationswirtschaft. Management externen 

Wissens. - München; Wien: Oldenbourg, 2000. – (Kapitel 3). 


Geschichte der Wissensrepräsentation


• Aufstellordnungen in Bibliotheken (ab Antike) 

• Abstracts (19. Jahrhundert) 

• Wortschätze (19. Jahrhundert) 

• Klassifikationssysteme (19. Jahrhundert) 

• Thesauri (ca. 1950) 

• Zitationsindexierung (ca. 1960) 

• Textwortmethode (ca. 1970) 

• automatische Indexierung mit kontrolliertem 

Vokabular (ca. 1990) 

• Topic Maps und Ontologien (ca. 1990) 

• semantisches Web (ca. 2010 – wenn überhaupt) 

Evgenij I. Samurin: Geschichte der bibliothekarisch-bibliographischen Klassifikation. – Pullach: 

Verl. Dokumentation, 1967 (Bd. 1), 1968 (Bd. 2). 

Ingetraut Dahlberg: Grundlagen universaler Wissensordnung. – Pullach: Verl. Dokumentation, 1974. 



• „Pinakes“ des Kallimachos von Kyrene 

(ca. 310 – 240 v.Chr.) 

• systematischer Katalog der Bibliothek 

von Alexandria 

• Systematik für rund 120.000 Schriftrollen 

• Hauptklassen: 

– Rhetorik 

– Recht 

– Epik 

– Tragödie 

– Komödie 

– Lyrik 

– Geschichte 

– Medizin 

– Mathematik 

– Naturwissenschaft 

– Verschiedenes 

Rudolf Blum: Kallimachos: The Alexandrian Library and the Origins of 

Bibliography. – Madison, Wisc.: Univ. of Wisconsin Press, 1991. 



• Systematik der Buchaufstellung im Mittelalter: 

„Geheimwissenschaft“ 

Eco‘s „Labyrinth“ in „Der Name der Rose“ 

Umberto Eco: Il nome della rosa. – Milano: 

Ed. Fabbri-Bompiani, 1980. 



• „Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316) 

• universelles Begriffssystem 

auf der Basis der Kombinatorik 

• konzentrische Scheiben, jeweils mit 

zentralen Begriffen einer Kategorie 

• Scheiben können gedreht werden, 

so dass Kombinationen der Begriffe 

entstehen 

Norbert Henrichs: Wissensmanagement auf Pergament und 

Schweinsleder. Die ars magna des Raimundus Lullus. – In: 

Josef Herget; Rainer Kuhlen (Hrsg.): Pragmatische Aspekte 

beim Entwurf und Betrieb von Informationssystemen, 

Konstanz: Universitätsverl. Konstanz, 1990, S. 567-573. 



• „Ars Magna“ von Raimundus Lullus (ca. 1232 – 1316) 



• Frühe Zeitschriften als Medium der 

Wissensverdichtung 

• „Journal des Scavans“: erste Zeitschrift, 

gegründet 1665 

• Aufgabe: zunächst Überblicksartikel, da 

das Wissen in Büchern zu umfangreich 

wurde 

• später: Publikation von Forschungsberichten 

• Aufschwung der Zeitschriftenliteratur 

• Folge: auch das Wissen in Zeitschriften 

wurde zu umfangreich 

Manfred Bonitz: Notes on the development of secondary periodicals from the „Journal des Scavans“ to the 

„Pharmaceutisches Central-Blatt“. – In: International Forum on Information and Documentation 2 (1977) 1, S. 26-31. 


Geschichte 

• Gründung von 

Referatezeitschriften 

• „Geburt“ der Abstracts als 

Form der 

Wissensverdichtung 

• 1830: Pharmaceutisches 

Central-Blatt; später: 

Chemisches Zentralblatt 

• 1907: Chemical Abstracts 



• Thesaurus of English Words and Phrases (1852) 

• Peter Mark Roget (1779 – 1869) 

• Sekretär der „Royal Society“ - London 

• Thesaurus kreiert: 1805; publiziert: 1852 

• System „of the ideas which are expressible 

by language“ – rund 15.000 Worte 

• Klassen: 

– I: Abstract Relations 

– II: Space 

– III: Matter 

– IV: Intellectual Faculties 

– V: Voluntary Powers 

• Synonymwörterbuch 

Werner Hüllen: A History of Roget‘s Thesaurus – Origins, 

Development, and Design. – Oxford: Oxford Univ. Press, 

2003. 



• Roget. Faksimile des ersten Eintrags 

(Skript zur ersten Auflage) 

• „Existence“ 

• CLASS I: WORDS EXPRESSING 

ABSTRACT RELATIONS 

• SECTION I. EXISTENCE 

• 1. BEING, IN THE ABSTRACT 

• #1. Existence.-- N. existence, being, 

entity, ens[Lat], esse[Lat],subsistence. 

reality, actuality; positiveness c. adj.; fact, 

matter of fact, soberreality; truth c. 494; 

actual existence. presence c. (existence 

in space) 186; coexistence c. 120. 

stubborn fact, hard fact; ... 



• DDC (Dewey Decimal Classification) – 1876 

• Melvil (Melville Louis Kossuth) Dewey 

(1851 – 1931) 

• 1870: Student am Amherst College 

• stud. Hilfskraft an der Bibliothek 

• 1874: Abschluss in Bibliothekswesen 

• Aufbau eines Klassifikationssystem für die 

Bibliothek des Amherst College 

Stephen Gordon; Judith Kramer-Greene: Melvil Dewey: The Man and the Classification. – Albany: Forest Press, 

1983. 

Fremont Rider: American Library Pioneers VI: Melvil Dewey. – Chicago: American Library Association, 

1972. 

Sarah Vahn: Melvin Dewey: His Enduring Presence in Librarianship. – Littletown: Libraries Unlimited, 

1978. 



• DDC (Dewey Decimal Classification) – 1876 

• „A Classification and Subject Index for Cataloguing and 

Arranging the Books and Pamphlets of a Library“ (1876; 

anonym) 

• 1876: Bibliothekar in Boston 

• 1883: Bibliothekar am 

Columbia College (später: 

Direktor der New York State 

Library) 

• 1890: Präsident der ALA 

(American Library Association) 

Bibliothek des Amherst College 



• DDC. Grundidee: Notationen der Klassen als Dezimalzahlen 

– 000 Generalities 

– 100 Philosophy 

– 200 Religion 

– 300 Social Sciences 

– 400 Language 

– 500 Natural Sciences, Mathematics 

– 600 Technology (Applied Sciences) 

– 700 The Fine Arts 

– 800 Literature and Rhetoric 

– 900 Geography, History 

• Die Grundidee erweist sich als sehr 

erfolgreich. 



• DDC. Beispiel einer Katalogkarte 

• Original von Dewey 

• Class 207: 

Religion: Study and 

Teaching 

• Book P: 

Princeton 



• Paul Otlet (1868 - 1944 ) und Henri La Fontaine 

(1854 – 1943) 

• (1) „Väter“ der Dokumentation 

• (2) Einführung der dezimalen Klassifikation in 

Europa 

• (3) Gründung eines internationalen Verbandes für 

Dokumentation 

W. Boyd Rayward: The Universe of Information. The Work of Paul Otlet for Documentation and International 

Organization. – Moscow: VINITI, 1975. 

Eric H.W. van Binsbergen: La philosophie de la Classification décimale universelle. – Liège: Centre de 

Lecture Publique, 1994. 

Georges Lorphèvre: Henri LaFontaine, 1854-1943 – Paul Otlet, 1868-1944. – In: Revue de la Documentation 

21 (1954) 3, 89-103. 

Hervé Hasquin: Henri la Fontaine – un Prix Nobel de la Paix: tracé(s) d‘une vie. – Mons: Mundaneum, 2002. 



• Henri La Fontaine 

• geb. 1854 in Brüssel 

• Prof. für Internationales Recht 

• Mitglied des belgischen Senats 

• Friedensbewegung (u.a. Präsident 

des „International Peace Bureau“) 

• 1895: Gründung des „Institut 

International de Bibliographie“ (mit 

Otlet) 

• Friedensnobelpreis 1913 



• Paul Otlet 

• geb. 1868 in Brüssel 

• 1895: Gründung des „Institut 

International de Bibliographie“ (mit La 

Fontaine) 

• ab 90er Jahre: Reorganisation und 

(französische) Übersetzung von Deweys 

Dezimalklassifikation 

• 1904-1907: Erste komplette Ausgabe der 

„Classification Décimale Universelle“ – 

CDU („Universal Decimal Classification“ 

– UDC bzw. „Dezimalklassifikation“ DK) 

• DK: Haupttafel (wie DDC) und 

„Anhängezahlen“ 


• Paul Otlet 


• (mit La Fontaine): ab 1919 in 

Brüssel: Plan eines Zentrums für 

das gesamte Weltwissen – 

systematisch geordnet als Weltbibliographie: 

„Mundaneum“ (Plan 

scheiterte – Mundaneum heute 

Museum in Mons) 

• 1934: „Traité de documentation“ . – 

Bruxelles: Ed. Mundaneum. 

(Grundlagenwerk der 

Dokumentation) 

www.mundaneum.be 


• FID 


• 1895: Institut International de 

Bibliographie (von Otlet und La 

Fontaine in Brüssel gegründet) 

• ab 1895: Publikation einzelner DK- 

Tafeln 

• 1931: Institut International de 

Documentation 

• 1986: Fédération Internationale 

d‘Information et de Documentation 

– FID (heute in Den Haag) 

Sonderstempel der österreichischen Post 

www.fid.nl 

Cent ans de l‘Office International de Bibliographie: 1895 – 1995. – Mons: Ed. Mundaneum, 1995. 



• Shiyali Ramamrita Ranganathan (1892 – 1972) 

Facettenklassifikation 

• zunächst Bibliothekar (in Madras), danach 

Professor für Bibliothekswissenschaft (in 

Varanasi und Delhi), später Leiter des 

„Documentation Research and Training 

Centre“ (Bangalore) 

• Kritik der DDC / DK: zu starr 

• Einsatz von Facetten: „Colon Classification“ 

(1933) 

• syntaktisches Indexieren mittels Ketten: „Headings and 

Canons“ (1955) 

Eugene Garfield: A tribute to S.R.Ranganathan. Part 1: Life and works. – In: Eugene Garfield: Essays of an 

Information Scientist. Vol. 7. – Philadelphia, PA: ISI Press, 1984, 37-44. 



• Shiyali Ramamrita Ranganathan (1892 – 1972) 

Facettenklassifikation 

• fünf Grundfacetten (PMEST) 

– Wer? – Personalität (Trennzeichen: , ) 

– Was? – Material ( ; ) 

– Wie? – Energie ( : „colon“) 

– Wo? – Raum ( . ) 

– Wann? – Zeit ( ' ) 

– zusätzlich: Disziplin 

• Beispiel: L,45;421:6;253:f.44‘N5 

Medizin , Lunge ; (Tuberkulose : Behandlung) ; 

(Röntgenstrahlen : Forschung) . Indien ' 2004 



• Thesauri: DAS Vorbild 

MeSH 

• Medical Subject Headings (MeSH) 

• erstellt von der National Library of Medicine (USA) 

• entworfen ab ca. 1954 (Vorläufer ab ca. 1940) 

• publiziert mit dem neuen „Index Medicus“ 1960 

Carolyn E. Lipscomb: Medical Subject Headings (MeSH). – In: Bulletin of the Medical Library Association 88 

(2000), 265-266. 

W.D.Miles: A History of the National Library of Medicine. – Bethesda, MD: U.S. Dept. of Health and Human 

Services, 1982. 


• MeSH 


• kontrolliertes Vokabular 

• Relationen zwischen den Begriffen 

• alphabetische Ordnung der Worte 

• systematische Ordnung der Begriffe 

• syntaktisches Indexieren durch Aspekte („subheadings“) 

möglich 

• gewichtete Indexierung im Zwei-Klassen-Verfahren 

• Thesaurus wird als dynamische Liste der Begriffe 

verstanden. Änderungen sind jederzeit möglich 

• 1960: Start des Projektes MEDLARS (Medical Literature 

Analysis and Retrieval System) unter Einsatz von Computern 

• auch MeSH wird mittels EDVA gepflegt 



Fokus-Deskriptor 

mit Subheading 

Fokus-Deskriptor 

Deskriptor mit 

Subheading 


• Thesauri 


• erweisen sich im Laufe der 60er Jahre (und später) als 

erfolgreich 

• eine Periode der Zweiteilung der Methoden der 

Wissensrepräsentation beginnt: 

• (1) Klassifikationssysteme: Einsatz vor allem in Bibliotheken; 

Einsatz ohne Zuhilfenahme der EDV 

• (2) Thesauri: Einsatz vor allem bei fachlichen Datenbanken; 

EDV-Einsatz 

• zusätzlich: Suche nach alternativen Ansätzen 

I.Lerch: Das Dokumentationshilfsmittel Thesaurus. – In: Bibliothek. Forschung und Praxis 6 (1982), 47-73. 

N. Roberts: Historical studies in documentation: The pre-history of the information retrieval thesaurus. – In: 

Journal of Documentation 40 (1984), 271-285. 



• Zitationsindexierung 

• Eugene Garfield (1925 - ) 

• ab 1951: Mitarbeit bei der 

Medizindokumentation 

• Kritik an MeSH: Indexierung ist zu 

langsam; Vokabular ist zu starr; 

Indexierung fremdsprachiger 

Artikel problematisch 

• Entdeckung der wissenschaftlichen 

Fußnote als Hilfsmittel der 


• 1958: Gründung des Institute for Scientific Information (ISI) 

Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979. - Eugene Garfield; Wolfgang G. Stock: 

Citation Consciousness (Interview mit Garfield). – In: Password Nr. 6 (2002), 22-25. 



• Titelindexierung 

• Hans Peter Luhn (1896 – 1964) 

• geb. 1896 in Barmen; ab 1924 in den 

USA; ab 1941 bei IBM 

• Extraktion von Stichworten aus den 

Sachtiteln der Dokumente 

• 1958: Keyword in Context: KWIC 

• „Entdeckung“ des Leerzeichens 

• Stoppworte 

Claire K.Schultz: H.P.Luhn: Pioneer of Information Science – Selected Works. – London: Macmillan, 1968. 



• Textwortmethode 

• Norbert Henrichs (1935 - ) 

• wörterbuchunabhängige 

Dokumentationsmethode 

• entwickelt an der 

Forschungsabteilung für philosophische 

Information und Dokumentation der Universität 

Düsseldorf 

• ab ca. 1967 

Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969), 

122-131. 



• Erste Online-Informationsanbieter („Hosts“) 

• Entwicklungen in den 60er und frühen 70er Jahren 

• DIALOG (maßgeblich: Roger Summit); online: 1972 

• ORBIT (Carlos Cuadra); online: 1972 (heute: Questel-Orbit) 

• Mead Data Central (Richard Giering); online: 1973 (heute: 

Lexis-Nexis) 

• BRS (Jan Edgeland; Linda Palmer; Ron Quake); online: 1977 

(heute: Ovid Technologies) 

• Methoden und Werkzeuge der Wissensrepräsentation 

müssen online-tauglich werden. 

Charles P. Bourne; Trudi Bellardo Hahn: A History of Online Information Services, 1963-1976. – Cambridge, Mass.; 

London: MIT Press, 2003. 



• 1989: Einführung der automatischen Indexierung beim Einsatz 

einer Dokumentationssprache 

• bei Reuters Ltd. London 

• eingesetzt wird CONSTRUE – TIS 

(Categorization of News STories Rapidly, Uniformly, and 

Extensible – Topic Identification System) 

• CONSTRUE-TIS: Entwicklung bei der Carnegie Group in 

Pittsburgh 

• arbeitet mit einer Zuverlässigkeit von 90% gegenüber 

menschlichen Indexern (zumindest nach eigenen Aussagen) 

Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of news 

stories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications 

of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66. 



• Tim Berners-Lee (1955 - ) 

Sir Timothy John Berners-Lee 

• geb. 1955 in London 

• ab 1984: Mitarbeiter beim CERN 

• Entwicklung des WWW 

• August 1991: erste Webseite (CERN) 

1994: Gründung des World Wide Web 

Consortiums (Laboratory for Computer 

Science / MIT) 

seit 90er Jahre: Bemühungen um das 

semantische Web 

T.Berners-Lee; R.Cailliau; A.Luotonen; H.F.Nielsen; A.Secret: The World Wide Web. – In: 

Communications of the ACM 37 (1994) 8, 76-82. 

Tim Berners-Lee; Mark Fischetti: Weaving the Web. – San Francisco: Harper, 1999. 


• Winfried Gödert 


• der Experte für Wissensrepräsentation im 

deutschsprachigen Raum 

• Leiter des Labors für bibliographisches Information 

Retrieval der FH Köln 

• bibliographische Datenbank zur Inhaltserschließung 

• Linkliste zu Klassifikationssystemen und Thesauri im WWW 

• dt. Übersetzung der DDC 

Winfried Gödert: Einführung in Probleme und Methoden der inhaltlichen Dokumenterschließung. – Köln: FH Köln, 

1997. – [Begleitmaterial zu Lehrveranstaltungen]. 

Datenbank: www.fbi.fh-koeln.de/institut/labor/bir/suche.htm 

Linkliste: www.fbi.fh-koeln.de/institut/labor/bir/thesauri_new/index.htm 


Begriffe und Begriffsordnungen

Begriffe und Begriffsordnungen 

Begriffe / Begriffsordnungen 

Grundlegende Literatur 

• DIN 2330: Begriffe und Benennungen 

• DIN 2331: Begriffssysteme und ihre Darstellung 

• ISO 704:2000: Terminology Work – Principles and Methods 

• Albert Menne: Einführung in die Methodologie. – 

Darmstadt: Wissenschaftliche Buchgesellschaft, 1980. 

• Tadeusz Pawlowski: Begriffsbildung und Definition. – Berlin 

/ New York: de Gruyter, 1980 

• Ingetraut Dahlberg: Die gegenstandsbezogene, analytische 

Begriffstheorie und ihre Definitionsarten. – In: Beiträge zur 

Begriffsanalyse. – Mannheim [u.a.]: BI Wissenschaftsverl., 

1987, 9-22. 


GEGENSTAND 


• Gegenstand: “alles, was uns entgegensteht”, “etwas als 

etwas erkennen” 

• Gegenstände im Rahmen der “Gegenstandstheorie” 

(Alexius Meinong): 

Gegenstand psychischer Akt Erlebnis Erlebni 

Objekt Empfindung / Phantasie Vorstellen 

Sachverhalt Urteil / Annahme Denken 

Alexius Meinng: Über Gegenstandstheorie. – In: A.Meinong (Hrsg.): Untersuchungen zur Gegenstandstheorie und 

Psychologie. – Leipzig: Barth, 1904, 1-50. 



GEGENSTAND einer dokumentarischen Bezugseinheit (DBE) 

• Empfindungsobjekt: Information über reale Gegenstände (Bsp.: Baker 

Street in London) 

• Phantasieobjekt: Information über fiktive Gegenstände (Bsp.: Sherlock 

Holmes Wohnung in der Baker Street) 

• Urteilssachverhalt: Information über Tatsachenaussagen (im Rahmen 

einer Theorie für wahr angesehene Aussage) 

• Annahmesachverhalt: Information über hypothetische Aussagen (im 

Rahmen einer Theorie für plausibel angesehene Aussage, deren 

Wahrheit offen ist) 

OBJEKTE in DBE werden in DE durch Begriffe, SACHVERHALTE der 

DBE werden in DE durch Sätze beschrieben. 



BEGRIFF 

• Ein Begriff ist die Zusammenfassung gewisser 

Objekte unter eine Klasse. 

• Begriffsbestimmung 

– extensional (Begriffsumfang; Aufzählung der 

Elemente der Klasse). M =df {x , x , ...., x , ...} 

1 2 

Bsp.: „Deutsche Bundesländer“ =df 

{Nordrhein-Westfalen, Bayern, ..., Berlin} 

– intensional (Begriffsinhalt; Angabe der 

klassen-bildenden Merkmale). M =df ∀x. f(x) u 

f‘(x) u f‘‘(x) ... 

Bsp.: „Deutsche Bundesländer“ =df „ist ein 

Bundesland“ u „liegt in der Bundesrepublik 

Deutschland“ 

HHU Düsseldorf – SS 2004 Wissensrepräsentation 48 

i

BEGRIFF 

Benennung(en) 

z.B. Wort 


Merkmale 

Objekt(e) 

Begriff (Klasse) 


(andere) Zeichen 


BEGRIFF 

Benennung(en) 

z.B. Wort 

„Wirklichkeit“ 


Merkmale 

Objekt(e) 

Nutzer 

Begriff (Klasse) 



BEGRIFF 


• SYNTAKTIK. Struktur der Benennung; 

Beziehungen der Benennung (Zeichen) zu anderen 

Zeichen 

• SEMANTIK: Beziehungen zwischen Benennung 

(Zeichen) und Objekt (bzw. Vorstellungsinhalt) 

• PRAGMATIK: Beziehungen zwischen Benennung 

(Zeichen) und Zeichenbenutzer 

Was heißt das? 

BAPHA 


BEGRIFF 

• Begriffsarten 


– Individualbegriff (Klasse hat genau ein Element) – 

Benennung: (Eigen-)Name 

Bsp.: Karl Marx; Sherlock Holmes; Bayessches Theorem, 

2. Hauptsatz der Thermodynamik 

– Allgemeinbegriff (Klasse hat mehrere Elemente) 

Bsp.: Stuhl, Zahl, Studentin der Informationswissenschaft, 

NaCl 

– Kategorie (Begriff allgemeinster Art) 

Bsp.: Person, Materie, Energie, Raum, Zeit (à la 

Ranganathan) 

oder: Branche, Raum, Aspekt (im Kontext der Wirtschaft) 



EXAKTHEIT von Begriffen 

• exakter Begriff: Klassengrenze ist genau bestimmbar 

• vager Begriff: Klassengrenze ist - an den „Rändern“ - nicht genau 

bestimmbar, „fuzzy“) 

Beispiel: Stuhl-Museum von Max Black 

Max Black: Vagueness. An exercise in logical analysis. – In: Philosophy of Science 4 (1937), 425-455. 

SELBSTÄNDIGKEIT von Begriffen 

• kategorematischer Begriff: Begriff steht für sich allein 

• synkategorematischer Begriff: Begriff kann in einem Kontext nicht 

allein stehen 

Beispiel: 

10 - 12 



• Wort: (nicht unbedingt eindeutiger) sprachlicher Ausdruck 

eines Begriffs 

• Synonym: Begriff, der durch mehrere Worte ausgedrückt 

werden kann (Beispiel: Samstag, Sonnabend) 

• Homonym: Wort, das mehrere unterschiedliche Begriffe 

ausdrückt, wobei die Worte unterschiedlichen Ursprüngen 

entstammen (Beispiel: kosten [„schmecken“ - althochdt. 

koston], kosten [„wert sein“ - altfrz. coster]) 

• Homophon: Homonym im Laut (Beispiel: Leere – Lehre) 

• Polysem: Wort, das mehrere unterschiedliche Begriffe 

ausdrückt, wobei die Worte einen gleichen Ursprung haben 

(Beispiel: Knie [Gelenk am Körper], Knie [Werkstück]) 

• Der Unterschied zwischen Homonym und Polysem ist nicht 

immer klar; in der Informationswissenschaft werden die 

hierdurch entstehenden Probleme gemeinsam behandelt. 



STICHWORT - SCHLAGWORT 

• Stichwort: Wort, das faktisch in einer dokumentarischen 

Bezugseinheit vorkommt („token“: konkrete Realisierung 

eines Wortes, eines „types“) 

• Lexem: grammatikalische Grundform eines Wortes 

Beispiel: ... den Kühen ... ; Lexem: Kuh 

• Wortstamm: entsteht durch Präfix- oder Suffixabtrennung 

Beispiel: ... retrieved ...; Stamm: retriev 

• Schlagwort: Wort (in Grundform), das einer dokumentarischen 

Bezugseinheit zugeordnet wird 

• Thema: Objekt, das in einer dokumentarischen 

Bezugseinheit abgehandelt wird; „das, worüber es geht“; 

Repräsentation eines Thema in einer Dokumentationseinheit: 

durch Stich- oder Schlagworte 



DEFINITION 

• (1) Definition als Abkürzung. Definiendum =df Definiens 

Beispiele: M =df 1.000 

Erpel =df männliche Ente 

• (2) Deutungsvorschrift von Kalkülen. 

Deutung bzw. Interpretation von Zeichen 

Beispiel: p ---> q v ~q 

w w w w f 

w w f w w 

f w w w f 

f w f w w 

Deutung: p, q Aussagevariablen; w, f Wahrheitswerte 

~ Negation; --> Implikation; v Disjunktion 



• (3) Begriffserklärung 

Begriff =df Teilbegriff 1 + Teilbegriff 2 + ... 

• Begriffssynthese: ausgehend von Teilbegriffen 

Begriffsanalyse: ausgehend vom Begriff 

• “Klassische” Variante: Definition durch genus und differentia 

– genus: Artbegriff 

– differentia: “wesenskonstitutiver” Unterschied 

– accidens: zufällige Eigenschaft (darf nicht verwendet werden) 

Beispiel “Homo est animal rationale”: 

Mensch =df Lebewesen + vernunftbegabt 

nicht: Mensch =df Lebewesen + Haarfarbe nicht blond 

• Begriffserklärungen eignen sich besonders gut für hierarchische 

Begriffsordnungen (Klassifikation oder Thesaurus) 



• (4) Zeichenerklärung (Nominaldefinition) 

Feststellung der Bedeutung eines Begriffes in einem 

bestimmten Kontext. Aussage mit (zu begründendem) 

Wahrheitsanspruch. 

Beispiele: “Metaphysik” bei Aristoteles 

“Steuererhöhung” bei der Bundesregierung 

“Armut” in der empirischen Sozialforschung 

• (5) Sacherklärung (Realdefinition) 

Feststellung der Bedeutung eines Begriffes durch das 

“Wesen” seines Gegenstandes. Aussage mit (zu 

begründendem) Wahrheitsanspruch. 

Beispiel: Artikel „Geschirrspülmaschine“ im Brockhaus 

• Zeichen- und Sacherklärungen kommen typisch in 

enzyklopädischen Wörterbüchern vor. 



• (6) Explikation 

Übernahme (ggf. ungenauer) Alltagsbegriffe in die 

Wissenschaftssprache, dabei Präzisierung 

• Bedingungen: 

– wissenschaftliche Nützlichkeit 

– Präzision 

– Ähnlichkeit mit dem Ausgangsbegriff 

– Einfachheit 

Beispiel: Alltagsbegriff: Arbeit 

Physik: Arbeit =df Kraft * Weg * Winkel 

Soziologie: Arbeit =df auf ein wirtschaftliches 

Ziel gerichtete, planmäßige menschliche 

Tätigkeit 



• (7) Definition von Bedeutungsfamilien 

Einige Begriffe können nicht über eine Konjunktion von 

Merkmalen definiert werden, die für alle gelten; vielmehr 

liegen unterschiedliche Teilmengen vor (Ludwig 

Wittgenstein: “Familienähnlichkeit”) 

Beispiel: Gemüse =df Wurzel- und Knollengemüse, Blattund 

Stielgemüse, Fruchtgemüse, Kohlgemüse 

• (8) Persuasive Definition 

Begriffsbildung mit emotionalen Einstellungen (gefühlsmäßigen 

Assoziationen) 

Beispiele: rein (Waschmittelwerbung; positive Einstellung) 

Jude (Nazi-Deutschland; negative Einstellung) 



• Im Überblick: 

Definitionsarten 

• (1) Definition als 

Abkürzung 

• (2) Deutungsvorschrift 

eines Kalküls 

• (3) Begriffserklärung 

• (4) Nominaldefinition 

• (5) Realdefinition 

• (6) Explikation 

• (7) Bedeutungsfamilien 

• (8) persuasive Definition 

• Definitionen in Systemen 


Wissensrepräsentation: 

• jeder in einer Dokumentationssprache 

verwendete 

Begriff sollte in Extension 

und Intension klar und deutlich 

sein 

• für hierarchische Systeme 

eignen sich besonders 

Begriffserklärungen und 

Definitionen mit Bedeutungsfamilien 


Ordnung 


• Gesamt einer Menge M von Objekten x, y, ... und einer 

Menge von Relationen ρ zwischen den Objekten 

O = M, ρ 

• Bei Begriffsordnungen sind die Objekte Begriffe und die 

Relationen Beziehungen zwischen Begriffen 

• Es gibt zweistellige Relationen (Bsp.: ρ = „x ist Oberbegriff 

von y“) und mehrstellige Relationen (Bsp.: ρ = „heilt x 

[jemanden] mittels y [Arznei] von z [Krankheit]“) 

• Relationen sind reflexiv (irreflexiv), symmetrisch 

(asymmetrisch) bzw. transitiv (intransitiv) 

R - S - T 



RST (bei zweistelligen Relationen) 

• Reflexivität: x ρ x (Bsp.: „ist identisch mit“) 

• Irreflexivität: -(x ρ x) (Bsp.: „ist Ursache von“) 

• Symmetrie: x ρ y � y ρ x (Bsp.: „ist gleich“) 

• Asymmetrie: x ρ y � -(y ρ x) (Bsp.: „liebt unglücklich)“ 

• Transitivität: [(x ρ y) u (y ρ z)] � (x ρ z) (Bsp.: „ist größer als“) 

• Intransitivität: [(x ρ y) u (y ρ z)] � -(x ρ z) (Bsp.: „ist ähnlich mit“) 

Allgemeine Relationen in Begriffsordnungen 

• Äquivalenz: x ist äquivalent y (R - S - T) 

• Unterbegriff*: x ist Unterbegriff von y (-R - -S - T) 

• Oberbegriff*: x ist Oberbegriff von y (-R - -S - T) 

• verwandter Begriff: x ist mit y verwandt (-R - S - -T) 

* (Abstraktionsrelation) 



Assoziationsrelation 

Relationen in Begriffssystemen 

Begriffsleiter 

A 

Topterm 

B C 

D Begriffs- E -reihe 

F 

Bottomterms 

Hierarchierelation 

Polyhierarchie 

G H I 



Terminologische Kontrolle 

• durch Zusammenfassung bestimmter Bezeichnungen zu 

einem Begriff (Synonyme, Akronyme, Quasi-Synonyme) 

mittels Äquivalenzrelation 

• durch Trennung homonymer Bezeichnungen zu unterschiedlichen 

Begriffen 

• ggf. durch Zerlegung („Zerlegungskontrolle“) 

• wenn möglich; stets wenn nötig: Definition 

• Arten terminologischer Kontrolle: 

– mit Vorzugsbenennungen (gearbeitet wird ausschließlich mit 

der Vorzugsbenennung; von den äquivalenten Bezeichnungen 

wird verwiesen) 

– ohne Vorzugsbenennungen (alle äquivalenten Bezeichnungen 

sind zugelassen; in der Datenbank werden sie zu einem Begriff 

zusammengefasst) 



Relationen 

• Hierarchierelation (Begriffsleiter: Oberbegriff - Unterbegriff, 

Begriffsreihe: Begriffe in gleicher hierarchischen Ebene) 

– Abstraktionsrelation (logische Sicht) 

• Ein Unterbegriff im Sinne der Abstraktionsrelation hat alle 

Merkmale des Ausgangsbegriffs, dazu aber mindestens ein 

weiteres (Bsp.: Vogel - Singvogel) 

• stets transitiv 

– Bestandsrelation (gegenständliche Sicht: Meronyme 

[Teil einer Ganzheit]; Holonyme [Ganzheit von Teilen]) 

• Ein Unterbegriff im Sinne der Bestandsrelation drückt 

einen Teil des Ausgangsbegriffs aus (Bsp.: Vogel - Kralle) 

• Geographika sind i.d.R. Begriffe in Bestandsrelation (Bsp.: 

Deutschland - Nordrhein-Westfalen - Regierungsbezirk 

Köln – Rhein-Erft-Kreis - Kerpen - Kerpen-Sindorf) 

• zwei Varianten: (a) transitiv – (b) intransitiv 



Bestandsrelation / Meronymie 

• Variante 1: transitiv (z.B. Geographica) 

Deutschland 

D 

NRW 

• Variante 2: nicht transitiv 

– Es gibt Bäume im Wald; 

aber auch welche außerhalb 

von Wäldern. 

Wald 

Baum 

Rinde 


Relationen 


• Element-Klasse-Relation für Individualbegriffe 

• „... ist ein(e) ...“: x ist ein M 

• M =df {x 1, x 2, ...., x i, ...}, wobei x i Namen von 

Individualbegriffen sind 

• Beispiele: 

– {G.Schröder, J.Fischer, H.Eichel, P.Struck, ...} ist ein Mitglied 

der derzeitigen Bundesregierung 

– {G.Schröder, H.Eichel, P.Struck, R.Scharping, ...} ist ein 

Mitglied der SPD 

– Persil ist ein Waschmittel 

– Donald Duck ist ein Bewohner Entenhausens 



Relationen 

• weitere Relationen 

– Antonymie-Relation (Gegensätze) 

– Ähnlichkeitsrelation 

– Nachfolgerelation (Vorgänger - Nachfolger) 

– Kausalrelation (Ursache - Wirkung) 

• Nützlichkeitsrelation 

• Schädlichkeitsrelation 

– genetische Relation (Produzent - Produkt) 

– Herstellungsrelation (Material - Produkt) 

– Transmissionsrelation (Sender - Empfänger) 

– instrumentelle Relation (Werkzeug - Anwendung des 

Werkzeugs) 

– funktionelle Relation (Argument - Funktion) 

– usw. 



• Präkombinationsgrad (bei Begriffen mit mehreren 

Komponenten) - Zerlegungskontrolle 

– Präkombination: Kombination mehrerer Begriffe zu 

genau einen [zusammengesetzten] Begriff in der 

Begriffsordnung 

(Bsp.: Mädchenhandelsschule) 

– Präkoordination: Kombination der Begriffe, die in der 

Begriffsordnung vorkommen, durch Verkettung beim 

Information Indexing 

(Bsp.: Mädchen + Handelsschule bzw. Mädchenhandel + 

Schule) – macht der Indexer 

– Postkoordination: Kombination der Begriffe erst beim 

Information Retrieval 

(Bsp.: Mädchen UND Handelsschule bzw. 

Mädchenhandel UND Schule) – macht der 

Recherchierende 



Monohierarchie: 

jeder Begriff hat entweder keinen oder genau einen 

Oberbegriff 

Obstbaum 

Kernobstbaum Steinobstbaum 

Apfelbaum Birnbaum Kirschbaum Pfirsichbaum 

Margarete Burkart: Dokumentationssprachen. – In: Grundlagen der praktischen Information und Dokumentation. – 

München [u.a.]: Saur, 3 1990, 143-182. 



Polyhierarchie: 

ein Begriff kann mehrere Oberbegriffe haben 

Obstbaum 

Kernobstbaum Nutzholz 

Holzwirtschaft 

Apfelbaum Birnbaum Buche 



Dimensionalität: Anzahl der Dimensionen der klassenbildenden 

Merkmale bei der Bildung von Unterbegriffen 

– monodimensional (nur genau eine Dimension zugelassen). 

Bsp.: Obstbaum 

» Kernobstbaum 

» Steinobstbaum 

Klassenbildung durch die Dimension: Beschaffenheit des Samens 

– polydimensional (mehrere Dimensionen zugelassen) 


» Kernobstbaum 

» Steinobstbaum 

» hochstämmiger Obstbaum 

» niederstämmiger Obstbaum 

Klassenbildung durch die zwei Dimensionen: Beschaffenheit des Samens 

und: Größe des Stammes 



Auflösung der Polydimensionalität 

• aus einer polydimensionalen Ordnung soll eine 

monodimensionale gebildet werden 

• schafft eine übersichtliche und logische Struktur 


• Obstbaum nach Samenbeschaffenheit 

– Steinobstbaum 

– Kernobstbaum 

• Obstbaum nach Stammgröße 

– hochstämmiger Obstbaum 

– niederstämmiger Obstbaum 

Stützbegriff 

• bei der Auflösung der Polydimensionalität werden „Zwischenbegriffe“ 

bzw. „Stützbegriffe“ kreiert 

• sehr wahrscheinlich gibt es keine DBE über solche Stützbegriffe 



Facettierte Begriffsordnung 

• Mehrere unterschiedliche Begriffsordnungen innerhalb 

eines Systems, aufgeteilt nach Kategorien 

Bsp.: drei Facetten (Obstbäume): 

Kategorie 1: Kategorie 2: Kategorie 3: 

Frucht Stammgröße Erntezeit 

Apfel hoch früh 

Birne nieder spät 

Bsp.: vier Facetten (Wirtschaftsnachrichten / Factiva): 

• Branche 

• Region 

• Aspekt 

• Unternehmen 



Begriffsordnung und natürliche Sprache 

• unabhängig von natürlicher Sprache: Verwendung eines 

eigenen Vokabulars aus Ziffern und Buchstaben 

Bsp.: 291.213.4 (in der Dezimalklassifikation: Bezeichnung für 

„Ahnenkult. Kult der Hausgötter: Manen, Laren, Penaten“) 

Bsp.: H05B-3/00 (in der Internationalen Patentklassifikation: 

Bezeichnung für „elektrische Heizung / Widerstandsheizung“) 

• sprachabhängig (Verwendung von national- bzw. fachsprachigen 

Bezeichnungen) 



• Paradigmatische 

Relation 

• „fest verdrahtete“ Begriffe 

durch Relationen in 

Begriffsordnungen 

• Bsp.: Obstbaum sei Oberbegriff 

zu Kernobstbaum 

Obstbaum 

Kernobstbaum 

paradigmatische 

Relation 

• Syntagmatische Relation 

• Begriffe, deren Beziehung 

dadurch zustande kommt, 

dass sie gemeinsam in DE 

auftreten 

• Bsp.: Eine DE enthalte: 

Obstbaum, Bauer, Steiermark 

Obstbaum 

Steiermark 

syntagmatische 

Relation 



Paradigmatische und syntagmatische Relation 

Singvögel füttern ihre Jungen 

Meisen füttern ihre Jungen mit Insekten 

Blaumeisen füttern ihre Jungen mit grünen Raupen 

paradigmatisch syntagmatisch 

„fest verdrahtet“ „im konkreten 

hier: Kontext“ 



Dokumente und ihre Strukturierung

Dokumente und ihre Strukturierung 

Was ist ein Dokument? 

• „Dokumentation“ (d.h. die Repräsentation des Wissens 

durch Indexieren oder Referieren) kommt von „Dokument“ 

• klar: (gedruckter) Text ist „Dokument“ 

• aber: Objekte als Dokumente? (Ansatz von Suzanne Briet) 

Gegenstand Dokument? 

Stern am Himmel nein 

Foto des Sterns ja 

Stein in einem Fluss nein 

Stein in einem Museum ja 

Tier in der Wildnis nein 

Tier im Zoo ja 

Michael K. Buckland: What is a document? – In: Journal of the American Society of Information Science 48 

(1997), 804-809. 



Was ist ein Dokument? 

Kriterien: 

• 1. Materialität (physikalisch, einschließlich digital) 

• 2. Intentionalität (trägt Sinn bzw. Bedeutung) 

• 3. Erarbeitung (wird geschaffen) 

• 4. Wahrnehmung (wird als Dokument bezeichnet) 

Dokument 

• (A) Text 

• (B) (nicht-textuelles) Objekt 

• alle Dokumentformen werden sprachlich indexiert 



• (A 1) Publikationen 

– Bücher 

– (wissenschaftliche) Artikel 

– Zeitungsartikel, Agenturmeldungen 

– Gesetze, Erlasse 

– Urteile 

– Normen 

– Patente, Gebrauchsmuster, 

Geschmacksmuster, Marken 

– Hochschulschriften 

– Noten 

– Kartenwerke 



• (A 2) andere, nicht (formal) publizierte Texte 

– digitale Dokumente im Internet 

– Akten 

– andere Archivmaterialien 

(z.B. Nachlässe) 



• (B 1) WTM-Fakten (Wissenschaft / Technik / Medizin) 

– Stoffe und ihre Eigenschaften 

– Krankheiten und ihre Symptome 

– Patienten (Krankenakten) 

– demographische Daten 

– statistische Daten 


• (B 2) Wirtschaft 

– Branchen 


– Unternehmen 

– Produkte 



• (B 3) audiovisuelle Dokumente 

– Bilder 

– Filme / Filmsequenzen 

• Sonderform: generische Sequenzen 



• (B 3) audiovisuelle Dokumente 

– Ton (Schall) 

• Musik 

• gesprochene Sprache („Wortarchiv“) 

• Geräusche 

• (B 4) multimediale Dokumente (Mischformen) 



• (B 5) Museumsdokumente 

– archäologische Funde 

– Kunstwerke 

– kulturgeschichtliche Gegenstände 



• Die Einheit der Dokumente (Texte – Objekte): 

Dokumentarische Bezugseinheit (DBE) 

stets gleichbleibende Einheit der Vorlagen, die in einen 

Informationsspeicher aufgenommen werden, hierbei ggf. 

analytische „Zerlegung“ der Vorlagen 

Beispiele: 

Buch (als Ganzes) - Buchkapitel 

dto. - Abbildung; Tabelle 

Zeitschrift (als Ganzes) - Artikel 

Korrespondenz - einzelner Brief 

Film - Filmsequenz 

Münzsammlung - einzelne Münze 



• Was wird in die Datenbank aufgenommen? 

Dokumentationswürdigkeit 

Kriterienkatalog, der die Entscheidung fundiert, ob eine 

bestimmte DBE in den Informationsspeicher aufgenommen 

wird oder nicht 

Grundaspekte: 

– Relevanz des Dokuments 

– Informationsbedarf der Nutzer 

– bisheriger Stand der Datenbank 

Spezifische Aspekte: 

– thematische Kriterien 

– formale Kriterien (Bsp.: nur wissenschaftliche Artikel; 

nur HTML-Dateien) 

– Finanzrahmen - Personalressourcen - Zeit 

– ggf.: Neuigkeit 

– ggf.: kritische Prüfung des Inhalts 



• Datenstrukturierung: 

Identifikation kleinster 

Beschreibungseinheiten für 

bestimmte Typen von 

dokumentarischen 

Bezugseinheiten (DBE) 

• Bsp.: wissenschaftlicher 

Aufsatz. FELDER: 

• Autor(en) 

• Sachtitel 

• Zeitschriftentitel 

Metadaten 

• Jahrgang 

• Seitenzahl 

• Themen usw. 

• Dokumentstrukturierung: 

Zerlegung eines bestimmten Types 

von dokumentarischen 

Bezugseinheiten (DBE) - auch - im 

Sinne von Markup-Sprachen 

• Bsp.: wissenschaftlicher Aufsatz. 

STRUKTUR: 

• Sachtitel 

• Autor(en) 

• Titel des 1. Abschnitts 

• Text des 1. Abschnitts: 

Strukturdaten 

Problemstellung 

• darin: Fußnote(n) 

• Titel des 2. Abschnitts 

• Text des 2. Abschnitts: Methodik 

usw. 



Dokumentstrukturierung (bei digitalen Dokumenten) 

– Beschreibung einer Dokumentstruktur innerhalb des 

Dokuments mittels einer besonderen Sprache (Markup 

Language, Seitenbeschreibungssprache) 

– für Textverarbeitung und -publikation (seit 1986): Standardized 

Generalized Markup Language (SGML). Umfassendes Konzept 

einer Markup-Sprache 

– für Beschreibung verlinkter Dokumente (seit 1989): Hypertext 

Markup Language (HTML). Eingeschränkte Sprache (ohne 

Möglichkeit zur wissensabbildenden Dokumentstrukturierung), 

dafür aber für Hypertextstrukturen anwendbar 

– Seitenbeschreibung und Hypertext: eXtensible Markup 

Language (XML). Bündelung der Vorteile von SGML und 

HTML. „Industriestandard“. Wissensrepräsentation möglich. 



• Datenstrukturierung / Definition der Metadaten: 

Vorgehen 

• 1. Datenbankdesign: Feldschema 

• 2. Zusammenspiel der Datenbanken (falls mehrere) 

• 3. Beschreibung der Felder 

– Suchfelder (möglichst kontrolliertes Vokabular) 

– Anzeigefelder 

• 4. Regelwerk (konkrete Anweisungen für jedes Feld) 

• 5. (ggf.) Nutzung von Hilfsmitteln (z.B. Normlisten von 

Ländernamen oder Thesauri) 



Datenstrukturierung 

• Datenbankdesign: Beschreibung des Dokuments in einem 

Feldschema, dabei Festlegung von Merkmalen für jedes Feld 

– Feldname Jahrgang 

– Kurzbezeichnung YR 

– Schlüsselfeld (ja, nein) nein 

– Anzahl Werte (ein Wert, genau 1 Wert 

mehrere Werte: Subfelder) 

– Typ der Feldwerte (alpha- ganze Zahl 

numerisch, Formel, Datum, 

Betrag, Text, ganze Zahl, ...) 

– Normdaten ja 

– ggf.: Feldlänge 4 Stellen 

– Index (ja, nein) ja 

• Wortindex ja 

• Phrasenindex nein 



• Zusammenspiel der Datenbanken 

• Beispiel: 

Kunstwerke 

• Categories for the 

Descriptions of Works 

of Art (CDWA) 

• Getty Standards 

Program 

Categories for the Descriptions of Works of Art. 

www.getty.edu/research/conducting_research/standards/cdwa/index.html 



• Feldsschema. Beispiel: Kunstwerke 



• Feldbeschreibung. Beispiel: Feld: Abmessungen - Subfeld: 

Dimensionen 


• Feldschema. 

Beispiel: 

Wissenschaftliche 

Literatur 



Ansicht 

einer 

Webseite 


Beispiel: Webseite 

Metadaten 

in 

„Meta Tags“ 



formalbibliographische 

Metadaten 

formale 

Erfassung 

Metadaten 

inhaltsbezogene 

Metadaten 




Metadaten: Formale Erfassung 

• Abbildung nicht inhaltsbezogener Informationen der 

dokumentarischen Bezugseinheit auf die Erfassungsfelder 

einer Datenbank 

• für jedes Feld werden Erfassungsregeln definiert 

• soweit möglich: für jedes Feld werden Normdaten 

gesammelt 

• Regelwerk für formale Erfassung von 

Bibliotheksmaterialen: AACR (Anglo-American Cataloging 

Rules) (mit Sonderregeln für audiovisuelle Materialien, 

Musikalien, Karten und unselbständig erschienener Werke) 

• für die Erfassung von Internet-Dokumenten werden die 

Dublin-Core-Elements diskutiert 



Formale Erfassung / Regelwerk / Normdaten 

Beispiel: ... wenn man versucht, ohne auszukommen 

Register: 

Henzinger M 

Monika Henzinger 

Henzinger Monika 

Henzinger Monika R 

Monika R Henzinger 

Henzinger Monika Rauch 

Monika Rauch Henzinger 

Henzinger Monika R. 

Monika Rauch-Henzinger 

Henzinger, M 

Monika R. Henzinger 

Henzinger, Monika 

Rauch Henzinger Monika 

Henzinger, Monika R 

Henzinger, Monika Rauch 

Rauch Henzinger, Monika 

Henzinger, Monika R. 

Rauch-Henzinger Monika 

Rauch-Henzinger, Monika 



Formale Erfassung / Regelwerk / Normdaten 

• mit Regel: bei Personennamen Ansetzung: Nachname 

Komma Leerzeichen Vorname (ausgeschrieben) 

Leerzeichen zweiter Vorname oder Mittelname (nur erster 

Buchstabe mit Punkt) 

• Beispiel: Register: Henzinger, Monika R. 

Rauch, Monika 

• mit Normdaten: je Person ein Datensatz 

Name in Normform:Henzinger, Monika R. 

Geburtsdatum: tt.mm.jjjj 

Zusatzinformationen: ehemalige Forschungsleiterin Google 

Verweis: Rauch, Monika 

• Beispiel: Register: Henzinger, Monika R. 



Formale Erfassung / Regelwerk / Normdaten. Beispiele: 

Gertrud von Le Fort Le Fort, Gertrud von (dt.) 

Ernst Aus‘m Weerth Aus‘m Weerth, Ernst (dt.) 

Julia Rauh-von der Schule Rauh-von der Schule, Julia (dt.) 

Jean de la Fontaine La Fontaine, Jean de (fr.) 

Louis de Broglie Broglie, Louis de (fr.) 

Louis de Rouvroy Duc de Saint-Simon, Louis de Rouvroy 

Saint-Simon Duc de (fr.) 

Ali ibn Haduga Ibn Haduga, Ali (arab.) 

Lola Réz (verh.: Kosáry) Kosáryné-Réz, Lola (ungar.) 

Anton der Kinderen Kinderen, Anton der (nl.) 

Anton Du Perron Du Perron, Anton (nl.) 

Andrej N. Rimskij-Korsakov Rimskij-Korsakov, Andrej Nikolajevich (russ.) 

Constance Lytton (Tochter Lytton, Lady Constance (engl. UK) 

eines Dukes) 


Formale Erfassung 


• Ansetzung der Namen von Körperschaften 

– Beispiel „untergeordnete Körperschaft“: Referat Frauenpolitik der SPD. 

Ansetzungsform: Sozialdemokratische Partei Deutschlands / Referat 

Frauenpolitik 

– Beispiel „selbständige Körperschaft“: ifo Institut, München. 

Ansetzungsform: ifo Institut für Wirtschaftsforschung e.V. 

– Beispiel „Gebietskörperschaft“: Kongeriget Danmark. 

Ansetzungsform: Danmark. Bsp.: Polizeidirektion Bonn. 

Ansetzungsform: Nordrhein-Westfalen / Polizeidirektion 

• bei nicht-lateinischen Schriften: Transliteration (etwa nach: ISO) 

– Beispiel: BAPHA (bulg.). Transliteration: Varna 

• bei allen Ansetzungen: Verweise von möglichen Varianten auf die 

Normansetzung 

Uta Krischker: Formale Analyse (Erfassung) von Dokumenten. – In: Grundlagen der praktischen 

Information und Dokumentation. – München [u.a.]: Saur, 3 1990, 63-89. 


Formale Erfassung. 


• Erfassung von Webseiten 

• „Dublin Core Elements“ Feldname (Version 1.0) 

– Titel title 

– Autor/Urheber creator 

– Thema/Schlagwörter subject 

(vorgeschlagen: kontrolliertes Vokabular oder Klassifikation) 

– Inhaltsbeschreibung description 

(Abstract bzw. Beschreibung nicht-textueller Dokumente) 

– Herausgeber/Verlag publisher 

– anderer Beteiligter contributor 

(etwa: Illustrator, Übersetzer) 

– Datum (in der Form: yyyy-mm-dd) date 

– Dokumenttyp resource type 

(etwa: Homepage, Arbeitspapier, Gedicht, Foto) 



• „Dublin Core Elements“ (2) Feldname (Version 1.0) 

– Datenformat format 

(Dateityp, ggf. Dateigröße) 

– Identifikation der Ressource identifier 

(URL [uniform resource locator], DOI [digital object identifier], ...) 

– Quelle source 

– Sprache language 

– Beziehungen relation 

– thematische Abdeckung coverage 

(räumliche und zeitliche Charakteristika des Inhalts) 

– Rechte rights 

(Vermerk über Rechteinhaber) 

• Bisher konnten sich die „Dublin Core Elements“ im WWW [noch?] 

nicht durchsetzen. 



• Metadaten: Inhaltserschließung 

• Abbildung inhaltsbezogener Informationen der dokumentarischen 

Bezugseinheit auf die Erschließungsfelder einer Datenbank 

• Inhaltserschließung geschieht durch INDEXIEREN und 

REFERIEREN 

– Indexieren ist die Abbildung der Themen (ggf. der 

Themenkomplexe) durch Begriffe (Ursprung des Wortes: 

Buchindex) 

– Referieren ist die Abbildung der thematisierten Sachverhalte 

durch (wenige) Sätze 

• Inhaltserschließung geschieht entweder automatisch oder 

intellektuell (oder Mischform) 

• Inhaltserschließung macht von eigenen Methoden und von 

spezifischen Werkzeugen Gebrauch. 



Funktion 1: 

Informationsfilter 


Funktion 2: 

Informationsverdichtung 

Indexieren Referieren 

Optimales Suchen und Finden von Dokumenten 


Dokumentationssprachen I: 

Klassifikationssysteme 

(Taxonomien)


Klassifikation - Grundlegende Literatur 

• Brian Buchanan: Bibliothekarische Klassifikationstheorie. – 

München: Saur, 1989. 

• DIN 32705: Klassifikationssysteme 

• Konrad Umlauf: Einführung in die bibliothekarische Klassifikationstheorie 

und –praxis. – Berlin: HU / Inst. f. Bibl.wiss., 1999. 

(www.ib.hu-berlin.de/~kumlau/handreichungen/h67/). 

• Advances in Classification Research. Proceedings of the xxth ASIS&T 

SIG/CR Workshop. – Medford: Information Today (derzeit Bd. 13, 

2004). 

• Hans-Jürgen Manecke: Klassifikation. – In: Grundlagen der 

praktischen Information und Dokumentation. – München: Saur, 4 1997, 

141-159. 

• Evgenij I. Samurin: Geschichte der bibliothekarisch-bibliographischen 

Klassifikation. – Pullach: Verl. Dokumentation, 1967 (Bd. 1), 

1968 (Bd. 2). 



Klassifikation ist ein Hilfsmittel zur ORDNUNG von 

Gegenständen oder von Wissen über Gegenstände 

– praktische Aufgabe: Ordnen von Gegenständen (in einem 

Lager, im Supermarkt, im Küchenschrank, ...) 

– informationswissenschaftliche und -praktische Aufgabe: 

Anordnen, Bei-, Neben- und Einordnen, Einteilen, 

Gruppieren, Unterordnen, Zusammenordnen, Zuordnen von 

Wissen 

– wissenschaftliche Aufgabe: angemessene Darstellung von 

Wissenseinheiten (z.B. Taxonomie in der Biologie: 

„Systema naturae“ von Carl von Linné, oder Physik: 

Periodensystem der Elemente) 

– erkenntnisvermittelnde Aufgabe: Aufhellung von 

Zusammenhängen anhand geordneten Wissens 



Grundbegriffe 

• Klasse: (intensional oder extensional) definierter Gegenstand 

(Allgemein- oder Individualbegriff) 

• Klassifizieren: Erstellen eines Klassifikationssystems; Bilden 

von Klassen 

• Klassieren: Einordnen von DBE in Klassen 

• Notation: nicht-natürlichsprachiges Wort als Name einer 

Klasse 

• Bezeichnungen: natürlichsprachige Übersetzungen einer 

Notation 

• Die Erstellung und Weiterentwicklung von Klassifikationssystemen 

ist in Deutschland normiert. 

• DIN 32705. Klassifikationssysteme (1987) 



Notationsformen 

• strukturabbildend hierarchische Notation (Notation bildet 

Hierarchierelation ab). Bsp.: 

Klasse A: Notation: 1 

Klasse B: Notation: 11 

Klasse D: Notation: 111 

Klasse C: Notation: 15 

• sequentielle Notation. Bsp.: 

Klasse A: Notation: 1 

Klasse B: Notation: 3 

Klasse D: Notation: 8 

Klasse C: Notation: 5 

Relationen in Begriffssystemen 

Begriffsleiter 


Topterm 

Bottomterms 


Polyhierarchie 

G H I 

• hierarchisch-sequentielle Notation - Mischform (Notation auf 

gewissen Hierarchieebenen hierarchisch, sonst sequentiell) 


A 

B C 

D Begriffs- E -reihe 

F


• Vorteil der Notation: international einsetzbar 

Beispiel: 

vacuum cleaner 

Staubsauger 

dammsugaren 

aspirateur DK 648.525 

aspiratore di polvere 

aspirador de polvo 

odkurzacz 

• Nachteil der Notation: mnemotechnisch nicht 

beherrschbar 



• Präkombinationsgrad der Begriffe: i.d.R. hoch (präkombinierte 

Begriffe bevorzugt). Bsp.: „Witterungsabläufe in Mittelgebirgslagen 

subtropischer Zonen“ als 1 Klasse 

• i.d.R. monohierarchisch (ohne Unterscheidung nach Abstraktionsund 

Bestandsrelation); zusätzlich: (Quasi-)Synonyme; 

Assoziationsrelation sehr eingeschränkt 

• häufig: neben einer Basiskategorie weitere spezielle Kategorien 

(als „Anhängezahlen“, „Ergänzungszahlen“ oder „Indexcodes“) 

• Klassifikationssystem: 

– (1) Lexikon: systematische Tafeln, ggf. Hilfstafeln (jeweils Notationen 

und Bezeichnung/en); hierzu: Register (mit Synonymen) 

– (2) Grammatik: spezielle Zeichen, Regeln für den Umgang mit den 

Zeichen 

– (3) Hinweise: u.a. Anmerkungen, Querverweise oder Vorrangregeln 



• Grundlegende Regeln: 

– ein Objekt - eine Klasse 

– damit: ein Objekt - eine Notation 

– eine Notation - mehrere Bezeichnungen (Fremdsprachen, 

Akronyme, Synonyme) 

– jede Bezeichnung sollte für sich selbst sprechen (u.U. 

definierende Zusätze anbringen) 

– Einstieg für Nutzer über Systematik (Notationen) und 

Bezeichnungen (möglichst in unterschiedlichen natürlichen 

Sprachen) gewährleisten 

– homonyme Bezeichnungen in die einzelnen Objekte überführen 

und auf unterschiedliche Klassen verweisen 

– i.d.R. monodimensional (polydimensional nur in Ausnahmefällen) 

– Polyhierarchie schlecht oder gar nicht ausdrückbar 



Klassifikationstypen nach Einsatzgebieten 

– Universalklassifikationen 

• zur Ordnung von Beständen (sprachlich wie fachlich) 

universal ausgerichteter Informationseinrichtungen (z.B. 

Universitätsbibliotheken) 

• als Zugangshilfe zu Dokumenten im World Wide Web 

– Klassifikationen gewerblicher Schutzrechte 

– Wirtschaftsklassifikationen 

• Branchenklassifikationen (auch zum Zwecke amtlicher 

Statistik) 

• Produktklassifikationen 

– Geographische Klassifikationen 

– Medizinische Klassifikationen 



Universalklassifikationen 

• Dewey Decimal Classification (DDC) - von Melvil 

Dewey 1876 erstmals eingeführt 

• Dezimalklassifikation (DK / UDC / CDU) - auf der 

Basis der DDC von Paul Otlet und Henri LaFontaine 

um 1900 entwickelt 

• Colon Classification (CC) - facettierte Klassifikation 

von S.R.Ranganathan (1. Aufl. 1933) 

• Allgemeine Systematik für Öffentliche Bibliotheken 

(ASB) - als Aufstellordnung in ÖBs (seit 1956) 

verwendet 

• Yahoo! - Klassifikation 

• Open Directory Project (ODP) - Systeme zur 

Klassierung von Websites 

DK: 

unser 

1. Beispiel 

Yahoo! 

unser 

2. Beispiel 



Dezimalklassifikation (DK) 

• Haupttafel / Aufbau: 

– 0 Allgemeines 

– 1 Philosophie, Psychologie 

– 2 Religion, Theologie 

– 3 Sozialwissenschaften 

– 4 [derzeit frei] 

– 5 Mathematik, Naturwissenschaften 

– 6 Angewandte Wissenschaften, Medizin, Technik 

– 7 Kunst, Musik, Sport, Spiele 

– 8 Literaturwissenschaft, Sprachwissenschaft 

– 9 Geographie, Biographien, Geschichte 

I.C.McIlwaine: The Universal Decimal Classification: Guide to its Use. – The Hague: UDC Consortium, 2000. 

Karl Fill: Einführung in das Wesen der Dezimalklassifikation. - Berlin, Köln: Beuth Verl., 1981. 

Online: www.udcc.org/ (Ausschnitte aus der DK) 



Dezimalklassifikation (DK) - Notationsbeispiel 1 

2 Religion, Theologie 

29 Nichtchristliche Religionen 

291 Allgemeine und vergleichende Religionswissenschaft 

291.2 Religiöse Lehren. Dogmen 

291.21 Gottheiten. Gegenstand der Religion. Verehrung der 

Gottheiten. Göttersagen. Funktionen der Götter. Götterund 

Geisterwelten 

291.213 Verehrung von Menschen, Halbgöttern, Helden, 

Heiligen, Herrschern (Apotheose) 

291.213.4 Ahnenkult. Kult der Hausgötter: Manen, Laren, 

Penaten 



Dezimalklassifikation (DK) - Notationsbeispiel 2 

669 Metallurgie. Metalle und Legierungen 

669.1 Eisenhüttenkunde. Eisen und Stahl 

669.16 Herstellung von Roheisen 

669.162 Roheisenerzeugung. Erste Schmelzung 

669.162.2 Hochöfen 

669.162.26 Betrieb von Hochöfen 

669.162.266 Hochofenabstich 

669.162.266.2 Roheisenabstich 

669.162.266.23 Abstechen in Gießbetten und Herstellen der Masselbetten 

669.162.266.232 Abstechen in Gießbetten 

669.162.266.232.6 Abstechen in Gießmaschinen 

669.162.266.232.64 in Gießmaschinen mit endlosen Bändern 

synkategorematischer Begriff; wird erst mit nächsthöherer Ebene vollständig. 



• Neben den Systematischen Tafeln hat die DK für spezielle 

Kategorien Ergänzungstafeln 

• Allgemeine Ergänzungszahlen 

KATEGORIE SYMBOL 

– Sprache =... 

– Form (0...) 

– Ort (1/... bis 9/...) 

– Zeit „...“ 

– Materialien -03 

– Personen -05 

• Besondere Ergänzungszahlen 

– Kennzeichnungen (-...) 

– Aspekte u.a. (.0...) 

– Synthese (’...) 



der Sprache (Beispiele) 

– =00 mehrsprachig 

– =20 englisch 

– =30 deutsch 

– =392 friesisch 

– =393 niederländisch 

– =393.2 flämisch 

– =393.6 afrikaans 

– =40 französisch 

– =490 provenzalisch 

– =499 katalanisch 

– =50 italienisch 

– =60 spanisch 



der Zeit (Beispiele) 

– „-“ vorchristliche Zeit 

– „+“ christliche Zeit 

– „04/14“ Mittelalter 

– „15/19“ Neuzeit 

– „32“ Jahreszeiten 

– „321“ Frühling 

– „322“ Sommer 

– ... 

– „36“ Zeit in Sicht der 

Not 

– „362“ Friedenszeit 

– „364“ Kriegszeit 


• Besondere Ergänzungszahlen 

(Aspekte) im Bereich DK 7 

(Beispiele) 

– 7.061 Fälschungen 


– 7.07 Arten der 

Beschäftigung mit 

Kunst 

– 7.071 Künstler 

– 7.072 Kunstwissenschaft 

– 7.073 Kunstliebhaber 

– 7.075 Kunsthändler 

– 7.078 öffentliche 

Förderung der 

Kunst 

• Systematische Tafel im Bereich 

DK 7 (Ausschnitt) 

– 737.1 Münzen 

– 738.5 Mosaik 

– 739.8 Nippes 

• Kombination Systematik-Notation 

und besondere Ergänzungszahl 

– 737.1.061 Fälschungen von 

Münzen 

– 738.5.061 Fälschungen von 

Mosaiken 

– 739.8.075 Händler von 

Nippes 


DK-Register 


• enthält in einer natürlichen Sprache alle Benennungen der 

Notationen aus den systematischen Tafeln und aus den 

Ergänzungstafeln 

• enthält Synonyme und Quasi-Synonyme der Benennungen 

• Assoziationsrelation („siehe auch“) 

• unterscheidet Homonyme bzw. Polyseme 

Ausschnittbeispiele: 

Deutschland (Geographie) 914.3 

--- (Geschichte) 943 

--- (Ortsanhängezahl) (43) 

Dock ... siehe auch Trockendocks 

Pinakothek siehe Gemäldegalerien 

Schlangen (Zoologie) 598.12 

Schlangen (Tierzucht) 636.98 

Notation aus 

systematischer Tafel 

Notation aus 

Ergänzungstafel 


Synonym 

Homonymkontrolle 


Mehrere Klassen verbinden 

(syntaktisches Indexieren) 

– (1.) Beziehung. Symbol: : 

Beispiel: Lichtbrechung von 

Rubinen 

Rubin 549.517.1 

Lichtbrechung 535.323 

also: 549.517.1:535.323 

– (2.) Beiordnung. Symbol: + 

Beispiel: Mathematik und Physik 

Mathematik 51 

Physik 53 

also: 51+53 


– (3.) gerichtete Beziehung 

Symbol: :: 

Beispiel: Verkehrsmedizin 

Verkehr 656 

Medizin 61 

also: 61::656 

– (4.) Erstreckung (von-bis) 

Symbol: / 

Beispiel: der Gesamtbereich 

Biologie, Botanik, Zoologie 

Biologie 57 

Botanik 58 

Zoologie 59 

also: 57/59 


• (5.) Kombination einer DK- 

Zahl der Haupttafel mit einer 

allgemeinen Ergänzungszahl 

• Zahl aus Haupttafel [Zeichen 

für Typ der Ergänzungszahl] 

Ergänzungszahl 

• Beispiel: Prostitution in 

Deutschland 

Prostitution 176.5 

Zeichen für Ort (...) 

allgemeine Ergänzungszahl 

Deutschland 43 

also: 176.5(43) 


• (6.) Kombination einer DK-Zahl 

der Haupttafel mit einer 

speziellen Ergänzungszahl 

Zahl aus Haupttafel [Zeichen für 

Typ der Ergänzungszahl] 

Ergänzungszahl für markierten 

Bereich 

Beispiel: Fälschungen von 

Mosaiken (siehe oben!) 

Mosaik 738.5 

Zeichen Ergänzungszahl.0 ... 

spezielle Ergänzungszahl 

Fälschungen 61 

(darf im Bereich 7 eingesetzt 

werden) 

also: 738.5.061 



Fallbeispiel: DK-Suche beim Katalog der ETH Zürich: Index 

Suchargument 



DK-Suche beim Katalog der ETH Zürich: Katalogkarte 


Yahoo! 

• Gründer und derzeitige 

CEOs: Jerry Yang und 

David Filo 

• entstanden 1993 aus 

einem Verzeichnis von 

Bookmarks 

• Yahoo: (unsympathische) 

Wesen aus „Gullivers 

Reisen“; Akronym für „yet 

another hierarchical 

officious oracle“ oder 

auch schlicht Ausruf 




Polydimensionale Ordnung 

@: Wechsel der Begriffsleiter 

(unechte) Polyhierarchie 



Zuordnung einer 

Website zu mehreren 

Klassen 



88mal 

Frauen als 

Benennung 

für 

unterschiedliche 

Klassen 

Klassenbezeichnungen 

bei 

Yahoo! sind 

synkategorematisch. 


„Game$“ 

Yahoo ! - Baumstruktur (Ausschnitt / fingiertes Beispiel: Suche 

nach: „The Game of Go“) - Patent US 5991756 

Yahoo's Main Menu 

1 Recreation 16 Restaurants 

5 URL 

2 Games 

3 Board Games 

4 Go 

9 Boating 

„Go$“ 

7 Chess 

6 URL 8 Tournaments 

20 Food To Go 

21 Joe's Pizza To Go 

22 "To Go" Delivery Services 

Kein direkter 

Treffer 


Yahoo! Suchalgorithmus 


• bei Phrase: Anzeige der direkten Treffer (Categories [d.h.: 

Klassenbenennungen], Sites, News) 

• sonst: Elimination von Stoppwörtern 

• automatische Rechtsfragmentierung (stets: SUCHTERM*) 

• bei genau 1 Suchwort sowie bei mit ODER verknüpften 

Suchwörtern: Anzeige der direkten Treffer 

• bei mehreren mit UND verknüpften Suchwörtern: 

• 1. Anzeige der direkten Treffer 

• 2. Anzeige der indirekten Treffer (min. 1 Suchwort direkter Treffer, 

anderes Suchwort Unterbegriff eines direkten Treffers) - 

Aufhebung der Probleme mit den Synkategoremata 

Jiong Wu: Information Retrieval from Hierarchical Compound Documents / Yahoo Inc. – Patent US 5991756 vom 

23.11.1999. – Mechtild Stock; Wolfgang G. Stock: Recherchieren im Internet. – Renningen: expert-verl., 2004, Kap. 2. 


Dokument 

Dokumentenspeicher 

Suchmaschine 

The Game 

of Go 

Anfrage 

Trefferliste 

Anfrage 

Wortindex 

Ausgabeliste 

1 9 - Recreation Desc. Fun Cat. 

2 8 1 Games Desc. - Cat. 

3 8 2 Board Games Desc. - Cat. 

4 6 3 Go Desc. - Cat. 

5 - 4 Title / URL Desc. - Site 

6 - 4 Title / URL Desc. - Site 

7 8 3 Chess Desc. - Cat. 

8 ... 7 Tournements Desc. Contests Cat. 

9 ... 1 Boating Desc. Sailing Cat. 

... 

Game: 2, 3, Null 

Gamele: 10,12, Null 

Gander: 39, 67, 102, Null 

... 

Go: 4, 20, 21, 22, ... 

Gobble: 82, 102, Null 

... 

The: Ignore 

Dok. Zeit Intervall der "Kinder" 

1 xxx 00/00/0000 2-9 - 

2 xxx 00/00/0000 3-8 - 

3 xxx 00/00/0000 4-8 - 

4 xxx 00/00/0000 5-6 - 

5 xxx 00/00/0000 ∅ 10 

6 xxx 00/00/0000 ∅ 5 

Gewichtung 

Struktur der 

Indices 

bei 

Yahoo! 

Patent 

US 5991756 



Klassifikation gewerblicher Schutzrechte 

• Patente und Gebrauchsmuster: 

– Internationale Patentklassifikation (IPC) 

– ECLA 

• Marken: 

– Wiener Klassifikation der figürlichen Darstellungen 

– Nizza Klassifikation der Waren 

• Geschmacksmuster: 

– Locarno Klassifikation der Waren 

• alle Klassifikationen gewerblicher Schutzrechte werden von 

der World Intellectual Property Organization (WIPO) in Genf 

gepflegt 

unsere 

Beispiele 

Online: classifications.wipo.int 



Internationale Patentklassifikation / International 

Patent Classification (IPC) 

• nach dem Straßburger Abkommen über die IPC (1971; in 

Kraft getreten 1975) einheitliche Klassierung aller 

Patentschriften weltweit 

• neben den Patentämtern halten sich alle Datenbankproduzenten 

beim Indexieren an die IPC 

• Gegenstandsbereich: alles, was patentiert werden kann, 

d.h. alle technischen Gegenstände (Anm.: Dieser Bereich 

kann sich von Zeit zu Zeit wandeln; z.Z. etwa bei den 

Softwarepatenten) 

• derzeit (7.Aufl.) rund 69.000 Klassen 



IPC - Lexikon in 8 Sektionen: 

– A Täglicher Lebensbedarf (ca. 7.500 Gruppen) 

– B Arbeitsverfahren; Transportieren (16.500) 

– C Chemie; Hüttenwesen (13.500) 

– D Textilien; Papier (3.000) 

– E Bauwesen; Erdbohren; Bergbau (3.000) 

– F Maschinenbau; Beleuchtung; Heizung; 

Waffen; Sprengen (8.000) 

– G Physik (7.000) 

– H Elektrotechnik (7.000) 


Struktur der IPC 

Sektion: 1 Stelle (z.B. B) 


- Klasse: 2 weitere Stellen (z.B. B64) 

- Unterklasse: 1 Stelle (z.B. B64C) 

- Gruppen: 3 Stellen (z.B. B64C 025) 

- Hauptgruppe: 2 Stellen stets 00 (z.B. B64C 025/00) 

- Untergruppe: i.d.R 2 Stellen (nicht 00), u.U. bis zu 

4 Stellen (z.B. B64C 025/02) 

• bis zur Gruppenebene: Notationen strukturabbildend hierarchisch 

• Untergruppenebene: Notationen sequentiell 



B Arbeitsverfahren; Transportieren 

B64 Luftfahrzeuge; Flugwesen; Raumfahrt 

B64C Flugzeuge; Hubschrauber; Drehflügelflugz. 

B64C 025 -- 

B64C 025/00 Start- bzw. Landegestelle 

B64C 025/02 . Fahrgestelle 

B64C 025/08 .. nicht fest angeordnet, z.B. abwerfbar 

B64C 025/10 ... einfahrbar, klappbar oder dgl. 

B64C 025/18 .... Betätigungsmittel 

B64C 025/26 ..... Steuerung oder Verriegelung dafür 

B64C 025/30 ...... Notbetätigung 


Hinweise 


– allgemeine Querverweise 

Beispiel: H05B 3/03 Widerstandsheizung / Elektroden 

(elektrothermische Behandlung von Erzen C22B 4/00) 

– Vorrangregel (falls ein Gegenstand an mehreren Stellen 

klassiert werden kann, aber nur an einer Stelle klassiert 

werden sollte) 

Beispiel: H05B 3/40 Heizelemente ... (3/62, 3/68, 3/78 

haben Vorrang) 

– Orientierungsverweis (Hinweis auf verwandte 

Gegenstände) 


Hybrid-System 


– Hybrid-Systeme: an manchen Stellen der IPC sind Index-Codes 

vorgesehen, die nur in Verbindung mit (dort definierten) anderen 

Notationen zu verwenden sind (statt des Schrägstriches hier: 

Doppelpunkt). Beispiel: B62D (Motorfahrzeuge), B62D 101:00 

(Fahrgeschwindigkeit) 

– analog zu den speziellen Ergänzungstafeln der DK 

– verbundene Index-Codes: Darstellung einer Notation und eines 

Index-Codes in einer Klammer; Beispiel: (C08F 210/16, 214:06) - 

Themenkette i.S. syntaktischen Indexierens 

– nicht verbundene Index-Codes: Darstellung des Index-Codes 

allein als allgemeine Zusatzinformation 



• Klassierung von Erfindungsobjekten 

– Funktionsorientierung eines Gegenstandes (z.B. Kolben) und 

Anwendungsorientierung eines Gegenstandes (z.B. Anordnung von 

Kolben in einem Motor) berücksichtigen! 

– System als Ganzes sei Gegenstand: dann auch die nicht trivialen 

Einzelheiten klassieren (z.B. gesamte Radaufhängung: wenn wichtig, 

auch die Blattfeder berücksichtigen)! 

– chemische Formeln (insb. organische Verbindungen): alle vollständig 

identifizierten Verbindungen berücksichtigen! 

– soviele IPC-Notationen wie nötig, um alle Ansprüche des Patentes 

wiederzugeben 

– die Notation(en) des Hauptanspruches als erste nennen, dann 

Nebenansprüche (einige Patentämter klassieren nur den 

Hauptanspruch) 

– X-Notationen: X (an beliebiger Stelle einer Notation) zeigt an, dass die 

IPC den abzubildenden Gegenstand nicht genau trifft; hier ist 

Handlungsbedarf für Weiterentwicklungen der IPC 



• Klassierung von Erfindungsobjekten 

– Hauptklasse(n) 

Hauptansprüche der Erfindungsschrift 

– Nebenklasse(n) 

Nebenansprüche der Erfindungsschrift 

– Doppelstrichklasse(n) 

„Zusatzinformationen“; nicht rechtlicher, sondern 

ausschließlich technischer Natur (von den 

Erfindungsinformationen durch einen Doppelstrich // 

getrennt) 

– Indexklasse(n) 

verbundene / unverbundene Indexcodes 



Fallbeispiel: IPC bei DEPATISnet (DPMA) 

• Suche in der IPC: mit schwarzem Balken am Rand: 

Indexcodes; sonst: Notationen 

Notationen 

Index- 

Codes 


Indexcodes 


IPC in der Version bei DEPATISnet 



Detailsuche 

der Expertenmaske 

nach: 

Hauptklasse, 

Nebenklasse, 

Doppelstrichklasse, 

Indexklasse 

möglich 



Anzeige der 

bibliographischen 

und 

inhaltserschließenden 

Informationen 

zusätzlich: 

Volltext 

(PDF) 



ECLA: European Classification System 

– IPC: in gewissen Technikbereichen nicht tief genug 

gegliedert 

– ECLA erweitert IPC „nach unten“ und verfeinert das 

System 

– erarbeitet beim Europäischen Patentamt; wird bei 

einigen großen Patentdatenbanken bei Questel-Orbit 

eingesetzt 

– Bsp.: H04N-007/24C12M2 

IPC ECLA 

– z.T. diverse neue Klassen (und damit lange Notationen) 

David T. Dickens: The ECLA Classification System. – In: World Patent Information 16 (1994), 28-32. 



ECLA: Bsp. G06F-17/30 Information Retrieval 

Online: l2.espacenet.com/espacenet/eclasrch 



Wiener Klassifikation der figürlichen Darstellungen 

– Einsatz bei Markendatenbanken zur inhaltlichen 

Beschreibung von Bildmarken (wie die „lila Kuh“ von 

Milka) 

– seit 1973 (verabschiedet in Wien) international 

eingesetzt 

– 3 Hierarchieebenen: 

• 29 Kategorien 

• 144 Abteilungen 

• 1.634 Sektionen (in Haupt- und Hilfstafeln) 

– formale Graphikelemente (etwa 26: geometrische 

Figuren oder 29: Farben) und inhaltliche Aspekte (etwa 

2: Menschen oder 22: Musikinstrumente) 



Wiener Klassifikation der figürlichen Darstellungen / Ausschnitt 

– 03 Animals 

• 03.01 Quadrupeds (Series I) 

– 03.01.01. Lions 

– 03.01.04. Tigers or other large felines 

– 03.01.06. Cats or other small felines 

– 03.01.08. Dogs, wolves, foxes 

• ... (gekürzt) 

• Auxiliary Section Associated with Principal Section 3.1.1 

– A 03.01.02 Heraldic lions 

– Auxiliary Section Associated with Principal Section 3.1.1-3.1.15 

– A 03.01.17 Animals of Series I standing 

– A 03.01.24 Animals of Series I stylized 

– Klassierungsbeispiel: stilisierter Hund 

– 03.01.08 / 03.01.24 



Wirtschaftsklassifikationen 

• Klassifikationen der Amtlichen Statistik 

– NACE (Europäische Union) 

– WZ 03 (Deutschland) 

– SIC (USA - veraltet) 

– NAICS (Nordamerika) 

• Spezielle Branchenklassifikationen 

– European Business Classification (Schober) 

• Produktklassifikationen 

– Predicasts Product Codes (Gale Group) 

– Kompass 

– Dun & Bradstreet SIC 

Anneliese Krobath: Analyse von amtlichen und proprietären Wirtschaftsklassifikationen anhand eines Kriterienkatalogs. 

– Dipl.-Arb. Karl-Franzens-Univ. Graz, 2004. 

Mechtild Stock; Wolfgang G. Stock: Qualität professioneller Firmeninformationen im World Wide Web. - In: 

Willi Bredemeier et al.: Die Branche elektronischer Geschäftsinformation in Deutschland 2000/2001. – 

Hattingen; Kerpen; Köln, 2001, Kap. 3.2: Branchen- und Produktklassifikationen, 355-377. 


NACE 


• Nomenclature général des activités économiques dans les 

Communautés Européens 

• NACE (Rev. 1) seit 1993 verbindliche Klassifikation der 

Wirtschaftszweige in der EU 

• 4-stellige Notationen; derzeit 640 Klassen 

• 3 Hierarchieebenen Beispiel 

– Abteilung (2 Stellen) 29 

– Gruppen (1 weitere Stelle) 29.5 

– Klassen (1 weitere Stelle) 29.56 

– zusätzlich: Abschnitte (Buchstabennotationen),die Abteilungen 

sequentiell zusammenfassen, Bsp.: D für die Abteilungen 15 - 37 

NACE Rev. 1: Statistische Systematik der Wirtschaftszweige in der Europäischen Gemeinschaft. – Luxembourg: 

Amt für Amtliche Veröffentlichungen der Europäischen Gemeinschaften, 1996. – (Themenkreis 2: Wirtschaft 

und Finanzen; Reihe E: Methoden). - Letzte Änderung: NACE Rev. 1.1 (2003). 

Online: europa.eu.int/comm/eurostat/ramon/geninfo/geninfo_de.html 



A Land- und Fortwirtschaft 01, 02 

B 

C 

D 

Fischerei und Fischzucht 

Bergbau und Gewinnung von Steinen und Erden 

Verarbeitendes Gewerbe 

NACE 

1. Hierarchie- 

05 

10 bis 14 

15 bis 37 

E Energie- und Wasserversorgung ebene 

40, 41 

F Baugewerbe 45 

G Handel, Instandhaltung und Reparatur von Kraftfahrzeugen 

und Gebrauchsgütern 50 bis 52 

H Gastgewerbe 55 

I Verkehr und Nachrichtenübermittlung 60 bis 64 

J Kredit- und Versicherungsgewerbe 65 bis 67 

K Grundstücks- und Wohnungswesen, Vermietung beweglicher 

Sachen, Erbringung von Dienstleistungen f. Unternehmen 70 bis 74 

L Öffentliche Verwaltung, Verteidigung, Sozialversicherung 75 

M Erziehung und Unterricht 80 

N Gesundheits-, Veterinär- und Sozialwesen 85 

O Erbringung von sonstigen öffentlichen und 

persönlichen Dienstleistungen 90 bis 93 

P Private Haushalte 95 

Q Exterritoriale Organisationen und Körperschaften 99 



WZ 93 / WZ 03 

• Übernahme der NACE in die deutsche amtliche Statistik ab 

1993 als „Klassifikation der Wirtschaftszweige“ (WZ 93) – 

Überarbeitung 2003 

• 5-stelliger Code (die letzte Stelle gilt nur für Deutschland) 

• 1.700 Klassen 

• Einsatz bei 

– Statistisches Bundesamt, Bürgel, Creditreform, Hoppenstedt, 

AZ Bertelsmann, Schober 

• Achtung: z.T. Klassen ohne Änderung der Definition gegenüber 

Oberbegriffen 

• Beispiel: 35.3 (Luft- und Raumfahrzeugbau) 

– 35.30 (Luft- und Raumfahrzeugbau (bis hierhin: NACE Rev. 1) - ohne 

Informationsgewinn 

» 35.30.0 (Luft- und Raumfahrzeugbau (5. Stelle der WZ 93) - wiederum 

ohne Informationsgewinn 



NACE - WZ 03 / Beispiel: Druckmaschinen 

• 29 (Maschinenbau) 

• 29.5 (Herstellung von Maschinen für sonstige 

bestimmte Wirtschaftszweige) 

• 29.56 (Herstellung von Maschinen für bestimmte 

Wirtschaftszweige a.n.g.) - bis hierhin: NACE 

• 29.56.1 (Herstellung von Maschinen für das 

Druckgewerbe) - nur für den Gebrauch in Deutschland 

Alphabetisches Verzeichnis zur Klassifikation der Wirtschaftszweige, Ausgabe 1993. – Stuttgart: 

Metzler-Poeschel, 1993. 

Online: www.destatis.de/allg/d/klassif/wz2003.htm 



Standard Industrial Classification (SIC) 

• 1939 - 1997 Klassifikation der Amtlichen Statistik der USA 

• letzte erschienene Revision: 1987 

• abgelöst durch NAICS 1997 

• wird derzeit noch von vielen Informationsproduzenten 

eingesetzt, u.a. Information Access Group, Dun & 

Bradstreet, Hoppenstedt, Schober 

• 4-stellige Notationen - rund 1.000 Klassen 

• hierarchischer Notationsaufbau, 4 Hierarchieebenen 

• stets mit „0“ auf vier Stellen aufgefüllt 

Online: www.osha.gov/oshstats/sicser.html 


SIC / Grundstruktur 


– 0 Landwirtschaft, Forstwirtschaft, Fischerei 

– 1 Bergbau, Rohstoffe, Hoch- und Tiefbau 

– 2 Herstellung kurzlebiger Verbrauchsgüter 

– 3 Herstellung langlebiger Gebrauchsgüter 

– 4 Transport, Nachrichtentechnik, Versorgungsbetriebe 

– 5 Groß- und Einzelhandel 

– 6 Finanzdienstleistungen 

– 7 (andere) Dienstleistungen 

– 8 Gesundheit und Bildung 

– 9 Staat, Regierung 

SIC / Beispiel: Druckmaschinen 

3000 (Herstellung langlebiger Gebrauchsgüter) 

3500 (Maschinenbau) 

3550 (Maschinenbau - Spezialmaschinen) 

3555 (Maschinenbau - Druck) 



NAICS / North American Industry Classification System 

• keine SIC-Revision, sondern neues System 

– durchgehend neu: Notationen 

– aus SIC unverändert übernommen: 422 Klassen 

– aus SIC revidiert übernommen: 390 Klassen 

– neue Klassen: 358 Klassen (z.B. „51 Information“) 

– 6-stelliger Code - 1.170 Klassen 

– 5 Hierarchieebenen 

• Sektoren (2 Stellen) - sequentielle Notationen 

• Subsektor (1 weitere Stelle) - ab hier hierarchische Notationen 

• Branchengruppe (1 Stelle) 

• Branche (1 Stelle) - bis hierhin international (NAFTA-Länder) 

• Teilbranche (1 Stelle) - landesspezifisch für USA, Kanada, 

Mexiko 


• 11 Agriculture, Forestry, Fishing 

and Hunting 

• 21 Mining 

• 22 Utilities 

• 23 Construction 

• 31-33 Manufacturing 

• 42 Wholesale Trade 

• 44-45 Retail Trade 

• 48-49 Transportation and 

Warehousing 

• 51 Information 

• 52 Finance and Insurance 

• 53 Real Estate and Rental and 

Leasing 

• 54 Professional, Scientific, and 

Technical Services 


• 55 Management of Companies and 

Enterprises 

• 56 Administrative and Support and 

Waste Management and 

Remediation Services 

• 61 Educational Services 

• 62 Health Care and Social 

Assistance 

• 71 Arts, Entertainment, and 

Recreation 

• 72 Accommodation and Food 

Services 

• 81 Other Services (except Public 

Administration) 

• 92 Public Administration 

NAICS: 1. Hierarchieebene 



NAICS 

• eingesetzt bei: 

– Amtlicher Statistik USA, Kanada und Mexiko 

– Datenbanken der Gale Group (u.a. PROMT) 

– (einigen) Firmendatenbanken in den USA 

• Beispiel: Druckmaschinen 

– 31 - 33 (Manufacturing) 

– 333 (Machinery Manufacturing) 

– 3332 (Industrial Machinery Manufacturing) 

– 33329 (Other Industrial Machinery Manufacturing) 

– 333293 (Printing Machinery and Equipment 

Manufacturing) 

North American Industry Classification System. – Lanham, MD: Bernan Press, 1998. Letzte Änderung: NAICS 2002. 

Ruth A. Pagell; Patricia J.S. Weaver: NAICS: NAFTA‘s industrial classification system. – In: Business Information 

Review 14 (1997) 1, 36-44. 

Online: www.naics.com 



Spezielle Branchenklassifikation: Schober 

– „European Business Classification“ (EBC) 

– rund 10.000 Klassen für Wirtschaftsbranchen und 

Wirtschaftsaktivitäten zur Unterstützung der Suche in einer 

B-to-B-Adressdatenbank 

– Beispiele für Klassen der Wirtschaftsaktivitäten 

• 6679 DIMA Düsseldorf 

• 5273 INFOBASE Intern. Fachmesse für Kommunikation Frankfurt 

– Beispiel Druckmaschinen 

• 703 Druckmaschinen Hersteller 

• 2557 Papier- und Druckmaschinen Hersteller 



Produktklassifikation 1: Gale-Codes (Predicasts-Codes) 

• angelehnt an SIC; erweitert auf 7 Stellen 

• Beispiel: 0174 (Zitrusfrüchte) 

– 0174007 Pampelmusen 

– 0174012 Zitronen 

– 0174013 Limonen 

– 0174015 Apfelsinen 

– 0174019 Mandarinen 

– 0174021 Tangelos 

– 0174022 Temples 

– 0174024 Orangen, Valencia 

– 0174099 Zítrusfrüchte, sonstige 

• Einsatz: in diversen Gale-Datenbanken 

Online: support.dialog.com/searchaids/dialog/galecodes/ 



Produktklassifikation 2: Dun & Bradstreet SIC 

• Erweiterung der SIC um zwei weitere Hierarchieebenen 

(jeweils 2-stellig) 

• über 18.000 Klassen 

• Stellen 1 bis 4: SIC 

• Stellen 5 und 6: Produktgruppe 

• Stellen 7 und 8: Produkte 

• wie bei SIC üblich: Auffüllen nach rechts freier Stellen 

durch Nullen 

• Einsatz: (geplant bzw. derzeit in Arbeit): bei der D&B- 

Firmendatenbank 



D&B SIC. Beispiel Druckmaschinen 

35550000 (Printing Trades Machinery) 

35550100 (Printing Presses) 

35550101 (Presses, Envelope, Printing) 

35550102 (Presses, Gravure) 

35550200 (Printing Plades) 

35550201 (Plates, Metal: Engravers') 

35550202 (Plates, Offset) 

usw. (gekürzt) 

35559900 (Printing Trades Machinery, NEC) 

35559901 (Bronzing or Dusting Machines for the Printing Trade) 


35559906 (Typographic Numbering Machines). 



Produktklassifikation 3: Kompass 

• Eigenes Produktklassifikationssystem der Kompass- 

Firmendatenbanken 

• Gegenstand: B-to-B Produkte und Dienstleistungen - rund 

50.000 Klassen 

• 3 Hierarchieebenen: 

– Branche (2-stellig) 

– Fachgruppen (weitere 3 Stellen) 

– Produkte (weitere 2 Stellen) 

• auf der Ebene der Fachgruppe zusätzlich: I / E (Import- bzw. 

Exportaktivitäten einer Firma) 

• auf der Ebene der Produkte zusätzlich P / D / S (Produktion, 

Distribution, Service) 

Online: www.kompass.com/ 


Kompass 


Meist hierarchisch strukturiert: 

• 20 (Nahrungs- und Genussmittel) 

• 20420 (Fische in Konserven und anderen Verpackungen) 

• 2042052 (Fischfrikadellen, -bällchen und -kuchen in Dosen) 

• ... aber mit Ausnahmen: 

• 20427 (Fische in Konserven und anderen Verpackungen / 

Landesspezifische Produkte / Frankreich) 

• 2042701 (Bouillabaisse in Konserven) 



44 (Maschinen und Anlagen für die Zellstoff-, Papier- und Druckindustrie. 

Büromaschinen und Anlagen für die elektronische Datenverarbeitung) 

44140 (Druckmaschinen und Zubehör / Teil 1) 

4414001 (Druckmaschinen, Hochdruck, Flachdruckprinzip) 

4414002 (Druckmaschinen, Hochdruck, Rotationsoffsetprinzip) 


4414053 (Druckmaschinen, Heliografieverfahren) 

44141 (Druckmaschinen und Zubehör / Teil 2) 

4414122 (Druckmaschinen, Mehrfarben) 

4414124 (Druckmaschinen, multifunktional) 


4414151 (Zylinder für Druckmaschinen) 

4414152 (Trockner für Druckmaschinen) 


44149 (Druckmaschinen und Zubehör) 

4414901 (Andruckpressen, Flexodruck, Anilindruck) 

44160 (Spezielle Druckmaschinen und Zubehör) 


Kompass. 

Bsp.: Druckmaschinen 

Achtung 

bei 44140 

und 44141: 

Sequentielle 

Notation! 



Branchen-Ebene: 

Import / Export 

Produkt-Ebene: 

Produzent / Handel / 

Dienstleister 

Kompass-Klassifikation 

Suchoberfläche 



Geographische Klassifikationen 

– finden in diversen Datenbanken (auch Wirtschaftsdatenbanken) 

zusätzlich zu anderen Systemen Einsatz 

– haben ihre Wurzeln teilweise in der amtlichen Statistik 

und finden auch dort ihren Einsatz 

– werden auch als Gebietsbeschreibungen in wissenschaftlichen 

Untersuchungen (etwa Regionalforschung 

oder Ökonomie) verwendet 

– bedeutende Klassifikationssysteme 

• NUTS 

• Gale Group Country Codes 

• sowie Derivate davon 


NUTS. Nomenclature des unités 

territoriales statistiques 

– entwickelt von der EU zur 

amtlichen Statistik und zur 

Verwendung bei eigenen 

Datenbanken (etwa TED) 

– hierarchisches System 

• Landesbezeichnung (2-stellig 

mit Buchstaben) 

• Untereinheit (1-stellig mit 

Zahlen; falls mehr als 10 

Untereinheiten: zusätzlich mit 

Buchstaben) 

• weitere Untereinheiten (bis zur 

Kreisebene bzw. bis zu den 

kreisfreien Städten) 


Beispiele: 

AT Österreich 

AT2 Südösterreich 

AT22 Steiermark 

AT221 Graz 

DE Deutschland 

DEA Nordrhein-Westfalen 

DEA2 Regierungsbezirk Köln 

DEA27 Rhein-Erft-Kreis 

DEA2A Oberbergischer 

Kreis 

Online: europa.eu.int/comm/ramon/nuts/home_regions_de.html 



NUTS: Suche via Landkarten 



GALE Group Country Codes 

– entwickelt von Predicasts, übernommen von Gale 

– derzeit Industriestandard im Bereich der Wirtschaftsdatenbanken 

– beinhaltet Weltregionen (0 bis 9), Staatengemeinschaften (soweit 

vorhanden) und einzelne Länder 

– Gliederung 

• 0 Internationales 

• 1 Nordamerika 

• 2 Mittelamerika 

• 3 Südamerika 

• 4 Europa 

• 5 Karibik 

• 6 Afrika 

• 7 Mittlerer Osten 

• 8 Australien, Ozeanien 

• 9 Asien 

Online: support.dialog.com/searchaids/dialog/galecodes/ 


GALE Group Country Codes 

– Beispiele: 

1 Nordamerika 

1USA USA gesamt 


1U9 Staaten der Westküste 

1U9CA Kalifornien 

Achtung: Suchen nach USA gesamt und ihrer Staaten in der 

Form: 1U* 

4 Europa 

4EU Europäische Union 

4EUGE Deutschland 

Hier nicht strukturabbildend 

hierarchische Notation 



Derivate der GALE Group Country Codes 

• da die Gale CC nur bis zur Länderebene reichen, gibt es 

Erweiterungen 

• Beispiel: Ländercode der ifo Literaturdatenbank für Deutschland 

• bis Länderebene: wie Gale CC (also für Deutschland: 4EUGE) 

• Bundesländergruppe (1-stellig, N für neue Länder, A für alte 

Bundesländer) 

• Bundesland (3-stellig, Buchstabencodes) 

• Kreise, Städte (Autokennzeichen) 

• Beispiel: 

– 4EUGE Deutschland 

– 4EUGEA alte Bundesländer 

– 4EUGEABAY Bayern 

– 4EUGEABAYFFB Landkreis Fürstenfeldbruck 

– 4EUGEABAYFS Landkreis Freising 

Bei letzter Hierarchieebene: 

sequentielle 

Notation 



Medizinklassifikation: International Statistical Classification 

of Diseases – Ausgabe 10 (ICD-10) 

• Auf internationaler Ebene erstellt von der World Health 

Organization (WHO) 

• In Deutschland gepflegt von DIMDI (Köln) 

• Einsatz: 

– Abrechnung im öffentlichen Gesundheitswesen (u.a. 

Krankenhäusern) 

– Abrechnung der niedergelassenen Ärzte 

– Statistik (u.a. Todesursachenstatistik) 

• Haupttafeln mit „Schlüsselnummern“ (Notationen) 

• Bei den Klassen (i.d.R. bei den Dreistellern): Definitionen 

• Klassierregeln für die jeweiligen Klassen 

• Allgemeine Klassierregeln 

• Zusatzkennzeichen (allgemeine Ergänzungszeichen) 

Online: www.dimdi.de/dynamic/de/klassi/download/index.html 



ICD-10 – Haupttafel in 21 Kapiteln. Beispiele: 

A00-B99 I. Infektiöse und parasitäre Krankheiten 

C00-D48 II. Neubildungen 

D50-D89 III. Krankheiten des Blutes 

E00-E90 IV. Ernährungs- und Stoffwechselkrankheiten 

F00-F99 V. Psychische und Verhaltensstörungen 

G00-G99 VI. Krankheiten des Nervensystems 

H00-H59 VII. Augenkrankheiten 

H60-H95 VIII. Ohrenkrankheiten 

... 

S00-T98 XIX. Verletzungen, Vergiftungen und andere Folgen 

äußerer Ursachen 

V01-Y98 XX. Äußere Ursachen von Morbidität und Mortalität 

Z00-Z99 XXI. Faktoren, die den Gesundheitszustand beeinflussen 

und zur Inanspruchnahme des Gesundheitswesens 

führen 



ICD-10. Beispiel Haupttafel: Verletzung nach Fahrradunfall 

V01-Y98 Äußere Ursachen von Morbidität und Mortalität 

V01-X59 Unfälle 

V01-V99 Transportmittelunfälle 

V01-V09 Fußgänger bei Transportmittelunfall verletzt 

V10-V19 Benutzer eines Fahrrades bei Transportmittelunfall 

verletzt 

V10 Benutzer eines Fahrrades bei Zusammenstoß mit 

Fußgänger oder Tier verletzt 

V11 Benutzer eines Fahrrades bei Zusammenstoß mit 

einem anderen Fahrrad verletzt 

... 

V18 Benutzer eines Fahrrades bei Transportmittelunfall 

ohne Zusammenstoß verletzt 

jeweils: 4. Stelle: besondere Ergänzungszahl 



ICD-10. Beispiel Haupttafel: Fahrradunfall 

Besondere Ergänzungszahlen bei V10-V18: 

.0 Fahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt 

.1 Mitfahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt 

... 

.3 Person beim Auf- und Absteigen verletzt 

... 

Notation einer Verletzung durch Stürzen beim Aufsteigen auf ein 

Fahrrad (ohne Zusammenstoß) 

V18.3 



ICD-10. Allgemeine Klassierregeln 

(1) Kreuz-Stern-System 

– Mit einem Kreuz (+) versehene Klassen bedürfen einer Ergänzung 

– Mit einem Stern (*) versehene Klassen dürfen nur an eine Kreuz- 

Klasse angebunden werden. 

– Beispiel: diabetische Retinopathie bei Typ I-Diabetes 

• E10 Primär insulinabhängiger Diabetes mellitus 

• .3+ (besondere Ergänzungszahl) mit Augenkomplikationen 

• H36.0* Retinopathia diabetica 

• Also: E10.3+H36.0* 

(2) Optionale Klassen 

– Mit einem Ausrufezeichen (!) versehene Klassen dürfen an eine 

andere Klasse angebunden werden. 

Beispiel: Z51.0! Strahlentherapie-Sitzung 


ICD-10 


– Zusatzkennzeichen (allgemeine 

Ergänzungsnotationen) 

– Es sind max. 2 (der 6) Zusatzkennzeichen hinter 

einer Notation zugelassen 

– R rechts 

– L links 

– B beidseits 

– V Verdachtsdiagnose 

– Z (symptomloser) Zustand nach der 

betreffenden Diagnose 

– A ausgeschlossene Diagnose 


ICD-10 

Diagnosethesaurus 

– Register zur ICD 

– rund 60.000 Einträge 



ICD-10 bei DIMDI 




Klassifikationen. Fazit 

• Klassifikationssysteme spielen eine nicht umgehbare Rolle 

in der Informationswirtschaft 

• Universalklassifikationen: Nutzung vorwiegend in großen 

Bibliotheken 

• WWW: Wenn im Web überhaupt intellektuell ausgewertet 

wird, dann klassifikatorisch 

• Gewerbliche Schutzrechte (Patente, Gebrauchsmuster, 

Marken, Geschmacksmuster): international eingesetzte und 

akzeptierte Systeme. Die professionelle Suche nach 

Schutzrechtsdokumente geht ausschließlich über die 

jeweiligen Klassifikationssysteme. 

• Wirtschaft: in vielen Wirtschaftsdatenbanken werden 

Branchen- oder Produktklassifikationen eingesetzt 

• Medizin: keine Abrechnung, keine Statistik ohne ICD 




• Es gibt einige Klassifikationssysteme, die sich herstellerübergreifend 

durchgesetzt haben: 

– Wirtschaft 

• in Europa: NACE 

• in Nordamerika: NAICS 

• weltweit (obwohl veraltet): SIC 

– Gewerbliche Schutzrechte 

• Patente, Gebrauchsmuster: IPC 

• Marken: Wiener Klassifikation, Nizza Klassifikation 

– Länder 

• Gale CC 

• NUTS 

– Medizin: ICD 




• Aus den „Standardsystemen“ werden Derivate abgeleitet: 

• WZ 93 aus NACE 

• Gale Product-Codes aus SIC 

• D&B-Product-Codes aus SIC 

• ifo Ländercode aus Gale CC 

• zusätzlich existieren herstellerspezifische Klassifikationssysteme 

(Schobers EBC, Kompass, ...) 

• Eigene, selbsterstellte Klassifikationen eignen sich zum 

Einsatz in unternehmensweiten Netzen (Intranets, 

Enterprise Information Portals) sowie zur Strukturierung 

von Katalogen (im E-Commerce) 



Vorteile von Klassifikationen (egal, ob bei 

professionellen Datenbanken oder in [irgendeinem] 

Unternehmen) 

– übersichtliche Navigation durch die Hierarchieebenen 

– sprachunabhängiges System (ggf. Nachteil: Notationen sind 

für Laien kaum recherchierbar; Ausgleich durch 

natürlichsprachige Oberflächen) 

– vielfältige Ausdrucksmöglichkeiten durch Trennung von 

Haupttafeln und Ergänzungstafeln 

– einfaches hierarchisches Retrieval durch Truncation (bei 

strukturabbildend hierarchischen Notationen) 



Nachteile von Klassifikationen 

– Die Struktur ist zwar nach unten hin stetig erweiterbar, aber 

nur sehr schwer im Grundaufbau zu verändern. 

Beispiele für Probleme: 

• DK: bildet die Wissenschaftsstruktur des späten 

19.Jahrhunderts ab 

• SIC: musste als Ganzes abgelöst werden, da die neueren 

wirtschaftlichen Entwicklungen (etwa: Aufkommen der 

Dienstleistungen) nicht integriert werden konnten 

– Bei den Relationen dominiert eindeutig die Hierarchierelation 

(in der monohierarchischen Variante). Alle Gegenstände, die 

sich „natürlich“ monohierarchisch gliedern, können gut 

klassifikatorisch erfasst werden; alle anderen nicht. 


Dokumentationssprachen II: 

Schlagwortmethode 




• einfache Form der verbalen Inhaltserschließung 

• kontrolliertes Vokabular (Schlagworte) 

• Vokabular wird der natürlichen Sprache entnommen 

• Einteilung des Gesamtvokabulars in Facetten 

(empfehlenswert, aber nicht zwingend) 

• Relationen: 

– (Quasi-)Synonymie (BF: benutzt für) 

– Assoziation (allgemeiner „siehe auch“-Verweis; 

VB: verwandter Begriff)) 

– chronologische Verweisung (falls nötig) 

– keine Hierarchierelationen (ansonsten läge ein Thesaurus 

vor) 



Beispiel: RSWK („Regeln für den Schlagwortkatalog“ 

und SWD („Schlagwortnormdatei“) 

• eingesetzt bei deutschen Bibliotheken 

• erarbeitet ab 80er Jahre des 20. Jahrhunderts von der DBI- 

Kommission für Sacherschließung; Publikation 1986 

• Einsatz von Facetten (Person – Ort – „Sache“ – Zeit – 

Form) 

• teilweise Verwendung hierarchischer Relationen („auf dem 

Weg zu einem Thesaurus“; hier nicht berücksichtigt) 

Regeln für den Schlagwortkatalog: RSWK. – Berlin: Deutsches Bibliotheksinstitut, 3 1998. 

Beispielsammlung zu den Regeln für den Schlagwortkatalog. – Berlin: Deutsches Bibliotheksinstitut, 1991. 

Konrad Umlauf: Regeln für den Schlagwortkatalog. Die Grundregeln der RSWK. – Berlin: HU Berlin / Institut 

für Bibliothekswissenschaft, 1999. – (Berliner Handreichungen zur Bibliothekswissenschaft; 66). 



RSWK / SWD 

• syntaktisches Indexieren durch Schlagwortketten 

• Schlagwortketten sind stets in der Reihenfolge Person – 

Ort – „Sache“ – Zeit – Form anzugeben 

• jede Kette drückt ein Objekt der dokumentarischen 

Bezugseinheit möglichst präzise und vollständig aus 

• Wahl des engsten Schlagwortes 

– Bsp.: Objekt „Untersuchungen zum HAWIK“ 

– Schlagwort: HAWIK 

– nicht: Intelligenztest / Kind / HAWIK (mitunter problematisch!) 

• Vermeiden von Pleonasmen 

– überflüssige Häufung sinngleicher Bezeichnungen (z.B. 

Zukunftsprognose) 

– problematisch bei wenig bekannten Begriffen (z.B. 

Nuraghenkultur; hier entfällt „Sardinien“ als pleonastisch) 

• Homonymzusatz (z.B. Atlas ) 


RSWK / SWD. 

Personenschlagwort 

• Eigennamen von Personen 

(einschließlich fiktiver 

Personen) 

• Familiennamen (z.B. 

Fugger ) 

• umfassende Liste von 

Ansetzungsvarianten 

• in SWD in Facette p 



RSWK / SWD. 

Geographisches und 

ethnographische 

Schlagwort 

• Namen von 

Gebietskörperschaften 

• Namen von Landschaften, 

Flüssen, Gebirgen, 

Wegstrecken usw. 

• Namen von Völkern, 

Rassen, Stämmen 

• in SWD in Facette g 




RSWK / SWD. Geographisches und 

ethnographische Schlagwort 

• Namensänderungen (z.B. St. Piterburch - St. Petersburg – 

Petrograd – Leningrad – St. Petersburg) 

• Variante 1: 

aktueller Name 

als Schlagwort, 

Verweise von 

allen anderen 

Namen 



RSWK / SWD. Geographisches und 

ethnographische Schlagwort 

• Namensänderungen (z.B. St. Piterburch - St. Petersburg – 

Petrograd – Leningrad – St. Petersburg) 

• Variante 2: Chronologische Relation (früher – später) 

– CF (chronologisch früher) – CS (chronologisch später) 

– zusätzlich: Hinweis auf den Zeitraum 

• Leningrad (Hinweis: 1924 – 1991) 

CF Petrograd (dort Hinweis: 1919 – 1924) 

CS Sankt Petersburg (dort Hinweis: ab 1991) 



RSWK / SWD. Sachschlagwort 

• in SWD in Facette s 

MO: mehrgliedriger Oberbegriff 



RSWK / SWD. Sachschlagwort 

• Einzelbegriff (Bsp.: Pest) 

• Kompositum (Bsp.: Luftverschmutzung) 

• Adjektiv-Substantiv-Verbindung (Bsp.: Juristische Person) 

• ggf. mit Homonymzusatz (Bsp.: Krebs ) 

• stehende Wendung (Bsp.: Information und Dokumentation) 

• Besonderheit: Werktitel (Facette t) 



RSWK / SWD. Zeitschlagwort 

• Variante 1: Verbale Epochenbezeichnung 

oder historische 

Einzelereignisse (als Sachschlagwort) 



RSWK / SWD. Zeitschlagwort 

• Variante 2: konkrete Jahresangaben in Verbindung mit 

„Geschichte“ (oder „Prognose“ o.ä.) 

• nicht in SWD enthalten 



RSWK / SWD. Formschlagwort 

• Erscheinungsweise, literarische oder physische Form der 

dokumentarischen Bezugseinheit 

• nur zu berücksichtigen, wenn der Inhalt tangiert wird 

(ansonsten bei formalen Angaben unter Dokumenttyp) 



RSWK / SWD. Ansetzung von Namen von 

Körperschaften 

• ortsgebundene Körperschaften (stets unter dem Ort 

anzusetzen) 

• Facette c 



RSWK / SWD. Ansetzung von Namen von 

Körperschaften 

• nicht ortsgebundene Körperschaften, darunter alle 

Wirtschaftsbetriebe (unter dem Körperschaftsnamen 

anzusetzen) – Facette k 

• bei Namenswechsel: chronologische Relation (CF – CS) 



RSWK / SWD. Syntaktisches Indexieren durch 

Schlagwortketten 

• pro Kette ein Objekt 

• so viele Ketten wie unterschiedliche Objekte 


Dokumentationssprachen III: 

Thesauri 


Thesaurus 


Thesauri 

• Jean Aitchison, Alan Gilchrist, David Bowden: Thesaurus 

Construction and Use. - London: Fitzroy Dearborn, 4 2000 

• DIN 1463/1: Erstellung und Weiterentwicklung von Thesauri 

• DIN 1463/2: Multilinguale Thesauri 

• DIN 31623/1; DIN31623/2; DIN 31623/3: Indexierung zur 

inhaltlichen Erschließung von Dokumenten 

• Winfried Schmitz-Esser: EXPO-INFO 2000. - Berlin [u.a.]: 

Springer, 2000 

• Gernot Wersig: Thesaurus-Leitfaden. – München [u.a.]: Saur, 

2 1985 


Thesauri 

Thesaurus 

Einsatzgebiete 

– in eng umgrenzten Fachgebieten 

• Terminologie eines Faches 

• Terminologie eines Unternehmens 

– in Gebieten, wo fachliches Wissen durch ein (von den 

betreffenden Fachleuten akzeptiertes) Begriffssystem 

repräsentiert werden kann 

– wenn ausschließlich mit Begriffen der natürlichen Sprache 

gearbeitet werden soll 

– wenn die Struktur des Gebietes über eine monohierarchische 

Ordnung hinausgeht 

– Anmerkung: Klassifikation und Thesaurus schließen sich 

nicht gegenseitig aus. Geschickt eingesetzt, ergänzen sie 

sich. 


Thesauri 

„Thesaurus“ nach DIN 1463/1 

„Ein Thesaurus im Bereich der Information und Dokumentation 

ist eine geordnete Zusammenstellung von Begriffen und ihren 

(vorwiegend natürlichsprachigen) Bezeichnungen, die in einem 

Dokumentationsgebiet zum Indexieren, Speichern und 

Wiederauffinden dient.“ 

• Merkmale eines Thesaurus: 

• 1. Terminologische Kontrolle durch natürlichsprachige 

DESKRIPTOREN 

• 2. Beziehungen zwischen den Begriffen bzw. Bezeichnungen 

durch (zweistellige) RELATIONEN 

• Thesaurus-Software (Freeware, nicht optimal, aber zum Üben 

geeignet): 

• Thew33 von Tim Craven (Univ. of Western Ontario) 

• http://publish.uwo.ca/~craven/freeware.htm 


Terminologische Kontrolle 

Thesauri 

– durch Deskriptoren (Vorzugsbenennungen) 

– durch Nicht-Deskriptoren (Verweise auf Deskriptoren) 

– der Deskriptor und die zugehörigen Nicht-Deskriptoren sind 

entweder Synonyme (Bsp.: Heirat, Eheschließung) oder 

Quasi-Synonyme, je nach Zweck des Thesaurus als synonym 

„erklärte“ Bezeichnungen (Bsp.: Retrieval, Recherche in 

einem Wirtschaftsthesaurus) 

– sowohl beim Indexieren als auch bei Recherchieren wird 

ausschließlich mit Deskriptoren gearbeitet werden 

– eine Recherche mit einem Nicht-Deskriptor im CT-Feld einer 

professionellen Datenbank führt stets zu null Treffern 


Thesauri 

Deskriptoren 

– sollten in der Fachliteratur verwendete Terminologie 

widerspiegeln 

– Einwort- wie Mehrwort-Deskriptoren sind möglich 

– Mehrwort-Deskriptoren in der natürlichen Wortfolge 

belassen 

– bei Mehrwortbegriffen, die in ihre Aspekte zerlegt 

werden sollen: Zerlegungskontrolle 

• morphologische Zerlegung (Bsp.: Blumengesteck � 

Blume, Gesteck; falsches Bsp.: Eisenbahn � Eisen, Bahn) 

• semantische Zerlegung (Bsp.: Eisenbahn: Schienenbahn, 

Überlandverkehr) 

– zerlegen? (Postkoordination) 

• nur dann, wenn die Kombination der Einzelbegriffe den 

korrekten Mehrwortbegriff ergibt 

• nicht, wenn eine hohe begriffliche Spezifizierung 

angestrebt wird 


Thesauri 

Deskriptoren 

– nicht zerlegen? (Präkombination) 

• dann, wenn die Einzelbegriffe eine andere Bedeutung als die 

Präkombination haben (Bsp.: Schlüsselbein, 

Öffentlichkeitsarbeit) 

• wenn ballastarme Suche ermöglicht werden soll 

• ggf. Einsatz eines Kombinationsverweises (Bsp.: 

Bibliotheksstatistik � benutze Kombination � Statistik, 

Bibliothek 

– Wortarten 

• vorzugsweise Substantive; Verben in substantivierter Form 

• Adjektive an Substantiv gebunden (Bsp.: Internationale 

Beziehungen) 

• Substantiv im Nominativ Singular; Ausnahmen bei nicht 

gebräuchlichen Singularformen (Bsp.: Eltern) oder bei 

Bedeutungsunterschied Singular – Plural (Bsp.: Kosten) 

• Abkürzungen bzw. Akronyme nur bei Bekanntheit (Bsp.: UKW) 


Deskriptoren 

– Homonyme / Polyseme: 

Thesauri 

• Unterscheidung durch Klammerzusatz als klärendes Element 

Bsp. Homonym: Kiefer [Knochen] – Kiefer [Nadelholz] 

Bsp. Polysem: Knie [Gelenk] – Knie [Werkstück] 

• Unterscheidung durch Verweise von homonymen Nicht-Deskriptoren 

auf eindeutige Deskriptoren 

Bsp.: Eiweiß � benutze Synonym � Eiklar � oder � Protein 

– Deskriptorsatz 

• Bezeichnung des Deskriptors 

• Auflistung aller Nicht-Deskriptoren 

• Auflistung aller Deskriptoren, mit denen der Deskriptor in direkter 

Beziehung steht 

• Erläuterung zum Gebrauch (nicht zwingend) – Abk.: H (Hinweis) oder 

SN (Scope Note) 

• Definition (nicht zwingend) 

• Übersetzungen (nicht zwingend) 

• Konkordanzen zu anderen Erschließungssystemen (nicht zwingend) 


Nicht-Deskriptoren 

Thesauri 

– verweisen auf „ihren“ Deskriptor 

– alle Synonyme des Deskriptors auflisten 

– alle Quasi-Synonyme und weitere Bezeichnungen auflisten 

– Varianten: 

• Äquivalenz (Synonyme und Quasi-Synonyme) 

Bsp: Heirat � benutze Synonym (BS) � Eheschließung 

• Begriffskombination (Verweis von einem Mehrwort-Nicht- 

Deskriptor auf die einzelnen zerlegten Deskriptoren) 

Bsp.: Lehrerbildungsgesetz � benutze Kombination (BK) � 

Lehrer – Bildung – Gesetz 

• Bündelung (Verweis auf einen Oberbegriff) 

Bsp.: Zitrone � benutze Oberbegriff (BO) � Zitrusfrucht 


Thesauri 

Deskriptorsatz / Beispiel: Standard-Thesaurus Wirtschaft 

Deskriptor 

Erläuterung 

Klasse 

NACE- 

Konkordanz 

Nicht- 

Deskriptoren 

HWWA 

Oberbegriffe 

Unterbegriffe 

verwandte 

Begriffe 


Thesauri 

Relationen 

• Äquivalenzrelation 

– Synonyme 

– Quasi-Synonyme 

– abweichender Sprachgebrauch (Bsp.: 

Massenkommunikationsmittel - Massenmedien) 

– Abkürzung (Bsp.: DNS – Desoxyribonucleinsäure) 

– gebräuchliche fremdsprachliche Bezeichnung (Bsp.: 

Computer – Rechenanlage) 

– Schreibweise (Bsp.: Fotografie, Photographie) 

– invertierte Form (Bsp.: verarbeitendes Gewerbe – Gewerbe, 

verarbeitendes) 


Relationen 

• Äquivalenzrelation 

Thesauri 

– Nichtdeskriptor – Deskriptor – Relation 

Abk.: BS (benutze Synonym) – BF (benutzt für) 

USE – UF (used for) 

Bsp.: Auto BF Personenkraftwagen 

Personenkraftwagen BS Auto 

– Nichtdeskriptor – Begriffskombination – Relation 

Abk.: BK (benutze Kombination) – KB (benutzt in Kombination) 

Bsp.: Binnenschifffahrt KB Binnenschifffahrtsstatistik 

Schifffahrtsstatistik KB Binnenschifffahrtsstatistik 

Binnenschifffahrtsstatistik BK Binnenschifffahrt - 

Schifffahrtsstatistik 


Relationen 

Thesauri 


Abstraktionsrelation Bestandsrelation 

logische Sicht gegenständliche Sicht 


Thesauri 

Relationen 

• Hierarchierelation (allgemein) 

– Nichtdeskriptor – Deskriptor – Hierarchierelation (Bündelung) 

Abk.: BO (benutze Oberbegriff) – FU (benutzt für Unterbegriff) 

Bsp.: Zitrusfrucht FU Zitrone 

Zitrone BO Zitrusfrucht 

– Deskriptor – Deskriptor – Relation (der Normalfall) 

Abk.: OB (Oberbegriff) – UB (Unterbegriff) 

BT (broader term) – NT (narrower term) 

Bsp.: Universität OB Hochschule 

Hochschule UB Universität 

– Deskriptor – oberes Ende der Begriffsleiter 

Abk.: TT (Top Term) 

Bsp.: Universität TT Bildungseinrichtung 


Relationen 

Thesauri 

• Hierarchierelation. Version 1: Abstraktionsrelation 

• Der Begriffsinhalt des Unterbegriffs enthält mindestens ein 

Merkmal mehr als der Begriffsinhalt des Oberbegriffs. 

• Ober- und Unterbegriff gehören i.d.R. derselben Dimension an. 

Abk.: OA (Oberbegriff Abstraktionsrelation) – UA 

BTG (broader term – generic) – NTG 

Bsp.: Meise OA Singvogel 

Singvogel UA Meise 

• Aus logischen Gründen kann es u.U. zwingend sein, Hierarchieebenen 

einzuführen, auch wenn es dazu keine Dokumente gibt 

(Stützdeskriptoren). 


Thesauri 


• Stützdeskriptor. Beispiel: Thesaurus Technik und Management 

Stützdeskriptoren 


Thesauri 


• Stützdeskriptor. Beispiel: Thesaurus Technik und Management 

Stützdeskriptor 


Thesauri 


• Beispiel einer Begriffsleiter als Baum 

Quelle: EMBASE 

bei Ovid 


Relationen 

Thesauri 

• Hierarchierelation. Version 2: Bestandsrelation 

• Der übergeordnete Begriff (Holonym) entspricht einem Ganzen, 

der untergeordnete Begriff einem Bestandteil dieses Ganzen 

(Meronym). 

• alle Geographika sind Bestandsrelationen 

Abk.: SP (Verbandsbegriff) – TP (Teilbegriff) 

BTP (broader term – partitive) – NTP 

Bsp.: Putenkeule SP Truthahn 

Truthahn TP Putenkeule 

Kerpen SP Erftkreis 

Erftkreis TP Kerpen 


Relationen 

• Hierarchierelation. 

Version 2: 

Bestandsrelation 

• Transitive 

Bestandsrelationen 

eignen sich gut für 

graphische 

Darstellungen 

• Beispiel: 

Hoppenstedt 

Firmendatenbank 

Thesauri 


Thesauri 

Thesaurus als Recherchehilfsmittel bei der 

hierarchischen Suche. Beispiel: STW bei GBI 

Suchargument: 

EU sowie alle Mitgliedsländer 

Begriffe einsammeln: 

-Deskriptor 

-alle Unterbegriffe 

-alle Oberbegriffe 

-alle verwandten Begriffe 

-einzelne Begriffe 


Thesauri 



ausgewählte Begriffe 

„Begriffskorb“ 

nächster Schritt: 

Auswahl der Datenbank 


Thesauri 



Die ausgewählten 

Begriffe werden 

in die Suchmaske 

übernommen und 

mit dem Booleschen 

ODER verbunden. 


Relationen 

• Assoziationsrelation 

Thesauri 

– nach DIN 1463 sehr allgemeine und unspezifische 

Relation 

– „verwandter“ Begriff 

– Begriffsbeziehung, die weder hierarchischer noch 

äquivalenter Art ist 

– im Sinne von „siehe auch“ oder „denke auch an“ 

Abk.: VB (verwandter Begriff) 

RT (related term) 

Bsp.: Apfel VB Birne 

Birne VB Apfel 


Thesauri 

Multilinguale Thesauri (nach DIN 1463/2) 

• Deskriptoren: müssen stets in allen Sprachen vorhanden 

sein 

• Nicht-Deskriptoren: es können zusätzlich zu übersetzten 

Nicht-Deskriptoren weitere Nicht-Deskriptoren für jede 

Sprache eingeführt werden 

• Hierarchierelation(en): es gibt nur genau EINE 

hierarchische Struktur 

– ggf. Stützdeskriptoren verwendet 

– ggf. neue Fremdworte in Sprache einführen 

• Assoziationsrelation: die Strukturen sollten multilingual 

übereinstimmen, es kann jedoch sprachabhängige 

Ausnahmen geben 


Multilinguale Thesauri 

Thesauri 

• Fremdwort in einer Sprache (aufnehmen; ggf. Definition) 

Bsp.: 

deutsch: Teenager englisch: teenagers 

D: Person zwischen 13 und 19 Jahren 

• Wortprägung (wenn nicht als Fremdwort aufnehmbar, dann 

Übersetzung, ggf. mit Hinweis) 

Bsp.: 

französisch: enfant a cle deutsch: Schlüsselkind 

NE: equivalent du terme allemand 

„Schlüsselkind“ 


Thesauri 


• Äquivalenz (problemlose Eins-zu-eins-Übersetzung) 

– sprachliche Verwandtschaft 

Bsp.: Physik (dt.) – physics (engl.) – physique (franz.) 

– sprachliche Unabhängigkeit; semantische Gleichheit 

Bsp.: Amsel (dt.) – blackbirds (engl.) – merle (franz.) 

– gleicher oder ähnlicher Begriffsumfang, anderer Begriffsinhalt 

Bsp.: alkoholfreies Getränk (dt.) – soft drinks (engl.) – boisson non 

alcoolisee (franz.) 

• Probleme mit der Äquivalenz 

– Teil-Äquivalenz (engerer oder weiterer Begriffsumfang) 

Bsp.: Wissenschaft – science 

Lösungsmöglichkeit: einen der Terme als Fremdwort einführen 

Deskriptorsatz englisch: Wissenschaft; SN: loan term adopted from 

German; NT science 

Deskriptorsatz deutsch: Wissenschaft; UB Naturwissenschaft 


Thesauri 


• Probleme mit der Äquivalenz 

– Begriffszerlegung bzw. –kombination 

Bsp.: skidding (engl.): rutschen und schleudern 

Lösungsmöglichkeit: jeweils parallele Begriffe konstruieren 

Deskriptorsatz englisch: skidding; NT skidding (forwards), NT skidding 

(sideways) 

Deskriptorsatz deutsch: Rutschen/Schleudern; UB Rutschen; UB 

Schleudern 

• Homonym / Polysem sprachübergreifend 

– Lösung: Sprachkürzel als Homonymzusatz 

Bsp.: Gift (de) – poison; Geschenk – gift (en) 

• International gebräuchliche Abkürzungen 

– Lösung: internationale Variante verwenden; nationale Variante als 

Nicht-Deskriptor 

– nur nationale gebräuchliche Abkürzungen vermeiden 


Thesauri 

Multilinguale Thesauri. Beispiel: Thesaurus Technik und Management 

Zielsprache deutsch 

Wörterbücher dt. – engl. und 

engl. - dt. 


Thesauri 

Multilinguale Thesauri. Beispiel: UNESCO Thesaurus 

Beispiel 

Zielsprache englisch 

Wörterbücher engl. – franz. – 

span. 


Thesauri 

Multilinguale Thesauri. Beispiel: UNESCO Thesaurus 

Deskriptorsatz 

Abk.: MT: Micro-Thesaurus 

FR: Deskriptor französisch 

SP: Deskriptor spanisch 


Aspekte 

Thesauri 

• nähere Erläuterung eines Deskriptors mittels eines „Aspektes“ 

• der Deskriptor bildet zusammen mit seinem Aspekt eine Einheit 

(keine UND-Verknüpfung) 


bei Ovid 


Thesauri 

Relationen im Thesaurus, die über den DIN-Thesaurus 

hinausgehen 

• (Quasi-)Synonymie-Relation zwischen Deskriptoren 

– haben wir bereits bei der Schlagwortmethode kennengelernt 

– chronologische Relation (früher – später) 

Abk.: Deskriptor(en) des früheren Gegenstandes CS 

(chronologisch später) Deskriptor(en) des späteren 

Gegenstandes; umgekehrt: CF (chronologisch früher) 

– bei den Deskriptoren als Hinweis den Zeitraum angeben! 

Bsp.: Sindorf. H: eigenständige Gemeinde bis 31.12.1974 

Kerpen-Sindorf. H: Ortsteil von Kerpen ab 1.1.1975 


• chronologische Relation 

Thesauri 

Bsp. (eineindeutige Relation): 

Sindorf CS Kerpen-Sindorf 

Kerpen-Sindorf CF Sindorf 

Bsp.: (einmehrdeutige Relation): 

Garmisch CS Garmisch-Partenkirchen 

Partenkirchen CS Garmisch-Partenkirchen 

Garmisch-Partenkirchen CF Garmisch 

CF Partenkirchen 

– Die chronologische Relation kann u.U. über mehrere Schritte 

laufen. 

Bsp.: Chemnitz CF Karl-Marx-Stadt 

Karl-Marx-Stadt CF Chemnitz [vor 1953] 


Thesauri 

weitere Relationen (Vorschlag: Winfried Schmitz-Esser 

für die EXPO 2000) 

– Generik (analog zur Abstraktionsrelation des DIN-Thesaurus) 

Abk.: weiterer/engerer Begriff: WB – EB 

Bsp.: vegetal products EB coconuts 

coconuts WB vegetal products 

– Nützlichkeit 

Abk.: nützlich für (NF) – profitiert von (PV) 

Bsp.: tree planting NF water balance regulation 

water balance regulation PV tree planting 

– Schädlichkeit 

Abk.: schädlich für (SF) – wird beeinträchtigt von (WG) 

Bsp.: overfertilization SF biotopes 

biotopes WG overfertilization 


Thesauri 

weitere Relationen (Vorschlag: Winfried Schmitz- 

Esser für die EXPO 2000) 

– Partition 1 (dinglich, gedanklich, ideell) 

Abk.: ist Bestandteil von (BV) – setzt sich zusammen 

aus (BA) 

Bsp.: booster BV missile 

missile BA booster 

– Partition 2 (geographisch, topographisch, administrativ) 

Abk.: ist Teil von (TV) – besteht aus den Teilen (BT) 

Bsp.: South America TV Latin America 

Latin American BT South America 

Winfried Schmitz-Esser: EXPO – INFO 2000. Visuelles Besucherinformationssystem für Weltausstellungen. – 

Berlin [u.a.]: Springer, 2000. 


Thesauri 

Allgemeine Thesaurusstruktur 

Deskriptor m in 

Sprache 1 

Rel 1 

Deskriptor m in 

Sprache i 

Deskriptor n in 

Sprache 1 

Deskriptor 1 in 

Sprache 1 

Rel 2 

Deskriptor n in 

Sprache i 

Rel 1 Rel 2 


Sprache i 


Sprache i 


Sprache i 


Sprache i 


Sprache i 


Sprache n 


Thesauri 

Visualisierung eines Thesaurus für Laien 

Darstellung eines Deskriptors 

Deskriptor 

Definition / Hinweise: 

text text text text text text text 




Graphik 

oder 

Videosequenz 

Anzahl der Dokumente: [Zahl] 

Thema merken zurück zum Themenraum 


Thesauri 


Darstellung eines Deskriptors. Beispiel 

Butter 

Definition: 

(grch. „bútyron“: Kuhquark) 

Speisefett, das aus Kuhmilch 

gewonnen wird. Beim Buttern in der 

Molkerei wird der reife Milchrahm 

mechanisch bearbeitet, bis sich die 

Fettkügelchen absetzen. 

Graphik 

oder 

Videosequenz 

Anzahl der Dokumente: 13 

Thema merken zurück zum Themenraum 


Thesauri 


Darstellung der Relationen (Themenraum) 

Deskriptor 

Deskriptor 

Deskriptor 

Deskriptor 

Deskriptor 

Deskriptor 

ist nützlich für 

ist schädlich für 

Deskriptor 

Deskriptor 

Deskriptor 

ist Bestandteil von 

Deskriptor 

Deskriptor 

besteht aus den 

Teilen 

Deskriptor 

Deskriptor 

Deskriptor 

Deskriptor 

Deskriptor 

Deskriptor 

Deskriptor 

Deskriptor 


Thesauri 


Darstellung der Relationen (Themenraum). Beispiel 

Braten 

Braten 

CholesterinCholesterinspiegelspiegel 

Brotbelag 

Brotbelag 

ist nützlich für 

ist schädlich für 

Herz 

Herz 

Butter 

ist Bestandteil von 

Magen 

Magen 

besteht aus den 

Teilen 

Milch 

Milch 

Butterfett 

Butterfett 

Molke 

Molke 

Salz 

Salz 


Thesauri 

• Thesaurusauf- und –ausbau 

– Thesaurusaufbau 

• Sammlung der Fachbegriffe durch (sprach-)empirische 

Erhebungen; Quellen: Terminologie der Fachliteratur, 

Experten, potentielle Benutzer 

• Zusammenfassen (quasi-)synonymer Bezeichnungen; 

Auswahl der (vorläufigen) Vorzugsbenennungen 

• Überprüfung jeder Vorzugsbenennung („Deskriptor- 

Kandidat“); Kriterien für Deskriptoren: 

– relative Häufigkeit in der Literatur 

– erwartetes Vorkommen bei Abfragen 

– Art der Relationen zu bereits akzeptierten Deskriptoren 

– Authentizität der Terminologie des Fachgebiets 

– Zweckmäßigkeit für die Erfassung von Inhalt und Umfang des 

Begriffs 


Thesauri 

• Thesaurusauf- und –ausbau 

– Thesaurusausbau (Thesauruspflege) 

• Eliminierung von Deskriptoren (sofern diese beim 

Indexieren nicht oder kaum genutzt werden) 

– alle Relationen des Deskriptors werden mit gelöscht 

– beim Deskriptorsatz vermerken: verwendet bis ... [Datum] 

– oder: Dokumente neu indexieren 

• Differenzierung von Deskriptoren (sofern sehr viele 

Dokumente darunter fallen) 

– neue Deskriptoren als Unterbegriffe in den Thesaurus 

einführen 

– beim Deskriptorsatz vermerken: ohne Unterbegriffe 

verwendet bis ... [Datum] 

– oder: Dokumente neu indexieren 

• Aufnahme neuer Deskriptoren (beim Aufkommen neuer 

Terme im Fachgebiet) 

– neue Deskriptoren in die Relationen einhängen 

– beim Deskriptorsatz vermerken: verwendet ab ... [Datum] 


Thesauri 

• Indexieren mittels eines Thesaurus 

– gleichordnendes Indexieren (nach DIN 31.623/2) 

Deskriptoren werden einem Dokument gleichrangig und 

unstrukturiert zugeordnet 

Beispiel: Ein Dokument behandle im ersten Teil den 

Export italienischer Weine nach Deutschland und im 

zweiten Teil den Import deutscher Autos nach Italien. 

Indexat: 

Export; Import; Italien; Deutschland; Wein; Auto 

Problem: führt u.U. zu Informationsballast (Bsp.: Suche 

nach dem Export deutscher Weine mit dem Argument 

„Wein AND Deutschland AND Export“ findet fälschlich 

unser Beispiel) 


Thesauri 

• Indexieren mittels eines Thesaurus 

– syntaktisches Indexieren (nach DIN 31.623/3) 

Deskriptoren werden einem Dokument unter Wahrung ihrer 

thematischen Zusammenhänge zugeordnet (Bildung von 

thematischen Teilmengen) 

Indexat: 

Wein – Export – Italien. 

Wein – Import – Deutschland. 

Auto – Export – Deutschland. 

Auto – Import – Italien. 

Italien – Deutschland – Außenhandel - Wein. 

Italien – Deutschland – Außenhandel - Auto. 

– Themenketten werden mit Abstandsoperator (etwa: SAME) und 

nicht mit dem Booleschen UND durchsucht 

– Probleme: wird ggf. von den Nutzern nicht verstanden; ist teuer 


Thesauri 

Syntaktisches Indexieren Beispiel: HWWA 

Zwei Themenketten 


• Gewichtetes Indexieren 

• Vorgehen 

Thesauri 

– Variante 1: intellektuelle Zuordnung von numerischen 

Werten zu den einzelnen Deskriptoren (wird derzeit nicht 

durchgeführt) 

– Variante 2: Zwei-Klassen-Verfahren: 

• Auszeichnung der zentralen Deskriptoren zu einem 

Dokument als „Fokus“ (besonders wichtig in der 

dokumentarischen Bezugseinheit abgehandelt) 

• Ziel: Ermöglichen des Suchens nach nur solchen 

Dokumenten, in denen das Thema zentral vorkommt 


Thesauri 

Klasse 1 – Deskriptoren 

wichtig – Fokus 

(mit Sternchen *) 

Klasse 2 – Deskriptoren 

Quelle: EMBASE bei Ovid 


Thesauri 

• Indexieren mittels eines Thesaurus. Vorgehen 

– dokumentarische Bezugseinheit (quer)lesen 

– Verstehen des Dokumenteninhalts 

– besondere Konzentration auf Terme aus: 

• Titel 

• Einleitung 

• Zusammenfassung 

• Autorenabstract 

• Kapitelüberschriften 

• Bildtitel 

• hervorgehobene Textstellen 

• Sätze, die Schlussfolgerungen enthalten („Reizterme“: 

also, somit, ...) 

• häufig vorkommende Terme 


• Indexieren 

– Ermittlung der Terme 

Thesauri 

• Extraktionsmethode: 

Entnahme von Termen, die im vorliegenden Text 

vorkommen (Minimierung der Gefahr von 

Missverständnissen) 

• Additionsmethode: 

Zuteilung von Termen, die im Text nicht enthalten 

sind (Achtung: Fehlinterpretationen sind möglich) 

einzig mögliche Methode bei nicht-textuellen Medien 

(Bildern, Videosequenzen, ...) 

– alle ermittelten Terme notieren 


Thesauri 

• Indexieren 

– Aufsuchen der ermittelten Terme im Thesaurus 

• ermittelter Term ist Deskriptor: Deskriptor übernehmen 

• ermittelter Term ist Nicht-Deskriptor: zugehörigen 

Deskriptor übernehmen 

• ermittelter Term ist weder Deskriptor noch Nicht- 

Deskriptor: Gibt es einen bestpassenden anderen 

Deskriptor? Wenn ja: diesen übernehmen 

• Wenn nein: 1) Term in Vorschlagsliste für die Modifikation 

des Thesaurus notieren; 2) ggf. Term als „freien Begriff“ 

dem Dokument zuordnen 

• bei jedem Deskriptor den Relationen folgen: gibt es weitere 

passende Deskriptoren bei Oberbegriffen, Unterbegriffen, 

verwandten Begriffen usw.? 

• bei mehreren Kandidaten in der selben Begriffsleiter: ggf. 

nur den spezifischeren Deskriptor wählen (muss durch 

Regelwerk geklärt werden) 


Thesauri 

• Kriterien der Deskriptor-Auswahl: Indexierungstiefe 

• muss durch Regelwerk eindeutig vorgegeben sein (sonst 

würde die Datenbasis uneinheitlich indexiert) 

• Kriterium 1: Indexierungsbreite. Anzahl der zu vergebenden 

Deskriptoren (pro Dokument, pro Seite, pro Zeichen, ...) 

Bsp.: ifo Literaturdatenbank: ca. 0,5 bis 2 Deskriptoren pro 

Textseite 

Bsp.: Bibliodata: ca. 1 bis 2 Schlagworte pro Buch 

• Kriterium 2: Indexierungsspezifität. Trennschärfe der 

Deskriptoren 

– bereits häufig vergebene Deskriptoren sind wenig selektiv 

– Deskriptoren, die hoch in einer Begriffsleiter stehen, sind u.U. 

wenig selektiv 

– deshalb: wenig spezifische Deskriptoren möglichst mit anderen, 

trennscharfen Deskriptoren kombinieren 


Thesauri 

• Kriterien der Deskriptor-Auswahl: 

Dokumentationswürdigkeit von Deskriptoren 

– analog zur Dokumentationswürdigkeit von Dokumenten 

– (1) Relevanz im Dokument: Ist der Deskriptor im Rahmen 

des Dokumentes wichtig? 

– (2) Informationsbedarf der Nutzer: Braucht ein Nutzer das 

Dokument, der nach dem Deskriptor sucht? Sucht ein 

Nutzer überhaupt unter diesem Deskriptor nach dem 

Dokument? 

– (3) Bisheriger Stand der Datenbank: Gibt es „bessere“ 

Dokumente zu dem Deskriptor? Sagt das Dokument zum 

Deskriptor etwas Neues aus? 


Thesauri 

• Indexierungstiefe: Wie das Optimum finden? 

– zu wenige oder zu spezifische Deskriptoren: Informationsverlust 

– zu viele oder zu unspezifische Deskriptoren: Informationsballast 

– „gute“ Indexierung: Gratwanderung zwischen Informationsverlust 

und Informationsballast 

• Indexierungstiefe und Nutzertyp (Laie vs. Experte) 

– Laie sucht Überblick UND Indexierungstiefe niedrig: 

Rechercheergebnis zufriedenstellend (+) 

– Laie sucht Überblick UND Indexierungstiefe hoch: 

Rechercheergebnis bringt zu viele Treffer (-) 

– Experte sucht Spezialwissen UND Indexierungstiefe niedrig: 

Rechercheergebnis bringt zu wenige genaue Treffer (-) 

– Experte sucht Spezialwissen UND Indexierungstiefe hoch: 

Rechercheergebnis zufriedenstellend (+) 


Thesauri 

• Sicherung gleichbleibender Indexierungsqualität: 

Indexierungskonsistenz 

– Inter-Indexer-Konsistenz (Vergleich der Indexate zur 

selben DBE verschiedener Indexer) 

– Intra-Indexer-Konsistenz (Vergleich der Indexate des 

selben Indexers zur selben DBE zu unterschiedlichen 

Zeiten) 

– bei der Produktion der Datenbasis ist eine möglichst 

hohe Indexierungskonsistenz zu gewährleisten 

– Methode: in periodischen Abständen (etwa: monatlich) 

Tests durchführen; die Ergebnisse im Indexierer-Team 

besprechen; dabei: 

• Verbesserungen des Thesaurus (Thesauruspflege) 

• Verbesserungen des Indexierungshandbuchs 


• Thesauri. Fazit 

Thesauri 

– In der kommerziellen Informationswirtschaft sind die 

Thesauri DIE Methode der Wissensrepräsentation. 

– Thesauri eignen sich auch für den Einsatz bei Intranets 

bzw. Enterprise Information Portals. 

– Es existieren weltweit weit über 1.000 Thesauri. 

– Der „Standard“: Der DIN-Thesaurus kennt Synonyme 

(Nicht-Deskriptor – Deskriptor-Relation), Hierarchierelationen 

(Abstraktions- und Bestandsrelation) sowie 

die Assoziationsrelation. 

– Weitere (2-stellige) Relationen sind problemlos 

hinzufügbar (etwa: Nützlichkeit – Schädlichkeit). 


Thesauri 

• Thesauri. Fazit 

– Neben Profi-Oberflächen sollte man Thesaurus- 

Oberflächen für Laien herstellen, die diesen die 

Navigation erleichtern. 

– Thesauri werden ständig überarbeitet und dem Stand 

der Terminologie eines Faches angepasst (Thesauruspflege). 

– Indexierung geschieht entweder gleichordnend (der 

Standardfall) oder syntaktisch (durch Markierung der 

Themenketten). 

– Die Qualität der Indexierung einer Datenbasis ist von der 

Indexierungstiefe (Indexierungsbreite und –spezifität) 

und von der Indexierungskonsistenz abhängig. 


• Vorteile von Thesauri 

Thesauri 

– Navigation durch diverse Relationen möglich 

– Können die Strukturen eines Fachgebiets umfassend 

terminologisch abbilden 

– Arbeiten mit der natürlichen Sprache (ggf. Nachteil: 

Beschränkung auf eine Sprache; Ausgleich durch 

multilinguale Thesauri) 

– Sind (relativ) leicht modifizierbar (zumindest leichter als 

Klassifikationssysteme) 


• Nachteile von Thesauri 

Thesauri 

– Der Thesaurusaufbau und die Thesauruspflege ist 

aufwendig und damit (z.T.: sehr) teuer. 

– Laien kommen u.U. (insbesondere, wenn keine eigenen 

Laien-Oberflächen geschaffen werden) mit Thesauri 

nicht zurecht. 

– Der Einsatz eines Thesaurus erfordert zusätzlich den 

Einsatz spezifischer Software (etwa: Weiterleitung bei 

der Eingabe von Nicht-Deskriptoren, Einbeziehen von 

Deskriptoren aus Relationen in eine Suche) 

– Wie bei der Klassifikation bildet ein Thesaurus nur 

Begriffe und deren Relationen ab, aber nicht die 

Sachverhalte, die dazu ausgesagt werden (und die das 

Wissen des Fachbereichs repräsentieren) 


Textsprachliche Methoden 

Volltextspeicherung 

Titelindexierung 

Textwortmethode 

Zitationsindexierung 


• Volltextspeicherung 


– Speicherung des Fließtextes im ASCII-Format (für die Suche) 

– Speicherung des Originallayouts im PDF-Format (für die 

Anzeige) 

– falls PDF nicht möglich: Fließtext (wenn möglich in Quasi- 

Faksimile) und Links zu Graphiken oder Abbildungen 

– Grundsatz: Volltexte nie „solo“ (ohne intellektuelle Inhaltserschließung 

oder ohne automatische Indexierung) ablegen 

• Suchfunktionalität bei Volltexten 

– einfache Boolesche Retrievalsysteme ungeeignet 

– Boolesche Systeme mit Abstandsoperatoren 

Mindestanforderung 

– Systeme mit automatischer Indexierung und mit Relevance 

Ranking erforderlich 



• Volltextspeicherung: Warum nicht den Volltext 

ohne Inhaltserschließung? 

– Das Vorkommen eines Wortes bedeutet nicht, dass auch 

etwas darüber ausgesagt wird („Dieser Artikel sagt 

nichts über die Zustände in Ungarn aus“ als Treffer 

einer Suchfrage nach „Ungarn“). 

– keinerlei kontrolliertes Vokabular zur Suche vorhanden: 

• Probleme mit Synonymen und Homonymen 

• Probleme mit Fremdsprachen 

• elliptische Formulierungen oder Wortspiele 

– Der Volltext solo erfüllt nicht die Anforderung eines 

Informationsfilters. 

– Volltext (ASCII) ist nur zur ergänzenden Suche geeignet. 


• Volltextspeicherung 


Zusammenspiel von: 

Metadaten, 

ASCII-Volltext, 

Faksimile (bei 

digitalen Dokumenten), 

Kopien-Service 

(bei nicht-digitalen 

Dokumenten) 

Beispiel: 

Konzeption der deutschen 

Virtuellen Fachbibliotheken 

( EconDoc; GetInfo; 

infoconnex; MedPilot) 




– Übernahme von Stichworten aus den Sachtiteln von 

Büchern oder Artikeln 

– frühes Verfahren der Wissensrepräsentation; eingesetzt 

vor allem bei Registern 

– Methoden: 

• KWIC (Keyword in Context) 

• KWOC (Keyword out of Context) 

• KWAC (Keyword and Context) 

• Permutierte Stichworte 

• Stichworte in grammatischer Grundform 

• stets: Elimination von Stoppworten 



KWIC 


Beispiel: Titel: Mehrwerte von Information – Professionalisierung 

der Informationsarbeit (lfd.Nr.: 5) 

Mehrwerte von Information – Professionalisierung der Informationsarbeit 5 




KWOC 

Information Mehrwerte von ... – Professionalisierung der Informationsarbeit 5 

Informationsarbeit Mehrwerte von Information – Professionalisierung der ... 5 

Mehrwerte ... von Information – Professionalisierung der Informationsarbeit 5 

Professionalisierung Mehrwerte von Information – ... der Informationsarbeit 5 



KWAC 


Beispiel: Titel: Mehrwerte von Information – Professionalisierung 

der Informationsarbeit (lfd.Nr.: 5) 

Information Mehrwerte von Information – Professionalisierung der Informationsarbeit 5 

Informationsarbeit Mehrwerte von Information – Professionalisierung der Informationsarbeit 5 

Mehrwerte Mehrwerte von Information – Professionalisierung der Informationsarbeit 5 

Professionalisierung Mehrwerte von Information – Professionalisierung der Informationsarbeit 5 

Permutierte Stichworte (mit grammatischer Grundform) 

Information – Informationsarbeit 5 

Information – Mehrwert(e) 5 

Information – Professionalisierung 5 

Informationsarbeit – Information 5 

... 




– Vorteile 

• schnell zu erstellen 

• kostengünstig 

• bei gewissen bibliothekarischen Projekten (etwa 

Retrokatalogisierung): einzig praktikable Methode 

– Nachteile: 

• kein kontrolliertes Vokabular (analog zu den Problemen 

der Volltextspeicherung) 

• Informationsverlust 

– je nach Dokumenttyp (sehr hoch bei Zeitungsartikeln, bei 

Patenten und bei Büchern, weniger hoch bei wissenschaftlichen 

Artikeln) 

– je nach Fach (hoch bei Geisteswissenschaften, weniger hoch 

bei Naturwissenschaften und Medizin) 

– Beispiel: Philosophie / Artikel: Verlust von über 80% im 

Vergleich zur Textwortmethode 




– die Nachteile überwiegen 

– als einzige Methode der Wissensrepräsentation nicht 

geeignet 

– trotzdem: in Datenbanken spezielles Feld (bzw. 

speziellen Tag bei HTML- bzw. XML-Dokumenten) für die 

Aufnahme der Titel definieren, das u.U. im Retrieval 

genutzt werden kann 

– KWIC im Volltext bei der Ausgabe nutzen: die 

Suchargumente im Kontext (hervorgehoben) anzeigen 

KWIC bei der 

Trefferliste von Google 



entwickelt von: 

Norbert Henrichs 

an der 

Forschungsabt. für 

philosophische Information 

und Dokumentation der 

Universität Düsseldorf 

(Ende der 60er Jahre des 20. 

Jahrhunderts) 


Ziel: 

Entwicklung einer 

wörterbuchunabhängigen 

Dokumentationsmethode. 

ursprünglicher Einsatzbereich: 

Philosophie 

Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift für philosophische Forschung 23 (1969), 

122-131. 



– Einsatzgebiet 


• außerhalb fester Terminologien 

– als einzige Methode (in Disziplinen mit prinzipiell nicht-fester 

Terminologie; etwa: Philosophie) 

– oder ergänzende Methode (zur Aufnahme von Begriffen, die 

ein aktuelle eingesetztes Klassifikationssystem oder ein 

Thesaurus nicht enthalten) 

• wenn noch keine Terminologie vorhanden ist 

(Textwortmethode bringt empirisches Termmaterial für den 

Aufbau von Dokumentationssprachen) 

– Basis der Wissensabbildung 

• ausschließlich der konkret vorliegende Text 

• KEIN vorgegebenes Begriffssystem 




– Methode 

• Auswahlverfahren zur Markierung von „Sucheinstiegen“ in 

Texte (N.B.: „Die Sprache ist das HAUS des Seins“, 

Heidegger. Texte werden als Häuser verstanden, die durch 

unterschiedliche Einstiege betreten werden.) 

• syntaktisches Indexieren: keine Einzelthemen, sondern 

thematische Ketten 

– Auswahlregeln 

• Textwörter aus Titeln und Zwischentiteln 

• häufig vorkommende Textwörter 

• Textwörter aus textlichen Schlüsselstellen 

• Bevorzugung von Neologismen 

• Bevorzugung von informationsreichen (Mehrwort-) 

Ausdrücken 

• je nach Textdichte ca. 0,5 bis 2 Textwörter pro Textseite im 

Durchschnitt 



– Varianten 


• nur originalsprachig (Henrichs‘ Methode). Problem: Nutzer 

muss alle einschlägigen Textwörter in allen Textsprachen 

der Datenbank kennen 

• originalsprachig mit zusätzlicher Übersetzung in eine 

Zielsprache (Methode der Datenbank „Grazer Schule“) 

– Indexierung 

• intellektuell (sehr aufwendig, daher sehr teuer) 

• Variante eines automatischen Indexierens (bislang noch 

nicht erprobt) 

• ermöglicht stets gewichtetes Retrieval 




– informetrische Verdichtungsmethoden 

• innerhalb genau einer Dokumentationseinheit 

– Gewichtungswert der Terme 

• gesamte Datenbasis oder Teilmenge davon 

– Wortfelder 

– Häufigkeit und Wichtigkeit von Termen 

– semantische Netze von Termen (Themennetze) 

Wolfgang G. Stock: Textwortmethode [Norbert Henrichs zum 65.]. – In: Password Nr 7+8 (2000), S. 26-35. 



• Textwortmethode. Beispiel eines Indexats 

Meinong, Alexius: Über Gegenstandstheorie, in: Untersuchungen 

zur Gegenstandstheorie und Psychologie, hg. v. Alexius Meinong. 

Leipzig: Johann Ambrosius Barth, 1904, 1-50. 

Thematischer Rahmen: 

Sachthemen: Gegenstandstheorie (1-18); Etwas (1); Gegenstand 

(1-15); Wirkliche, das (2-3); Erkenntnis (2,10); Objektiv (3,10); Sein 

(4,6-8); Existenz (4-5); Bestand (4); Sosein (5-6); Nichtsein (5); 

Unabhängigkeit (6); Gegenstand, reiner (7-8); Außersein (7-8); 

Quasisein (7); Psychologie (9); Erkenntnisgegenstand (10); Objekt 

(10); Logik, reine (11); Psychologismus (11-12); Erkenntnistheorie 

(12); Mathematik (13,18); Wissenschaft (14,18); 

Gegenstandstheorie, allgemeine (15); Gegenstandstheorie, 

spezielle (15,18); Philosophie (17); Metaphysik (17); Gegebene, das 

(17); Empirie (17); Apriorische, das (17); Gesamtheit-der- 

Wissenschaften (18) 

Namen: Mally, Ernst (6); Husserl, Edmund (11); Höfler, Alois (16) 



• Textwortmethode mit Übersetzungsrelation. Beispiel eines 

Indexats 

Veber, France: 07. O samoopazovanju kot posebni metodi 

znanstvenega raziskovanja, in: France Veber: Analiticna 

Psihologija. - Ljubljana: Kleinmayr & Bamberg, 1924, 39-50. 

Thematischer Rahmen: 

Sachthemen in Originalsprache: Sachthemen in Einheitssprache: 

samoopazovanje (1-6) Selbstbeobachtung (1-6) 

metoda (1) Methode (1) 

dozivljaj (2,5) Erlebnis (2,5) 

psihologija (3) Psychologie (3) 

opazovanje (4) Beobachtung (4) 

pristnost (5) Echtheit (5) 

dozivljanje (5) Erleben (5) 

spoznanje (6) Erkenntnis (6) 



Syntagmatische Relationen zwischen den Begriffen 

Basis für 

– Thesaurusaufbau 

– Wissenschaftsgeschichte 

– Nutzung als 

„einstellbarer“ 

Thesaurus 

– Syntagma als 

Basis für 

Paradigma 




– Vorteile 

• nimmt die Sprache der Autoren ernst 

• keinerlei paradigmatische Relationen, kein kontrolliertes 

Vokabular 

• einsetzbar in Gebieten, in denen Dokumentationssprachen nicht 

anwendbar sind 

• objektive Basis (im Gegensatz zu Dokumentationssprachen, die 

die Texte stets durch die Brille ihres Systems sehen); damit 

relativ interpretationsarm 

• Basis für diverse Weiterverarbeitungen (Thesaurusaufbau, 

Wissenschaftsgeschichte usw.) 

– Nachteile 

• aufwendig und teuer 

• u.U. mangelhafte Indexierungskonsistenz 

• Retrieval schwierig (kann jedoch durch Übersetzungen und 

durch informetrische Funktionen gemildert werden) 



(Citation Indexing) 

entwickelt von: 

Eugene Garfield 

am 

Institute for Scientific 

Information (Philadelphia; 

europäische Zentrale: London) 

(Mitte/Ende der 50er Jahre des 

20. Jahrhunderts) 


Eugene Garfield: Citation Indexing. – New York [u.a.]: Wiley, 1979. 



• Einsatzgebiete: überall, wo zitiert wird 

– Recht: Urteile 

– Patente 

– wissenschaftliche Literatur 

• Grundidee: Das Notieren von Fußnoten (oder anderen 

bibliographischen Angaben) gibt über den Inhalt eines 

wissenschaftlichen Artikels Auskunft 

• das Verfahren erfordert nur minimalen intellektuellen 

Aufwand und ist daher - als Methode der 

Inhaltserschließung - relativ kostengünstig herzustellen 

• das Institute for Scientific Information (ISI) verfügt nahezu 

über eine Monopolstellung bei der zitatenanalytischen 

Auswertung wissenschaftlicher Literatur (Ausnahme: 

CiteSeer) 


Zitat 1 

Zitat 2 


1 Stegmüller, Wolfgang: Probleme und Resultate der 

Wissenschaftstheorie und Analytischen Philosophie. - 

Band 4: Personelle und Statistische Wahrscheinlichkeit. 

Studienausgabe Teil A. - Berlin; Heidelberg; New York: 

Springer, 1973, S. 5. 

2 ebd., S. 5. 

3 ebd., S. 5. 

4 ebd., S. 6. 

5 ebd., S. 6. 

Mehrfachnennungen werden übergangen 

6 Haller, Rudolf: Wandlungen der Wissenschaftsauffassung. - 

In: Erhard Busek; Wolfgang Mantl; Meinrad Peterlik (Hrsg.): 

Wissenschaft und Freiheit. - Wien: Verlag für Geschichte 

und Politik; München: Oldenbourg, 1989, S. 46-58, hier: S. 

57. 

7 vgl. ebd., S. 55. 



Zitierender Artikel 

„Zitation“ 

Informationsübermittlung 

Zitierter Artikel 

„Referenz“ 

Reputation 


Zeit


• Zitationsindexierung beim ISI. Geschichte 

• Vorgeschichte: Sheppard‘s Citations, Zitationsindex für 

Gerichtsurteile (das Vorbild) 

• 1955: Garfield entwickelt die Idee wissenschaftlicher 

Zitationsindices 

• 1958: Gründung des Institute for Scientific Information (ISI) 

in Philadelphia, MA 

• erstes Produkt des ISI: Current Contents (CC) 

• 1961: Science Citation Index (SCI) 

• 1973: Social Sciences Citation Index (SSCI) 

• 1976: Journal Citation Reports (JCR) 

• 1978: Arts & Humanities Citation Index (A&HCI) 

• 1997: Web of Science (WoS) 

• 2001: Essential Science Indicators (ESI); Web of Knowledge 



• Zitatenindexierung wissenschaftlicher 

Zeitschriftenliteratur beim Web of Science: 

– SCI. Zuwachs: 17.000 Quellenartikel mit 300.000 

Zitationen pro Update (d.h. pro Woche); ab 1945 

– SSCI. Zuwachs: 2.800 Quellenartikel mit 50.000 

Zitationen pro Woche; ab 1956 

– A&HCI. Zuwachs: 2.200 Quellenartikel mit 15.000 

Zitationen; ab 1975 

• zusätzlich via Online-Archive (z.B. DIALOG) 

recherchierbar sowie (als Auftragsforschung) 

beim ISI (Research Services Group) 



• Kriterien der Zeitschriftenauswahl (derzeit: rund 8.000 ausgewertet) 

• Kernzeitschriften pro Disziplin (Ausnutzung des Garfieldschen Gesetzes) - 

Problem: Gesetz sagt etwas über eine Anzahl von Zeitschriften im Kern aus, 

welche Titel jeweils darin sind, ändert sich andauernd 

• deshalb: intellektuelle Durchsicht neuer (oder neu angebotener) Zeitschriften 

(ca. 2000 Zeitschriften jährlich, Auswahl von rund 10-12%) 

• Auswahlkriterien nach „Basic Standards“ 

– regelmäßige und termingerechte Erscheinungsweise 

– aussagekräftiger Zeitschriftentitel 

– aussagekräftige Artikeltitel 

– vollständige bibliographische Angaben bei Fuß- und Endnoten 

– englische Artikeltitel (bei nicht-englischer Literatur: Übersetzungen) 

– englische Abstracts, englische Keywords 

– Peer Review 

– internationale Ausrichtung (ggf. auch wichtige regionale Ausrichtung) 

– Neuigkeit des Inhalts (liegen schon ähnliche Zeitschriften beim ISI vor?) 

• Expertenurteile 



• Retrievalfunktionen bei Zitationsdatenbanken 

– Rekonstruktion der 

Informationsübermittlungen nach „hinten“, 

d.h. zur zitierten Literatur (via Referenzen) 

– Rekonstruktion der 

Informationsübermittlungen nach „vorne“, d.h. 

zur zitierenden Literatur (via Zitationen) 

– assoziatives Retrieval nach „verwandter“ 

Literatur (über gemeinsame Referenzen) 

– (Zugang zu den Volltexten) 



Web of Science 

Trefferanzeige 

Referenzen 

Zitationen 



Web of Science 

Anzeige der Zitationen 



• Zitationsindexierung. Probleme 

– Autoren zitieren nicht alle einschlägigen Quellen (u.a. 

„Super-Klassiker“) 

– Autoren zitieren Quellen, die nicht einschlägig sind (u.a., 

weil sie die eigene Meinung stützen) 

– Autoren haben unterschiedliche Zitationsstile 

– Selbstzitationen („Inzest“) 

– Zitationskartell (Selbstzitation einer Gruppe) 

– Zitationsebenen (nach Blaise Cronin) 

• V. Lebenswerk (im Text, zitatenanalytisch nicht erfasst) 

• IV. Motiv (im Text, zitatenanalytisch nicht erfasst) 

• III. Werk: Buch, Artikel (zitatenanalytisch sauber fassbar) 

• II. Kapitel, Abschnitt (wird Ebene III zugeschrieben) 

• I. Detail (wird Ebene III zugeschrieben) 



• Zitationsindexierung beim ISI. Probleme 

– Repräsentativität der selektierten Zeitschriften von 

Disziplin zu Disziplin (und von Land zu Land) 

unterschiedlich 

– Titel der Quellenartikel nur in englisch 

– Zitationen werden (mehr oder minder) einheitlich 

abgekürzt; für Laien: „Verstümmelung von Fußnoten“ 

– versteckte Literaturangaben im Text werden nicht immer 

(bei SCI und SSCI: gar nicht) berücksichtigt 

– Publikations- und Zitationsraten des ISI haben große 

Bedeutung in der Wissenschaftsforschung und 

Wissenschaftsevaluation (auch z.B. bei 

Lehrstuhlbesetzungen); deshalb sehr wichtig: Kenntnis 

der methodischen Probleme bei der 

Zitationsindexierung) 


• Navigation auf den 

Zitationen bei 

CrossRef 

– CrossRef: 

Zusammenschluss 

wichtiger 

Wissenschaftsverlage 

mit 

digitalen Volltexten 

– Die Artikel sind – 

über die 

Referenzen – 

miteinander verlinkt 

– Technik: DOI 

(digital object 

identifyer) 



• Zitatenindexierung 

– Vorteile: 


• ergänzt durch die besondere Form der Wissensabbildung 

jede andere Erschließungsmethode 

• ermöglicht Navigation über die Referenzen (CrossRef, ISI) 

und Zitationen (ISI, CiteSeer) 

• ermöglicht assoziatives Retrieval über die Menge gemeinsamer 

Referenzen bei unterschiedlichen Artikeln 

– Nachteile: 

• nur Artikel in Zeitschriften, Proceedings und 

Sammelbänden (keine Monographien) als Quellen 

• bei Referenzen wird u.U. „geschummelt“ 

• praktische Probleme beim ISI: u.a. Auswahl der 

Quellenwerke 


Nicht-thematische Informationsfilter 



Nicht-thematischer Informationsfilter (1): 

Zielgruppe 

• jeder dokumentarischen Bezugseinheit die spezifische(n) 

Zielgruppe(n) zuordnen 

• Grund: nicht jedes Dokument ist für jeden Nutzertyp 

interessant 

• Bsp.: bei fachlicher Literaturdatenbank: 

– interessierter Laie 

– Schüler (Oberstufe – Leistungskursniveau) 

– Student (B.A.-Niveau) 

– Student (M.A.-Niveau) 

– Forscher (mit allgemeinem Fachwissen) 

– Forscher (mit speziellem Fachwissen) 

• im Bsp.: Abfrage im Feld „Zielgruppe“ frei selektierbar; 

keine Zugangsbeschränkung 




Zielgruppe 

• Bsp.: bei unternehmensspezifischer Datenbank (im Intranet 

und Extranet): 

– (registrierter) Zulieferer 

– (anderer) Zulieferer 

– (registrierter) Kunde 

– (anderer) Kunde 

– Unternehmensmitarbeiter 

– Management 

– Forscher / Entwickler 

– Marketing 

– Betriebsrat 

• im Bsp.: Zugang zu bestimmten Dokumentationseinheiten 

nur mit gesondertem Passwort 




Zielgruppe 

• Bsp.: bei Datenbank über Kunstwerke: 

– interessierter Laie 

– Kaufinteressent 

– Künstler 

– Kunsthistoriker 

– Politiker 

– Journalist 

• für jede Datenbank sind die Zielgruppen zu bestimmen 

(Segmentierung über empirische Erhebung oder – 

einfacher, aber unzuverlässiger – über „intuitive“ 

Definition) 




Art der Themenbehandlung 

• Niveau der dokumentarischen Bezugseinheit hinsichtlich 

der Darstellung 

• nicht zu verwechseln mit dem Dokumenttyp (wie Zeitschriftenartikel, 

Artikel in Proceedings, Buch, Rezension) 

• Bsp.: bei fachlicher Literaturdatenbank 

– Überblicksartikel 

– empirische Studie 

– theoretische Abhandlung 

– methodologische Studie 

• Die Bezeichnungen für das Dokumentniveau sind als 

kontrolliertes Vokabular abzulegen. 





Variante 1: Art der Themenbehandlung als Deskriptor 

Nachteil: „versteckt“ bei den thematischen Deskriptoren 


bei Ovid 





Variante 2: Art der Themenbehandlung als separates Feld 

Quelle: TEMA bei 

FIZ Technik 




Verfallsdatum 

• nur bei zeitkritischen Dokumenten 

• Angabe eines Datums, nach dem die Dokumentationseinheit 

aus dem aktiven Informationssystem entfernt wird 

• entweder: löschen 

• oder: im Archiv weiterhin bereithalten 


Automatische Indexierung 



• Automatische Indexierung unter Nutzung von Informationsfiltern 

• Hinweis: ohne definierte Informationsfilter: Textstatistik / 

Linktopologie (Vorl. „Einführung in die Informationswissenschaft“) 

• Voraussetzung: Einsatz informationslinguistischer Verfahren 

• Varianten: 

• (1) ohne Dokumentationswerkzeug: Klassifikation von 

Dokumenten nach Ähnlichkeit 

– a) permanent: Klassifikation über die gesamte Datenbasis 

– b) temporär: für jede Suchanfrage 

• (2) mit Dokumentationswerkzeug (Schlagwortliste, 

Klassifikationssystem, Thesaurus): Dokumentanalyse – 

Zuordnung von Notationen, Schlagworten bzw. Deskriptoren 



• Klassifikation von Dokumenten nach Ähnlichkeit 

• Ziel: Zusammenfassen ähnlicher Dokumente unter eine Klasse 

(möglichst große Ähnlichkeit innerhalb der Klasse, möglichst 

große Unähnlichkeit zu anderen Dokumenten bzw. Klassen) 

• Basis: Worte und (erkannte) Phrasen von jeweils zwei 

Dokumenten in Grundform oder Wortstamm 

• Anzahl der Worte/Phrasen in Dokument A: a 

• Anzahl der Worte/Phrasen in Dokument B: b 

• Anzahl der in A und B gemeinsam vorkommenden 

Worte/Phrasen: g 

• ggf. zusätzlich: jeweils Gewichtungswert (IDF, WDF, Position) 

jedes Wortes bzw. jeder Phrase (i) 

Edie Rasmussen: Clustering Algorithms. – In: William B. Frakes; Ricardo Baezo-Yates (Hrsg.): Information 

Retrieval. Data Structures & Algorithms. – Upper Saddle River, NJ: Prentice Hall PTR, 1992, 419-442. 




• Ähnlichkeitsmaße 

• Koeffizient nach DICE 

• Ähnlichkeit (A,B) = 2g / (a + b) 

2 * Σ (Gewicht (i,A) * Gewicht (i,B)) 

• gewichtete Ähnlichkeit (A,B) = ------------------------------------------------ 

Σ (Gewicht (i,A)) 2 + Σ (Gewicht (i,B)) 2 

wobei i : Wort/Phrase in A und B 





• Koeffizient nach JACCARD 

• Ähnlichkeit (A,B) = g / (a + b - g) 

Σ (Gewicht (i,A) * Gewicht (i,B) ) 

• Ä (A,B) = -------------------------------------------------------------------------------------------- 

Σ (Gewicht (i,A) ) 2 + Σ (Gewicht (i,B) ) 2 – Σ (Gewicht (i,A) * Gewicht (i,B) ) 






• Cosinus-Koeffizient 

• Ähnlichkeit (A,B) = g / (a * b) 1/2 

Σ (Gewicht (i,A) * Gewicht (i,B)) 

• Gew. Ähnlichkeit (A,B) = ------------------------------------------------------------ 

( Σ (Gewicht (i,A)) 2 * Σ (Gewicht (i,B)) 2 ) 1/2 






• Beispiel: Dokument A: 100 Worte (a=100); Dokument B= 200 Worte 

(b=200); gemeinsame Worte in A und B: 15 (g=15) 

• Ähnlichkeit (A,B) nach DICE = 2g / (a + b), also: 30 / (100 + 200) = 0,1 

• Ähnlichkeit (A,B) nach JACCARD = g / (a + b - g), also 

15 / (100 + 200 – 15) = 15 / 285 = 0,053 

• Cosinus-Ähnlichkeit (A,B) = g / (a * b) 1/2, also: 15 / (100 * 200) 1/2 = 

15 / (20.000) 1/2 = 15 / 141,42 = 0,106 




• Errechnung der Ähnlichkeit für alle Dokumentpaare (einer 

Datenbank oder eines Suchergebnisses) 

• Herstellen einer Ähnlichkeitsmatrix 

Dok1 1 

Dok1 Dok2 Dok3 Dokn 

Dok2 Ä(2,1) 1 

Dok3 Ä(3,1) Ä(3,2) 1 

... 

Dokn Ä(n,1) Ä(n,2) Ä(n,3) 1 




• Clusteranalyse 

• Single-Link-Verfahren: 

– Ausgang: Paar (A,B) mit der höchsten Ähnlichkeit, das in noch keinem 

Cluster enthalten ist 

– Hinzufügen von allen Dokumenten, die mit A ähnlich sind (d.h. die 

einen Schwellenwert überschreiten), sagen wir: C und D 

– Hinzufügen von allen Dokumenten, die mit B ähnlich sind, sagen wir: 

E, F und G 

– Hinzufügen von allen Dokumenten, die mit C ähnlich sind 

– usw. ... 

– ... bis kein Dokument mehr vorhanden ist, das den Schwellenwert 

überschreitet 

– nächstes Paar (wie oben) 

• das Single-Link-Verfahren erzeugt u.U. sehr große Cluster 




• Single-Link-Verfahren. Beispiel. Schwellenwert Ähnlichkeit = 0,2 

C 

H 

0,25 

0,30 

A B 

0,24 

0,27 0,21 

D 

I 

0,25 

0,29 

G 


E 

0,29 

J 

F 

0,22 

Klasse




• Complete-Link-Verfahren: 

– Ausgang: Paar (A,B) mit der höchsten Ähnlichkeit, das in noch keinem 

Cluster enthalten ist 

– Hinzufügen von allen Dokumenten, die mit A und B ähnlich sind (d.h. 

einen Schwellenwert überschreiten) 

– und die untereinander ähnlich sind (d.h. den Schwellenwert 

überschreiten) 

• das Complete-Link-Verfahren erzeugt u.U. sehr kleine Cluster 




• Complete-Link-Verfahren. Beispiel. Alle Ähnlichkeitswerte liegen 

über dem Schwellenwert 

C 

H 

A B 

G 


F 

Klasse




• Group-Average-Link-Verfahren: 

– Mittelstellung zwischen Single-Link- und Complete-Link-Verfahren 

– Ausgang: wie Single-Link-Verfahren 

– Errechnung der durchschnittlichen Ähnlichkeit aller Paare 

– durchschnittliche Ähnlichkeit als Schwellenwert 

– alle Paare verbleiben im Cluster, deren Ähnlichkeit über dem 

Schwellenwert liegen 




• Group-Average-Link-Verfahren. Beispiel. Entfernen der Paare, die 

unter der Durchschnittsähnlichkeit im Single-Link-Cluster (im 

Beispiel: 24,9) liegen 

A 

0,25 

0,30 

B 

C 

0,27 

H 

G 

0,25 

0,29 


E 

0,29 

F 

Klasse



• Nicht-hierarchische Klassifikation 

• Hierarchische Klassifikation 

– mehrfache Anwendung der Clusterbildung innerhalb bereits 

erkannter Cluster 

– Abbruch, wenn unterer Schwellenwert (minimale Anzahl von 

Dokumenten im Cluster) erreicht wird 

• letzter Schritt: Finden einer aussagekräftige Klassenbenennung 

(Wort(e)/Phrase(n) mit höchsten Gewichtungswerten) 

• Einsatzgebiet der Klassifikation nach Ähnlichkeit 

– unternehmensinterne Dokumentsammlungen, die überhaupt nicht 

indexiert worden sind 



• Automatische Zuordnung von Schlagworten 

• Voraussetzung: Dokumentationswerkzeug (Schlagwortliste, 

Klassifikationssystem, Thesaurus) liegt vor 

• Ansatz 1. Probabilistische Verfahren: 

Wie groß ist die Wahrscheinlichkeit, dass einem gegebenen 

Dokument ein bestimmtes Schlagwort (Schlagwort i.e.S., 

Notation, Deskriptor) zuzuordnen ist? 

– Voraussetzung: Vorliegen von Wahrscheinlichkeitsinformationen 

(zum „Training“ des Systems) 

– Beispiel: AIR/PHYS 



• Automatische Zuordnung von Schlagworten 

• Ansatz 2: Textstatistische Verfahren: Welche Textworte 

(Phrasen) mit welcher Gewichtung müssen vorliegen, damit 

ein bestimmtes Schlagwort zuzuordnen ist? 

• Ansatz 3: Regelbasierte Verfahren: Wenn Textworte und 

ihre Umgebung gewissen Regeln folgen, wird ein 

bestimmtes Schlagwort zugeordnet. 

• Im praktischen Einsatz: Mischformen aus den drei 

Ansätzen 

– Beispiele: Reuters – Factiva („Intelligent Indexing“), 

Dialog Profound („InfoSort“), Dialog NewsEdge („Realtime 

Content Refinery System“) – Convera 

(„RetrievalWare“) 



• Automatische Zuordnung von Schlagworten - 

probabilistisches Verfahren 

• Beispiel AIR/PHYS 

• Projekt der TH Darmstadt mit FIZ Karlsruhe 

• Physikdatenbank – Erschließungsbasis: Abstracts – 

Sprache: englisch 

• Erschließungswerkzeug: Physik-Thesaurus 

• ca. 392.000 intellektuell indexierte Dokumente (Abstracts 

und Deskriptoren) liegen vor und dienen als Basis für das 

Wörterbuch PHYS-PILOT 

Peter Biebricher; Norbert Fuhr; Gerhard Lustig; Michael Schwantner; Gerhard Knorz: The automatic indexing 

system AIR/PHYS – From research to application. – In: Proceedings of the 11th Annual International Conference 

on Research and Development in Information Retrieval. – New York: ACM, 1988, 333-342. 


• AIR/PHYS 

• Wörterbuch PHYS/PILOT 


• Vokabular aus den intellektuell indexierten Dokumenten 

– #Dok(t) : Anzahl der Dokumente, die den Term t im Abstract 

enthalten 

– #Dok(t,s) : Anzahl der Dokumente aus #Dok(t), die den 

Deskriptor s enthalten 

• Wahrscheinlichkeit für ein Term-Deskriptor-Paar 

z(t,s) = #Dok(t,s) / #Dok(t) 

• Schwellenwerte 

– #Dok(t,s) = 2 

– z(t,s) = 0,29 

• Ergebnis: 800.000 Term-Deskriptor-Paare, davon 350.000 

genutzt 



• AIR/PHYS - Wörterbuch PHYS/PILOT – Beispiel 

Term Deskriptor #Dok(t,s) #Dok(t) z(t,s) 

stellar wind STELLARS WINDS 359 479 0,74 

molecular outflow 11 19 0,57 

hot star wind 13 17 0,76 

terminal stellar wind velocity 12 13 0,92 

Relationen im Thesaurus 

• Nicht-Deskriptor – Deskriptor 

• Hierarchie 

• Antonymie 

• formaler Einschluss (Bsp.: collision – atom collision) 


• AIR/PHYS - Indexierung 

Dokument d – Deskriptor s 

• a(x(d,s)) ist abhängig von 


– z(t,s) – t ist im Abstract vorhanden, t-s ist als Relation erkannt 

– Häufigkeit des Auftretens von s im Abstract 

– Auftreten von s im Titel 

– ... weitere 30 Komponenten 

Relevanzbeschreibung 

x(d,s) 

Indexierungsgewicht 

g = a(x(d,s)) 


• AIR/PHYS – Indexierung 


• a ist weiterhin abhängig von Deskriptor – Deskriptor – Relationen 

(etwa Begriff – Oberbegriff) 

• die Berechnung von a(x(d,s)) durchläuft mehrere Iterationsrunden 

• Transformation der gewichteten Deskriptorkandidaten in 

ungewichtete (0-1-Entscheidung) 

– wenn a(x(d,s)) größer als / gleich Schwellenwert � d wird durch s 

indexiert 

– wenn a(x(d,s)) kleiner als Schwellenwert � s wird nicht 

berücksichtigt 

• Güte der automatischen Indexierung (Stand: 1987) 

– 19% der Dokumente: von Indexern als brauchbar gewertet 

– 63%: brauchbar bei kleineren Korrekturen 

– 18%: unbrauchbar 


• AIR/PHYS – Indexierung 


• nur 44% der Deskriptoren sind durch die Relation z fundiert (also 

durch die bereits erkannten Zusammenhänge zwischen 

intellektuell zugeteilten Deskriptoren und Termen im Abstract) 

• bei halbautomatischer Indexierung (d.h. Fehlerkorrektur der 

automatisch generierten Deskriptoren durch professionelle 

Indexer) steigt die Anzahl der erkannten Zusammenhänge 

zwischen t und s 

• das Wörterbuch wird fortgeschrieben 

• das System wird dadurch „trainiert“ 

• das System müsste entsprechend fortlaufend besser werden 

• ... dies allerdings nur in der Theorie – die Datenbank PHYS und 

damit deren automatische Indexierung wurden inzwischen 

eingestellt 



• Automatische Zuordnung von Schlagworten – 

regelbasiertes Verfahren 

• Beispiel Construe-TIS 

• Projekt von Reuters Ltd. in Kooperation mit der Carnegie 

Group (Pittsburgh) 

• Datenbank mit Agenturmeldungen und Zeitungsartikeln – 

Erschließungsbasis: Volltexte – Sprachen: zunächst 

englisch, derzeit: 22 

• Erschließungswerkzeug: Reuters-Thesaurus (derzeit: 

„Factiva Intelligent Indexing“) 

Philip J. Hayes; Steven P. Weinstein: Construe-TIS: A system for content-based indexing of a database of news 

stories. – In: Alain Rappaport; Reid Smith (Ed.): Proceedings of the IAAI-90 Conference on Innovative Applications 

of Artificial Intelligence. Bd. 2. – Cambridge, Mass.: MIT Press, 1991, 49-66. 



• Topic Identification System (TIS) 

• Phase 1: Begriffserkennung 

• Begriff wird durch das Vorkommen bzw. Nicht-Vorkommen 

von Worten bzw. von Phrasen erkannt 

• Beispiel: Begriff GOLD (im Sinne einer Ware) 

• Operator &n : „und nicht in der selben Phrase“ (weitere 

Operatoren: „im selben Satz“, „im selben Dokument“) 

• beim Begriffssatz GOLD hinterlegt: 

(gold (&n (reserve ! medal ! jewelry)) 

• im Text: „... gold production ...“ � GOLD 

• im Text: „... gold medal ...“ � NULL 




• Phase 1: Begriffserkennung 

• Zuordnung eines Gewichtungswertes zu den Begriffen in 

Abhängigkeit von gemeinsam vorkommenden Termen 

• Beispiel: Begriff FOREIGN EXCHANGE 

• Satz 1: „... the Fed intervented in the money market ...“ 

• Satz 2: „... currency speculation ...“ 

• Satz 1 hat eine höhere Wahrscheinlichkeit für FOREIGN 

EXCHANGE als Satz 2 




• Phase 2: Regeln für Kategorisierung (Klassierung) 

• Wenn-dann-Regeln mit Booleschen Operatoren; angewandt 

auf erkannte Begriffe 

• erkannter Begriff: „concept“; vorgegebener Deskriptor: 

„category“ 

• Beispiel: Zuordnung des Deskriptors AUSTRALIAN 

DOLLAR zu einem Dokument 

• zu beachten: Dollars gibt es auch in den USA, in Singapur 

usw. 




• Phase 2: Regeln für Kategorisierung (Klassenbildung) 

• Regel: 

(if 

test: (or [australian-dollar-concept] 

(and [dollar-concept] 

[australia-concept] 

(not [us-dollar-concept]) 

(not [singapure-dollar-concept]) 

(not ...)) 

action: (assign australian-dollar-category)) 

• Solche Regeln können auf Satz-, Absatz- oder Textebene 

angewandt werden, alternativ auch auf Wortabstände. 





• Ein Text mit dem Satz 

„Australia announced today that it would devalue the 

dollar.“ 

bekommt nach der Regel den Deskriptor AUSTRALIAN 

DOLLAR zugeordnet. 

• weitere Regeln berücksichtigen die Anzahl des 

Vorkommens eines Begriffs oder die Position im Text 





• Regel 

(if 

test: or (and [gold-concept :scope headline 1] 

[gold-concept :scope body 1]) 

[golf-concept :scope body 4]) 

action: (assign gold catagory)) 

• Anmerkung: Diese Regel kann durch textstatistische Maße 

(WDF, IDF, Positionswert) noch verfeinert werden. 


Weiteres Beispiel: 

Convera 

RetrievalWare 



Abstracts 



Abstracts 

• Brigitte Endres-Niggemeyer: Summarizing Information. – 

Berlin [u.a.]: Springer, 1998. 

• Edward T. Cremmins: The Art of Abstracting. - Philadelphia: 

ISI Press, 1982. 

• Harold Borko; C.L.Bernier: Abstracting Concepts and 

Methods. – New York: Academic Press, 1975. 

• Josef Koblitz: Methoden des Referierens von Dokumenten. 

– Leipzig: Bibliographisches Institut, 2 1968. 

• DIN 1426: Kurzreferate. 


Abstracts 

• Inhaltsangaben nach DIN 1426 

– Formen von Inhaltsangaben: 

• Auszug (Inf.verdichtung: nicht geeignet, da selektiv) 

• Zusammenfassung (Inf.verdichtung: nicht geeignet, da Kenntnis 

des Textes vorausgesetzt wird) 

• Rezension (Inf.verdichtung: nur sehr bedingt geeignet; i.d.R. zu 

lang – günstig aber als Zusatzinformation) 

• Literaturbericht (Inf.verdichtung über mehrere Dokumente, 

wegen zu großer Länge nicht geeignet) 

• Annotation (Inf.verdichtung über Stichworte: nicht geeignet, so 

etwas macht man mittels Thesaurus, Klassifikation oder 

Textwortmethode) 

• Inhaltsverzeichnis (Inf.verdichtung: bei Monographien bedingt 

geeignet) 

• Sammelreferat (Inf.verdichtung über mehrere Dokumente; sehr 

geeignet) 

• Kurzreferat / Abstract (Inf.verdichtung eines Dokuments; sehr 

geeignet) 


Abstracts 

• Inhaltsangaben nach DIN 1426 

– Kurzreferat / Abstract (bei genau einer DBE – der Standardfall) 

Sammelreferat (bei mehreren DBE): 

• Vollständigkeit 

• Genauigkeit 

• Objektivität 

• Kürze 

• Verständlichkeit 

– Ziele: 

• grundlegende Inhalte der Dokumente sollen vom Nutzer schnell 

und exakt erkannt werden 

• die Relevanz der Dokumente für eine Fragestellung muss klar 

werden 

• Nutzer muss entscheiden können, ob der Volltext benötigt wird 

• letztlich: Fundierung einer ja/nein-Entscheidung, ob der Volltext 

eingesehen wird (dem Link gefolgt wird; das Dokument gekauft 

oder eine Übersetzung in Auftrag gegeben wird) 


Abstracts 

• Kurzreferat / Abstract 

– Gliederung nach DIN 1463 

• zentrale Aussage des Dokuments 

• ggf. Dokumenttyp spezifizieren (etwa: Forschungsbericht; Letter) 

• ggf. Art der Themenbehandlung nennen (Überblick, theoretische 

Arbeit, empirische Arbeit) 

• Hypothesen 

• Zielsetzung 

• Bezug zu anderen Arbeiten 

• Methodik (Untersuchungsgegenstand, -methoden, -techniken) 

• Ergebnisse und Schlussfolgerungen 

• Herkunftsvermerk: entweder „Autor“ oder Kürzel des Bearbeiters 

– Länge 

• Kurzmitteilung: max. 200 Zeichen 

• Zeitschriftenartikel: max. 500 Zeichen 

• umfangreiche Monographie: max. 1.000 Zeichen 


Abstracts 


– Autorenabstract 

• Vorteile: 

– liegt mit der Publikation direkt vor 

– Autor bringt einschlägiges Fachwissen mit 

• Nachteile: 

– Autor ist nie objektiv 

– Autorensprache kann durchaus unverständlich sein 

– Inter-Abstractor-Konsistenz nicht gegeben 

– Fremdabstract 

• Vorteile: 

– objektiver (und wahrscheinlich verständlicher) als ein 

Autorenabstract 

– Konsistenz ist trainierbar 

– dokumentarisch-informationswissenschaftlicher Sachverstand 

• Nachteile: 

– muss erstellt werden (es fallen Kosten an) 

– Fachwissen ist nicht immer ausreichend vorhanden 



– Sprache 

Abstracts 

• in Zielsprache(n) der Datenbasis 

• Vorteil für Nutzer: Kurzüberblick auch über Dokumente in 

Sprachen, die der Nutzer nicht beherrscht 

• deshalb sinnvoll anzuschließen: Übersetzungsservice für 

die Volltexte 

• bei digital vorliegenden Dokumenten: u.U. langt zunächst 

eine automatische Übersetzung (Bsp.: AltaVista‘s 

Babelfish oder Google‘s „translate tool“) 


Abstracts 


– NICHT ins Abstract gehören 

• Titel (wäre redundant) 

• Negativa (wäre im Retrieval über den Abstract-Index irreführend) 

– Problem: Wahrheitsgehalt 

• Lösung 1: Referieren ohne Überprüfung des Wahrheitsgehalts 

der Vorlage („... Die Quadratur des Kreises arbeitet nach der 

Methode ...“) 

• Lösung 2: Überprüfung des Wahrheitsgehaltes der Vorlage und 

Markieren von zweifelhaften Aussagen („... Verf. behauptet, die 

Quadratur des Kreises geschehe nach der Methode ...“) 

– Typen des Kurzreferats / Abstracts 

• indikatives Referat 

• informatives Referat 

• analytisches Referat 


Abstracts 

• Kurzreferat / Abstract: Was wird aufgenommen? 

– das, worum es in einem Text geht – „aboutness“ 

• extensionale Aboutness: inhärente Aboutness eines 

Textes – diese ist Basis für Abstracts 

• intensionale Aboutness: Bedeutung (Stellenwert) eines 

Textes im Kontext anderer Texte – nicht für Abstracts 

geeignet 

– im Sinne der Textlinguistik: „Makrostruktur“ eines 

Textes 

• Entscheidung, was weggelassen wird 

• Entscheidung, was (aus den speziellen Aussagen) 

verallgemeinert wird 

Helen R. Tibbo: Abstracting, Information Retrieval and the Humanities. – Chicago; London: American Library 

Association, 1993. (Chapter 2: Abstracts and Abstracting. Fundamental Considerations, 18-39). 


Abstracts 

• Kurzreferat / Abstract: homomorphe versus 

paramorphe Reduktion Text mit 

Makrostruktur 

homomorphe Reduktion 

paramorphe Reduktion 


Abstracts 

• Kurzreferat / Abstract: homomorphe versus 

paramorphe Reduktion 

– isomorphe Reduktion: die Makrostrukturen von Text 

und Abstract sind gleich (etwa: Thema A im Text 25% 

und Thema B im Text 16% des Umfangs, dann auch im 

Abstract A 25% und B 16%) – faktisch nicht 

durchführbar 

– homomorphe Reduktion: die Makrostrukturen von Text 

und Abstract sind ähnlich – bei Abstracts anzustreben 

– paramorphe Reduktion: die Makrostrukturen von Text 

und Abstract sind unterschiedlich (böse gesagt: das 

Abstract liegt „daneben“ [para, grch. = neben]) – oder 

u.U. positiv: perspektivisches Abstract 


Abstracts 

• Texttypologie 

– erzählende Texte (Geschichten, Geschichte, ...) 

– prozedurale Texte (Gebrauchsanweisungen, Rezepte, ...) 

– verhaltensbeeinflussende Texte (politische Reden, 

Werbetexte, ...) 

– erklärende Texte (wissenschaftliche Literatur, „Essays“, ...) 

• disziplinspezifische Texte 

– etwa: naturwissenschaftliche Texte mit i.d.R. straffer und 

anerkannter Strukturierung (hieran orientiert sich die 

deutsche Norm DIN 1463) 

– etwa: geisteswissenschaftliche Texte mit i.d.R. eher loser 

Strukturierung, wobei die Struktur allgemein kaum 

vorgegeben ist 

• Abstracts sind abhängig vom Texttyp der Vorlage 

und (bei erklärenden Texten) von der Fachdisziplin 


Abstracts 

• disziplinspezifisches Abstracting. Beispiel 

• bei technischen Dokumenten (etwa Patenten oder 

Gebrauchsmustern): zusätzlich zentral wichtige Zeichnung 


Abstracts 

• Indikatives Kurzreferat / Abstract 

Inhaltsanalyse 

referierwürdiges Dokument 

referierwürdige Inhaltskomponenten 

- Themen (weiße Kästen) 

- Aussagen zu den Themen 

(schraffierte Kästen) 

Indikatives Abstract: 

Wiedergabe der Themen in vollständigen Sätzen 


Abstracts 

• Indikatives Kurzreferat / Abstract - Beispiel 

• Russ, Hans: Einzelhandel (Ost): Optimistische 

Geschäftserwartungen 

• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3 

• Abstract: Die Geschäftslage des ostdeutschen Einzelhandels im 

Januar 1993 wird beschrieben. Skizziert wird der in den nächsten 

sechs Monaten zu erwartende Geschäftsverlauf. Im einzelnen 

geht es um den Gebrauchsgüterbereich und den Verbrauchsgüterbereich. 


Abstracts 

• Informatives Kurzreferat / Abstract 







Informatives Abstract: 

Wiedergabe der Aussagen zu den Themen 

in vollständigen Sätzen 


Abstracts 

• Informatives Kurzreferat / Abstract – Beispiel 




• Abstract: Die Geschäftslage des ostdeutschen Einzelhandels hat 

sich im Januar 1993 im Vergleich zum Vormonat deutlich 

verschlechtert. Hinsichtlich des in den nächsten sechs Monaten 

zu erwartenden Geschäftsverlaufs äußerten sich die Teilnehmer 

am ifo Konjunkturtest allerdings zuversichtlich. Im Gebrauchsgüterbereich 

ist die Geschäftslage im Durchschnitt zufriedenstellend; 

im Verbrauchsgüterbereich überwiegen negative Urteile. 


Abstracts 

• Analytisches Kurzreferat / Abstract (Strukturreferat) 







Analytisches Abstract: 

Wiedergabe der Themen sowie der 

Aussagen zu den Themen 

in tabellarischer Form 


Abstracts 

• Analytisches Kurzreferat / Abstract – Beispiel 




• Inhalt: 

• Gegenstand: Ostdeutscher Einzelhandel im Januar 1993 

• Methode: ifo Konjunkturtest 

• Ergebnisse: 

• --- Geschäftslage: merklich verschlechtert gegenüber Vormonat 

• --- Erwartungen: zuversichtlich (für die nächsten 6 Monate) 

• --- Gebrauchsgüter: schwache Umsatzeinbußen, zufriedenstellend 

• --- Verbrauchsgüter: starke Umsatzeinbußen, 1/3 aller 

Testteilnehmer äußern sich unzufrieden 


Abstracts 

• Kurzreferat / Abstract - Vor- und Nachteile 

Vorteile Nachteile 

indikativ kostengünstig informationsarm 

unübersichtlich 

informativ informationsreich bei langen Vorlagen kaum 

durchzuführen 

unübersichtlich 

teuer 

analytisch informationsreich sehr teuer 

strukturiert nicht für jede Art von 

Vorlagen geeignet 


Abstracts 

• Sammelreferat 

– Auswahl eines aktuellen („heißen“) Themas 

– Zusammenstellung der Menge einschlägiger Dokumente 

– Abstractingprozess wie bei Einzelabstract; jeweils 

jedoch bezug auf die Einzeldokumente nehmen (etwa 

durch End- oder Fußnoten) 

– außer Abstracting auch redaktionelle Arbeiten 

– Länge: 1 bis 3 Seiten 

– in den Endnoten oder in einer Bibliographie die 

bibliographischen Angaben der Dokumente nennen 

(ggf. dahin verlinken) 

– Einsatzgebiet: thematischer Pushdienst 


Abstracts 

• Sammelreferat – Beispiel: KnowledgeSummaries 

Willi Bredemeier: Knowledge Summaries. Journalistische Professionalität mit Verbesserungsmöglichkeiten bei 

Themenfindung und Quellenauswahl. – In: Password Nr. 3 (2004), 10-15. 


Abstracts 

• Sammelreferat – Beispiel: KnowledgeSummaries 


Abstracts 

• Automatisches Abstracting 

– Bemühungen seit Jahrzehnten; jedoch bisher in der Praxis wenig 

erfolgreich; nur experimentelle Systeme 

– Basismethode: Extraktion der „wichtigen“ Sätze aus einem Text 

anhand von Wahrscheinlichkeitswerten (P) für „Wichtigkeit“ 

• (1) Satzlänge (Mindestlänge: etwa 5 Worte): 

P(1) = 0 für Sätze mit weniger als 5 Worten); P(1) = 1 für alle anderen 

Sätze 

• (2) Indikatorphrasen (Sätze, die gewisse Phrasen – z.B. „in 

conclusion“ – enthalten, werden hoch bewertet): 

P(2) für Sätze mit Indikatorphrasen > P(2) für Sätze ohne 

Indikatorphrasen 

Brigitte Endres-Niggemeyer: Textzusammenfassung. – In: Computerlinguistik und Sprachtechnologie. Eine 

Einführung. – München: Elsevier – Spektrum 2 2004, 511-516. 


Abstracts 


• (3) Absatzstruktur (Sätze in den vorderen und hinteren Ansätzen 

werden höher bewertet als solche in mittleren Absätzen): 

P(3) für Sätze in den ersten n Absätzen bzw. in den letzten m 

Absätzen > P(3) für alle anderen Sätze 

• (4) Sätze ranken nach Termgewichten (für alle Terme WDF und IDF 

berechnen – Termgewichte jedes Satzes addieren): 

P(4) = Summe der Termgewichte im Satz 

• (5) ggf. Sätze, in denen Akronyme vorkommen (z.B. IBM, SPD), höher 

bewerten: 

P(5) für Sätze mit einem Akronym > P(5) für Sätze ohne Akronyme 

• Errechnung der Wichtigkeitswahrscheinlichkeit für jeden Satz: 

P(Satz) = P(1) * P(2) * P(3) * P(4) * P(5) 


Abstracts 


• Sortierung der Sätze nach P(Satz) 

• Auszählen der Länge (Anzahl der Zeichen) für jeden Satz 

• Vergleich mit Schwellenwert (maximale Länge des Abstracts) 

• Markieren der ersten n Sätze, deren Gesamtzeichenanzahl unter der 

maximalen Abstractlänge liegt 

• Herstellen der ursprünglichen Reihenfolge für diese n Sätze 

• diese n Sätze bilden das Abstract 

– verfeinerte Methoden 

• Vergleiche mit „Trainingsdaten“ (Abstracts professioneller – 

menschlicher – Abstracter sowie ihrer Ausgangstexte) 

• Kürzen von Sätzen 

• Zusammenfassen mehrerer Sätze 


Abstracts 

• Abstracts. Fazit 

– Referate ergänzen den Titel einer DE und ermöglichen dem 

Nutzer zu entscheiden, ob die DBE benötigt wird (auch bei 

fremdsprachlicher Literatur: Übersetzung!) 

– außer bei sehr kurzen Dokumenten (z.B. Kurzmeldungen bei 

Zeitungsartikeln) benötigt jede DE ein Abstract 

– die Informationsverdichtung geschieht so knapp, aber auch so 

aussagekräftig wie möglich, die Makrostruktur der Vorlage bleibt 

(nahezu) erhalten (homomorphe Reduktion) 

– Referate sind abhängig vom Texttyp und vom Fach der DBE 

– Typen der Informationsverdichtung des Inhalts eines Dokuments 

sind das indikative, informative (Standard) und das analytische 

Abstract 

– technische Dokumente benötigen u.U. eine Zeichnung zur 

Unterstützung des Abstracts 

– Informationsverdichtung mehrerer Dokumente geschieht über 

Sammelreferate, eingesetzt als thematischer Pushdienst 


• Abstracts. Fazit 

Abstracts 

– automatisches Abstracting: Berechnung der „Wichtigkeit“ von 

Sätzen innerhalb eines Dokuments (derzeit wenig ausgereifte 

Systeme) 


Informationsextraktion 


• Informationsextraktion 


– bei der Suche nach oder der laufenden Beobachtung von 

konkreten Sachverhalten im WWW 

– nicht: Angabe einer Webseite 

– sondern: Angabe des Sachverhalts (und nur diesen) - 

analog zu den analytischen Kurzreferaten 

– die Sachverhalte werden den Webseiten entnommen (aus 

diesen „extrahiert“) 

– derzeitige Einsatzgebiete: vergleichende Informationen 

aus Webseiten bei Spezialsuchmaschinen oder Shopping 

Malls (z.B. Preisvergleiche); Informationsagenten 

Günter Neumann: Informationsextraktion. – In: Computerlinguistik und Sprachtechnologie. Eine 

Einführung. – München: Elsevier – Spektrum 2 2004, 502-510. 




– vorgegeben: Menge von Objekten bzw. Merkmalen, die einen 

Sachverhalt bilden (z.B. Produktbezeichnung und Preis, Autor und 

Buch) 

– Extraktionsprozess: Wrapper („Einpacker“) 

• Startmenge: „typische“ Webseiten für die gesuchte Relation (bei Brin: 5 

Bücher mit deren Autorennamen) 

• Retrieval: Suche nach Webseiten, in denen die gesuchte Relation 

vorkommt (also die 5 Bücher und Autorennamen) 

• Erkennen der Muster des Ausdrucks des Sachverhaltes (der „patterns“) 

– Worte, die den Zusammenhang ausdrücken – z.B. „by author“, 

„written by“ 

• Suche nach allen Webseiten, die einen solchen Sachverhalt 

ausdrücken 

– Ergebnis: konkrete Werte der Merkmale (z.B. Karl May - Winnetou) 

Sergey Brin: Extracting patterns and relations from the World Wide Web. – In: Lecture Notes in Computer Science, 

Vol. 1590. – Berlin [u.a.]: Springer, 1998, 172-183. 



• Informationsextraktion. Bsp.: Froogle 

Aus der 

Webseite 

extrahiert: 

Produktname, 

Preis, 

Anbieter, 

Beschreibung, 

Bild 

Alternativverfahren: 

XML – Topic 

Map 



• Informationsextraktion. Bsp.: Froogle 

Originalwebseite 

Produktname 

Beschreibung 

Preis 




– Ansätze: 

– (1) „Knowledge Engineering Approach“ 

die Sachverhalte sowie die Muster (patterns) werden 

intellektuell erstellt 

– (2) „Automatically Trainable Systems“ 

Suche nach Sachverhalten und Mustern mittels 

informationsstatistischer und –linguistischer 

Algorithmen (z.T. Verwendung von Trainingsdaten – 

etwa indexierte Korpora) 

– Weiterentwicklung der Forschungen zur Informationsextraktion 

durch MUC („Message Unterstanding 

Conferences“ – seit 1987) 

Douglas E. Appelt; David J. Israel: Introduction to Information Extraction Technology. – In: International Joint 

Conference on Artificial Intelligence 1999 (IJCAI-99). 

Line Eikvil: Information Extraction from World Wide Web. A Survey. – Oslo: Norwegian Computing Center, 

1999. – (Technical Report; 945). 




– Einsatz beim konkreten Informationsbedarf (Faktenfrage) 

• Kennzeichnung des Typs des Informationsbedarfs 

durch Nutzer 

• Beschreibung des gesuchten Sachverhalt (etwa 

1. „Wie heißt die Hauptstadt von NRW?“ 

2. „Wie heißen die Hauptstädte aller 25 EU-Länder?“ 

• automatisches Vorgehen nach Ansatz (2) 

„Automatically Trainable Systems“ – ggf. Dialog zur 

Abklärung der Mustererkennung 

• Aufsuchen der Webseiten – Informationsextraktion 

• Ausgabe nur des nachgefragten Sachverhalts 

zu Frage 1: Hauptstadt NRW : Düsseldorf (URL: ...) 

zu Frage 2: Hauptstadt Belgien : Brüssel (URL: ...) 

Hauptstadt Dänemark : Kopenhagen ... 

Hauptstadt Zypern : Nikosia (URL: ...) 


• Informationsagenten 


– laufende Beobachtung von Sachverhalten (Fakten) im 

WWW 

– periodischer Einsatz der Informationsextraktion („SDI 

für Fakten“) 

– Einsatzgebiet (Beispiel): 

• Wettbewerberbeobachtung (Personen im 

Management, Preisänderungen, Umsatzzahlen, ...) 

Nicholas Kushmerick; Bernd Thomas: Adaptive Information Extraction. Core Technologies for Information Agents. – 

Koblenz: Universität Koblenz-Landau / Institut für Informatik, 2003. – (Fachberichte Informatik 9/2003). 



• Informationsextraktion. Fazit 

– Informationsextraktion: Erkennen einzelner Sachverhalte, 

Extrahieren konkreter Sachverhalte aus digitalen Dokumenten 

• Einsatz innerhalb spezifischer Wissensbereiche (z.B. 

Produkte) – recht ausgereifte Systeme (z.B. Froogle) 

• Einsatz im WWW allgemein (beim konkreten 

Informationsbedarf) – derzeit Ansätze, keine laufenden 

Systeme) 

– Informationsagenten: SDI für Sachverhalte 


Das „semantische Web“: 

Ontologien – Topic Maps 



Semantisches Web 

• Dieter Fensel et al. (Eds.): Spinning the Semantic Web. – 

Cambridge, Mass.; London: MIT, 2003. 

• Richard Widhalm; Thomas Mück: Topic Maps. Semantische 

Suche im Internet. – Berlin [u.a.]: Springer, 2002. 

• Tim Berners-Lee: Semantic Web – XML 2000. (Folien). 

Online: www.w3.org/2000/Talks/1206-xml/2k-tbl 



• Ontologien 

– bilden ab: Objekte (durch Begriffe) – analog zu 

Dokumentationssprachen und 

– (zumindest rudimentär) Sachverhalte (durch Sätze in 

einer formalisierten Sprache) – analog zu Abstracts 

– Die „Ontologie“ ist die explizite Spezifizierung eines 

(i.d.R. sehr kleinen) Wissensbereiches, so dass dieser in 

einem Informationssystem abgebildet werden kann. 

– Aspekte 

• Relationen (2-stellig) 

• Funktionen (n-stellige Relationen) 

• Feldschema (Kategorien – Top Level Begriffe) 

• Klassen (Allgemeinbegriffe) 

• Instanzen (Individualbegriffe) 

• Axiome (Regeln) 




– Ursprung: Forschungen zur Künstlichen Intelligenz (u.a. 

von Tom R. Gruber – Stanford Knowledge Systems Lab) 

– da Ontologien jeweils einen engen 

Wissensbereich repräsentieren, sind 

Konkordanzen zwischen unterschiedlichen 

Ontologien nötig 

– Realisierung in XML 

– RDF: Resource Description Framework 

– innerhalb RDF: URI (Universal Resource 

Identifier) – benutzt wie eine URL bei Links 

(enthält die Relationen bzw. Funktionen zwischen den 

Klassen bzw. Instanzen) 

Tom R. Gruber: A translation approach to portable ontologies. – In: Knowledge Acquisition 5 (1993), 199-220. 




Das 

World Wide 

Web in 

heutiger 

Form 

Quelle: 

W3C 




Das 

World Wide 

Web 

mit 

Ontologie 

Quelle: 

W3C 



– Schichtenmodell 

von 

Berners-Lee 


Tim Berners-Lee: Semantic Web – XML 2000. (Folien). Online: www.w3.org/2000/Talks/1206-xml/2k-tbl 



– Abfrageagenten 


• übersetzen die Frage des Nutzers 

• kommunizieren via Ontologien mit Informationssystemen 

• geben bei (einfachen) Faktenfragen eine Antwort 

• bereiten Transaktionen vor 

• können sich auch auf (intelligente) Geräte richten 

– Beispiel 1: Gerätesteuerung 

• Stereoanlage läuft – Telefon klingelt: wenn Nutzer ans 

Telefon geht, schaltet sich die Stereoanlage leiser (Vor.: 

Stereoanlage ist URI; Regel: Wenn Telefongespräch, dann 

Anlage leise) 




– Beispiel 2: Faktenfrage 

• Anfrage: „Welche Arznei hilft gegen Vampirbisse?“ 

• Klassen: in Kategorie Arznei: Arznei, Vampirbissarznei 

• ... in Kategorie Krankheit: Vampirbiss 

• ... in Kategorie Nebenwirkungen: Unsterblichkeit 

• Instanz: Dracuex 

• Funktion: ... hilft gegen ... mit Nebenwirkung ... - 3-stellige 

Relation 

• Axiom: [Arznei] hilft gegen [Krankheit] mit Nebenwirkung 

[Nebenwirkung] 

• Relation: Vampirbissarznei UB Arznei 

• Relationen: ... ist ein/e ...; ... hat Nebenwirkung ... 

• Axiom: Dracuex ist eine Vampirbissarznei 

• Axiom: Dracuex hat Nebenwirkung Unsterblichkeit 

• Ausgabe: Dracuex hilft gegen Vampirbisse mit 

Nebenwirkung Unsterblichkeit 




– Beispiel 3: Transaktionsvorbereitung 

• Anfrage: Wo ist das nächstgelegene koreanische 

Restaurant, das gebratenen Hund führt und in einer halben 

Stunde für zwei Personen einen Tisch frei hat? 

– Einsatzbereiche von Ontologien 

• Intranet von Unternehmen 

• Kataloge im E-Commerce 

• Informationssysteme in (überschaubaren) 

Wissensbereichen 


• Topic Maps 


– Begriffe und (rudimentär) Sachverhalte 

(wie bei Ontologien) 

– Topic Maps sind eigene Dokumente, die 

auf andere Dokumente verweisen (letztere 

haben mit den Topic Maps nichts zu tun) 

– aufgebaut seit Beginn der 90er Jahre; 

federführend u.a. Steven R. Newcomb 

und Michel Biezunski 

– geregelt durch ISO 13.250 (1999) 

– Basistechnik: XML (wichtig: DTD) 

– unter Verwendung von: URI 

– Einsatzbereiche: 

• Aufbaustruktur einer Website 

• Zugriff auf Dokumentmengen mittels 

unterschiedlicher Topic Maps 

Michel Biezunski 

Steve Newcomb 



– Topic: Begriff 


– Topic Name: ähnlich wie Deskriptor im Thesaurus (mit 

Nicht-Deskriptoren als Synonymen) 

– Scope: Lösung des Homonymproblems (durch Zusatz) 

– Type: Einordnung eines Topic in eine Kategorie („vom 

Typ“) 

– Association Role: (n-stellige) Relation 

– Facet: Aussage zu einem Topic 

– Occurrence: Dokument (u.a. Webseite) – liegt außerhalb 

des Topic Map 


• Topic Map (Beispiel) 

vom Typ 

Frankreich 

ist Haupt- 

Stadt von 

Paris 

Scope 


Land 

grenzt an 

hat 

10 Mio. 

Einwohner 

Geographie 

Type 

vom Typ 

Deutschland 

Facet 

Role 

Mark 

„D-Mark“ 

„Deutsche Mark“ 

war 

Währung in 

Topic 

Occurrence 



• Website mit 

Topic Map 


Michel Biezunski; Steven R. Newcomb: Topic Maps: The Inventor‘s Perspective on Subject-based Access. 

(Vortrag bei der Library of Congress, Okt. 2003). 

Online: www.coolheads.com/PUBS/LC2003/ 



• Informationsverdichtung durch Ontologien oder 

Topic Maps 

– Vorteile 

• nicht nur Begriffssysteme, sondern (zumindest 

rudimentär) Sachverhalte 

• „semantisches Retrieval“ 

• zur Wissensabbildung in kleinen (überschaubaren) 

Wissensdomänen geeignet 

– Nachteile 

• der Wissensstand einer Zeit wird festgeschrieben (zwar 

nicht prinzipiell, aber faktisch wegen riesigem Aufwand, 

das semantische Netz aktuell zu halten) 

• sehr aufwendig in der Entwicklung 


Informationsfilter und 

Informationsverdichter im Überblick 


Informationsfilter und –verdichter im Überblick 

Informationsfilter 

Thematische Filter Nicht-thematische Filter 

Textsprachl. Methoden Dokumentationsmethoden 

Volltext (ASCII) 




Klassifikation 


Thesaurus 

Zielgruppe 

Themenbehandlung 




Informationsagent 

Informationsverdichter 

Referate semantisches Web 

Kurzreferat 

indikativ 

informativ 

analytisch 

Sammelreferat 

Ontologie 

Topic Map 



Informationsarchitektur 

• Aufbau eines unternehmensweiten Informationssystems 

• Zusammenwirken von (Wirtschafts-)Informatik (Hardware, 

Software, Netze), Betriebswirtschaftslehre (Management, 

Organisation) und Informationswissenschaft (Content, 

Informationsfilter, Informationsverdichter) 

• Sicherstellen der Interoperabilität (etwa mittels XML) 

• Metadaten (Aufbau von Regelwerken für Dokumentauswertung) 

• Informationsfilter (Aufbau einer oder mehrerer Begriffsordnungen 

• Informationsverdichtung (Aufbau von Regelwerken für Abstracting) 

• Nutzerschnittstellen 

• Organisation des laufenden Betriebs 

Alan Gilchrist; Barry Mahon (Eds.): Information Architecture. Designing Information Environments for 

Purpose. – London: Facet Publ., 2004. 



Informationsarchitektur – strategisches 

Management der Informationsfilter und -verdichter 

• Aufbau des/der grundlegenden Informationsfilter/s 

• Grundsatzentscheidung: Welche Methoden einsetzen? 

• Kandidaten: 

– Klassifikation 

– Schlagwortmethode 

– Thesaurus 

– Textwortmethode 

– Zitationsindexierung 

– Ontologie / Topic Map 

• stets zusätzlich: Informationsverdichtung durch Abstracting 



Informationsarchitektur – strategisches Management der 

Informationsfilter und -verdichter 

• Festlegen von dokumentarischer/n Bezugseinheit/en und 

Dokumentationswürdigkeit 

• Variante 1: ein Kriterienpaket für alle Dokumente, stets 

gleichbleibende DBE 

• Variante 2: mehrere Kriterienpakete, abhängig von der Relevanz der 

Dokumente für die Datenbank („Schalenmodell“ von Krause) 

– Kern (hochrelevante Dokumente): tiefe und qualitativ hochwertige 

Erschließung; Abstracts 

– Schale 1 (weniger relevante Dokumente): nur Erschließung (mit 

Thesaurus, Klassifikation, Schlagwortmethode), keine Abstracts 

– ... 

– Schale n (noch weniger relevante Dokumente): nur automatische 


Jürgen Krause: Informationserschließung und –bereitstellung zwischen Deregulierung, Kommerzialisierung und 

weltweiter Vernutzung – Schalenmodell. – Bonn: IZ Sozialwissenschaften, 1996. – (IZ-Arbeitsbericht; 6). 





Informationsarchitektur – strategisches 

Management der Informationsfilter und –verdichter 

• Dokumentationseinheiten selbst erstellen und/oder 

zukaufen? 

• soweit externe Dokumentationseinheiten vorhanden sind: 

kaufen! 

• mittels unternehmensinternen Indexierungsmethoden und 

Hilfsmitteln neu indexieren (möglichst vollautomatisch) 

• interne Dokumente können nur selbst bearbeitet werden 



interne Dokumente: 

selbst indexieren! 

externe 

Dokumentationseinheiten: 

zukaufen! neu indexieren! 

Quelle: 

Factiva 



Informationsarchitektur – Organisation des 

laufenden Betriebs 

• Input: Wer erstellt die Dokumentationseinheiten? 

• Variante 1: intellektuell 

– zuerst: Verfasser der dokumentarischen Bezugseinheiten 

(Abstracts, Deskriptoren/Notationen/Schlagworte) 

– dann: Korrekturen / Ergänzungen durch Informationswissenschaftler 

• Variante 2: automatisch 

– Verfasser stellen die Dokumente in das Informationssystem 

(Abstracts möglichst intellektuell erstellen!) 

– Indexieren erfolgt durch Software (etwa FAST, Convera 

oder Verity) 

• Variante 3: semiautomatisch 





• Datenbank: Wer pflegt die Datenbank und die Informationsfilter? 

– technisch: Netzwerkadministration 

– Content: Content-Administration (Informationswissenschaftler) 

• Output: Wer recherchiert? 

– einfache Anfragen; Bearbeiten der SDI: Endnutzer 

– komplizierte Anfragen; Anlegen der SDI: Content- 

Administration 

– weitere Dienste (z.B. Mitarbeiterzeitschrift, nicht georderte 

Pushdienste): Content-Administration 





• Aufbau der grundlegenden Informationskompetenz beim 

Endnutzer 

– Einführung in die Systemtechnik (Softwareschulung) 

– Einführung in die Informationsfilter (zum Selbstindexieren 

und zum Recherchieren) 

– Einführung in die Informationsverdichtung (zum 

Verfassen der Abstracts) 

– laufende Betreuung („Coaching“) der Nutzer 

• Wie? 

– Seminare (werden nicht immer besucht, da die laufende 

Arbeit Vorrang hat) 

– „Lunch-time Kurse“ (Nutzung der Mittagspausen) 



Informationsfilter und –verdichter hinsichtlich 

Präkombinationsgrad der Begriffe 

Prä- Prä- Post- 

kombination koordination koordination 

Klassifikation ++ + 0 

Schlagwortmethode 0 + ++ 

Thesaurus 0 + ++ 

Textwortmethode 0 ++ 0 

Zitationsindexierung 0 0 + 

Abstracts 0 0 0 

Ontologie / Topic Map ++ ++ + 



Informationsfilter und –verdichter hinsichtlich Suchen 

und Stöbern („Browsen“) 

Suchen Stöbern 

Klassifikation + ++ 

Schlagwortmethode + 0 

Thesaurus ++ ++* 

Textwortmethode +** +*** 

Zitationsindexierung + 0 

Abstracts 0 0 

Ontologie / Topic Map ++ ++ 

* : nur bei graphischer Aufbereitung 

** : Probleme wg. Vielfalt der Textworte und deren Sprachen 

*** : nur bei informetrischer Aufbereitung 



Informationsfilter und –verdichter hinsichtlich Spracheinsatz 

kontroll. Notations- natürliche 

Vokabular* sprache Sprache** 

Klassifikation 0 + 0 

Schlagwortmethode + 0 0 

Thesaurus + 0 0 

Textwortmethode 0 0 + 

Zitationsindexierung 0 0 +*** 

Abstracts 0 0 + 

Ontologie / Topic Map + 0 0 

* : Vokabular einer natürlichen Sprache 

** : ohne jede terminologische Kontrolle 

*** : Zitation als Teil natürlicher Sprache 



Informationsfilter und –verdichter in einem 

multinationalen (mehrsprachigen) Unternehmen 

mehrsprachig einsetzbar? 

Klassifikation ++ 

Schlagwortmethode +* 

Thesaurus ++** 

Textwortmethode 0 

Zitationsindexierung ++ 

Abstracts +* 

Ontologie / Topic Map +** 

* : Zugriff nur über genau eine Sprache 

** : nur wenn multilingual, ansonsten Zugriff nur über genau eine 

Sprache 




paradigmatischer und syntagmatischer Relationen 

paradigm. syntagmatische 

Relation Relation 

Klassifikation + + 

Schlagwortmethode 0 + 

Thesaurus + + 

Textwortmethode 0 + 

Zitationsindexierung 0 + 

Abstracts 0 +* 

Ontologie / Topic Map + 0 

* : nur beim Einsatz von Text Mining 




Änderbarkeit (neue Begriffe aufnehmen, alte ändern) 

keinerlei Änderung Änderung 

Aufwand „unten“ in Struktur 

Klassifikation 0 + 0 (aufwendig) 

Schlagwortmethode + (nur Aufwand für Abstimmung) 

Thesaurus 0 + + 

Textwortmethode + 

Zitationsindexierung + (da keine Ordnung vorhanden) 

Abstracts + (da keine Ordnung vorhanden) 

Ontologie / Topic Map 0 + + 


Fazit 


– Die Informationsarchitektur liegt im Bereich des strategischen 

Management und definiert die Grundlagen der Informationsversorgung 

eines Unternehmens. 

• Grundsatzentscheidung: Welche(r) Informationsfilter? 

• u.U. Schalenmodell realisieren 

• Entscheidung, welche Informationen gekauft und welche selbst 

erstellt werden 

• Organisation des laufenden Betriebs 

– Klärung der Anforderungen an die Informationsarchitektur 

(etwa: Ausbaufähigkeit der Begriffsordnung; Darstellbarkeit 

syntagmatischer Relationen) hinsichtlich der Informationsfilter 

und der Methoden zur Informationsverdichtung

Geschichte der Wissensrepräsentation

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?