28.02.2013 Aufrufe

Sharing Knowledge: Scientific Communication - SSOAR

Sharing Knowledge: Scientific Communication - SSOAR

Sharing Knowledge: Scientific Communication - SSOAR

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Probleme der Integration digitaler Bibliothekssysteme 49<br />

aber im Normalfall auf den kostenlos absuchbaren Teil des Internet beschränken.<br />

Information Retrieval heißt in erster Linie Text Retrieval. Gesucht wird üblicherweise<br />

mit den jeweils effizientesten Suchmaschinen, im Augenblick z. B.<br />

häufig mit Google. Derzeit repräsentiert Google ungefähr 3 Milliarden Web-Pages<br />

und beantwortet täglich ca. 250 Millionen Suchanfragen. Über die Qualität<br />

der gefundenen Dokumente bzw. deren Passung zum intendierten Thema kann<br />

Google lediglich statistische Aussagen machen: Alle im Such-Corpus enthaltenen<br />

Dokumente werden nach bestimmten Heuristiken bzw. der Repräsentativität<br />

/ Zentralität der enthaltenen Suchbegriffe gerangreiht. Da die allermeisten<br />

Texte im Internet nicht semantisch qualifiziert sind - also keine Meta-Daten enthalten<br />

- haben Suchmaschinen auch keine andere Möglichkeit als die der Volltextsuche.<br />

Als Ergebnis einer Such-Anfrage erhält der Nutzer also eine eher<br />

heuristisch geordnete Menge von Dokumenten, die er nun entweder alle prüfen<br />

oder aber mit weiteren Spezifikationen von Suchbegriffen und entsprechenden<br />

Boole’schen Relationen einengen muss.<br />

Dieses Fehlen von Meta-Daten im Internet wird inzwischen auch von den<br />

verantwortlichen Gremien als zentrales Problem erkannt (Semantic Web, [1])<br />

und ist auf der Agenda immer weiter nach oben gewandert. Verschiedene Lösungsansätze<br />

werden seit einiger Zeit diskutiert (Dublin Core Metadata Initiative,<br />

[2]; Resource Description Framework, [3]; Ontology Layer, [4]), da aber<br />

parallel dazu eine weit reichende Diskussion über neue Strukturierungsmodelle<br />

(Extensible Markup Language, [5]) im Internet geführt wird, scheint zumindest<br />

für die nahe Zukunft keine Standardisierung in Sicht zu sein. Auch wird die Akzeptanz<br />

normierter Strukturen und damit deren Sinnhaftigkeit immer deutlicher<br />

generell infrage gestellt. Jede Kennzeichnung mithilfe von Meta-Daten setzt im<br />

Prinzip eine Übereinkunft über die zu verwendenden Terme voraus – und die<br />

Analyse der gegenwärtigen Ansätze im Hinblick auf Klassifikationen, Thesauri<br />

und Schlagwörter stimmt dabei alles andere als optimistisch [6]. Die historisch<br />

gewachsenen Regelwerke und Normen stammen aus einer Zeit, in der die im<br />

Wesentlichen wissenschaftlich tätige Klientel einerseits den großen Nutzen<br />

solcher Standards sah, als auch deren Verwaltung und Management durch<br />

kleine, elitäre Gremien akzeptierte.<br />

Die Veränderung der Publikationslandschaft durch das Internet zeigt, dass<br />

derartige Strukturen überholt sind. Ein wortgewandter Kryptographie-Spezialist,<br />

der auf seiner Web-Site einen avancierten Aufsatz zur Datensicherheit im<br />

Internet veröffentlicht, wird wahrscheinlich nicht seine Zeit darauf verschwenden,<br />

die entsprechenden Verwaltungsgremien zu kontaktieren, um deren Ansicht<br />

zur Verschlagwortung seiner Arbeit einzuholen. Will man trotz solcher<br />

Entwicklungen nicht auf die Effizienz intellektuell erschlossener Datenbestände<br />

verzichten, ist ein mehrdimensionaler Ansatz der semantischen Qualifizierung<br />

unumgänglich („Standardisierung von der verbleibenden Heterogenität

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!