Zum Prinzip der Objektdarstellung in SGML - Institut für ...
Zum Prinzip der Objektdarstellung in SGML - Institut für ...
Zum Prinzip der Objektdarstellung in SGML - Institut für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Vortrag auf <strong>der</strong> 5. Tagung <strong>der</strong> Deutschen Sektion <strong>der</strong> Internationalen Gesellschaft für<br />
Wissensorganisation (ISKO)<br />
7.-10. Oktober 1997,<br />
<strong>Institut</strong> für Bibliothekswissenschaft - Humboldt-Universität zu Berl<strong>in</strong><br />
<strong>Zum</strong> <strong>Pr<strong>in</strong>zip</strong> <strong>der</strong> <strong>Objektdarstellung</strong> <strong>in</strong> <strong>SGML</strong><br />
Iris Schwarz und Walther Umstätter, Humboldt-Universität zu Berl<strong>in</strong><br />
Zusammenfassung<br />
<strong>SGML</strong> ist e<strong>in</strong>e Metasprache die geeignet ist Texte <strong>in</strong> natürlicher Sprache mit zusätzlichen<br />
Strukturen zu versehen und somit die Voraussetzung zu schaffen Volltext<strong>in</strong>dexierungen<br />
<strong>in</strong> e<strong>in</strong>er Weise vorzunehmen, wie dies bislang nicht möglich war. Der rasant<br />
zunehmende Bekanntheitsgrad <strong>der</strong> <strong>SGML</strong> liegt zweifellos an <strong>der</strong> bekanntesten Document<br />
Type Def<strong>in</strong>ition (DTD) im Rahmen <strong>der</strong> <strong>SGML</strong>, <strong>der</strong> Hypertext Markup Language (HTML),<br />
wie wir sie im Internet f<strong>in</strong>den. Darüber h<strong>in</strong>aus erfüllt <strong>SGML</strong> je nach DTD die Bed<strong>in</strong>gungen,<br />
die Objektorientiertheit unserer natürliche Sprache mit ihren def<strong>in</strong>ierbaren Begriffen<br />
s<strong>in</strong>nvoll zu unterstützen und beispielsweise mit Hilfe <strong>der</strong> objektorientierten Programmiersprache<br />
JAVA zu verarbeiten. Beson<strong>der</strong>s hervorzuheben ist die sich damit<br />
verän<strong>der</strong>nde Publikationsform bei wissensbasierten Texten, <strong>in</strong> denen <strong>SGML</strong>-<br />
Dokumente nicht mehr nur für sich zu betrachten s<strong>in</strong>d, wie Zeitschriftenaufsätze o<strong>der</strong><br />
Bücher, son<strong>der</strong>n die darüber h<strong>in</strong>aus <strong>in</strong> Form von Wissenselementen <strong>in</strong> e<strong>in</strong>er Daten- und<br />
Wissensbank organisiert und recherchierbar zu machen s<strong>in</strong>d.<br />
E<strong>in</strong>leitung<br />
Wenn hier von Philosophie die Rede se<strong>in</strong> soll, so geschieht dies weniger im S<strong>in</strong>ne <strong>der</strong><br />
Liebe zur Weisheit, als vielmehr im S<strong>in</strong>ne e<strong>in</strong>es Strebens "nach Erkenntnis des Zusammenhanges<br />
<strong>der</strong> D<strong>in</strong>ge <strong>in</strong> <strong>der</strong> Welt", wie es im Duden unter diesem Stichwort heißt. Dieser<br />
Zusammenhang <strong>der</strong> D<strong>in</strong>ge ist <strong>in</strong> unserer natürlichen Sprache durch die Syntax gegeben,<br />
womit wir bereits auf e<strong>in</strong>e wesentliche Eigenschaft <strong>der</strong> "Standard Generalized Markup<br />
Language" (<strong>SGML</strong>) gekommen s<strong>in</strong>d. Die <strong>SGML</strong> basiert zunächst auf <strong>der</strong> natürlichen<br />
Sprache, die wir im allgeme<strong>in</strong>en <strong>in</strong> Computern als ASCII-Text nie<strong>der</strong>legen. Bei Bedarf<br />
kann allerd<strong>in</strong>gs über diesen "American Standard Code for Information Interchange" mit se<strong>in</strong>en<br />
2 7 = 128 Zeichen (bzw. im erweiterten ASCII mit 2 8 Zeichen) h<strong>in</strong>aus auch <strong>der</strong> Unicode<br />
mit 2 16 verschiedenen Zeichen verwendet werden.<br />
Die Objektorientiertheit <strong>der</strong> Natürlichen Sprache<br />
Die D<strong>in</strong>ge, die <strong>in</strong> unserer natürlichen Sprache <strong>in</strong> Zusammenhang gebracht werden,<br />
könnte man auch als Objekte bzw. zur Abgrenzung von materiellen Objekten als Informationsobjekte<br />
bezeichnen. Damit kann unsere natürliche Sprache als objektorien-
tiert angesehen werden, da unsere Benennungen und Bezeichnungen von Begriffen solchen<br />
Objekten Namen geben, durch die sie e<strong>in</strong>deutig identifizierbar s<strong>in</strong>d.<br />
Der Begriff objektorientierte Programmierung ist eng mit <strong>der</strong> Programmiersprache<br />
Smalltalk verbunden und geht auf e<strong>in</strong>e Idee zurück, die A. Kay 1970 formulierte. Es<br />
begann damit, daß man im Xerox-PARC (Palo Alto Research Center) Dialogschnittstellen<br />
von Benutzern testen ließ. Dabei entstand e<strong>in</strong> System, das dem Menschen bei <strong>der</strong> Suche<br />
nach Begriffen sowie von Strukturen <strong>in</strong> komplexen Zusammenhängen entgegenkommt.<br />
Insofern ist es ke<strong>in</strong> Zufall, daß die Begrifflichkeit <strong>der</strong> Menschen und Objektorientierung<br />
mite<strong>in</strong>an<strong>der</strong> verwandt s<strong>in</strong>d.<br />
Im Zusammenhang mit <strong>der</strong> Wissensorganisation ist es nicht unwichtig die Frage zu stellen,<br />
ob sich menschliches Denken auf Sprache o<strong>der</strong> auf Begriffe stützt, da auch unsere<br />
gesamte Begriffswelt die Kennzeichen von Informationsobjekten im S<strong>in</strong>ne <strong>der</strong> objektorientierten<br />
Programmierung <strong>in</strong> sich tragen. Sie können klassifiziert werden, zeigen Vererbung<br />
und Polymorphismus und brauchen zu ihrer Identifizierung möglichst exakte<br />
Def<strong>in</strong>itionen.<br />
W. von Humboldt war noch <strong>der</strong> Vorstellung gefolgt, daß sich das Denken <strong>der</strong> Menschen<br />
auf unsere Sprache stützt. Gegen diese Ansicht, die sich auch mit <strong>der</strong> Vorstellung<br />
verb<strong>in</strong>det, daß verschiedene Sprachkulturen zu unterschiedlichem Denken führen,<br />
spricht, daß wir nicht selten <strong>in</strong> die Situation geraten e<strong>in</strong>en Begriff verbalisieren zu wollen,<br />
für den uns die Worte fehlen. An<strong>der</strong>erseits haben wir es bei den Homonymen mit<br />
Worten zu tun, die trotz klarer Begrifflichkeit, verbale Kollisionen erkennen lassen.<br />
Die Neurophysiologie <strong>der</strong> letzten Jahrzehnte hat klare Belege dafür, wie wir durch komplexe<br />
neuronale Muster Begriffswelten <strong>in</strong> unserem Gehirn aufbauen und umgestalten,<br />
die über das Brocasche Zentrum verbalisiert werden. Es ist also eher so, daß unsere<br />
Begriffswelt die Sprache bee<strong>in</strong>flußt.<br />
Die Kategorisierung sprachlicher Objekte<br />
Aus diesem Grund konnte Aristoteles se<strong>in</strong>e Philosophie aus natürlicher Sprache ableiten,<br />
<strong>in</strong>dem er ohne jede Verb<strong>in</strong>dung gesprochene Wort <strong>in</strong> zehn Kategorien e<strong>in</strong>zuteilen<br />
vermochte:<br />
1. Substanz 2. Quantität<br />
3. Qualität 4. Relation<br />
5. Wo 6. Wann<br />
7. Lage 8. Haben<br />
9. Wirken o<strong>der</strong> e<strong>in</strong> 10. Leiden<br />
Ranganathan hat diese perspektivische Kategorisierung, die er <strong>in</strong> Anlehnung an die Insektenaugen<br />
als Facettenklassifikation bezeichnete, vere<strong>in</strong>facht auf:<br />
1. Personality 2. Matter 3. Energy 4. Space 5.Time
Unter dem Aspekt <strong>der</strong> Objektorientierung unserer Begriffswelt haben wir es allerd<strong>in</strong>gs<br />
mit sehr viel mehr Klassen zu tun, weil es e<strong>in</strong> wesentliches Merkmal von Objekten ist,<br />
daß alle Begriffe nicht nur bestimmte Eigenschaften enthalten, son<strong>der</strong>n damit auch O-<br />
perationen e<strong>in</strong>schließen, die mit ihnen möglich s<strong>in</strong>d.<br />
Die Möglichkeiten <strong>der</strong> Objektorieung von <strong>SGML</strong><br />
Durch die Metasprache <strong>SGML</strong> können wir Objekte auf e<strong>in</strong>er <strong>der</strong> natürlichen Sprache<br />
übergeordneten Ebene so <strong>in</strong> Zusammenhänge br<strong>in</strong>gen, daß diese auch von e<strong>in</strong>er objektorientierten<br />
Programmiersprache wie JAVA erkannt und operativ verarbeitet werden<br />
können.<br />
Außerdem erlaubt <strong>SGML</strong> damit die Indexierung von Volltexten und die Animation von<br />
Objekten wie Bil<strong>der</strong>, Bewegtbil<strong>der</strong> o<strong>der</strong> Töne. Sie alle können auf <strong>der</strong> Metaebenen mit<br />
Hilfe e<strong>in</strong>es Thesaurus hierarchisch strukturiert werden. Ebenso wie die Begriffe <strong>in</strong> unserem<br />
ratiomorphen Apparat, den wir Gehirn nennen, ihre Begrenzungen und Überlappungen<br />
durch benachbarte bzw. verwandte Begriffe erfahren und wir auch versuchen<br />
diese Begriffswelt durch Wortfel<strong>der</strong> <strong>in</strong> unserer natürlichen Sprache abzubilden, vermögen<br />
wir e<strong>in</strong> noch stärker vere<strong>in</strong>fachtes und damit leichter überschaubares Begriffsnetz<br />
im Thesaurus darzustellen.<br />
Neben Objekten, neuronalen Netzen, logischen Deduktionen, semantischen Netzwerken,<br />
semantischen Thesauri, regelbasierten Systemen, sogenannten Scripts und unsere<br />
natürlichen Sprache, können wir mit Hilfe <strong>der</strong> <strong>SGML</strong> auch sogenannte Frames zur Wissensdarstellung<br />
e<strong>in</strong>setzen. Solche Frames erlauben die Bildung von vernetzten Wissenselementen,<br />
unter denen wir hier e<strong>in</strong>e E<strong>in</strong>heit aus e<strong>in</strong>er Information und ihrer Begründung<br />
verstehen.<br />
Der E<strong>in</strong>satz von Frames und Slots<br />
Die Vorstellung <strong>der</strong> Strukturierung von Wissen <strong>in</strong> Frames und Slots geht auf Marv<strong>in</strong><br />
M<strong>in</strong>sky zurück. Sie wurde Mitte <strong>der</strong> siebziger Jahre (M<strong>in</strong>sky, M.: A Framework for Represent<strong>in</strong>g<br />
Knowledge) entwickelt und fand e<strong>in</strong>e weite Verbreitung <strong>in</strong> <strong>der</strong> Künstlichen Intelligenz<br />
sowie vielen Wissensbanken.<br />
In den Frames kann <strong>in</strong> <strong>der</strong> festen Datenstruktur zur Repräsentation organisierten Wissens<br />
- hier im S<strong>in</strong>ne <strong>der</strong> Information und ihrer Begründung - deklarative und prozedurale<br />
Information <strong>in</strong> festen Relationen zu semantisch vernetztem Wissen geführt werden.<br />
Jedes Objekt ist als e<strong>in</strong> spezieller Frame zu betrachtet. Die Slots <strong>in</strong> e<strong>in</strong>em Frame s<strong>in</strong>d<br />
Werte bzw. Facette <strong>in</strong> denen sich die jeweils erlaubten Werte- <strong>in</strong> zulässigen Toleranzbereichen<br />
e<strong>in</strong>betten lassen.<br />
Primitive Frames dienen zunächst zur Beschreibung von Objekten. Sie können allerd<strong>in</strong>gs<br />
durch entsprechende Klassenbildung und polyhierarchische Strukturen, bis h<strong>in</strong> zu<br />
mehrdimensionalen Vernetzungen, <strong>in</strong> ihrer Gesamtheit sehr komplexe Tatbestände<br />
wie<strong>der</strong>geben. Solche polyhierarchische Strukturen müssen biogenetisch evolutionär<br />
wachsen. An dieser Stelle erkennt man wohl am schönsten die Bedeutung dieser Be-
trachtungsweise für die Organisation von Wissen und damit auch die Bedeutung <strong>der</strong><br />
<strong>SGML</strong> für die ISKO und für das mo<strong>der</strong>ne Dokumentationswesen bzw. für die Digitale<br />
Bibliothek.<br />
Beim E<strong>in</strong>satz von Frames kann Wissen auf <strong>der</strong> Basis von <strong>SGML</strong> hierarchisch organisiert<br />
werden, wobei die algorithmische Ane<strong>in</strong>an<strong>der</strong>reihung von Prozeduren mit <strong>SGML</strong> und<br />
<strong>der</strong> objektorientierten Programmiersprache JAVA im Rahmen <strong>der</strong> Inferenzmasch<strong>in</strong>enbildung<br />
möglich ist. Die Ausgabe von Expertenwissen <strong>in</strong> natürlicher Sprache kann dabei<br />
als e<strong>in</strong> beson<strong>der</strong>er Vorzug gewertet werden. Aus diesem Grunde eignen sich Frames, im<br />
S<strong>in</strong>ne von semantischen Thesauri, beson<strong>der</strong>s als Basis für Inferenzmasch<strong>in</strong>en.<br />
Die Darstellung semantischer Thesauri<br />
Das Unified Medical Language System (UMLS) ist e<strong>in</strong> Langzeitprojekt <strong>der</strong> amerikanischen<br />
National Library of Medic<strong>in</strong>e, dessen Ziel e<strong>in</strong> <strong>in</strong>telligentes automatisiertes<br />
System mit "Verständnis" für biomediz<strong>in</strong>ische Begriffe und ihre Beziehungen untere<strong>in</strong>an<strong>der</strong><br />
ist, das mit Hilfe e<strong>in</strong>es semantischen Thesaurus erreicht wird. Dabei hat<br />
man auf e<strong>in</strong>e Reihe von bereits bestehenden Thesauri <strong>in</strong> <strong>der</strong> Mediz<strong>in</strong> zurückgegriffen<br />
und diese mite<strong>in</strong>an<strong>der</strong> <strong>in</strong> Verb<strong>in</strong>dung gebracht. Ähnliche Ansätze für semantische<br />
Thesauri f<strong>in</strong>den wir bei CYC und ebenso beim WordNet von <strong>der</strong> Pr<strong>in</strong>cton University,<br />
zu denen sich näheres im Internet f<strong>in</strong>den läßt. Auch bei BIOSIS hat man schon vor<br />
mehreren Jahren Versuche unternommen, auf <strong>der</strong> Basis von Frames und Slots, Hilfestellungen<br />
zum Intelligent Information Retrieval (IIR) zu leisten, <strong>in</strong>dem man die<br />
Klassifikation <strong>der</strong> Biological Abstracts mit Semantik versah. Im Rahmen e<strong>in</strong>er<br />
deutsch-französischen Zusammenarbeit versucht man auch im Neurodoc-Projekt die<br />
Semantik von Deskriptoren darstellbar zu machen.<br />
Ke<strong>in</strong>es dieser bekannten Projekte nutzte bisher die <strong>SGML</strong> und ihre Möglichkeiten, obwohl<br />
sie sich aus den bereits genannten Überlegungen anbietet, weil die meisten dieser<br />
semantischen Thesauri ihren Ursprung zu e<strong>in</strong>er Zeit hatten, als man die Möglichkeiten<br />
<strong>der</strong> <strong>SGML</strong> noch nicht so klar wie heute erkennen konnte.<br />
Wissenselemente als spezielle Objekte<br />
E<strong>in</strong>e <strong>der</strong> wichtigsten Voraussetzungen für jede Wissenschaft und damit auch für das<br />
Wissen selbst, ist e<strong>in</strong>e möglichst präzise def<strong>in</strong>itorische Grundlage. Sie baut sich auf <strong>der</strong><br />
semantischen Vernetzung ihrer Begrifflichkeiten und damit auch aus <strong>der</strong> jeweiligen Begrenzung<br />
<strong>der</strong> benachbarten Wortfel<strong>der</strong> auf. Damit bietet sich das <strong>Pr<strong>in</strong>zip</strong> <strong>der</strong> <strong>Objektdarstellung</strong><br />
<strong>in</strong> <strong>SGML</strong> für die Sammlung von Wissenselementen im S<strong>in</strong>ne von def<strong>in</strong>ierten<br />
vernetzten Objekten geradezu zw<strong>in</strong>gend an. Wissenselemente als Frames und Slots <strong>in</strong><br />
<strong>SGML</strong>-manier gestaltet und mit def<strong>in</strong>itorisch-semantischen Begründungen versehen<br />
lassen sich <strong>in</strong> beliebiger Zahl sammeln und hypermedial verl<strong>in</strong>ken.<br />
Durch den <strong>in</strong> den letzten Jahren fast unbemerkt abgelaufenen bibliothekarischdokumentarischen<br />
Paradigmenwechsel werden heute im Internet zunehmend HTML-<br />
Dokumente abgelegt und durch Indexdateien wie Altavista, HotBot etc. weltweit im
Volltext erschlossen. Dagegen erzeugten Bibliothekare und Dokumentare bislang Dokumente<br />
mit fester Struktur und Indexierungen, die sie <strong>in</strong> bestimmte Datenbanken importierten,<br />
um sie so recherchierfähig zu machen. Darüber h<strong>in</strong>aus war es bislang lediglich<br />
das Ziel <strong>der</strong> Dokumentation das Wissen <strong>der</strong> Welt durch Indexierung zu erschließen.<br />
Dagegen beg<strong>in</strong>nen wir nun Strukturen zu schaffen, <strong>in</strong> denen wir das Wissen <strong>der</strong> Welt<br />
direkt digital verfügbar machen, <strong>in</strong>dem wir es im Volltext metasprachlich neu organisieren.<br />
Abb. 1 macht deutlich, daß wir aus e<strong>in</strong>er Vielzahl von Wissenselementen, die aus möglichst<br />
klaren Def<strong>in</strong>itionen bestehen, und die aus Erläuterungen, Relationierungen<br />
und Vernetzungen heraus ihre Begründung erlangen, e<strong>in</strong> höchst komplexes<br />
Gedankengebäude aufbauen können, das durch zusätzliche Indizes beliebig<br />
erschlossen werden kann. An<strong>der</strong>erseits ist natürlich e<strong>in</strong>e Navigation durch die<br />
logische Folge <strong>der</strong> Dokumente möglich. Durch e<strong>in</strong>e fragenorientierte Systematik<br />
können die Wissenselemente auch als Antworten zur Beseitigung von Unwissen<br />
e<strong>in</strong>gesetzt werden.<br />
Im Zusammenhang mit den Intelligent Information Retrieval Systemen lassen sich auf<br />
diesem Wege auch beispielsweise Suchhilfen bei <strong>der</strong> Auswahl von Datenbanken, beim<br />
E<strong>in</strong>satz <strong>der</strong> jeweiligen Retrievalsprache o<strong>der</strong> auch bei <strong>der</strong> Auswahl <strong>der</strong> jeweils richtigen<br />
Suchbegriffe, wie bei UMLS o<strong>der</strong> bei WordNet , anbieten.