20.12.2013 Aufrufe

Zum Prinzip der Objektdarstellung in SGML - Institut für ...

Zum Prinzip der Objektdarstellung in SGML - Institut für ...

Zum Prinzip der Objektdarstellung in SGML - Institut für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Vortrag auf <strong>der</strong> 5. Tagung <strong>der</strong> Deutschen Sektion <strong>der</strong> Internationalen Gesellschaft für<br />

Wissensorganisation (ISKO)<br />

7.-10. Oktober 1997,<br />

<strong>Institut</strong> für Bibliothekswissenschaft - Humboldt-Universität zu Berl<strong>in</strong><br />

<strong>Zum</strong> <strong>Pr<strong>in</strong>zip</strong> <strong>der</strong> <strong>Objektdarstellung</strong> <strong>in</strong> <strong>SGML</strong><br />

Iris Schwarz und Walther Umstätter, Humboldt-Universität zu Berl<strong>in</strong><br />

Zusammenfassung<br />

<strong>SGML</strong> ist e<strong>in</strong>e Metasprache die geeignet ist Texte <strong>in</strong> natürlicher Sprache mit zusätzlichen<br />

Strukturen zu versehen und somit die Voraussetzung zu schaffen Volltext<strong>in</strong>dexierungen<br />

<strong>in</strong> e<strong>in</strong>er Weise vorzunehmen, wie dies bislang nicht möglich war. Der rasant<br />

zunehmende Bekanntheitsgrad <strong>der</strong> <strong>SGML</strong> liegt zweifellos an <strong>der</strong> bekanntesten Document<br />

Type Def<strong>in</strong>ition (DTD) im Rahmen <strong>der</strong> <strong>SGML</strong>, <strong>der</strong> Hypertext Markup Language (HTML),<br />

wie wir sie im Internet f<strong>in</strong>den. Darüber h<strong>in</strong>aus erfüllt <strong>SGML</strong> je nach DTD die Bed<strong>in</strong>gungen,<br />

die Objektorientiertheit unserer natürliche Sprache mit ihren def<strong>in</strong>ierbaren Begriffen<br />

s<strong>in</strong>nvoll zu unterstützen und beispielsweise mit Hilfe <strong>der</strong> objektorientierten Programmiersprache<br />

JAVA zu verarbeiten. Beson<strong>der</strong>s hervorzuheben ist die sich damit<br />

verän<strong>der</strong>nde Publikationsform bei wissensbasierten Texten, <strong>in</strong> denen <strong>SGML</strong>-<br />

Dokumente nicht mehr nur für sich zu betrachten s<strong>in</strong>d, wie Zeitschriftenaufsätze o<strong>der</strong><br />

Bücher, son<strong>der</strong>n die darüber h<strong>in</strong>aus <strong>in</strong> Form von Wissenselementen <strong>in</strong> e<strong>in</strong>er Daten- und<br />

Wissensbank organisiert und recherchierbar zu machen s<strong>in</strong>d.<br />

E<strong>in</strong>leitung<br />

Wenn hier von Philosophie die Rede se<strong>in</strong> soll, so geschieht dies weniger im S<strong>in</strong>ne <strong>der</strong><br />

Liebe zur Weisheit, als vielmehr im S<strong>in</strong>ne e<strong>in</strong>es Strebens "nach Erkenntnis des Zusammenhanges<br />

<strong>der</strong> D<strong>in</strong>ge <strong>in</strong> <strong>der</strong> Welt", wie es im Duden unter diesem Stichwort heißt. Dieser<br />

Zusammenhang <strong>der</strong> D<strong>in</strong>ge ist <strong>in</strong> unserer natürlichen Sprache durch die Syntax gegeben,<br />

womit wir bereits auf e<strong>in</strong>e wesentliche Eigenschaft <strong>der</strong> "Standard Generalized Markup<br />

Language" (<strong>SGML</strong>) gekommen s<strong>in</strong>d. Die <strong>SGML</strong> basiert zunächst auf <strong>der</strong> natürlichen<br />

Sprache, die wir im allgeme<strong>in</strong>en <strong>in</strong> Computern als ASCII-Text nie<strong>der</strong>legen. Bei Bedarf<br />

kann allerd<strong>in</strong>gs über diesen "American Standard Code for Information Interchange" mit se<strong>in</strong>en<br />

2 7 = 128 Zeichen (bzw. im erweiterten ASCII mit 2 8 Zeichen) h<strong>in</strong>aus auch <strong>der</strong> Unicode<br />

mit 2 16 verschiedenen Zeichen verwendet werden.<br />

Die Objektorientiertheit <strong>der</strong> Natürlichen Sprache<br />

Die D<strong>in</strong>ge, die <strong>in</strong> unserer natürlichen Sprache <strong>in</strong> Zusammenhang gebracht werden,<br />

könnte man auch als Objekte bzw. zur Abgrenzung von materiellen Objekten als Informationsobjekte<br />

bezeichnen. Damit kann unsere natürliche Sprache als objektorien-


tiert angesehen werden, da unsere Benennungen und Bezeichnungen von Begriffen solchen<br />

Objekten Namen geben, durch die sie e<strong>in</strong>deutig identifizierbar s<strong>in</strong>d.<br />

Der Begriff objektorientierte Programmierung ist eng mit <strong>der</strong> Programmiersprache<br />

Smalltalk verbunden und geht auf e<strong>in</strong>e Idee zurück, die A. Kay 1970 formulierte. Es<br />

begann damit, daß man im Xerox-PARC (Palo Alto Research Center) Dialogschnittstellen<br />

von Benutzern testen ließ. Dabei entstand e<strong>in</strong> System, das dem Menschen bei <strong>der</strong> Suche<br />

nach Begriffen sowie von Strukturen <strong>in</strong> komplexen Zusammenhängen entgegenkommt.<br />

Insofern ist es ke<strong>in</strong> Zufall, daß die Begrifflichkeit <strong>der</strong> Menschen und Objektorientierung<br />

mite<strong>in</strong>an<strong>der</strong> verwandt s<strong>in</strong>d.<br />

Im Zusammenhang mit <strong>der</strong> Wissensorganisation ist es nicht unwichtig die Frage zu stellen,<br />

ob sich menschliches Denken auf Sprache o<strong>der</strong> auf Begriffe stützt, da auch unsere<br />

gesamte Begriffswelt die Kennzeichen von Informationsobjekten im S<strong>in</strong>ne <strong>der</strong> objektorientierten<br />

Programmierung <strong>in</strong> sich tragen. Sie können klassifiziert werden, zeigen Vererbung<br />

und Polymorphismus und brauchen zu ihrer Identifizierung möglichst exakte<br />

Def<strong>in</strong>itionen.<br />

W. von Humboldt war noch <strong>der</strong> Vorstellung gefolgt, daß sich das Denken <strong>der</strong> Menschen<br />

auf unsere Sprache stützt. Gegen diese Ansicht, die sich auch mit <strong>der</strong> Vorstellung<br />

verb<strong>in</strong>det, daß verschiedene Sprachkulturen zu unterschiedlichem Denken führen,<br />

spricht, daß wir nicht selten <strong>in</strong> die Situation geraten e<strong>in</strong>en Begriff verbalisieren zu wollen,<br />

für den uns die Worte fehlen. An<strong>der</strong>erseits haben wir es bei den Homonymen mit<br />

Worten zu tun, die trotz klarer Begrifflichkeit, verbale Kollisionen erkennen lassen.<br />

Die Neurophysiologie <strong>der</strong> letzten Jahrzehnte hat klare Belege dafür, wie wir durch komplexe<br />

neuronale Muster Begriffswelten <strong>in</strong> unserem Gehirn aufbauen und umgestalten,<br />

die über das Brocasche Zentrum verbalisiert werden. Es ist also eher so, daß unsere<br />

Begriffswelt die Sprache bee<strong>in</strong>flußt.<br />

Die Kategorisierung sprachlicher Objekte<br />

Aus diesem Grund konnte Aristoteles se<strong>in</strong>e Philosophie aus natürlicher Sprache ableiten,<br />

<strong>in</strong>dem er ohne jede Verb<strong>in</strong>dung gesprochene Wort <strong>in</strong> zehn Kategorien e<strong>in</strong>zuteilen<br />

vermochte:<br />

1. Substanz 2. Quantität<br />

3. Qualität 4. Relation<br />

5. Wo 6. Wann<br />

7. Lage 8. Haben<br />

9. Wirken o<strong>der</strong> e<strong>in</strong> 10. Leiden<br />

Ranganathan hat diese perspektivische Kategorisierung, die er <strong>in</strong> Anlehnung an die Insektenaugen<br />

als Facettenklassifikation bezeichnete, vere<strong>in</strong>facht auf:<br />

1. Personality 2. Matter 3. Energy 4. Space 5.Time


Unter dem Aspekt <strong>der</strong> Objektorientierung unserer Begriffswelt haben wir es allerd<strong>in</strong>gs<br />

mit sehr viel mehr Klassen zu tun, weil es e<strong>in</strong> wesentliches Merkmal von Objekten ist,<br />

daß alle Begriffe nicht nur bestimmte Eigenschaften enthalten, son<strong>der</strong>n damit auch O-<br />

perationen e<strong>in</strong>schließen, die mit ihnen möglich s<strong>in</strong>d.<br />

Die Möglichkeiten <strong>der</strong> Objektorieung von <strong>SGML</strong><br />

Durch die Metasprache <strong>SGML</strong> können wir Objekte auf e<strong>in</strong>er <strong>der</strong> natürlichen Sprache<br />

übergeordneten Ebene so <strong>in</strong> Zusammenhänge br<strong>in</strong>gen, daß diese auch von e<strong>in</strong>er objektorientierten<br />

Programmiersprache wie JAVA erkannt und operativ verarbeitet werden<br />

können.<br />

Außerdem erlaubt <strong>SGML</strong> damit die Indexierung von Volltexten und die Animation von<br />

Objekten wie Bil<strong>der</strong>, Bewegtbil<strong>der</strong> o<strong>der</strong> Töne. Sie alle können auf <strong>der</strong> Metaebenen mit<br />

Hilfe e<strong>in</strong>es Thesaurus hierarchisch strukturiert werden. Ebenso wie die Begriffe <strong>in</strong> unserem<br />

ratiomorphen Apparat, den wir Gehirn nennen, ihre Begrenzungen und Überlappungen<br />

durch benachbarte bzw. verwandte Begriffe erfahren und wir auch versuchen<br />

diese Begriffswelt durch Wortfel<strong>der</strong> <strong>in</strong> unserer natürlichen Sprache abzubilden, vermögen<br />

wir e<strong>in</strong> noch stärker vere<strong>in</strong>fachtes und damit leichter überschaubares Begriffsnetz<br />

im Thesaurus darzustellen.<br />

Neben Objekten, neuronalen Netzen, logischen Deduktionen, semantischen Netzwerken,<br />

semantischen Thesauri, regelbasierten Systemen, sogenannten Scripts und unsere<br />

natürlichen Sprache, können wir mit Hilfe <strong>der</strong> <strong>SGML</strong> auch sogenannte Frames zur Wissensdarstellung<br />

e<strong>in</strong>setzen. Solche Frames erlauben die Bildung von vernetzten Wissenselementen,<br />

unter denen wir hier e<strong>in</strong>e E<strong>in</strong>heit aus e<strong>in</strong>er Information und ihrer Begründung<br />

verstehen.<br />

Der E<strong>in</strong>satz von Frames und Slots<br />

Die Vorstellung <strong>der</strong> Strukturierung von Wissen <strong>in</strong> Frames und Slots geht auf Marv<strong>in</strong><br />

M<strong>in</strong>sky zurück. Sie wurde Mitte <strong>der</strong> siebziger Jahre (M<strong>in</strong>sky, M.: A Framework for Represent<strong>in</strong>g<br />

Knowledge) entwickelt und fand e<strong>in</strong>e weite Verbreitung <strong>in</strong> <strong>der</strong> Künstlichen Intelligenz<br />

sowie vielen Wissensbanken.<br />

In den Frames kann <strong>in</strong> <strong>der</strong> festen Datenstruktur zur Repräsentation organisierten Wissens<br />

- hier im S<strong>in</strong>ne <strong>der</strong> Information und ihrer Begründung - deklarative und prozedurale<br />

Information <strong>in</strong> festen Relationen zu semantisch vernetztem Wissen geführt werden.<br />

Jedes Objekt ist als e<strong>in</strong> spezieller Frame zu betrachtet. Die Slots <strong>in</strong> e<strong>in</strong>em Frame s<strong>in</strong>d<br />

Werte bzw. Facette <strong>in</strong> denen sich die jeweils erlaubten Werte- <strong>in</strong> zulässigen Toleranzbereichen<br />

e<strong>in</strong>betten lassen.<br />

Primitive Frames dienen zunächst zur Beschreibung von Objekten. Sie können allerd<strong>in</strong>gs<br />

durch entsprechende Klassenbildung und polyhierarchische Strukturen, bis h<strong>in</strong> zu<br />

mehrdimensionalen Vernetzungen, <strong>in</strong> ihrer Gesamtheit sehr komplexe Tatbestände<br />

wie<strong>der</strong>geben. Solche polyhierarchische Strukturen müssen biogenetisch evolutionär<br />

wachsen. An dieser Stelle erkennt man wohl am schönsten die Bedeutung dieser Be-


trachtungsweise für die Organisation von Wissen und damit auch die Bedeutung <strong>der</strong><br />

<strong>SGML</strong> für die ISKO und für das mo<strong>der</strong>ne Dokumentationswesen bzw. für die Digitale<br />

Bibliothek.<br />

Beim E<strong>in</strong>satz von Frames kann Wissen auf <strong>der</strong> Basis von <strong>SGML</strong> hierarchisch organisiert<br />

werden, wobei die algorithmische Ane<strong>in</strong>an<strong>der</strong>reihung von Prozeduren mit <strong>SGML</strong> und<br />

<strong>der</strong> objektorientierten Programmiersprache JAVA im Rahmen <strong>der</strong> Inferenzmasch<strong>in</strong>enbildung<br />

möglich ist. Die Ausgabe von Expertenwissen <strong>in</strong> natürlicher Sprache kann dabei<br />

als e<strong>in</strong> beson<strong>der</strong>er Vorzug gewertet werden. Aus diesem Grunde eignen sich Frames, im<br />

S<strong>in</strong>ne von semantischen Thesauri, beson<strong>der</strong>s als Basis für Inferenzmasch<strong>in</strong>en.<br />

Die Darstellung semantischer Thesauri<br />

Das Unified Medical Language System (UMLS) ist e<strong>in</strong> Langzeitprojekt <strong>der</strong> amerikanischen<br />

National Library of Medic<strong>in</strong>e, dessen Ziel e<strong>in</strong> <strong>in</strong>telligentes automatisiertes<br />

System mit "Verständnis" für biomediz<strong>in</strong>ische Begriffe und ihre Beziehungen untere<strong>in</strong>an<strong>der</strong><br />

ist, das mit Hilfe e<strong>in</strong>es semantischen Thesaurus erreicht wird. Dabei hat<br />

man auf e<strong>in</strong>e Reihe von bereits bestehenden Thesauri <strong>in</strong> <strong>der</strong> Mediz<strong>in</strong> zurückgegriffen<br />

und diese mite<strong>in</strong>an<strong>der</strong> <strong>in</strong> Verb<strong>in</strong>dung gebracht. Ähnliche Ansätze für semantische<br />

Thesauri f<strong>in</strong>den wir bei CYC und ebenso beim WordNet von <strong>der</strong> Pr<strong>in</strong>cton University,<br />

zu denen sich näheres im Internet f<strong>in</strong>den läßt. Auch bei BIOSIS hat man schon vor<br />

mehreren Jahren Versuche unternommen, auf <strong>der</strong> Basis von Frames und Slots, Hilfestellungen<br />

zum Intelligent Information Retrieval (IIR) zu leisten, <strong>in</strong>dem man die<br />

Klassifikation <strong>der</strong> Biological Abstracts mit Semantik versah. Im Rahmen e<strong>in</strong>er<br />

deutsch-französischen Zusammenarbeit versucht man auch im Neurodoc-Projekt die<br />

Semantik von Deskriptoren darstellbar zu machen.<br />

Ke<strong>in</strong>es dieser bekannten Projekte nutzte bisher die <strong>SGML</strong> und ihre Möglichkeiten, obwohl<br />

sie sich aus den bereits genannten Überlegungen anbietet, weil die meisten dieser<br />

semantischen Thesauri ihren Ursprung zu e<strong>in</strong>er Zeit hatten, als man die Möglichkeiten<br />

<strong>der</strong> <strong>SGML</strong> noch nicht so klar wie heute erkennen konnte.<br />

Wissenselemente als spezielle Objekte<br />

E<strong>in</strong>e <strong>der</strong> wichtigsten Voraussetzungen für jede Wissenschaft und damit auch für das<br />

Wissen selbst, ist e<strong>in</strong>e möglichst präzise def<strong>in</strong>itorische Grundlage. Sie baut sich auf <strong>der</strong><br />

semantischen Vernetzung ihrer Begrifflichkeiten und damit auch aus <strong>der</strong> jeweiligen Begrenzung<br />

<strong>der</strong> benachbarten Wortfel<strong>der</strong> auf. Damit bietet sich das <strong>Pr<strong>in</strong>zip</strong> <strong>der</strong> <strong>Objektdarstellung</strong><br />

<strong>in</strong> <strong>SGML</strong> für die Sammlung von Wissenselementen im S<strong>in</strong>ne von def<strong>in</strong>ierten<br />

vernetzten Objekten geradezu zw<strong>in</strong>gend an. Wissenselemente als Frames und Slots <strong>in</strong><br />

<strong>SGML</strong>-manier gestaltet und mit def<strong>in</strong>itorisch-semantischen Begründungen versehen<br />

lassen sich <strong>in</strong> beliebiger Zahl sammeln und hypermedial verl<strong>in</strong>ken.<br />

Durch den <strong>in</strong> den letzten Jahren fast unbemerkt abgelaufenen bibliothekarischdokumentarischen<br />

Paradigmenwechsel werden heute im Internet zunehmend HTML-<br />

Dokumente abgelegt und durch Indexdateien wie Altavista, HotBot etc. weltweit im


Volltext erschlossen. Dagegen erzeugten Bibliothekare und Dokumentare bislang Dokumente<br />

mit fester Struktur und Indexierungen, die sie <strong>in</strong> bestimmte Datenbanken importierten,<br />

um sie so recherchierfähig zu machen. Darüber h<strong>in</strong>aus war es bislang lediglich<br />

das Ziel <strong>der</strong> Dokumentation das Wissen <strong>der</strong> Welt durch Indexierung zu erschließen.<br />

Dagegen beg<strong>in</strong>nen wir nun Strukturen zu schaffen, <strong>in</strong> denen wir das Wissen <strong>der</strong> Welt<br />

direkt digital verfügbar machen, <strong>in</strong>dem wir es im Volltext metasprachlich neu organisieren.<br />

Abb. 1 macht deutlich, daß wir aus e<strong>in</strong>er Vielzahl von Wissenselementen, die aus möglichst<br />

klaren Def<strong>in</strong>itionen bestehen, und die aus Erläuterungen, Relationierungen<br />

und Vernetzungen heraus ihre Begründung erlangen, e<strong>in</strong> höchst komplexes<br />

Gedankengebäude aufbauen können, das durch zusätzliche Indizes beliebig<br />

erschlossen werden kann. An<strong>der</strong>erseits ist natürlich e<strong>in</strong>e Navigation durch die<br />

logische Folge <strong>der</strong> Dokumente möglich. Durch e<strong>in</strong>e fragenorientierte Systematik<br />

können die Wissenselemente auch als Antworten zur Beseitigung von Unwissen<br />

e<strong>in</strong>gesetzt werden.<br />

Im Zusammenhang mit den Intelligent Information Retrieval Systemen lassen sich auf<br />

diesem Wege auch beispielsweise Suchhilfen bei <strong>der</strong> Auswahl von Datenbanken, beim<br />

E<strong>in</strong>satz <strong>der</strong> jeweiligen Retrievalsprache o<strong>der</strong> auch bei <strong>der</strong> Auswahl <strong>der</strong> jeweils richtigen<br />

Suchbegriffe, wie bei UMLS o<strong>der</strong> bei WordNet , anbieten.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!