Social Semantic Desktop - Informationssysteme

Social Semantic Desktop 

Seminararbeit 

vorgelegt von 

Stefan Tomanek 

Soziales Retrieval im Web 2.0 

Sommersemester 2008 

Arbeitsgruppe Informationssysteme 

Datum: 12. Oktober 2008 

Betreuung: 

Dipl.-Inform. Ingo Frommholz

Inhaltsverzeichnis 

1 Einführung 2 

2 Informationsorganisation: Wunsch und Wirklichkeit 2 

2.1 Visualisierung kognitiver Zustände . . . . . . . . . . . . . . . 3 

2.1.1 Mindmapping . . . . . . . . . . . . . . . . . . . . . . . 3 

2.1.2 Concept-Mapping . . . . . . . . . . . . . . . . . . . . . 4 

2.2 Organisation physischer Informationsträger . . . . . . . . . . . 4 

2.3 Künstliche Gedächtniserweiterung . . . . . . . . . . . . . . . . 5 

2.4 Unzulänglichkeiten klassischer Dateisysteme . . . . . . . . . . 6 

2.4.1 Taxonomische Ordnung . . . . . . . . . . . . . . . . . . 6 

2.4.2 Inkongruenz von Dateien und Dokumenten . . . . . . . 8 

2.5 Semantisch orientierte Anwendungen . . . . . . . . . . . . . . 8 

3 Implementierung des Social Semantic Desktops 10 

3.1 RDF als Integrationsformat . . . . . . . . . . . . . . . . . . . 10 

3.1.1 Bäume zu Graphen . . . . . . . . . . . . . . . . . . . . 12 

3.2 Herkunft der Metadaten . . . . . . . . . . . . . . . . . . . . . 13 

3.3 SPARQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

3.4 Soziale RDF-Datenbanken . . . . . . . . . . . . . . . . . . . . 14 

3.5 Der zukünftige Weg . . . . . . . . . . . . . . . . . . . . . . . . 17 

4 Fazit 18 

Abbildungsverzeichnis 

1 Mindmap zur Reflexion eines Themengebiets . . . . . . . . . . 3 

2 Concept-Map zur Darstellung verwandter Konzepte . . . . . . 4 

3 Hardlinks erlauben die Plazierung von Dateien in mehreren 

Verzeichnissen . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

4 Inkongruenz von Dokumenten und Dateien . . . . . . . . . . . 8 

5 Semantisch orientierte Photo-Verwaltung mit F-Spot . . . . . 9 

6 RDF-Aussagen in N3 . . . . . . . . . . . . . . . . . . . . . . . 11 

7 Transformation einer Dateihierarchie zu einem RDF-Graphen 12 

8 Graph-Anfragen mit SPARQL . . . . . . . . . . . . . . . . . . 14 

9 Informationssuche mit Edutella . . . . . . . . . . . . . . . . . 15 

10 Verteilte Metadaten-Datenbank mit RDFPeers . . . . . . . . . 16 

1

1 Einführung 

Informationen nehmen mit jedem Tag technischer Entwicklung weniger physischen 

Raum ein: was früher voluminöse Aktenschränke, CD-Regale und 

Fotoalben erforderte, findet mittlerweile auf handtellergroßen Speichermedien 

Platz. Die digitale Durchdringung des Alltags führt sowohl im privaten 

als auch geschäftlichen Umfeld zu einer steigenden Anzahl an elektronisch 

vorliegenden Dokumenten: Während deren Speicherung zwar mit modernen 

Mitteln erfolgt, bleibt ihre Organisation jedoch weiterhin an alten Ordnungsparadigmen 

der physischen Welt haften — die Dateisysteme der geläufigen 

Betriebssysteme bieten meist nicht mehr Funktionalität als ein virtueller Aktenschrank, 

lassen also in ihrem Aufbau den tatsächlichen Informationsinhalt 

der einzelnen Dokumente unberücksichtigt. 

Das Aufkommen des sogenannten Web 2.0 vermochte es, diese klassische 

Betrachtungsweise aufzubrechen und verschiedene Dokumente in semantisch 

orientierter Weise zu präsentieren: Informationen verschiedener Autoren und 

Typen können in Relation zueinander gesetzt, kommentiert und ausgetauscht 

werden. Der Social Semantic Desktop[1, 2] hat das Ziel, viele der im Web 2.0 

erprobten Techniken aus dem Web-Browser in das lokale System zu transferieren 

und die dabei enstehenden zusätzlichen Möglichkeiten für den Anwender 

nutzbar zu machen. 

Diese Arbeit soll zunächst die Probleme und Unzulänglichkeiten aufzeigen, 

die klassische Desktop- und Dateisysteme bei der strukturierten Datenablage 

haben. Die dabei geschilderten Diskrepanzen zwischen den kognitiven 

Prozessen des Anwenders und der Umsetzung der Anwendungsprogramme 

sollen anschließend behandelt und zumindest teilweise aufgelöst werden. Dabei 

sollen Technologien vorgestellt werden, die eine semantische Organisation 

lokal vorliegender Daten und deren Anwendungs-, Anwender- und Rechnerübergreifende 

Verknüpfung erlauben. Neben den Chancen und Möglichkeiten 

müssen selbstverständlich auch die Risiken beachtet werden, die eine 

solche Vermaschung privater und potentiell sensitiver Informationen mit sich 

bringt. 

2 Informationsorganisation: Wunsch und Wirklichkeit 

Eine Informationsablage sollte die Denkprozesse und -strukturen ihres Benutzers 

nachahmen: Im Gegensatz zu streng hierarchischen Ordnungssystemen 

assoziiert der menschliche Geist Informationen sehr frei untereinander; eine 

Wissenseinheit steht nie für sich alleine, sondern ist stets mit anderen 

2

Konzepten verknüpft. Die Gestalt dieses Wissensnetzes wird dabei durch 

die individuellen Erfahrungen des Anwenders geprägt: vergangene Erlebnisse 

können erstaunliche Themensprünge hervorbringen, die für Außenstehende 

und objektive Betrachter kurios erscheinen, für das betroffene Individuum 

jedoch durchaus passend und logisch sind. 

2.1 Visualisierung kognitiver Zustände 

2.1.1 Mindmapping 

Zur Unterstützung kognitiver Prozesse haben sich verschiedene Visualisierungsmethoden 

entwickelt: Eine sehr bekannte Variante ist das sogenannte 

,,Mindmapping”[3], bei dem zur besseren Überblickung eines Themas eine sogenannte 

Gedächtniskarte erstellt wird. Im Zentrum dieser Darstellung steht 

das Hauptthema, von dem Äste mit weiteren Unterkapiteln nach außen ragen. 

Auf diese Weise lagern sich konzentrisch um das Themengebiet verwandte 

und assoziierte Begriffe und Konzepte an, die wiederum selbst als Keim 

für weitergehende Assoziationen dienen. 

Abbildung 1: Mindmap zur Reflexion eines Themengebiets 

In der Ausgestaltung der Gedächtniskarte ist der Anwender recht frei: Ne- 

3

en Schlagworten kann sie auch Bilder enthalten, um die visuell orientierten 

Regionen des Gehirns anzusprechen. In jedem Fall bleibt sie jedoch zentral 

auf ihr Wurzelelement ausgerichtet. 

2.1.2 Concept-Mapping 

Im Kontrast zum Mindmapping mit seinen radialen, baumartigen Strukturen 

steht Concept Mapping: Die von John D. Novak[4] in den 1970er Jahren an 

der Cornell University entwickelte Notation erfordert nicht zwingend einen 

einzelnen zentralen Begriff, sondern verknüpft Konzepte durch gerichtete und 

beschriftete Kanten. Die Kantenbeschriftung konkretisiert dabei die Art der 

Relation, in der die verbundenen Begriffe stehen. Während Mindmaps stets 

zentral auf einen einzelnen Begriff ausgerichtet sind, erlauben Concept-Maps 

die Integration mehrerer Agglomerationskerne, die als Ausgangspunkte des 

Diagramms fungieren. Dieses bewegt sich meist innerhalb eines Konzept- 

Rahmens, dass die Thematik des Gesamtzusammenhangs vorgibt. 

mag 

Mensch 

akzeptiert 

hält 

mag 

Haustier 

ist ein 

ist ein 

Katze 

jagt 

Hund 

spielt mit 

kann 

Wollknäuel 

bellen 

Abbildung 2: Concept-Map zur Darstellung verwandter Konzepte 

2.2 Organisation physischer Informationsträger 

Die strukturierte Ablage physischer Informationsträger unterliegt den Limitierungen 

der physischen Welt: Bücher innerhalb einer Bibliothek benötigen 

Raum und sind in ihrer Anzahl begrenzt. Um ihre Auffindbarkeit sicherzustellen, 

müssen sie anhand eines eindeutigen Ordnungskriteriums kategorisiert 

werden. Die dabei entstehende Taxonomie erlaubt aufgrund ihrer klaren 

4

Baumstruktur nicht die Zuteilung eines Buches in zwei Kategorien: jedes Dokument 

ist genau einem übergeordneten Thema zugewiesen und befindet sich 

infolgedessen an einem definierten Ort. 

Die Distanz zweier Dokumente innerhalb der Taxonomie muss nicht mit 

der assoziativen Distanz im kognitiven Netz des Anwenders korrelieren: Die 

Verfolgung kleiner Querverweise eines Dokumentes können, sofern sie disziplinäre 

Grenzen überspringen, zu großen Sprüngen innerhalb der Bibliothekshierarchie 

führen. Für einen Anwender, der gerade ein Buch über Quantenphysik 

liest und seine Kenntnisse über Statistik vertiefen möchte, mag dieser 

assoziative Schritt sehr klein sein; je nach Struktur der Bibliothek wird er 

das Statistik-Werk vermutlich jedoch nicht im Regal der Physik-Bücher finden, 

sondern in der Mathematik-Abteilung – also unter Umständen in großer 

physischer Distanz. 

Die Grenzen der physischen Welt machen es schwer, Denkstrukturen 

nachzubilden, zumal diese stets individuell sind und von der Perspektive 

abhängen. Institutionen, die von einer vielzahl verschiedener Personen genutzt 

werden, müssen daher eine starke Hierarchie verwenden, um die Anordnung 

der vorgehaltenen Informationen zumindest für alle nachvollziehbar 

zu halten. 

2.3 Künstliche Gedächtniserweiterung 

Die Technik, Informationen losgelöst von körperlichen Exemplaren zu verarbeiten, 

ermöglicht die Grenzen real-räumlicher Anordnung zu durchbrechen. 

Bereits 1945 veröffentlichte Vannevar Bush seinen Artikel ,,As we may 

think”[5]: Der amerikanische Ingenieur, bisher vor allem in der Analogrechner- 

Entwicklung und im Manhatten-Projekt involviert, schlug darin die Konstruktion 

einer Maschine vor, die ihrem Benutzer als Erweiterung seines 

Gedächtnisses dienen sollte. Das Memex – als Kurzform für ,,Memory Extender” 

– genannte System sollte Informationen in Form von Mikrofilmen 

aufnehmen und dem Benutzer auf mehreren Bildschirmen zur Verfügung stellen. 

Durch Eingabe einer Ziffernkombination konnte dieser auf einzelne Dokumente 

zugreifen und mit Hilfe eines Rades durch die verschiedenen Seiten 

blättern. 

Doch Memex sollte mehr leisten als vordefinierte Folien zu projizieren: 

Der Benutzer sollte Dokumente miteinander verknüpfen können, um so Querverweise 

direkt verfolgen zu können. Betrachtete er also ein Dokument, so 

zeigte die schreibtischgroße Maschine auf einem zweiten Bildschirm verwandte 

Dokumente an. Dokumente ließen sich so zu ,,Trains” anordnen, die nicht 

zwingend der ursprünglichen Reihenfolge entsprechen, in der die Dokumente 

in das System eingegeben wurden. Neben Mikrofilmmedien sollte das System 

5

auch in der Lage sein, handschriftliche Notizen über berührungsempfindliche 

Oberflächen aufzuzeichen und als zusätzliche Dokumente in den Datenbestand 

einzufügen. Durch diese Möglichkeiten wäre es Memex möglich gewesen, 

sich individuell auf die kognitiven Strukturen des Anwenders einzustellen 

und Dokumente-Auswahlen individuell zusammenzustellen. Im Gegensatz zu 

modernen Hypertext-Systemen – wie etwa dem WWW – ließen sich bei Memex 

nicht einzelne Elemente einer Bildschirmseite mit anderen Dokumenten 

verknüpfen; atomare Einheit sollte das gesamte Dokument sein. 

Memex wurde in der vorgeschlagenen Form nie realisiert: Tatsächlich 

stellt Bushs Artikel lediglich eine visionäre Extrapolation der zur Zeit der 

Veröffentlichung aktuellen Technik dar. Viele der dabei aufgeworfenen Ideen 

fanden jedoch in modernisierter Form Eingang in Hypertext- und Dokument- 

Verwaltungssysteme. 

2.4 Unzulänglichkeiten klassischer Dateisysteme 

Real existierende Computer nutzen zur Datenablage ein baumartiges Dateisystem. 

Betriebssysteme der Windows-Familie stellen dabei jeden einzelnen 

phyischen Datenträger als isolierten Baum dar, während Unix-Abkömmlinge 

alle Medien zu einer gemeinsamen Hierarchie vereinigen. Beiden Familien 

gemein ist jedoch die Unterscheidung zwischen Verzeichnissen und regulären 

Dateien: Während erstgenannte lediglich der Strukturierung des abgelegten 

Datenbestandes dienen, enthalten Dateien die eigentlichen Informationen. 

2.4.1 Taxonomische Ordnung 

Klassische Dateisysteme bieten zwei Mittel, um Dokumente zu organisieren: 

Dateien werden mit Namen versehen und anschließend in Verzeichnissen kategorisiert. 

Dabei gehört eine Datei oder auch ein Verzeichnis stets zu einem 

übergeordneten Verzeichnis, so dass sich eine strikte Baumstruktur ergibt. 

Diese strikte Hierarchisierung ist oft hinderlich, da es nicht möglich ist, 

eine Datei mehreren Kategorien zuzuordnen. So ist es in den meisten Systemen 

zum Beispiel nicht möglich, ein Rechnungsdokument sowohl in einem 

Verzeichnis mit Kundenkorrespondenz als auch in einem für Rechnungen vorgesehenen 

zu plazieren. 

Das Dateisystem, im Sinne der auf dem Datenträger geschriebenen Verwaltungsstruktur, 

unterstützt eine solche m-zu-n-Zuordnung in vielen Fällen 

durchaus: Die meisten Desktop-Systeme pflegen jedoch die Ordner-Metapher, 

die ein solches Verhalten nicht erlaubt. Die Unterscheidung der Begriffe ,,Ordner” 

und ,,Verzeichnis” scheint haarspalterisch, fördert jedoch einen gewaltigen 

Bedeutungsunterschied zu Tage: Während ein Aktenordner die darin 

6

einsortierten Dokumente wirklich enthält, beinhaltet ein Verzeichnis lediglich 

Verweise auf den eigentlichen Ablageort. Ein Buch über die Tierwelt Afrikas 

kann sowohl in einem Buchverzeichnis über Biologie als auch in einer anderen 

Liste über den schwarzen Kontinent verzeichnet sein; genauso ist es bei vielen 

Dateisystemen möglich, Dateien – nicht jedoch Verzeichnisse – in mehreren 

Verzeichnissen zu plazieren. 

/ 

home 

max 

Rechnungen 

Korrespondenz 

Musterfirma 

Musterfirma 

Rechnung 1442 Brief 20083107 

Abbildung 3: Hardlinks erlauben die Plazierung von Dateien in mehreren 

Verzeichnissen 

Jeder Eintrag in einem Verzeichnis wird dabei als Link oder auch Hardlink 

bezeichnet; alle Verzeichniseinträge einer Datei sind gleichberechtigt und 

voneinander unabhängig: Erst, wenn der letzte Verweis entfernt wird, gilt die 

Datei als gelöscht. 

Mit Hardlinks ist es also durchaus möglich, eine Art Tagging für Dateien 

zu implementieren: Jedes Verzeichnis, dem ein Verweis auf die Datei hinzugefügt 

wird, kann als zusätzliches Etikett verstanden werden, das Art und 

Inhalt der Datei weiter beschreibt. 

Die Verwendung von Hardlinks zur Datenorganisation ist jedoch eingeschränkt: 

Die zusätzlichen Verweise lassen sich nicht über Datenträgergrenzen 

hinweg erstellen und bieten keine Möglichkeit, direkte Beziehungen zwischen 

Dateien auszudrücken. Es ist auch nicht möglich, auf effiziente Art und 

Weise alle Hardlinks zu finden, die auf ein bestimmtes Dokument verweisen. 

Zudem besteht aufgrund der schlechten Unterstützung in grafischen Benutze- 

7

oberflächen das Risiko von Fehlbedienungen und versehentlichen Löschungen, 

falls versehentlich der letzte existente Verzeichniseintrag eines Dokuments 

entfernt wird. 

2.4.2 Inkongruenz von Dateien und Dokumenten 

Ein weiteres Argument gegen die Verwendung von Dateisystem-Eigenschaften 

zur semantischen Organisation von Datenbeständen liegt in der Tatsache begründet, 

dass Dateien und Dokumente nicht zwangsläufig deckungsgleich sein 

müssen: Oft enthalten Objekte, die auf Dateisystemebene atomar erscheinen, 

aus Anwendungssiche mehrere Dokumente. Klassische Beispiele für diese verborgenen, 

inneren Strukturen sind Mailboxdateien oder auch Adressbücher, 

die mehrere Informationseinheiten zu einer Datei bündeln. Für Hardlinks sind 

diese feingranularen Einheiten nicht greifbar, da Wissen über die Syntax der 

Container-Datei erforderlich ist. 

/ 

home 

Eingang 

max 

mbox 

Gesendet 

Rechnungen 

Projekte 

Foo 

Abbildung 4: Inkongruenz von Dokumenten und Dateien 

2.5 Semantisch orientierte Anwendungen 

Da semantisches Wissen über einzelne Dokumente auf Betriebs- und Dateisystemebene 

nicht verfügbar ist, muss es über spezielle Anwendungen gewonnen 

werden. Besonders im Bereich der Mediendaten haben sich Anwendungen 

herausgebildet, die sich von der unterliegenden Dateisystemstruktur lösen 

und eigene Mechanismen zur Datenorganisation implementieren. 

Bekannt ist dieses Vorgehen besonders bei Audio-Abspielprogrammen wie 

iTunes, Rhythmbox oder Amarok: Musikstücke werden nicht über das Dateisystem 

verwaltet, sondern zu einer koherenten Sammlung hinzugefügt. Die 

8

Anwendungen ignorieren bewusst die Verzeichnisstrukturen, aus denen die 

Dateien stammen und wandeln den Baum in eine flache Menge um. Indem sie 

Metadaten aus den einzelnen Dateien extrahieren und in einer separaten Datenbank 

speichern, ermöglichen sie beliebige Anfragen über gemeinsame Eigenschaften 

der gewünschten Audio-Dokumente: Aus der Datenbank können 

beliebige Teilmengen extrahiert werden, die auf den semantisch orientierten 

Attributen der Daten fußen und nicht auf Pfadangaben, deren Aussagekraft 

sehr eingeschränkt ist. 

Die Verflachung synthetischer Hierarchien zugunsten der Bildung von semantisch 

attributierten Objektmengen lässt sich auch auf andere Medientypen 

übertragen: Digitale Photos werden bereits bei ihrer Erstellung durch 

die Kamera mit zahlreichen Metadaten ausgestattet, die neben technischen 

Aspekten – wie Belichtungszeit und Blendenöffnung – die zeitliche und, dank 

integrierter GPS-Empfänger in neuen Geräten, räumliche Einordnung erlauben. 

Gerade bei photographischen Dokumenten fällt die Einordnung in strikte 

Hierarchien oft schwer, da sich selten ein herausragendes Ordnungskriterium 

festmachen lässt: Neben Ort und Zeit sind die abgebildeten Objekte oder 

Personen oft Ziel einer Suche. 

Abbildung 5: Semantisch orientierte Photo-Verwaltung mit F-Spot 

Die freie Software F-Spot 1 stellt importierte Photos mit Hilfe eines Zeitstrahls 

dar. Zusätzliche semantische Informationen können Bildern in Form 

von Tags, also einzelnen Schlagworten, hinzugefügt werden. Tags selbst können 

in einer Hierarchie angeordnet werden, so dass zum Beispiel Personen- und 

Ortsbezeichnungen in jeweils eigenen Kategorien erscheinen: Dadurch ist es 

zum Beispiel möglich, Photos zu selektieren, die eine beliebige Person darstellen 

– und mit einem Tags versehen sind, der dieser Kategorie zugeordnet 

ist. 

1 http://f-spot.org/Main_Page 

9

Anwendungsgestützte semantische Ordnung bietet einen Vorgeschmack 

auf Dinge, die durch die Loslösung vom starren hierarchischen Ordnungsmodell 

möglich sind. Allerdings handelt es sich bei den bekannten Applikationen 

nur um Insellösungen: Jede pflegt ihr eigenen Datenbankformat und ist in 

sich abgeschottet. Es ist nicht möglich, Musik- und Photo-Dokumente miteinander 

zu verknüpfen oder gar aus dritten Anwendungen die Metadaten zu 

nutzen. 

3 Implementierung des Social Semantic Desktops 

Derartige Insellösungen aufzubrechen und eine semantisch orientierte Zugriffsmethode 

über Anwendungsgrenzen hinweg aufzustellen ist eines der 

Hauptziele bei der Implementierung des Semantic Desktops. An die Position 

der strikten hierarchischen Dateisystemstrukturen als primäres Ordnungsinstrument 

tritt ein Graph, dessen Knoten aus allen Dokumenten des Anwenders 

besteht, dessen Kanten beliebige Beziehungen und Metadaten repräsentieren, 

und der von allen semantik-affinen Anwendungen genutzt und gepflegt 

wird. 

3.1 RDF als Integrationsformat 

Als gemeinsames Datenformat hat sich RDF 2 , das vom W3C entworfene 

,,Resource Description Framework”, etabliert. Ursprünglich als Metadatenformat 

für Webseiten entwickelt, findet es mit einer vielzahl syntaktischer 

Ausprägungen Verwendung für zahlreiche Modellierungsaufgaben. 

Neben einer XML-basierten Notation hat sich vor allem die N3-Schreibweise 

durchgesetzt. RDF-Aussagen sind Dreier-Tupel, die aus Subjekt, Prädikat 

und Objekt bestehen. Das Subjekt stellt dabei das Element dar, über das 

eine Aussage getroffen wird, deren Art und Ausprägung durch Prädikat und 

das dazugehörige Objekt bestimmt werden. Jedes Element des Tripels wird 

in Form eines URI 3 dargestellt – mit Ausnahme des Objektes, das auch eine 

Zeichenkette sein kann. 

Die Verwendung eines URI als primäres Identifikationsmerkmal bietet 

Vorteile gegenüber der Verwendung der geläufigeren URL: Jeder gültige URL 

stellt gleichzeitig einen validen URI dar, macht gleichzeitig jedoch auch eine 

Aussage über die Bezugsmethode, mit Hilfe derer die Ressource erlangt 

werden kann. Dies ist jedoch nicht in jedem Fall gewünscht, da zirkulierende 

2 http://www.w3.org/RDF/ 

3 Uniform Resource Identifier 

10

Import des Dublin-Core-Namensraumes 

@prefix dc: . 

// Import benutzerdefinierter Praedikate 

@prefix db: . 

db:isReplyTo < 

file:///home/stefan/Auftrag.pdf>. 

db:pictures < 

abook:Stefan%20Tomanek>. 

dc:title " 

Seminarfolien Social Retrieval". 

Abbildung 6: RDF-Aussagen in N3 

Dokumente unter Umständen nicht an einen dedizierten Speicherort gebunden 

sind. Es besteht auch kein Zwang, jede Ressource zwingend mit einem 

Dokument zu hinterlegen: URIs können auch abstrakte Konzepte darstellen, 

was besonders bei der Verwendung als Prädikat zum tragen kommt. 

Das in N3-Syntax vorliegende Beispiel (siehe Abbildung 6) trifft verschiedene 

Aussagen über dem System bekannte Dokumente und verwendet dabei 

Prädikate aus verschiedenen Quellen: Zum einen die bekannten Dublin-Core- 

Elemente 4 , in denen ein Standardrepertoire an häufig benötigten Metadaten- 

Typen zur Verwendung im Internet zusammengefasst wurde, zum anderen 

eine benutzerdefinierte Sammlung spezieller Prädikate. Das System lässt sich 

dadurch beliebig für den gewünschten Anwendungsbereich ausbauen – sollen 

Metadaten jedoch ausgetauscht werden, sollte man sich auf ein gängiges Vokabular 

einigen. Das Prädikat ,,isReplyTo” setzt zwei Dokumente in Relation 

zueinander: Die kausale Folge der geschriebenen Rechnung auf den erhaltenen 

Auftrag lässt sich so leicht modellieren und abbilden. Ebenso beschreibt das 

Verb ,,pictures” das auf einem Photo abgebildete Objekt, indem es einen Eintrag 

im lokalen Adressbuch referenziert. Dem bekannten Tagging ähnelt die 

Verwendung von Zeichenketten: Im vorliegenden Beispiel nutzt N3 das standardisierte 

Dublin-Core-Vokabular, um den Titel eines über eine Prüfsumme 

identifizierten Dokuments in der lokalen RDF-Datenbasis abzulegen. 

4 http://dublincore.org/ 

11

3.1.1 Bäume zu Graphen 

Durch das Einfügen von RDF-Kanten wandelt sich das hierarchisch strukturierte 

Dateisystem in einen gerichteten Graphen, der sich wie eine transparente 

Folie über die bestehenden Hierarchien legt (siehe Abbildung 7). Durch 

verschiedenartige Prädikate (in der Abbildung durch unterschiedliche Farben 

gekennzeichnet) können unterschiedliche Relationen zwischen Dokumenten 

gekennzeichnet werden, ebenso stellt das bekannte Tagging eine Untermenge 

dar: Tags erwachsen ganz intuitiv aus dem Graphenkonzept, indem das 

Objekt durch eine Zeichenkette repräsentiert wird. 

Abbildung 7: Transformation einer Dateihierarchie zu einem RDF-Graphen 

Im Gegensatz zur dateisystembasierten Ordnung können Dokumente nicht 

nur in gemeinsame Kategorien eingeteilt, sondern direkt mit typisierten Relationen 

untereinander versehen werden. Ein abgeschickter Brief kann daher 

in seinen Metadaten vermerken, dass er eine Reaktion auf eine erhaltene E- 

Mail darstellt - die wiederum über eine Kante im RDF-Graphen mit ihrem 

Absender im lokalen Adressbuch verknüpft ist. Auf diese Weise lassen sich 

Zusammenhänge zwischen Dokumenten, Akteuren und Konzepten schnell 

und in maschinell verarbeitbarer Weise sichern. 

Ganz ähnlich der Vision ,,Memex” ist eine semantik-affine Oberfläche 

durch geschickte Nutzung der Metadaten in der Lage, zur Benutzersituation 

passende Dokumente zu präsentieren und so das Informationsbedürfnis des 

Anwenders auf kognitiv hoher Ebene zu füllen. 

12

3.2 Herkunft der Metadaten 

Doch woher stammen die Metadaten, die für eine solche Adaption notwendig 

sind? Im einfachsten Falle bringen Dokumente bereits leicht erfassbare und 

klar strukturierte Daten mit. Dies ist vor allem bei Mediendokumenten wie 

Ton- und Bildaufnahmen der Fall. Bei Eintritt in das System müssten die 

inherenten Meta-Informationen aus den Dateien extrahiert und in den systemweiten 

RDF-Graphen eingefügt werden. Bestimmte Informationen lassen 

sich nur schwer automatisiert erkennen; die Erkennung von Bildinhalten 

und die dazugehörige Annotation wird weiterhin dem menschlichen Benutzer 

überlassen bleiben. 

Viele Metainformationen lassen sich jedoch aus den Handlungen des Benutzers 

selbst ableiten: Öffnet er zum Beispiel zwei verschiedene Dokumente 

gleichzeitig, so lässt sich aus dieser Handlung eine inhaltliche Relation der 

beiden herleiten. Ein weiteres Beispiel ist die Sammlung von Bewegungsprofilen 

über einen tragbaren GPS-Empfänger während des Microsoft-Projektes 

,,MyLifeBits” 5 : Korrelationen zwischen den Aufenthaltsorten und den danach 

resultierenden Informationsbedürfnissen und Handlungen sind ebenfalls 

zur Gruppierung verwandter Dokumente von Nutzen. 

Eine primäre Quelle zusätzlicher Informationen wird sicherlich die Verwendung 

semantik-affiner Programme darstellen, die entsprechende Meta- 

Informationen direkt bei der Erstellung oder Bearbeitung von Dokumenten 

gewinnen und in den lokalen Graphen einfügen. 

3.3 SPARQL 

Um Abfragen auf einem RDF-Graphen durchzuführen, entwickelte das RDF- 

Data-Access-Arbeitsgruppe des W3C die Anfragesprache SPARQL (,,Simple 

Protocol and RDF Query Language”) 6 , die Anfang des Jahres 2008 den 

Status einer offiziellen W3C-Empfehlung[6] erreichte. Die Sprache benutzt 

zur Selektion Anfrage-Tripel, die gegen die Tupel des RDF-Graphen geprüft 

werden. Mit Hilfe gleichbenannter Variablen innerhalb der Anfrage können 

– analog zum Tupelkalkül – verschiedene Kanten des Graphen miteinander 

verbunden werden, so dass auch komplexe Anfragen durch verknüpfung verschiedener 

Informations- und Datenquellen möglich sind. 

So durchsucht die Anfrage in Abbildung 8 den lokalen RDF-Graphen 

nach allen bekannten Photos, die eine weibliche Person zeigen, deren Telefonnummer 

im Adressbuch Verzeichnet ist; dieses Beispiel zeigt, wie bisher 

5 http://research.microsoft.com/barc/mediapresence/MyLifeBits.aspx 

6 http://www.w3.org/TR/rdf-sparql-query/ 

13

PREFIX db: 

PREFIX ab: 

SELECT ?photo ?phone 

WHERE { 

?photo db:pictures ?person. 

?person ab:hasGender ab:female; 

ab:hasPhoneNumber ?phone. 

} 

Abbildung 8: Graph-Anfragen mit SPARQL 

vollkommen disjunkte Datenspeicher durch SPARQL und die gemeinsame 

RDF-Datenbasis miteinander vernetzt werden. 

3.4 Soziale RDF-Datenbanken 

Die wenigsten Dokumente bleiben jedoch exklusiv einem einzelnen Benutzer 

vorbehalten: Arbeit findet meist in Gruppen statt, ebenso werden Fotos und 

andere Mediendateien oft im kleinen oder auch größeren Kreis ausgetauscht. 

Verlässt ein Dokument – zumindest als Kopie – das lokale System, zum Beispiel, 

indem es per E-Mail verschickt wird, wird es auch aus dem mühevoll 

erstellten RDF-Graphen gerissen. Die Kanten, die auf dem Ursprungssystem 

noch wertvolle Kontextinformationen geliefert haben, verschwinden auf 

dem dem Empfänger: Selbst wenn dieser eine ähnliche semantisch orientierte 

Oberfläche nutzt, erscheint das neue Dokument zunächst ,,nackt”. 

Gerade in Arbeitsgruppen, die oft Informationen austauschen, muss daher 

ein Weg gefunden werden, die semantischen Verknüpfungen auch über 

den Transportweg hinaus zu erhalten; genauso sollen Anwender von neuen 

Relationen profitieren, die andere aufgrund der ihnen vorliegenden Daten erzeugen. 

Diese soziale Komponente erfordert losgelöst von der Übermittlung 

der eigentlichen Dokumente einen Austausch auf Metadatenebene. 

Ein naheliegender Ansatz besteht darin, den lokalen RDF-Graphen einer 

zentralen instanz gegenüber offenzulegen und von dieser indizieren zu lassen; 

anfragende Systeme können Metainformationen über ihnen vorliegende Dokumente 

anhand des eindeutigen URIs von dieser zentralen Stelle erfragen. 

Die Verwendung einer zentralen Sammelstelle, die alle lokalen Graphen in 

sich vereinigt, bringt jedoch Probleme mit sich: Mit wachsender Benutzerzahl 

wird es stetig schwieriger, den zentralen Index aktuell zu halten, ebenso 

widerspricht das Gebot der Datensparsamkeit einer solchen Datenzusammen- 

14

allung. 

Eine Alternative zu einer zentralistischen RDF-Suchmaschine stellen Peerto-Peer-Systeme 

dar. Das Projekt Edutella 7 nutzt dazu ein unstrukturiertes 

Netz, wie es vom Filesharing-System Gnutella bekannt ist. Neue Knoten, die 

dem Netz beitreten möchten, stellen eine Verbindung zu mindestens einem 

System her, das bereits Teil des Netzes ist; sie selbst werden dabei wieder 

Anlaufpunkt für andere Klienten, die das gleiche Anliegen haben. Auf diese 

Weise entsteht eine vermaschte Struktur, in der jedes System auf Anfragen 

nach seiner Datenbasis antworten kann. 

Jeder Knoten leitet eingehende Anfragen an alle Knoten weiter, zu denen 

er eine Verbindung hält: So breiten sie sich wellenförmig durch das Netz 

aus. Eventuelle Antworten werden auf direktem Wege dem ursprünglichen 

Fragesteller übermittelt. Um die Enstehung endloser Zyklen zu vermeiden, 

ist jede Anfrage mit einer maximalen Lebenszeit (TTL) versehen, die bei 

jeder Weiterleitungsstation dekrementiert wird. 

? 

Abbildung 9: Informationssuche mit Edutella 

Die unstrukturierte Natur der Anfrageübermittlung und -verarbeitung 

bringt Probleme bei der Informationssuche mit sich: So ist für den Anfragesteller 

nicht ersichtlich, ob es zu einer Anfrage keine Ergebnistupel im Netz 

gibt, oder ob die Anfrage aufgrund zu geringer TTL die betroffenen Knoten 

7 http://www.edutella.org/ 

15

nie erreicht hat; ebenso kann er nicht entscheiden, ob seine Anfrage noch 

im Netz zirkuliert, oder ob er das Warten auf zusätzliche Ergebnistupel abbrechen 

kann. Abbildung 9 illustriert dieses Problem: Bei der vorliegenden 

Netzstruktur erreichen erst Anfragen mit einer TTL von mindestens 4 das 

System mit der gesuchten Information – begrenzt das Startsystem seine Traversierungstiefe 

auf 3, durchlaufen zwar 8 Nachrichten das Netz, ohne jedoch 

den Zielknoten erreichen zu können. 

Eine Alternative zur unstrukturierten Netzbildung Edutellas und dem 

zentralistischen Ansatz stellt die Bildung eines verteilten Indizes dar: Der von 

Min Cai und Martin Frank am Information Sciences Institute vorgeschlagene 

Ansatz 8 kommt ohne eine zentrale Instanz aus, erlaubt aber dennoch das 

sichere und schnelle Auffinden relevanter Tupel. 

Jeder teilnehmende Knoten im Netz wird dazu mit einer eindeutigen 

Identifikationsnummer versehen; alle teilnehmenden Knoten werden in einem 

Kreis angeordnet, und jeder teilnehmer erhält Kenntnis über die IDs 

der Systeme, die sich direkt vor ihm befinden, sowie über weitere Systeme 

mit exponentiell steigenden Kennziffern. Die Tripel, die in das System 

eingebracht werden, durchlaufen mit jeder ihrer Komponenten eine Hash- 

Funktion, die den Wert von Subjekt, Prädikat und Objekt jeweils auf den 

Zahlenraum der Knoten-IDs abbildet. So werden für jedes Tripel drei Systemkennungen 

ermittelt, deren nächstmöglicher Nachfolger im Netzring für 

das Tripel verantwortlich sind. 

S : P : O 

Abbildung 10: Verteilte Metadaten-Datenbank mit RDFPeers 

8 ,,RDFPeers: A Scalable Distributed RDF Repository based on A Structured Peer-to- 

Peer Network”, 2004 

16

Abbildung 10 zeigt, wie für Subjekt, Pärdikat und Objekt eines Tripels 

jeweils ein verantwortlicher Knoten ermittelt und das Tupel an diesen übergeben 

wird. Jedes Tripel ist demnach auf drei Systemen des Netzes gespeichert: 

Ein anfragender Rechner kann aus den gegebenen Parametern ebenfalls über 

die Hash-Funktion die Knoten-ID berechnen, die für die gesuchten Tupel 

zuständig ist. Aufgrund der exponentiellen Datenstruktur kann eine solche 

Anfrage den Ring mit geringem Aufwand traversieren und das zuständige System 

schnell erreichen, ohne wie beim Edutella-Ansatz alle Knoten durchlaufen 

zu müssen. Ist zumindest eine einzige Komponente des gesuchten Tripels 

vorgegeben, lassen sich die Ergebnisse bei einer Knotenzahl von n mit einem 

Aufwand von O(log(n)) ermitteln. Lediglich eine Anfrage ohne Parameter, 

also das vollständige Aufzählen aller Tripel, erfordert die Kontaktierung jedes 

einzelnen Netzknotens und birgt daher die lineare Komplexität O(n). 

Im Gegensatz zu Edutella lässt sich jedoch aufgrund der Ringstruktur des 

Netzes entscheiden, wann sämtliche Systeme kontaktiert wurden. 

3.5 Der zukünftige Weg 

Wie bei vielen Objekten der aktuellen Forschung und Entwicklung existieren 

auch im Bereich des Social Semantic Desktops verschiedene Interpretationen 

und Strömungen: So haben einige Projekte nicht nur das Ziel, Anwendungen 

und Oberflächen auf eine gemeinsame Metadatenbasis zu stellen, sondern 

die verschiedenen Applikationen direkt zu einer koherenten Oberfläche 

zu verschmelzen, um technisch-syntaktische Unterschiede zwischen verschiedenen 

Dateiformaten zugunsten einer inhaltlich-semantischen Betrachtungsweise 

zu verdrängen. So tragen OpenOffice-Writer-Dokumente, PDF-Dateien 

und HTML-Seiten die gleichen Informationstypus, werden jedoch von jeweils 

verschiedenen und unterschiedlichen Programmen verarbeitet. Die amalgamisierung 

verschiedener Anwendungen ist jedoch ein radikaler Schnitt, der 

aufgrund des stark divergenten Funktionsumfangs vieler Applikationen nur 

schwer ohne Verluste essentieller Funktionen möglich ist. 

Ein weiterer Aspekt des Social Semantic Desktop besteht in der Erleichterung 

der kolaborativen Nutzung von Dokumenten: Es soll sehr einfach 

möglich sein, ein Dokument für die Nutzung durch andere freizugeben. Auf 

derzeitigen Systemen ist dies oft eine Frage des Speicherortes: Damit Interessierte 

die Datei beziehen können, muss sie sich in einem freigegebenen Verzeichnis 

oder auf einem Webserver befinden. Im Kontext des Social Semantic 

Desktops soll die Kolaboration eine Eigenschaft des Dokumentes werden und 

nicht seines Speicherortes: Die technischen Aspekte sollen dem Benutzer dazu 

weitgehend verborgen bleiben. 

Der Einfluss semantischer Gesichtspunkte sollte auch Einzug in Microsofts 

17

Betriebssystem Windows Vista halten: Unter dem Namen WinFS kündigte 

Microsoft eine Datenbankschicht an, die zusätzliche Attribute über Dateien 

vorhalten sollte. Doch mit dem Erscheinen Vistas wurde WinFS zunächst verschoben, 

anschließend komplett abgesagt; es soll in Zukunft unter Umständen 

als Teil des Microsoft SQL-Servers veröffentlicht werden. 

Ein wichtiger Anlaufpunkt ist das Projekt NEPOMUK (,,Networked Environment 

for Personalized, Ontology-based Management of Unified Knowledge”) 

9 , das Forscher, Software-Entwickler und die Industrie zusammenbringen 

und eine gemeinsame Basis zur Entwicklung des Social Semantic 

Desktops entwickeln möchte. Die Kombination offener und bereits heute 

verfügbarer Technologien – Peer-to-Peer-Systeme, Soziale Netze, Semantisch 

orientierte Oberflächen – soll zu einer übergreifenden Lösung führen. Eine erste 

Implementierung der von NEPOMUK vorgeschlagenen Richtlinien[7] findet 

in der freien Desktop-Oberläche KDE (,,KDE Desktop Environment”) 10 

statt: Die kürzlich veröffentlichte Version 4 unterstützt bereits das Taggen 

von Dateien. Eine weitere Referenzimplementierung stellt das Projekt ,,gnowsis” 

11 des Deutschen Forschungszentrums für künstliche Intelligenz (DFKI) 

dar. 

4 Fazit 

Die schrittweise Evolution der Benutzeroberfläche zu einer semantisch orientierten 

Sicht bietet viele neue Möglichkeiten, Informationen und Daten zu 

organisieren und zu vernetzen. Die klassischen Ordnungsparadigmen sind der 

Vielfältigkeit moderner Datensammlungen mit ihrer Vielzahl unterschiedlicher 

Datentypen nur schlecht gewachsen. Die multiplen Ordnungsmerkmale, 

die viele Dokumente bieten, lassen sich nur schwer in den archaisch wirkenden 

Baumstrukturen der gängigen Dateisysteme abbilden. Ebenso erlaubt die 

direkte Verknüpfung voneinander abhängiger Dateien den Nachvollzug ihrer 

Entstehung und der damit verbundenen Beweggründe. Durch ein- und ausgehende 

Kanten im RDF-Graphen lässt sich ein ,,Umriss” eines Dokumentes 

zeichnen, der dem semantisch stark eingeschränkten Dateinamen und -pfad 

weit überlegen ist: Die Verflachung und Auflösung der strikten Hierarchien 

ist gleichzeitig mit der Verdichtung des beschreibenden Netzes verbunden, 

dass Dateien und Dokumente miteinander verknüpft. 

Der Nutzen der Metadaten darf jedoch auch nicht überschätzt werden; 

während viele Dokumentenformate ihre Metadaten sehr einfach preisgeben 

9 http://nepomuk.semanticdesktop.org/ 

10 http://www.kde.org/ 

11 http://www.gnowsis.org/ 

18

und automatisch verarbeiten lassen, sind andere Datenformate ohne menschliche 

Unterstützung nur schwer aufzuschlüsseln: Ein E-Mail-Programm kann 

den lokalen RDF-Graphen sehr einfach mit Kanten zwischen E-Mails, dem 

Adressbuch und verschickten Dateien anreichen – Bilder und Photos mit 

beschreibenden Tags auszustatten, wird jedoch weiterhin dem Benutzer obliegen. 

Dabei kommt die soziale Komponente zum tragen, die bereits aus 

Online-Diensten wie Flickr 12 oder Youtube 13 bekannt ist, in denen Tags auch 

von anderen Personen beigesteuert werden. Der Erfolg einer solchen Auslagerung 

hängt jedoch vom Interesse ab, die jene Personen den Dokumenten 

entgegenbringen – ebenso muss die Aufwandsschwelle möglichst gering sein, 

um möglichst wenige Benutzer von ihrem Beitrag abzuhalten. Je geringer 

jedoch allgemeine Attraktivität und subjektiv betrachteter Mehrwert sind, 

desto geringer fällt die Ausbeute an semantisch wertvollen Attributionen aus; 

gerade bei Dokumenten, die nur einer kleinen Personengruppe zugänglich gemacht 

werden sollen, entfällt logischerweise der Erkenntniszugewinn durch 

die vielen Namenlosen. 

Radikale Herangehensweisen, die die komplette Verschmelzung aller Anwendungen 

zu einer koherenten Oberfläche fordern, bringen natürlich einen 

Bruch mit bekannten Bedienungsparadigmen mit sich: Es muss sich zeigen, 

ob die dadurch zu erringenden Vorteile diesen großen Schritt rechtfertigen. In 

näherer Zukunft erscheint die evolutionäre Integration semantischer Komponenten 

in bestehende und erprobte Anwendungen der erfolgsversprechendere 

Weg. 

Die immense Ansammlung von Daten, die sich im Laufe der Zeit im RDF- 

Graphen ansammelt, kann ein Risiko darstellen: Besonders die hintergründig 

und ohne Benutzeraufforderung erfassten Metadaten erlauben weitreichende 

Einblicke in Arbeitsfeld und -weise des Anwenders und machen ihn seinem 

Computer gegenüber in gewisser Weise ,,gläsern”: Der Schutz dieser Informationen, 

deren Art und Umfang der Anwender oft selbst nicht überblicken 

kann, muss gewährleistet sein. Ein Diebstahl dieser Informationen würde 

zu erheblichen Datenschutzproblemen führen, ein Problem, das sich auch 

bei der gemeinsamen Nutzung von Metadaten stellt: Hier müssen effektive 

Schutzmechanismen geschaffen werden, um den Anwender nicht digital zu 

entblößen. 

Trotz der damit verbundenen Risiken und Probleme stellt der Social Semantic 

Desktop eine hochinteressante Vision dar, deren Verfolgung in jedem 

Fall ein lohnendes Ziel für die Entwicklung zukünftiger Desktop- und Informationssysteme 

darstellt. Seine Einführung wird nicht in Form einer Revo- 

12 http://www.flickr.com/ 

13 http://youtube.com/ 

19

lution erfolgen, sondern einzelne Komponenten des Gesamtkonzeptes werden 

nach und nach die bekannten Paradigmen ergänzen. 

Literatur 

[1] Stefan Decker and Martin Frank. The social semantic desktop. Technical 

report, Digital Enterprise Research Institute, 2004. 

[2] Leo Sauermann, Ansgar Bernardi, and Andreas Dengel. Overview and 

outlook on the semantic desktop, 2005. 

[3] Tony Buzan. The mind map book. Penguin Books, 1996. 

[4] John D. Novak. Learning Science in the Schools: Research Reforming 

Practice, chapter ,,Concept Mapping: A Strategy for Organizing Knowledge”, 

pages 229–245. Lawrence Erlbaum Associates, 1995. 

[5] Vannevar Bush. As we may think. The Atlantic Monthly, 176, 1945. 

[6] W3C. Sparql protocol for rdf: W3c recommendation 15th January 2008. 

http://www.w3.org/TR/2008/REC-rdf-sparql-protocol-20080115/. 

[7] The NEPOMUK Project - On the way to the Social Semantic Desktop, 

2007. 

20

Social Semantic Desktop - Informationssysteme

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?