Skalardaten II - Informationsvisualisierung - IWR

4.2 Skalardaten – InfoVis 

Vorlesung: Mo, 11:00 – 13:00, INF 368 – 432 

Do, 11:00 – 13:00, INF 350 – OMZ, U014 

Übung: Mo, 9:00 – 11:00, INF 350 – OMZ, U011 

JProf. Dr. Heike Leite – htp:/www.iwr.uni-heidelberg.de/groups/CoVis/

Inhaltsverzeichnis 

1.Einführung 

2.Datentypen, Datenrepräsentation und Visualisierungspipeline 

3.Wahrnehmung 

4.Skalardaten 

5.Statistische Graphiken 

6.Interaktion und Datenexploration 

7.Graphen 

8.Vektordaten 

Grundlagen SciVis – 4.2 InfoVis 2



1.Diagramme 

2.InfoVis 

1.Multivariate Daten 

1.Streudiagramme 

1.Definition und Erweiterungen 

2.Scagnostics 

2.Paralele Koordinaten 

1.Definition 

2.Sortierverfahren 

3.Pargnostics 

3.Heatmaps 

2.Zeitreihen 

3.Text 

3.SciVis 


Kleine Vielfache (Smal Multiples) 

[Christian Huygens, Systema Saturnium (The Hague, 1659)] 



[A. Ghizzo et al. Stability of Bernstein-Greene-Kruskal Plasma Equilibria: 

Numerical Experiments Over a Long Time. Physics of Fluids, 31:72-82, 1988] 


Kleine Vielfache 

Zeichnungen eines in Stein gehauenen 

Reliefs: Je nach Dokumentator und 

zeitlicher Epoche entstanden sehr 

unterschiedliche Darstelung. Erst im 

Vergleich werden die Unterschiede 

richtig deutlich. [Tufte, Envisioning 

Information, S. 72] 



● 

● 

● 

Wenn wir Daten analysieren und nach Struktur suchen, brauchen wir immer einen 

Vergleich. Wir suchen nach Unterschieden (zu bekannten, zu anderen Zeitpunkten, zu 

anderen Bereichen). 

Das „kleine Vielfache“-Design bietet eine solche Möglichkeit: Hierzu wird der gleiche 

Visualisierungstyp mehrfach nebeneinander mit unterschiedlichen Daten dargestelt. Die 

Daten sind so gewählt, das sie die Fragestelung unterstützen. Dargestelt werden etwa 

– Unterschiedliche Zeitpunkte (z.B. Klimadaten) 

– Unterschiedliche Kategorien (z.B. Bevölkerungstatistiken) 

– Veränderungen mit einer zusätzlichen nicht dargestelten Variable 

– Unterschiedliche Paramtereinstelungen (z.B. numerische Simulation) 

– Unterschiedliche Sichten auf die Daten (z.B. Projektion in der Architektur) 

Man solte beachten: 

– Die Daten sind ale gleichzeitig im Sichtfeld, so das sie gut verglichen werden 

können. 

– Die Daten sind systematisch angeordnet, so das ein leichtes Verständnis der Struktur 

möglich ist. 

– Das Design der Visualisierungen ist konsistent (z.B. gleiche Colormap) 


Kleine Vielfache 

● 

Drei Beispiele, die das Konzept der kleinen Vielfachen ausnutzen sind Streudiagrammmatrizen, 

paralele Koordinaten und Heatmaps. 

htp:/www.r-project.org/ 

htp:/spotfirecommunity.tibco.com 

htp:/mbostock.github.com/protovis 

8



1.Diagramme 

2.InfoVis 




2.Scagnostics 


1.Definition 


3.Pargnostics 

3.Heatmaps 

2.Zeitreihen 

3.Text 

3.SciVis 


Streudiagrammmatrizen 

● 

● 

● 

Ein Streudiagramm stelt bivariate Daten in einem 2D 

Kartesischen Giter dar. Die Achsen entsprechen den 

beiden Variablen. Jedem Datenpunkt ist ein Punkt im 

Koordinatensystem zugewiesen. 

Folgende Information kann aus dem Diagramm abgelesen 

werden: 

– Verteilung der Daten im Parameteraum. 

– Korelationen zwischen zwei Variablen. 

– Einfärbung ermöglicht Clusteranalyse (siehe Bild) 

Erweitert man diese Idee nun auf n Variablen erhält man 

nx(n-1) Streudiagramme für ale möglichen Kombinationen. 

Diese kann man nun in einer Matrix anordnen und 

erhält eine Streudiagrammmatrix. 

[wikipedia] 


Streudiagramm-Matrix – Beispiele Irisblüten 

● 

● 

● 

Auf der kanadische Gaspésie-Halbinsel gibt es mehrere 

verschiedene Irisarten. 

Diese können anhand der Größe der Blüten- und 

Kelchbläter unterschieden werden. 

Um gute Schätzer für die Grenzwerte zu erhalten, mus 

man die natürliche Streuung berücksichtigen und 

geeignete Grenzwerte finden. 


406 Autos mit 4 Variablen 

Clustering: Herkunftsland 

12

Streudiagramm-Matrix 

● 

● 

Gemesen wurden vier Parameter, die miteinander korelieren: 

– Breite Blütenbläter 

– Länge Blütenbläter 

– Breite Kelchbläter 

– Länge Kelchbläter 

Um sich ein beseres Bild von den Korelationen machen zu können, betrachtet man 

paarweise Streudiagramme. 

Kelchblatt Länge 

Kelchblatt Breite Blütenblatt Länge Blütenblatt Breite 


Streudiagramm-Matrix 

● 

Achtung: Im Regelfal sind die Daten vorher nicht klasifiziert, so das eine hilfreiche 

Einfärbung wie hier verwendet, nicht möglich ist. 

14

Streudiagramme – Erweiterungen 

● 

Gerade bei vielen Datenpunkten werden Streudiagramme schnel sehr unübersichtlich, da 

man einzelne Punkte nicht mehr unterscheiden kann. 

● 

Hier hilft es mit Transparenz zu arbeiten und jedem Punkt nur eine kleine Opazität 

zuzuweisen. 


Streudiagramme – Erweiterungen 

● 

Besonders bei vielen Datenpunkten ist auch dieser Ansatz nicht mehr praktikabel, da die 

Graphikkarte sehr lange braucht um mehrere Milionen/Miliarden Kreise zu zeichnen. Hier 

solte man für das Streudiagramm eine Textur verwenden, in welche man die Punkte 

einzeichnet. 

● 

Transparenz erhält man durch Alphablending der bereits gezeichneten mit dem neuen 

Punkt. Sei B die im Pixel bereits gezeichnete Farbe, A die Farbe des neuen Datenpunkts, α 

der entsprechenden Transparenzwerte der neuen Farben. Dann ergibt sich die 

resultierende nichtransparente Farbe C durch 

C=α A 

A+(1−α A 

) B 


Streudiagrammmatrizen für viele Variablen 

● 

Ein Problem, das sich nicht vermeiden läst, ist das Streudiagramm schnel 

unübersichtlich werden, wenn die Anzahl der Variablen wächst: 

[Lehmann et al., Selecting Coherent and Relevant Plots in Largs Scaterplot Matrices, Computer Graphics Forum, 2012] 


Analysestrategieen für SPLOMs 

● 

Folgende Strategien können eingesetzt werden, um die Daten übersichtlicher zu gestalten: 

– Navigation: Der Nutzer wird bei der Navigation in der Matrix unterstützt und kann 

sich gezielt verschiedene Streudiagramme in der Matrix ansehen. 

[Elmqvist N., Dragicevic P., Fekete J.: Roling the dice: Multidimensional visual exploration using scaterplot 

matrix navigation. IEEE TVCG, 14/6 (2008)] 

– Sortierung: Die Streudiagramme werden so sortiert, das ähnlich nahe beieinander 

liegen und so Muster deutlicher hervortreten. 

[Keim D.: Designing pixel-oriented visualization techniques: Theory & applications. IEEE TVCG 6 (2000), 59f.] 

– Selektion: Dem Nutzer werden nicht ale Streudiagramme gezeigt, sonder nur solche, 

die als wichtig erkannt wurde. 

[Friedman J. H., Tukey J. W.: A projection pursuit algorithm for exploratory data analysis. IEEE Trans. Comput. 23 

(1974), 881–890.] 

– Hierarchische Analyse: Streudiagramme werden hierarchische geclustert und der 

Nutzer kann den Detailgrad interaktiv steuern. 

[Yang J., Peng W., Ward M. O., Rundensteiner E. A.: Interactive hierarchical dimension ordering, spacing and 

filtering for exploration of high dimensional datasets. In IEEE Symp. on Information Visualization, 105–112 

(2003).] 

– Metaanalyse: Es werden nicht die Streudiagramme selbst gezeigt, sondern 

abgeleitete Größen. 

[Wilkinson L., Anand A., Grosman R.: Graphtheoretic scagnostics. IEEE Info Vis (2005), 157–164.] 


Scagnostics 

● 

● 

● 

Im Folgenden werden wir uns den Algorithmus von Wilkinson et al. 2004 ansehen, welcher 

Scagnostics (Scaterplot Diagnostics) zur Metaanalyse beschreibt. 

Der Scagnostics-Algorithmus berechnet charakteristische Merkmale zur Beschreibung 

einer Punktwolke im 2D (z.B. gibt es Cluster, wie dicht sind die Punkte, wie ist die Form der 

Punktwolke). Hierzu werden graphentheoretischer Maße verwendet. 

Wir definieren zunächst einen Graphen: 

Definition (Graph): Ein Graph G = {V, E}, wobei V eine Menge von Knoten 

(vertex/vertices) und E eine Menge von Kanten (edges) bezeichnet. Eine Kante e(v, 

w) mit e ∈ E und v, w ∈ V ist ein ungeordnetes Vertexpaar. 

Definition (geometrischer Graph): Ein geometrischer Graph G* = [f(V), g(E), S] 

ist eine Einbetung des Graphen in einen metrischen Raum S, welche Knoten auf 

Punkte und Kante auf Liniensegmente die Punktpaare verbinden abbildet. 

● 

Im Folgende gehen wir davon aus, das wir nur auf geometrischen Graphen operieren, 

welche ungerichtet, einfach, planar und endlich sind, und welche auschließlich gerade 

Kanten besitzen. 


Scagnostic – Maßzahlen 

● 

Wir werden die folgenden Maßzahlen für Streudiagramme betrachten: 

Ausreiser in den Daten 

– Ausreiseranteil (outlying) 

Form der Datenpunkte 

– Konvexität (convex) 

– Dünnheit (skinny) 

– Faserig (stringy) 

– Gerade (straight) 

Zusammenhang in den Daten 

– Monotonie (monotonic) 

Dichte der Datenpunkte 

– Schiefe (skewed) 

– Klumpigkeit (clumpy) 

– Gestreift (striated) 


Scagnostics 

● 

Wir definieren zunächst einen Graphen: 

Definition (Graph): Ein Graph G = {V, E}, wobei V eine Menge von Knoten 

(vertex/vertices) und E eine Menge von Kanten (edges) bezeichnet. Eine Kante e(v, 

w) mit e ∈ E und v, w ∈ V ist ein ungeordnetes Vertexpaar. 

Definition (geometrischer Graph): Ein geometrischer Graph G* = [f(V), g(E), S] 

ist eine Einbetung des Graphen in einen metrischen Raum S, welche Knoten auf 

Punkte und Kante auf Liniensegmente die Punktpaare verbinden abbildet. 

● 

Im Folgende gehen wir davon aus, das wir nur auf geometrischen Graphen operieren, 

welche ungerichtet, einfach, planar und endlich sind, und welche auschließlich gerade 

Kanten besitzen. 


Scagnostics 

● 

Die Graphenstrukturen, die wir verwenden werden, sind konvexe Hüle ( →Rand), 

Alphahüle ( →Form) und Minimaler Spannbaum (minimal spanning tree →relative Lage 

von Punkten). 

[wikipedia] 

● 

Die konvexe Hüle ist eine Möglichkeit den Rand einer Punktwolke X zu beschreiben. Ihre 

Knoten sind eine Teilmenge von X. Außerdem enthält sie ale Punkte der Menge X. 

Definition (konvexe Hüle): Die konvexe Hüle einer Teilmenge X eines reelen 

oder komplexen Vektoraumes V ist definiert als der Schnit aler konvexen 

Obermengen von X. Sie ist selbst konvex und damit die kleinste konvexe Menge, 

die X enhält. 


Scagnostics 

● 

Die Alphahüle beschreibt den Rand einer Punktwolke präziser. 

Definition (Alphahüle): Die Alphahüle einer Menge X enthält ale Kanten 

zwischen zwei Punkten aus X, die auf einem Kreis mit Radius α liegen, welcher 

keine weiteren Punkte aus X enthält. 

Edelsbrunner, H.; Kirkpatrick, D. G.; Seidel, R. (1983), "On the shape of a set of points in 

the plane", IEEE Transactions on Information Theory 29 (4): 551–559. 

Alphahülen können efizient berechnet werden und man kann bei ihnen den Einfluß von 

Ausreißern reduzieren. 

● 

Spannbäume verbinden ale Punkte der Wolke durch einen Baum und geben so eine 

Strukturbeschreibung. 

Definition (Spannbaum): Ein Spannbaum ist ein Baum, desen Knoten durch 

eine gegebene Punktmenge X gegeben sind. 

Definition (minimaler Spannbaum MST): Von alen Spannbäumen einer 

Punktmenge ist derjenige der minimale, der die geringste Gesamtlänge (Summe 

aler Kantengewichte) besitzt. 


Scagnostics 

● 

Zusätzlich benötigen wir folgende (normierte) Maßzahlen auf geometrischen Graphen: 

– Die Länge einer Kante length(e) ist die Euklidische Distanz zwischen ihren beiden 

Vertices. 

– Die Länge eines Graphen length(T) ist die Summe der Längen al seiner Kanten. 

– Ein Pfad ist eine Liste von Vertices, so das je zwei benachbarte Knoten in der Liste 

eine Kante des Graphen bilden. 

– Ein Pfad heißt geschlossen wenn sein erster und letzter Knoten identisch sind. 

– Ein geschlosener Pfad heißt Rand eines Polygons. 

– Der Umfang perimeter eines Polygons ist die Länge seines Randes. 

– Die Fläche area eines Polygons ist die Fläche in seinem Inneren. 

– Der Durchmesser diameter eines Graphen ist der längste kürzeste Pfad in G. 


Scagnostic – Maßzahlen zur Detektion von Ausreißern 

● 

Ausreisseranteil: Den Ausreiseranteil an den Punkten mesen wir mitels des MST. Hierzu 

filtern wir ale Punkte mit Grad 1 (eine angrenzende Kante) und Gewicht größer ω mit 

ω=q 75 

+1.5(q 75 

−q 25 

) 

wobei q 75 

das 75% Quantil ist (75% der Kanten sind kürze als diese Länge) und (q 75 

– q 25 

) 

ist der Interquartilsabstan. 

„Ausreiseranteil“ mist nun, den Anteil von sehr langen, einfach verbunden Kanten an der 

Gesamtlänge des MST T 

c entlegen = length(T Ausreißer ) 

length(T ) 


Scagnostic – Maßzahlen für die Form 

● 

● 

Im Folgenden werden die Graphen wie folgt abgekürzt: H konvexe Hüle, A Alphahüle, T 

minimaler Spannbaum. 

Konvexität: Die Konvexität gibt ab, wie gut sich Alphahüle und konvexen Hüle 

überdecken. 

c konvex = area(A) 

area( H ) 

● 

Dünnheit: Wir vergleichen die Fläche der Alphahüle mit ihrem Umfang. Das Maß ist 

normiert, so das wir für einen Kreis 0 für ein Quadrat 0.12 und für ein langes Rechteck 1 

erhalten. 

c dünn 

=1− √ 4 Π area(A) 

perimeter ( A) 


Scagnostic – Maßzahlen für die Form 

● 

Faserig: Eine faserige Form ist eine dünne Form ohne Äste. Hierzu analysieren wir die 

Pfade im Spannbaum. Ist der längste kürzeste Pfad im Baum etwa so lang wie die Summe 

aler Kantenlängen, hat der Baum wenig Verzweigungen/Äste, und ist somit sehnig. 

c sehnig = 

diameter (T ) 

length(T ) 

● 

Gerade: Um zu mesen wie gerade eine Punktewolke ist, betrachten wir den längsten 

kürzesten Pfad im MST. Bei geraden Punktwolken ist der Abstand zwischen den 

Endpunkten genauso lang, wie die Länge des Pfades. 

c gerade = dist (t j , t k ) 

diameter(T ) 

ti und tk sind die Vertices die den Durchmeser bestimmen. 

Das Maß liefert für gerade Graphen 1. 


Scagnostic – Maßzahlen für Trends 

● 

Monoton: Wenn wir die Folge der Punkte im Streudiagramm als Funktion aufasen, sol 

dieses Maß angeben, ob die Funktion monoton ist oder nicht. Hierzu verwenden wir 

Spearmans Rangkorelationskoefizienten: 

r s 

= Cov(rang x , rang y ) 

s rang x 

s rang y 

rang( x i 

) der Rang von x i 

s rangx 

die Standardabweichung der Ränge von x 

Cov( rang(x), rang(y) ) die Kovarianz 

Das Maß für die Monotonie verwendet nun den quadrierten Rangkorelationskoefizienten, 

da es dem Betrachter zumeist egal ist, ob die Funktion monton steigend oder falend 

ist. 

c monton =r s 

2 


Scagnostic – Maßzahlen für Dichte 

● 

Schiefe: Die Verteilung der Kantenlängen im MST gibt Aufschlus über die relative Dichte 

der Punkte im Streudiagramm. Über die Schiefe (statistisches Moment) des Histogramms 

über die Kantenlängen kann man nun Rückschlüse auf die Dichte der Punktwolke ziehen. 

c skew 

= q 90−q 50 

q 90 

−q 10 

Die q geben hier wieder die Quantile an. Bei q90 sind 

90% der Kanten des MST kürzer als diese Länge. 

● 

Klumpigkeit: Die Klumpigkeit mesen wir durch die Kanten im MST. Hier sehen wir uns die 

Distanzen innerhalb von Clustern an. 

c clumpy (T )=max 

j 

[ 

max [length(e k )] 

] 

1− 

k 

length(e j ) 

wobei j Indices für Kante im MST stehen. k Indices stehen 

für Kanten in Runt-Mengen der einzelnen Kanten j. 


c clumpy (T )=max 

j 

Scagnostic – Maßzahlen für Dichte 

[ 

max [length(e k )] 

] 

1− 

k 

length(e j ) 

W. Stuetzle. Estimating the cluster tree 

of a density by analyzing the minimal 

spanning tree of a sample. Journal of 

Clasification, 20:25–47, 2003. 


Scagnostic – Maßzahlen für Kohärenz 

● 

Gestreift: Um zu mesen wie streifig das Streudiagramm ist, analysieren wir die Winkel 

zwischen den Kanten an Knoten mit Grad 2. Der Durchschnitswinkel solte bei streifigen 

Daten in etwa 180° betragen. 

c striate 

= 1 

∣V (2) ∣ ∑ 

v∈V (2) ∣cos θ(e(v ,a) ,e(v ,b))∣ 

wobei V(2) ⊂ V die Menge aler Knoten mit Grad 2 angibt, θ 

den Winkel zwischen zwei Kanten und e(v,a) die Kante 

zwischen v und a. 


Scagnostics – Ergebnisse 

● 

● 

● 

Eine einfache Form um die Maßzahlen zu 

kodieren ist die Heatmap. Datenpunkte (= 

Streudiagramme) werden in Zeilen 

abgetragen, Atribute (= Scagnostics) in 

Spalten. 

Wie stark ein Streudiagramm einem 

Merkmal entspricht ist als Farbe codiert. Rot 

bedeutet, sehr gute Übereinstimmung, blau 

sehr geringe. 

Wir sehen: 

– Punktwolken entsprechen oft mehreren 

Kategorien (rote und orange Kästchen). 

– Punktwolken mit gleichem starken 

Atribut können noch sehr verschieden 

ausehen (vgl. Skewed oder Monotonic) 

– Es gibt Punktwolken, die schwer zu charakterisieren 

sind (max. gelbe Farbe). 


Streudiagramm mit Scagnostic Maßzahlen 

● 

Jedes Streudiagramm können wir nun wieder als Punkt im hochdimensionalen 

Scagnosticsraum aufasen und diese wieder als Streudiagrammmatrix darstelen. 

Abalone Datensatz: 

(unten) Streudiagrammmatrix 

(rechts) Scagnostics 


Scagnostics – Anwendung 

● 

Hier ein weiteres Beispiel für Wohnungsdaten in Boston. Jede Wohnung ist durch 14 

Variablen beschrieben, deren Korelationen durch 91 Streudiagramme dargestelt werden 

können. 

● 

Aufälig ist z.B. der isolierte Punkte 

in der Zeile für Dünn (sparse) der 

einem Streudiagramm entspricht 

bei dem die Punkte nur an 16 verschiedenen 

Positionen liegen 

können (Merkmal A: zwei Ausprägungen 

und Merkmal B: acht Ausprägungen). 

Grundlagen SciVis – 4.2 InfoVis 34 

[wikipedia]


● 

Die Maße können wir nun auch benutzen, um die Streudiagramm zu sortieren: 

Scaterplots of 

weather data sorted 

by features 

[Wilkinson 2006] 

35


● 

Die Streudiagramme können auch wieder in einer Matrix dargestelt werden und so 

sortiert werden, das ähnliche Diagramme nah beieinander liegen. Ungewöhnliche 

Streudiagramme können automatisch hervorgehoben werden. Hierzu wird der 

Algorithmus zur Detektion von Ausreißern in Streudiagrammen verwendet. 

SPLOM of basebal data sorted 

by features component and 

colored by MST outlier statistic 

[Wilkinson 2006] 

36

Scagnostics – Beschleunigung 

● 

● 

● 

Die Laufzeit des Algorithmus beträgt in etwa 

O( n p² ) 

wobei n die Anzahl der Datenpunkte ist und p die Anzahl der Parameter. Besonders bei der 

Implementierung der Graphen ist auf einen efizienten Algorithmus zu achten. Die 

algorithmische Geometrie beschreibt hierfür optimale Algorithmen. 

Beschleunigen läst sich der Algorithmus weiter, indem die Daten in Klasen eingeteilt 

werden. Wilkinson et al. schlagen hier hexagonales binning vor. Die Fläche wird in 40x40 

Hexagone unterteilt und die Daten werden entsprechend 

klasifiziert. Enthalten mehr als 250 Hexagone Datenpunkte 

so wird das Giter angepast, bis weniger als 250 Hexagone 

Daten enthalten. 

Für das Maß Faserigkeit (stringy) mus weiterhin mit den 

originalen Daten gearbeitet werden, da kurze Kanten sonst 

verloren gehen und das Maß stark verfälscht wird. 

[wikipedia] 




1.Diagramme 

2.InfoVis 




2.Scagnostics 


1.Definition 


3.Pargnostics 

3.Heatmaps 

2.Zeitreihen 

3.Text 

3.SciVis 


Paralele Koordinaten 

● 

Paralele Koordinaten sind eine weitere Technik zur Darstelung von Datenpunkten mit n 

Atributen. Die Koordinatenachsen werden hier nicht orthogonal sondern paralel 

angeordnet. 



● 

Für jede gemesene Variable wird eine vertikale Achse angelegt, die so skaliert ist, das sie 

den gesamten Wertebereich der Daten abdeckt. 



● 

Jeder Datenpunkt wird nun als Polygonzug in die Koordinatenachsen eingetragen. 

name:"chevrolet chevele malibu", mpg:18, cyl:8, dsp:307, hp:130, lbs:3504, acc:12, year:70, origin:1 



● 

Geschieht dies für ale Datenpunkte erhält man die klasische paralele Koordinaten- 

Darstelung. 

[htp:/eagereyes.org/techniques/paralel-coordinates] 



● 

Für eine efiziente Analyse und Mustererkennung bedarf es ein wenig Training. Hier einige 

Beispiele für Strukturen in Streudiagrammen und korespondierenden Mustern in 

paralelen Koordinaten. 



Man kann aus dem Diagramm folgende Informationen direkt ablesen: 

● 

● 

● 

● 

● 

● 

Wie sind die Daten innerhalb einer Variable verteilt? 

Gibt es Werte die häufig/selten auftreten? 

Welchen Variablen sind kontinuierlich, welche diskret? 

Welche Zusammenhänge bestehen mit „benachbarten“ Variablen? 

Viele gleich gerichtete Linien weisen auf eine positive Korelation, viele sich kreuzende 

Linien auf eine negative Korelation hin. 

Wie groß ist die Streuung bei 

Verbindungen zwischen „benachbarten“ 

Variablen? 


Paralele Koordinaten – Erweiterungen 

Ähnlich wie bei den Streudiagrammen, werden paralele Koordinaten schnel unübersichtlich. 

Hier helfen ähnlich Konzepte dabei mehr Struktur erkennbar zu machen. 

● 

Transparenz und Farbe: Zum einen können die Polygonzüge wieder transparent 

gezeichnet werden, so das Überlagerungen deutlicher werden. 

Demo: htp:/vis.stanford.edu/protovis/ex/ 



● 

Wird eine Achse als primäre Achse ausgewählt und ihr ein Farbverlauf, der sich auf die 

Datenpunkte überträgt, zugewiesen, so können Korelationen beser gesehen werden. 


Paralele Koordinaten – Probleme und Grenzen 

Paralele Koordinaten können gut zur Exploration multivariater Datensätze verwendet werden. 

Sie haben alerdings auch einige Einschränkungen: 

● 

● 

● 

● 

● 

Bei sehr vielen Datenpunkten kommt es meist zu Verdeckung. Die gesamte Bildfläche 

erscheint mehr oder minder einfarbig und es kann kaum Struktur abgelesen werden. 

Korelation zwischen zwei Variablen lasen sich in einem Streudiagramm leichter und 

genauer bestimmen. 

Es können etwa 12 verschiedene Dimensionen analysiert werden. Darüber hinaus wird die 

Darstelung und Analyse sehr schwierig. 

Die Darstelung zeigt nur eine kleine Auswahl der paarweisen Korelationen (n stat der 

n(n-1) Paare in Streudiagrammmatrizen). 

Die Anordnung der Achsen spielt eine sehr wichtige Role. Je nach Einstelung können 

Merkmale leichter bzw. schwerer oder gar nicht erkannt werden. (Es gibt Forschung im 

Bereich der automatischen Achsenanordnung, um dieses Problem zu überwinden. 

● 

Einige Verfahren zur verbeserten Darstelung sind auf der nächsten Folie gelistet. 



● 

● 

● 

● 

● 

Clustering: Werden ähnlich verlaufende Kurven in Clustern zusammengefast, kann man 

die Visuale Komplexität der Darstelung stark reduzieren. 

[Yang, Jing; Peng, Wei; Ward, Mathew O.; Rundensteiner, Elke A. (2003). "Interactive Hierarchical Dimension 

Ordering Spacing and Filtering for Exploration of High Dimensional Datasets". IEEE Symposium on Information 

Visualization (INFOVIS 2003): 3–4.] 

Achsensortierung: Durch die fixe Achsensortierung stelen Par.Koord. nur einen kleinen 

Teil des hochdimensionalen Datenraumes äquivalent dar. Interaktive Sortieralgorithmen 

sind hier dringend nötig, um ale Kombination betrachten zu können. 

Kurvenbasierte Darstelungen: Kurven stelen visuele Kontinuität her und erleichtern es 

Muster zu erkennen. Es gibt Erweiterungen, die Paralele Koordinaten durch glate Kurven 

anstat durch Polygonzüge verbinden. 

[Using Curves to Enhance Paralel Coordinate Visualisations by Martin Graham & Jesie Kennedy, Napier University, 

Edinburgh, UK] 

Kontinuierliche Darstelungen: Ähnlich dem texturbasierten Ansatz für Streudiagramme 

gibt es eine Erweiterung der paralelen Koordinaten, die die kontinuierlich 

zugrundeliegende Verteilung approximiert. 

[Julian Heinrich, Daniel Weiskopf: Continuous Paralel Coordinates. IEEE Trans. Vis. Comput. Graph. 15(6): 1531-1538 

(2009)] 

Mustererkennung: Auch für par.Koord. gibt es Methode zur Metanalyse, die abgeleitete 

Merkmale berechnen. 



Kurvenbasiert 

Clustering 

Kontinuierliche PK 


Achsensortierung 

● 

● 

Wie bereits erwähnt, stelen paralele Koordinate 

nur eine kleine Auswahl der möglichen 

Variablenpaare dar. Umsortieren der Daten 

kann hier helfen 

– dem Nutzer eine möglichst gute 

Sortierung zu zeigen. 

– ihn bei der dynamischen Umsortierung 

unterstützen. 

Wir wolen uns einen Algorithmus ansehen, 

der die Achsen so umsortiert, so das es 

zwischen zwei Achsen möglichst wenig 

„Stördaten“ (cluter) gibt, also starke 

Korelationen bevorzugt werden. 

Algorithmus in [Peng 2004] 


Achsensortierung 

● 

● 

● 

Um eine optimale Achsenkombination zu wählen, berechnen wir zunächst die Güte aler 

paarweisen Kombinationen. 

Hierzu bestimmen wir die Anzahl der Ausreißer in jedem 2D paralele Koordinaten plot. 

Zunächst berechnen wir für jeden Punkt im 2D den Abstand zum nächsten Nachbarn und 

normalisieren diesen. Ale Punkte, deren Abstand größer als ein Nutzerspezifizierter Wert 

ist, werden nun als Ausreißer deklariert. S outlier 

gibt nun die Anzahl der Ausreißer für ein 

Achsenpaar an und S avg 

= S outlier 

/ (n-1) gibt die mitlere Ausreißerzahl an. 

Der Cluter pro Paar berechnet sich nun als 

● 

● 

Da S total 

, also die Anzahl an Datenpunkten, fix ist, können wir diese zusätzliche Normierung 

vernachläsigen. 

C = S avg 

S total 

Den Cluterwert berechnen wir jetzt für jede Paarkombination und speichern sie in einer 

Matrix ab. 

Die Achsenordnung mit minimalem Cluterwert zu finden ist nun ein 

Optimierungsproblem. Testen wir einfach ale Achsen durch, was bei unseren Falzahlen 

häufig noch möglich ist, erhalten wir einen Algorithmus der Komplexität O(n*n!) 


Achsensortierung – Beispiele 

Heinrich, Julian; Stasko, John; Weiskopf, Daniel: The Paralel Coordinates Matrix. In: EuroVis - Short Papers, pp. 37-41, 2012. 


Pargnostics 

● 

● 

● 

Pargnostics [Dagupta 2010] analysieren die Struktur (auf dem Bildschirm) gezeichneter 

paralelen Koord. und verwenden diese Maße um eine günstige Sortierung vorzugeben. 

Je nach Aufgabe kann der Nutzer unterschiedlich Sortierungstrategien auswählen. 

Folgende Aufgaben werden unterstützt: 

– Korelation finden 

– Cluster finden 

– Zusammenhänge zwischen 

Variablen 

Verwendet werden Maße zur 

Analyse von: 

1)Anzahl der Linienschnite 

2)Schnitwinkel 

3)Paralelität 

4)Korelation (Mutual Information) 

5)Konvergenz/Divergenz 

6)Überdeckung 

1) 2) 3) 4) 5) 6) 


Pargnostics – Histogramme 

● 

● 

Pargnostics verwenden zur Darstelung der paralelen Koordinaten Texturen, wodurch die 

Diskretisierung exakt spezifiziert wird. 

Für viele Maße werden später pixelbasierte Histogramme verwendet: 

– Achsenhistogramme unterteilen die Achsen in Bins und zählen jeweils die ein und 

ausgehenden Linien. 

– Distanzhistogramme speichern die Steigung der Geradenstücke (Diferenz von 

Ausgangs- und Eingangspixel. 

– Achsenpaarhistogramme speichern in einer Matrix wie häufig Geradenstücke von 

einem Eingangsbin zu einem Ausgangsbin laufen. 


Pargnostics – Maße 

● 

● 

Anzahl der Linienschnite: Hierzu verwenden wir das Achsenpaarhistogramm. 

h−1 h−1 

L=∑ ∑ 

i=0 j=0 

h−1 l < j 

∑ ∑ 

k=i+1 l=0 

b ij b kl 

Teilt man nun durch die maximale Anzahl möglicher Schnite, erhält man den normierten 

Wert: 

L norm = 

2L 

n(n−1) 



● 

Mitlerer Schnitwinkel: Als Maß zur Beschreibung der Schnitwinkel, verwenden wir den 

Median aler Schnitwinkel. Wir verwenden jeweils den kleineren der beiden Schnitwinkel 

zwischen zwei Geraden. 



● 

● 

Paralelität: Um die Paralelität zu beschreiben, sehen wir uns die Verteilung der 

Steigungen an. Ist diese sehr schmal, deutet dies auf viele ähnliche Steigungen, also hohe 

Paralelität hin. Sehr konfuse Verläufe sind durch eine weite Streuung im 

Distanzhistogramm markiert. 

Als Maß verwenden wir den Interquartilsabstand der Steigungen: 

P norm 

=1−∣q 75 

−q 25 

∣ 

Fig. 5: Distance histograms (left half of each cell below the parallel 

coordinates) and angles of crossings (right half) histograms for different 

dimensions of the cars data. 


Pargnostics – Optimierung 

● 

● 

● 

Um nun eine möglichst gute Achsensortierung zu finden, wird ein Optimierungsalgorithmus 

verwendet. Im Paper wird hierzu ein Branch-and-Bound Ansatz verwendet. 

Grundidee: Mögliche Anordnungen für die paralelen Koordinaten werden als Baum 

dargestelt. Der Algorithmus testet nun verschiedene Wege und verwirft 

wenigversprechende Bereiche. Als Schätzer für die Güte werden hierbei die 

vorberechneten Maße verwendet. 

Häufig wird hier einfach die Achse genommen, die den nächsten Abstand minimiert. Es 

werden nicht ale Permutationen durchgerechnet. 


Pargnostics – Weine 




1.Diagramme 

2.InfoVis 




2.Scagnostics 


1.Definition 


3.Pargnostics 

3.Heatmaps 

2.Zeitreihen 

3.Text 

3.SciVis 


Matrixdiagramm – Genexpression 

[Zapapa 2005] 


Matrixdiagramm – Kommunikation 


Matrixdiagramm – Infrastruktur 

● 

Das Sortieren von Heatmaps wurde u.a. stark von Jaques Bertin (Kartograph, 1918-2010) 

propagiert. Hier sehen wir ein Beispiel, in dem er verschiedene Orte bezüglich ihrer 

Infrastruktur vergleicht. 

Innar Liv. 2010. Seriation and matrix reordering methods: An historical overview. Stat. Anal. Data Min. 3, 2 (April 2010), 70-91. 


Matrixdiagramm – Infrastruktur 

● 

Folgende Fragen können in der geordneten Variante nun leicht beantwortet werden: 

– Fragen zu bestimmten Spalten und Zeilen (z.B. Gibt es in Gemeinde '08' einen 

Bahnhof? Welche Gemeinden haben ein Polizeirevier?) 

– Lokale Muster in den Daten (z.B. Wenn es kein Waser gibt, dann gibt es auch keine 

weiterführenden Schulen.) 

– Globale Muster und Trends (z.B. Welche Veränderungen finden stat, wenn sich eine 

Gemeinde von ländlich zu urban wandelt?) 


Matrixdiagramm – Verarbeitungskete 

[Liv Innar, Opik Rain, Ubi Jaan, Stasko John. Visual matrix explorer for colaborative seriation. WIREs Comp Stat 2012, 

4: 85-97.] 


Matrixdiagramm – Sortierung 

● 

● 

Die Frage ist nun, wie man Matrixdiagramme sortiert, damit Muster möglichst gut sichtbar 

werden. Auch hier gibt es leider keine (stets gültige) optimale Lösung, da eine gute 

Sortierung stark von der Fragestelung abhängt. 

Grundlegend unterscheidet man die Anzahl der Freiheitsgrade bei der Optimierung: 

– Umsortierung der Zeilen ( →Datenpunkte) 

– Umsortierung der Spalten ( →Variablen) 

– Unabhängige Sortierung von Zeilen und Spalten 

– Gemeinsame Sortierung von Zeilen und Spalten. Bond-Energy Algorithmus 

→Gruppierung von Blöcken 


Matrixdiagramm – Sortierung 

● 

● 

Der clusterbasierte Ansatz berechnet zuerst ein 

Clustering auf den Daten. Dieses kann nun als Baum 

dargestelt werden (ab einem gewisen Ähnlichkeitswert, 

werden Daten als gleich angesehen und gehören zum 

selben Cluster). Die Daten werden nun entsprechend der 

Clusterordnung im Baum sortiert. 

Folgende Zutaten brauchen wir für die Berechnung: 

– Ähnlichkeitsmaß: Dieses quantifiziert, wie 

(un-)ähnlich zwei Objekt sind. 

– Clusteralgorithmus: Ein Algorithmus, der Objekte 

gruppiert. Ziel: kleine Unterschiede zwischen 

Objekten innerhalb eines Clusters, große 

Unterschiede zwischen Elementen verschiedener 

Cluster 

[Eisen 98] 


Matrixdiagramm – Abstandsmaße 

Für zwei Vektoren x = (x 1 ,., x n ) und y = (y 1 ,., y n ) sind gebräuchliche Distanzmaße sind: 

● 

Euklidische Distanz 

d E ( x , y )=√ ∑ i=1 

n 

( x i − y i ) 2 

● 

Manhatan Distanz 

d M (x , y )=∑∣x i − y i ∣. 

n 

i=1 

● 

Korelationsdistanz 

d C ( x , y )=1− 

√ ∑ i=1 

∑ 

i=1 

( x i −̄x )( y i −̄y ) 

( x i −̄x ) 2 ∑ 

i=1 

( y i −̄y ) 2 . 


Matrixdiagramm – Abstandsmaße 

● 

● 

Euklidische- und Manhatandistanz mesen absolute Abstände zwischen Datenpunkten, 

wobei die Manhatandistanz robuster gegenüber Ausreißern ist. 

Die Korelationsdistanz mist Trends und relative Abstände. Normiert man die Daten, so 

sind Korelations- und Euklidische-Distanz äquivalent. 

x = (1.0, 1.0, 1.5, 1.5) 

y = (2.5, 2.5, 3.5, 3.5) = 2x + 0.5 

z = (1.5, 1.5, 1.0, 1.0) 

d kor ( x, y ) = 0 d Euklid ( x, y ) = 3.54 

d kor ( x, z ) = 2 d Euklid ( x, z ) = 1 


Matrixdiagramm – Hierarchisches Clustering 

● 

● 

● 

Mit der Metrik können wir bestimmen, wie weit zwei Datenpunkte voneinander entfernt 

sind. Im nächsten Schrit berechnen wir durch ein hierarchisches Clustering, welche Punkte 

ähnlicher sind, als andere. 

Im unterschied zum Standardclustering hat das hierarchische Clustering kein vom Nutzer 

spezifiziertes Abbruchkriterium (z.B. Anzahl der gesuchten Cluster) sondern verbindet 

zumeist Botom-Up die Punkte miteinander in einer Hierarchie von Clustern. 

Wichtiges Kriterium für das Clustering ist die 

Art, wie Datenpunkte verbunden werden. Man 

unterscheidet hier u.a. 

– Complete linkage: größte Distanz 

– Average linkage: mitlere Distanz 

– Single linkage: kürzeste Distanz 

Complete linkage findet eher kompakte/ 

sphärische Cluster, single linkage kann zu 

langgezogenen Clustern führen. 

[wikipedia] 

71

Matrixdiagramm – Hierarchisches Clustering 

● 

● 

● 

Der Abstand von den Blätern zu einem inneren Knoten im Baum repräsentiert den 

Abstand der beiden Kinder des inneren Knoten. 

Von den n(n-1)/2 möglichen paarweisen Kombinationen von benachbarten Datenpunkten 

stelen wir hier nur einen kleinen Auschnit dar (optimiert nach Ähnlichkeit von 

Nachbarn). Ist nun ein Punkt sehr ähnlich zu drei oder mehr anderen, kann dies nicht mehr 

dargestelt werden. 

Für die Darstelung der Matrix basierend auf 

dem Clustering gibt es nun 2 n-1 Möglichkeiten 

(n-1 innere Knoten, an jedem können die 

Kinder vertauscht werden). 

● 

Mehr und vertiefte Information zum Clustering 

gibt es in der Machine Learning Vorlesung. 

[wikipedia] 

72

Matrixdiagramm – Beispiel 

● 

Analyse von Zelwachstum. (Clustered display of data from time course of serum 

stimulation of primary human fibroblasts [Eisen 1998]. ) 

● 

● 

(A) cholesterol biosynthesis, (B) the cel cycle, (C) the immediate–early response, (D) 

signaling and angiogenesis, and (E) wound healing and tisue remodeling 

Bemerkenswert ist, das uniforme Blöcke von Genen entstehen, die zusammen aktive sind. 

Korektheit der Ergebnise wurde geprüft, indem die Daten in drei Gruppen aufgeteilt 

wurden, separat visualisiert wurden und die gleichen Ergebnise herauskamen. 




1.Diagramme 

2.InfoVis 


2.Zeitreihen 

1.Algemeines 

2.Kalendervisualisierung 

3.Themenflus und geschichtete Diagramme 

3.Text 

3.SciVis 


Zeitabhängige Daten 

● 

Bei der Visualisierung von zeitabhängigen Daten, mus man sich zunächst einmal 

Gedanken darüber machen, welchen Typ man genau hat. Hierzu drei Beispiele: 

Datensatz 1: 

t 0 , Sonnenintensität 



… 

t n , Sonnenintensität 

Datensatz 2: 

Tag 1: 5 Zeitungsartikel über Fußbal, 7 Zeitungsartikel über 

Politik, 2 Zeitungsartikel über Ernährung 

Tag 2: . 

Tag n: . 

Datensatz 3: 

Antonia wurde 1992 in Waldorf geboren 

1994 zog sie nach Düseldorf 

2001 machte sie Urlaub in China 

2010 zog sie nach Berlin 

2013 wird sie für 6 Monate nach Südamerika reisen 



● 

Wichtige Kriterien zur Unterscheidung von Zeitreihen sind [Aigner 2008] 

– Linear Zeit vs. zyklische Zeit: Solen ale Zeitpunkte nebeneinander Dargestelt 

werden, wie etwa in einem Börsendiagramm, oder gibt es zyklische Ereignise, wie 

etwa in der Meteorologie, die verdeutlicht werden solen. 

– Zeitpunkte vs. Zeitinterval: Solen einzelne Mespunkte dargestelt werden, z.B. 

Zeitpunkt eines Ereignises, oder geht es um die Analyse von Intervalen mit festem 

Anfangs und Endpunkt, z.B. Stauzeiten auf der Autobahn. 

– Geordnete Zeit vs. Verzweigende Zeit vs. Paralele Zeit: Wir ein Prozes analysiert, 

der chronologisch Strukturiert wird, z.B. Tagesablauf einer Person, oder solen 

verschiedene Szenarien durchgespielt und verglichen werden, z.B. Feuersimulation 

und Verhalten von Menschen, oder sol der gleiche Zeitabschnit aus 

unterschiedlichen Perspektiven beleuchtet werden, z.B. Augenzeugenschilderungen 

bei Überfal. 



● 

Lineare Zeit vs. Zyklische Zeit: Solen Muster erkannt werden, ist nicht nur darauf zu 

achten, das die richtige Technik verwendet wird, sondern auch, das sie korekt 

parametrisiert ist. 

In untenstehendem Beispiel wurden Influenzafalzahlen in Norddeutschland visualisiert. Im 

Balkendiagramm sind Muster nur schwer zu erahnen (auch weil eine korekte 

Achsenbeschriftung fehlt). Im mitleren Diagramm (Spiraldiagramm) wurde ein Zyklus von 

27 Tagen angenommen und Muster sind nicht klar erkennbar. Bei einem Zyklus von 28 

Tagen (= 4 Wochen) wird der große Anzahl an Falzahlen am Montag deutlich. 



● 

Zeitpunkte vs. Zeitinterval: Bei Intervaldaten geht es häufig um die Darstelung der 

zeitlichen Dauer. Ein weiterer wichtiger Aspekt ist hierbei die Darstelung von Unsicherheit, 

da etwa gerade bei Planungszeiten oft nicht genau gesagt werden kann, wie lange etwas 

exakt dauern wird. 



● 

Geordnete Zeit vs. Verzweigende Zeit vs. Paralele Zeit: Ein Beispiel für verzweigende 

zeitabhängige Visualisierungen sind die WorldLines, die unterschiedliche 

Flutungszenarien darstelen. 

Waser, J.; Fuchs, R.; Ribicic, H.; Schindler, B.; Bloschl, G.; Groler, E.; , "World 

̌ ̌ ̈ ̈ 

Lines," Visualization and Computer Graphics, IEEE Transactions on , vol.16, 

no.6, pp.1458-1467, Nov.-Dec. 2010 



● 

Geordnete Zeit vs. Verzweigende Zeit vs. Paralele Zeit: Ein Beispiel für paralele Zeit ist 

die ThemeRiver (Themenflus)-Darstelung, welche die Relevanz verschiedener Größen 

(Themen, Kinofilme, etc) anzeigt und ihre zeitliche Entwicklung paralel darstelt. 

htp:/www.nytimes.com/interactive/2008/02/23/ 

movies/20080223_REVENUE_GRAPHIC.html 




1.Diagramme 

2.InfoVis 


2.Zeitreihen 

1.Algemeines 


3.Themenflus und geschichtete Diagramme 

3.Text 

3.SciVis 


Kalendervisualisierung 

● 

Bei der Kalendervisualisierung [vanWijk 1999] solen Muster in univariaten Zeitreihendaten 

gefunden werden. Diese Muster sind häufig auf verschiedenen Skalen zu finden (Tage, 

Wochen, Saison) und haben einen Bezug zum Kalender (hier Arbeitszeiten von Menschen). 


Kalendervisualisierung – Clustering 

● 

Die Kalendervisualisierung nutzt ebenfals einen Clusteransatz, um Daten zu aggregieren, 

ohne dabei wichtige Details zu verlieren, wie es etwa geschehen würde, wenn man die 

Daten miteln würde (z.B. über ale Montage, pro Woche, pro Monat, etc). 

● 

Folgende Metriken clustern nach bestimmten Merkmalen in den Zeitreihen y und z: 

– Euklidischer Abstand →robustes generisches Maß 

– Normalisierter Euklidischer Abstand →ähnliche Form 

d E = 1 N √ ∑ i ( y i −z i ) 2 d NE = 1 N √ ∑ i ( y i / y max −z i / z max ) 2 

– Mitlere Diferenz-bereinigter Abstand →ähnliche Form mit Ofset 

d sh = 1 N √ ∑ i ( y i −z i −Δ) 2 Δ= 1 N ∑ i ( y i −z i ) 

– Maximalabstand →Vergleich von Spitzenwerten 

d max 

=∣y max 

−z max 

∣ 


Kalendervisualisierung – Beispiel 


Kalendervisualisierung – Beispiel 

Several conclusions can be drawn from this image. We see that: 

● 

Ofice hours are folowed strictly. Most people arivebetween 8:30 and 9:00 am, and leave 

between 4:00 and 5:00 pm. Furthermore, in the morning the number of employees present 

is slightly higher than in the afternoon. 

● 

On Fridays and in the summer fewer people are present (cluster 722); 

● 

On Fridays in the summer even fewer people are present (cluster 718); 

● 

● 

● 

In the weekend and at holidays only very few people are working (cluster 710): security 

and fire brigade; 

Holidays in the Netherlands in 1997 were January 1st, March 28th, March 31st, April 30th, 

May 5th,May 8th, May 19th, December 25th and 26th. 

School vacations are visible in Spring (May 3rd toMay 11th), in Autumn (October 11th to 

October 19th), and in Winter (December 21th to December 31st); 

● 

Many people take a day of after a holiday (cluster 721); 

● 

On December 5th many people left at 4:00 PM. Dutch people wil immediately know the 

explanation: On this day we celebrate Santa Claus and are alowed to leave earlier! 




1.Diagramme 

2.InfoVis 


2.Zeitreihen 

1.Algemeines 


3.Themenfluss und geschichtete Diagramme 

3.Text 

3.SciVis 


Paralele Zeitreihen 

● 

Eine Möglichkeit paralele Ereignise darzustelen, ist die Zeitreihendaten als geschichtete 

Balkendiagrammen zu visualisieren. Jeder Balken steht hierbei für einen Zeitpunkt und ist 

aufgegliedert in die paralelen Ereignise, welche nach Bedeutung gewichtet sind. Beispiel: 

Häufigkeit von Schlagwörtern in Zeitungsartikeln. 

88

Paralele Zeitreihen 

● 

● 

Probleme die hierbei auftreten sind: 

– Ein Thema ist nur schwer nachzuverfolgen (Anfang, Ende, Höhenvergleich). 

– Die Labels werden unübersichtlich, da die Farben nicht unterschieden werden 

können. 

Der Themenflus behebt diese Probleme, indem er zeitliche Kontinuität schaft und 

Themen miteinander verbindet. 

89

Themenfluss (ThemeRiver, Steamgraph) 

● 

● 

Ziel dieser Visualisierung ist die Beantwortung folgender Fragen: 

– Was sind die wichtigsten Themen zu einem bestimmten Zeitpunkt? 

– Wann hat ein Thema begonnen und wann geendet? 

– Welche Bereiche sind andersartig/interesant/aufalend? 

– Wann war ein bestimmtes Thema am wichtigsten? 

– Welche Themen traten zu welchen Zeitpunkt gleichzeitig auf? 

– Wie wichtig sind die verschiedenen Themen im Verhältnis zueinander? 

Nutzer haben mit dieser Visualisierung die folgenden Probleme: 

– Exakte Werte können nicht abgelesen werden? 

– Der zeitliche Vergleich ist zum Teil schwierig, da die Kurven sehr „wackelig“ sind. 

– Der Themenflus trägt absolute Werte ab. Hierdurch entstehen starke Verengungen 

an den Wochenenden, die iritierend sein können. 

– Die Sortierung der einzelnen Elemente ist nicht klar und hat keinen semantischen 

Hintergrund. 

90

NameVoyager 

● 

● 

Der NameVoyager umgeht einige dieser Probleme indem er 

– die Themen (hier Namen) alphabetisch sortiert. 

– eine fixe Basislinie verwendet und Achsen, sowie ein Giter einblendet. 

– Eine divergierende Farbgebung (zwei Farben: rosa für Mädchen, blau für Jungen) 

verwendet und die Heligkeit der Farbe durch die Häufigkeit bestimmt wird. 

Link zu NameVoyager: 

htp:/www.babynamewizard.com/voyager 


Name Voyager 

Namen mit Jo* 

Namen mit Lat* 

[Baby Names, Visualization, and Social Data Analysis. 

Martin Watenberg. InfoVis 2005.] 

Namen mit O* 


Themenfluss (ThemeRiver, Steamgraph) 

● 

● 

● 

Mit dem Design von geschichteten Graphen 

beschäftigt sich das Paper „Stacked Graphs – 

Geometry & Aesthetics“ [Byron 2008] 

Probleme die behandelt werden sind: 

– Wackler in den Kurven, die nicht in den 

Daten sind. 

– Unterschiedliche Wahrnehmung 

gleicher Werte in Abhängigkeit von der 

Steigung. 

– Lesbarkeit der einzelnen Schichten. 

– Ästhetik 

Diskutiert werden folgende Aspekte: 

– die Gesamtsilhouete 

– die Ordnung der Variablen 

– das Labeling 

– die Farbwahl 

[Filme des Sommers 2007 – Byron 2008] 


Gestapelte Graphen – Silhouete 

● 

● 

● 

Die Silhouete eines gestapelten Graphen wird durch 

die Basislinie g 0 

bestimmt, also der Unterkante des 

Graphen. 

Die einzelnen Zeitreihen werden hierfür ales 

reelwertige nichtnegative stetig-diferenzierbare 

Funktionen f 1 , …, f n modeliert, welche auf das Interval 

[0,1] skaliert wurden. 

Die Oberkante der i-ten Funktion ist nun durch 

folgende Funktion g i gegeben: 

i 

g i =g 0 + ∑ f i 

j=1 

● 

Wählt man g0 = 0 erhält man das übliche geschichtete 

Liniendiagramm. 


Gestapelte Graphen – Silhouete 

● 

Weitere Möglichkeiten für die Berechnung der Basislinie sind: 

– ThemeRiver 

g 0 =− 1 2 ∑ i=1 

n 

f i 

→Symmetrisch um x-Achse, kleinster Abstand 

von der x-Achse, minimale Steigungen der Randkurven. 

– Wackler 

g 0 =− 1 ∑ n 

n1 i=1 

n−i1f i 

→Kleine Änderungen in den lokalen 

Ableitungen der einzelnen Ströme. 

– Gewichtete Wackler 

g' 0 =− 1 

n 

∑ 

∑ f i i=0 

i−1 

(0.5 f i '+∑ 

j=1 

f j ')f i 

→Kleine Änderungen in den lokalen 

Ableitungen der einzelnen Ströme. 


Gestapelte Graphen – Farbgebung 

● 

● 

Die Farbgebung kann die Wahrnehmung verschiedene Themen sehr stark beeinflusen. Zu 

beachten sind: 

– Wichtige Themen (Integral über die Funktion) solten dunklere/kräftigere Farben 

erhalten, so das sie schnel aufalen. 

– Kontrast zwischen benachbarten Themen solte groß genug sein, so das sie 

unterschieden werden können. 

– Das Gesamtbild solte trotzdem harmonisch bleiben. 

– Schlusendlich solte die Graphik auch noch gut ausehen. 

Byron 2008 verwendet die rechts abgebildete Farbkodierung. 

Sie unterstützt folgende Aspekte: 

– Beginn eines Themas ist farblich kodiert. 

● 

● 

Kalte Farben: bekannte Themen/Musiker 

Warme Farben: Hot Topics, neue Themen 

– Sinkende Sätigung mit sinkender Popularität. 

– Ausgewählte natürliche Farben und speziel 

designte Übergänge für eine gute Optik. 

– Nichtlineare Übergänge um neue Themen hervorzuheben. 


Gestapelte Graphen – Farbgebung 


Gestapelte Graphen – Labeling 

● 

● 

● 

Bei der Beschriftung der einzelnen Themen mus auf folgende Aspekte geachtet werden: 

– Das Label sol visuelen Bezug zu den Daten haben. 

– Das Label überlagert keine anderen Labels oder Themen. 

– Das Label lenkt nicht von der Graphik ab. 

Der Algorithmus zur Detektion der besten 

Labelposition ist nicht angegeben (brute-force 

Ansatz). Denkbar ist etwa Bereich mit maximalem 

Integral zu suchen. 

Alternativ können standardmäßig auch keine 

Labels gezeigt werden und nur eingeblendet 

werden, wenn der Nutzer mit der Maus über ein 

Thema fährt. 


Gestapelte Graphen – Ordnung der Variablen 

● 

● 

Einen wichtigen Einfluß auf die 

Gesamterscheinung hat auch die Ordnung 

der Variablen. 

Mögliche Sortierungen sind: 

– Alphabetisch: Themen werden 

alphabetisch sortiert. 

→Viele Wackler und stark hervorstehende 

Bereiche 

– Anfangsdatum: Das neueste Thema ist 

am weitesten oben. 

→iritierendes Muster 

– Inside out: Je füher ein Thema beginnt, 

desto weiter rutscht es in die Mite des 

Datenstroms. Neuere Themen fügen 

sich dann links und recht an. 

→Starke Auschläge (meist am Anfang 

erscheinen am Rand) sind weniger 

iritierend und sorgen für weniger 

Wackler, Dirfts werden verhindert 


Gestapelte Graphen – Ordnung der Variablen 

Sortieralgorithmus 

● 

● 

● 

● 

Berechne das Gewicht eines jeden Themas (Integral über die Zeit). 

Sortiere nach Anfangszeit. 

Füge das älteste Thema in eine Liste ein. 

Füge jedes weitere Thema ein. 

– Am Anfang der Liste, wenn die Summe der Gewichte der Elemente nach dem ersten 

Element größer ist, als die aler Elemente vor ihm. 

– Am Ende der Liste, sonst. 




1.Diagramme 

2.InfoVis 


2.Zeitreihen 

3.Text 

1.Schlagwörter: Wortwolken/-mosaike 

2.Zeitabhängige Schlagwörter: TIARA 

3.Textvisualisierung: WordTree 

4.Themenvisualisierung: ThemeScape 

5.Erweiterte Themen: FacetAtlas 

3.SciVis 


Textvisualisierung 

● 

Im Bereich der Textvisualisierung wolen wir uns zwei große Bereiche ansehen: 

– Schlagwortvisualsierung: Welche Schlagwörter sind charakteristisch für einen 

Text/eine Sammlung von Texten? Wie häufig kommen sie vor? 

– Zusammenhangsvisualisierung: Wie stehen verschiedene Dokumente in 

Verbindung zueinander? Welche sind ähnlich und welche nicht und warum? 

Beatles Lyrics 

[htp:/thebeatlescompleteonukulele.co 

m/2009/10/039-the-word-radigan/] 

Symptome bei Krankheiten 

[Cao 2010] 


Darstelung von Texten 

Asociation footbal, more commonly known as footbal or soccer (etymology), is a team sport played between two teams of 

eleven players using a spherical bal. It is widely considered to be the most popular sport in the world.[1][2][3] 

The game is played on a rectangular gras or artificial turf field, with a goal in the centre of each of the short ends. The object 

of the game is to score by driving the bal into the opposing goal. In general play, the goalkeepers are the only players alowed 

to use their hands or arms to propel the bal; the rest of the team usualy use their feet to kick the bal into position, 

occasionaly using their torso or head to intercept a bal in midair. The team that scores the most goals by the end of the 

match wins. If the score is tied at the end of the game, either a draw is declared or the game goes into extra time and/or a 

penalty shootout, depending on the format of the competition. 

The modern game was codified in England folowing the formation of The Footbal Asociation, whose 1863 Laws of the 

Game created the foundations for the way the sport is played today. Footbal is governed internationaly by the Fédération 

Internationale de Footbal Asociation (International Federation of Asociation Footbal), commonly known by the acronym 

FIFA. The most prestigious international footbal competition is the FIFA World Cup, held every four years.[4] 

Footbal is played in accordance with a set of rules known as the Laws of the Game. The game is played using a single 

spherical bal, known as the footbal or soccer bal. Two teams of eleven players each compete to get the bal into the other 

team\'s goal (between the posts and under the bar), thereby scoring a goal. The team that has scored more goals at the end of 

the game is the winner; if both teams have scored an equal number of goals then the game is a draw. Each team is led by a 

captain. 

The primary law is that players other than goalkeepers may not deliberately handle the bal with their hands or arms during 

play, though they do use their hands during a throw-in restart. Although players usualy use their feet to move the bal 

around, they may use any part of their bodies other than their hands or arms.[5] Within normal play, al players are free to play 

the bal in any direction and move throughout the pitch, though the bal cannot be received in an ofside position. 

In typical game play, players atempt to create goal scoring opportunities through individual control of the bal, such as by 

dribbling, pasing the bal to a team-mate, and by taking shots at the goal, which is guarded by the opposing goalkeeper. 

Opposing players may try to regain control of the bal by intercepting a pas or through tackling the opponent in posesion 

of the bal; however, physical contact between opponents is restricted. Footbal is generaly a free-flowing game, with play 

stopping only when the bal has left the field of play or when play is stopped by the referee. After a stoppage, play 

recommences with a specified restart.[6] 

Frequency and top words : 

Word # FrequencyRank 

game 33 2.50% 1 

bal 32 2.40% 2 

players 32 2.40% 2 

goal 26 2.00% 3 

play 22 1.70% 4 

time 20 1.50% 5 

footbal 19 1.40% 6 

team 18 1.40% 6 

may 18 1.40% 6 

laws 17 1.30% 7 

At a profesional level, most matches produce only a few goals. For example, the 2005–06 season of the English Premier 

League produced an average of 2.48 goals per match.[7] The Laws of the Game do not specify any player positions other than 

goalkeeper,[8] but a number of specialised roles have evolved. Broadly, these include three main categories: strikers, or 

forwards, whose main task is to score goals; defenders, who specialise in preventing their opponents from scoring; and 

midfielders, who disposes the opposition and keep posesion of the bal in order to pas it to the forwards on their team. 

Players in these positions are refered to as outfield players, in order to discern them from the single goalkeeper. These 

positions are further subdivided according to the area of the field in which the player spends most time. For example, there 

are central defenders, and left and right midfielders. The ten outfield players may be aranged in any combination. The 

number of players in each position determines the style of the team\'s play; more forwards and fewer defenders creates a 

more aggresive and ofensive-minded game, while the reverse creates a slower, more defensive style of play. While players 

typicaly spend most of the game in a specific position, there are few restrictions on player movement, and players can switch 

positions at any time.[9] The layout of a team\'s players is known as a formation. Defining the team\'s formation and tactics is 

usualy the prerogative of the team\'s manager.[10] 


Darstelung von Texten 

Asociation footbal, more commonly known as footbal or soccer (etymology), is a team sport played between two teams of 

eleven players using a spherical bal. It is widely considered to be the most popular sport in the world.[1][2][3] 

The game is played on a rectangular gras or artificial turf field, with a goal in the centre of each of the short ends. The object 

of the game is to score by driving the bal into the opposing goal. In general play, the goalkeepers are the only players alowed 

to use their hands or arms to propel the bal; the rest of the team usualy use their feet to kick the bal into position, 

occasionaly using their torso or head to intercept a bal in midair. The team that scores the most goals by the end of the 

match wins. If the score is tied at the end of the game, either a draw is declared or the game goes into extra time and/or a 

penalty shootout, depending on the format of the competition. 

The modern game was codified in England folowing the formation of The Footbal Asociation, whose 1863 Laws of the 

Game created the foundations for the way the sport is played today. Footbal is governed internationaly by the Fédération 

Internationale de Footbal Asociation (International Federation of Asociation Footbal), commonly known by the acronym 

FIFA. The most prestigious international footbal competition is the FIFA World Cup, held every four years.[4] 

Footbal is played in accordance with a set of rules known as the Laws of the Game. The game is played using a single 

spherical bal, known as the footbal or soccer bal. Two teams of eleven players each compete to get the bal into the other 

team\'s goal (between the posts and under the bar), thereby scoring a goal. The team that has scored more goals at the end of 

the game is the winner; if both teams have scored an equal number of goals then the game is a draw. Each team is led by a 

captain. 

The primary law is that players other than goalkeepers may not deliberately handle the bal with their hands or arms during 

play, though they do use their hands during a throw-in restart. Although players usualy use their feet to move the bal 

around, they may use any part of their bodies other than their hands or arms.[5] Within normal play, al players are free to play 

the bal in any direction and move throughout the pitch, though the bal cannot be received in an ofside position. 

In typical game play, players atempt to create goal scoring opportunities through individual control of the bal, such as by 

dribbling, pasing the bal to a team-mate, and by taking shots at the goal, which is guarded by the opposing goalkeeper. 

Opposing players may try to regain control of the bal by intercepting a pas or through tackling the opponent in posesion 

of the bal; however, physical contact between opponents is restricted. Footbal is generaly a free-flowing game, with play 

stopping only when the bal has left the field of play or when play is stopped by the referee. After a stoppage, play 

recommences with a specified restart.[6] 

Frequency and top words : 

Word # FrequencyRank 

game 33 2.50% 1 

bal 32 2.40% 2 

players 32 2.40% 2 

goal 26 2.00% 3 

play 22 1.70% 4 

time 20 1.50% 5 

footbal 19 1.40% 6 

team 18 1.40% 6 

may 18 1.40% 6 

laws 17 1.30% 7 

At a profesional level, most matches produce only a few goals. For example, the 2005–06 season of the English Premier 

League produced an average of 2.48 goals per match.[7] The Laws of the Game do not specify any player positions other than 

goalkeeper,[8] but a number of specialised roles have evolved. Broadly, these include three main categories: strikers, or 

forwards, whose main task is to score goals; defenders, who specialise in preventing their opponents from scoring; and 

midfielders, who disposes the opposition and keep posesion of the bal in order to pas it to the forwards on their team. 

Players in these positions are refered to as outfield players, in order to discern them from the single goalkeeper. These 

positions are further subdivided according to the area of the field in which the player spends most time. For example, there 

are central defenders, and left and right midfielders. The ten outfield players may be aranged in any combination. The 

number of players in each position determines the style of the team\'s play; more forwards and fewer defenders creates a 

more aggresive and ofensive-minded game, while the reverse creates a slower, more defensive style of play. While players 

typicaly spend most of the game in a specific position, there are few restrictions on player movement, and players can switch 

positions at any time.[9] The layout of a team\'s players is known as a formation. Defining the team\'s formation and tactics is 

usualy the prerogative of the team\'s manager.[10] 


Wortwolke/-mosaik (TagCloud, Wordle) 

● 

● 

In einer Schlagwortwolke wird eine Liste von Schlagwörtern flächig 

dargestelt. Wichtige Wörter werden zumeist durch Skalierung 

hervorgehoben. 

Skalierung der Wörter nach Häufigkeit: 

a= 

√ n i−n min 

n max −n min 

s i 

=(1−a)⋅s min 

+a⋅s max 

mit 

– n i 

: Häufigkeit des aktuelen Wortes 

– n min 

: Häufigkeit des seltensten Wortes 

– n max 

: Häufigkeit des häufigsten Wortes 

– s min 

: kleinste Schriftgröße 

– s max 

: größte Schriftgröße 

● 

Wordle: htp:/www.wordle.net 


Beispiele – flickr 


Wortwolke (TagCloud, Wordle) 

● 

Die einfachste Art dieser Darstelung ist die Wortwolke. Hier werden die Worte 

alphabetisch in Zeilen angeordnet. Die Größe eines Wortes entspricht wie gehabt seiner 

Häufigkeit. 

● 

● 

Vorteile: 

– Leicht zu implementieren 

– Leichtes Suchen nach bestimmten 

Wörtern 

Nachteile: 

– Platz wird nicht efizient ausgenutzt 

– Position von Wörtern kann nur wenig 

beeinflust werden 

wikipedia: Häufigste 

Schlagwörter bei Flickr 


Wortmosaik (TagCloud, Wordle) 

● 

Im Wortmosaik kann die Position der einzelnen Wörter frei bestimmt werden. Häufig 

werden Optimierungsalgorithmen eingesetzt, die für eine kompakte Darstelung sorgen. 

● 

Vorteile: 

– Besere Ausnutzung des Platzes 

– Meist optisch ansprechender 

– Text kann in eine bestimmte 

Form eingepast werden 

● 

Nachteile: 

– Rechenaufwand 

– Suche nach bestimmten Wörtern 

sehr umständlich 

[InfoVis:Wiki] 

[htp:/manyeyes.alphaworks.ibm.com/manyeyes/] 


Demo Wordle 

● 

● 

Programm: Wortwolkengenerator Wordle unter 

htp:/www.wordle.net/ 

Text: 1. Mose – Schöpfungsgeschichte (Bibel) unter 

htp:/www.bibel-online.net/buch/01.1-mose/1.html#1,1 


[htp:/readwrite.com/2008/08/02/tag_clouds_rip] 


Wortwolke Algorithmus 

● 

Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter. 

(z.B. htp:/fivefilters.org/term-extraction/) 

Badesee 

Eis 

Fussball 

Heidelberg 

Sommer 

Sonne 

Urlaub 

Wasser 



● 

● 


Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert. 

Badesee 

Eis 

Fussball 

Heidelberg 

Sommer 

Sonne 

Urlaub 

Wasser 

Badesee 

Eis 

Fussball 

Heidelberg 

Sommer 

Sonne 

Urlaub 

Wasser 



● 

● 

● 



Man sortiere die Wörter nach absteigender Relevanz. 

Badesee 

Eis 

Fussball 

Heidelberg 

Sommer 

Sonne 

Urlaub 

Wasser 

Badesee 

Eis 

Fussball 

Heidelberg 

Sommer 

Sonne 

Urlaub 

Wasser 

Sonne 

Badesee 

Fussball 

Urlaub 

Wasser 

Sommer 

Eis 

Heidelberg 



● 

● 

● 

● 




Für jedes Wort wird bestimmt, ob es horizontal oder vertikal angezeigt werden sol. 

Badesee 

Eis 

Fussball 

Heidelberg 

Sommer 

Sonne 

Urlaub 

Wasser 

Badesee 

Eis 

Fussball 

Heidelberg 

Sommer 

Sonne 

Urlaub 

Wasser 

Sonne 

Badesee 

Fussball 

Urlaub 

Wasser 

Sommer 

Eis 

Heidelberg 



● 

● 

● 

● 

● 




Für jedes Wort wird bestimmt, ob es horizontal oder vertikal angezeigt werden sol. 

Innerhalb eines begrenzten Bereiches bestimmt man für jedes Wort eine zufälige 

Startposition. 

Sonne 

Badesee 

7 

1 

Fussball 

5 

Urlaub 

Wasser 

2 

4 

8 

6 

3 

Sommer 

Eis 

Heidelberg 



● 

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt 

wurde. 

Sonne 

Badesee 

7 

1 

Fussball 

5 

Urlaub 

Wasser 

4 

Sonne 

2 

8 

6 

3 

Sommer 

Eis 

Heidelberg 



● 

● 


wurde. 

Es ergeben sich nun zwei Fäle: 

– Das Wort überdeckt kein anderes → Es bleibt wo es ist. 

Badesee 

7 

1 

Fussball 

5 

Urlaub 

Wasser 

4 

Sonne 

2 

8 

6 

3 

Sommer 

Eis 

Heidelberg 



● 

● 


wurde. 



– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie 

Position. 

Badesee 

Fussball 

Urlaub 

Wasser 

Sommer 

Eis 

Heidelberg 

7 

4 

Sonne 

5 

Badesee 

2 

8 

6 

3 



● 

● 


wurde. 




Position. 

Fussball 

Urlaub 

Wasser 

Sommer 

Eis 

Heidelberg 

7 

4 

Sonne 

5 

Badesee 

2 

8 

6 

3 



● 

● 


wurde. 




Position. 

Fussball 

Urlaub 

Wasser 

Sommer 

Eis 

Heidelberg 

7 

4 

Sonne 

5 

2 

Badesee 

8 

6 

3 



● 

● 


wurde. 




Position. 

Fussball 

Urlaub 

Wasser 

Sommer 

Eis 

Heidelberg 

7 

4 

Sonne 

5 

2 

Badesee 

8 

6 

3 



● 

● 


wurde. 




Position. 

Urlaub 

Wasser 

Sommer 

Eis 

Heidelberg 

7 

4 

Sonne 

5 

2 

Fussball 3 

Badesee 

8 

6 



● 

● 


wurde. 




Position. 

Wasser 

Sommer 

Eis 

Heidelberg 

7 

Urlaub 

4 

Sonne 

5 

2 

Fussball 3 

Badesee 

8 

6 



● 

● 


wurde. 




Position. 

Sommer 

Eis 

Heidelberg 

7 

Wasser 5 

Urlaub 

4 

Sonne 

2 

Fussball 3 

Badesee 

8 

6 



● 

● 


wurde. 




Position. 

7 

Wasser 5 

Urlaub 

4 

Sonne 

2 

Fussball 3 

Badesee 

Sommer 

8 

6 

Eis 

Heidelberg 



● 

● 


wurde. 




Position. 

Eis 7 

Wasser 5 

Urlaub 

2 

4 

Sonne 

Fussball 3 

Badesee 

Sommer 

8 

6 

Heidelberg 



● 

● 


wurde. 




Position. 

Eis 

Sonne 

Wasser 

Urlaub 

Fussball 

Badesee 

Sommer 

Heidelberg 


Wortwolken – Implementierung 

● 

● 

Überdeckungstest: Um zu Testen, ob ein Wort die bereits dargestelten Wörter überdeckt, 

gibt es zwei wesentliche Ansätze: 

– Geometrische Schnitberechnung zwischen Zeichen: Jedes bereits Dargestelte 

Zeichen wird mit den Buchstaben des neuen Wortes geschniten. 

– Pixelbasierte Analyse zwischen gerenderten Wörtern: Ale bereits dargestelten 

Wörter sind in einer Textur gespeichert. Das neue Wort wird ebenfals in einer Textur 

gespeichert und es wird nun pixelweise verglichen, ob die vom Wort benötigten Pixel 

noch frei sind. 

Der pixelbasierte Ansatz ist hier wesentlich efizienter, da er unabhängig von der Anzahl 

der Wörter ist und durch Filter (Bildverarbeitung) noch beschleunigt werden kann. 

Halo Text 


Wahrnehmung von Wortwolken 

● 

● 

● 

● 

● 

Interpretation: Manchen Betrachter fält die Interpretation der Darstelung schwer. 

Größe von Wörtern: Große Wörter ziehen mehr Aufmerksamkeit auf sich als kleine 

Wörter. Dies wird auch beeinflust durch Anzahl der Buchstaben und nebenstehende 

Wörter. 

Position: Wörter im Zentrum der Wortwolke ziehen mehr Aufmerksamkeit auf sich als 

solche am Rand. 

Informationsaufnahme: Die meisten Betrachter analysieren eher die Struktur, als das sie 

einzelne Wörter lesen. 

Datenerkundung: Es ist eher schwierig gezielt nach Wörtern in einer Wortwolke zu 

suchen. 

[Lohmann, S., Ziegler, J., Tetzlaf, L. Comparison of 

Tag Cloud Layouts: Task-Related Performance and 

Visual Exploration, T. Gros et al. (Eds.): INTERACT 

2009, Part I, LNCS 5726, pp. 392–404, 2009.] 


Wortwolke – Probleme und Lösungsansätze 

● 

Mangelnde Interaktivität: Wortwolken werden zumeist einmal berechnet und müsen 

dann so interpretiert werden, wie sie sind. 

→ Erweiterung um eine Zoomfunktion, die es dem Nutzer ermöglicht minimale 

Häufigkeitswerte anzugeben. (Achtung: Kohärenz mus gegeben bleiben) 

● 

Keine zeitliche Abgrenzung: Die zeitliche Information die in Textdaten steckt, welche 

über einen langen Zeitraum aufgezeichnet wurden, werden normalerweise nicht 

abgebildet (Häufigkeit wird relativ zum Gesamtbestand berechnet). 

→ Zeitpunkt des ersten Auftrits wird mitgespeichert und in die Skalierung 

hineingerechnet. (Unterscheidung zwischen Al-Time-Favourites und zeitlich begrenzten 

Häufungen.) 

● 

Keine semantische Anordnung: Begriflich ähnliche Wörter sind räumlich nicht nah 

angeordnet. 

→Verfahren aus der Computerlinguistik einbeziehen um zusammengehörige Wörter zu 

identifizieren und benachbart anzuordnen. 




1.Diagramme 

2.InfoVis 


2.Zeitreihen 

3.Text 






3.SciVis 


TIARA 

Figure 8: TIARA’s visual summary of the “cause of injury” field of the 23,000+ emergency room records from 2002 to 2003. 

We have previously shown the visual summary of the “reason for visit” in Fig. 1. In addition to visualy summarizing the 

free-text fields (e.g. “cause of injury”, “diagnosis” and “reason for visit” in the above figure), TIARA incorporates structured 

fields (e.g. patient gender) to explain the visual summary. As shown, the topics in the “cause of injury” field including 

“cuting”, “lifting”, “twisting”, “fracturing”, etc. 


TIARA 

● 

● 

TIARA [Wei 2010] kombiniert die Konzepte des Themenfluses und der Wortwolke. Hier 

werden Themen klasifiziert und jedes Cluster wird als Strang im Flus dargestelt. 

Für die Visualisierung sind auch hier einige Vorverarbeitungsschrite nötig: 

– Schlagwortextraktion bestimmt, welche Wörter im Text relevant sind. 

– Themenextraktion: Anschließend werden die Dokumente basierend auf ihren 

Schlagwörtern verschiedenen Themengebieten zugeordnet, z.B. Clustering ( → 

Algorithmen aus Computerlinguistik). TIARA bietet verschiedene Algorithmen an, u.a. 

solche die ein Dokument zu mehreren Themengebieten zuordnet. 

– Themenrangliste: Der Themenflus benötigt eine Sortierung der einzelnen Elemente. 

TIARA sortiert hier nach Wichtigkeit der Themengebiet. Hierfür wird eine 

Themenrangliste erstelt. Hierzu wird eine Mischung aus Dokumentenabdeckung und 

Themenvarianz verwendet. 

d i : Dokument i 

K: Anzahl der Schlagwörter 

N: Anzahl der Dokumente 

N i : Anzahl Wörter in d i 

Θ i : Häufigkeitsmatrix 


TIARA 

● 

● 

TIARA [] kombiniert die Konzepte des Themenfluses und der Wortwolke. Hier werden 

Themen klasifiziert und jedes Cluster wird als Strang im Flus dargestelt. 

Für die Visualisierung sind auch hier einige Vorverarbeitungsschrite nötig: 

– Schlagwortextraktion bestimmt, welche Wörter im Text relevant sind. 

– Themenextraktion: Anschließend werden die Dokumente basierend auf ihren 

Schlagwörtern verschiedenen Themengebieten zugeordnet, z.B. Clustering. TIARA 

bietet verschiedene Algorithmen an, u.a. solche die ein Dokument zu mehreren 

Themengebieten zuordnet. 

– Themenrangliste: Der Themenflus benötigt eine Sortierung der einzelnen Elemente. 

TIARA sortiert hier nach Wichtigkeit der Themengebiet. Hierfür wird eine 

Themenrangliste erstelt. Hierzu wird eine Mischung aus Dokumentenabdeckung und 

Themenvarianz verwendet. 

– Themenspezifische Schlagwortrangliste: Außerdem werden für jedes Thema 

Schlagwörter gesucht, die für dieses besonders charakteristisch sind und die in 

anderen Themengebieten nur selten auftrete. 

– Zeitspezifische Schlagwörter: Zusätzlich werden Schlagwörter gefiltert, die für einen 

bestimmten Zeitabschnit charakteristisch sind. Hierbei wir darauf geachtet, das die 

Zeitunterteilung sich an der Dauer von Themen orientiert. 


TIARA – Beispiele 

Figure 1: TIARA’s visual summary of the “reason 

for visit” field of the 23,000+ patient emergency 

room records, depicting 8 major reasons of visit. 


TIARA – Beispiele 

Figure 3: TIARA’s visual summary of 8,000+ emails. In the visualization, each layer represents a topic, which is described by a 

set of keywords. We show the top 8 topics out of 18 topics in total. These topic keywords are distributed along time, 

summarizing the content evolution over time. The x-axis encodes the time and the y-axis encodes the strength of each topic. 

For each topic , the height encodes the number of emails of the topic at a particular time. From the height of each topic and 

its content distributed over time, the user can observe the topic evolution over time. 




1.Diagramme 

2.InfoVis 


2.Zeitreihen 

3.Text 






3.SciVis 


Goethe's Faust für Fortgeschritene 



Visualisiert mit ManyEyes 








Wörterbaum (Word Tree) 

● 

● 

Der Wörterbaum basiert auf der Datenstruktur des Sufixbaumes. Dieser speichert ale 

Endungen einer Zeichenkete (hier Folge von Wörtern und Zeichen) und ist besonders gut 

geeignet zum Suchen von Wörtern und Phrasen. 

Die Visualisierung orientiert sich stark an der Struktur des Baumes und erhält größtenteils 

das lineare Layout von Text. 


Wörterbaum – Layout 

● 

Die Schriftgröße einzelner Wörter und Phrasen orientiert sich an deren Häufigkeit im Text. 

Es wir wieder entsprechend der Wurzel der Frequenz skaliert, um der zweidimensionalen 

Ausdehnung gerecht zu werden. 

Text Text Text Text Text Text 

1.0 0.8 0.6 0.4 0.2 0.0 

● 

Bei der Farbgebung wird zwischen Baumstruktur und zusätzlichen Text unterschieden. 

Wörter des eigentlichen Baumes sind schwarz dargestelt, zusätzlicher Text, der den 

Kontext des Wortes angibt, ist grau dargestelt. 

● 

Satzzeichen und Stoppwörter werden beibehalten, um ein intuitives Suchen und Lesen zu 

ermöglichen. 


Wörterbaum – Layout 

● 

Für die Anordnung der Unterbäume gibt es folgende Optionen: 

– Alphabetisch 

– Nach Häufigkeit 

– Nach Reihenfolge des Auftretens im Text 

● 

Beim Starten ist die Seite leer. Der Nutzer mus selbst ein Wort eingeben, um die 

Visualisierung zu starten. Mögliche initiale Visualisierungen sind: 

– Häufigste Wörter 

– Baum mit vielen Verzweigungen 

– Baum mit tiefster Verzweigung 


Wörterbaum – Animation und Interaktion 

● 

● 

● 

● 

Der Wörterbaum wird immer dann aktualisiert, wenn der Nutzer 

– Enter drückt, 

– ein Satzzeichen eingibt oder 

– ein Leerzeichen eingibt. 

Kontinuierliche Updates nach der Eingabe jedes Zeichens wurden als iritierend 

empfunden. 

Es gibt zwei Interaktionsmechanismen: 

– Anclicken eines Wortes: erweitert die aktuele Phrase bis zu diesem Wort 

– Strg+Anclicken: Startet eine neue Suche mit dem angeclickten Wort. 

Der Übergang zu einer erweiterten Darstelung ist fließend, so das der Kontext erhalten 

bleibt und der Nutzer sich leichter im neuen Bild orientieren kann. 

Der Nutzer kann außerdem wählen, ob er Sätze sucht die mit der gewählten Wortkombination 

anfangen oder enden. 

● 

Demo: 

htp:/www-958.ibm.com/software/data/cognos/manyeyes/visualizations/new/word-tree/faust-d 


Wörterbaum – Implementierungsdetails 

● 

● 

Der Wörterbaumalgorithmus in ManyEyes ist ein Java Applet. Hierdurch steht dem 

Programm relativ wenig Speicher zur Verfügung. Da der Aufbau des Sufixbaumes 

verhältnismäßig schnel geht, wird dieser on demand für die aktuele Phrase gebaut. 

Level-of-detail Ansätze werden verwendet um auch große bzw. stark verzweigte Bäume 

darzustelen. Unterbäume mit wenigen Einträgen werden reduziert dargestelt. Ähnliches 

gilt für Stoppwörter (z.B. und, der, die, das), die in vielen Kombination gebraucht werden. 

147

Wörterbaum – Beispiele 

Alberto Gonzales (ehem. US-Justizminister) Zeugenausage 2007 


Wörterbaum – Beispiele 

Bil Clintons Zeugenausage 1998 


Wörterbaum – Erweiterungen 

Folgende Erweiterungen wären hilfreich, um das Arbeiten mit dem Wörterbaum noch zu 

vereinfachen: 

● 

Erweiterungen: 

– Einstiegsvisualisierung, die einen Überblick über den Datensatz gibt. 

– Möglichkeit gefundene Pasagen im Gesamtkontext zu sehen, z.B. Highlighting in 

einem Überblicksdokument. 

– Zoomen&Verschieben der Visualisierung 

● 

Weitere Optionen: 

– Unterstützung für Umlaute und Sonderzeichen 

– An- und Abschalten von Stoppwörtern und Interpunktion 

– Anzeige des Wörterbaums in beide Richtungen (Info vor und nach dem Wort) 

– Wörterbaum nur für bestimmte Pasagen 




1.Diagramme 

2.InfoVis 


2.Zeitreihen 

3.Text 






3.SciVis 


Themenlandschaften (ThemeScape) 

htp:/mappa.mundi.net/maps/maps_015/#ref_2 

J. Wise, "Visualizing the Non-Visual: spatial 

analysis and interaction with information from text 

documents," Proceedings of the Information 

Visualization '95 Conference, Atlanta, GA, Oct. 

1995, pp. 51-58. 


Themenlandschaft 

● 

● 

Eine Themenlandschaft stele eine Dokumentenkolektion als Landschaft dar. Hügel 

repräsentieren Themengebiete. Je höher ein Hügel ist, desto mehr 

Information/Dokumente gibt es zu diesem Bereich. Die relative Lage der Hügel zueinander 

gibt an, wie ähnlich sich zwei Themengebiete sind. 

Algorithmus: 

– Schlagwortextraktion: Jedes Dokument wird beschlagwortet und durch einen k- 

dimensionalen Vektor repräsentiert (k ist die Anzahl der auftretenden Schlagwörter in 

der Dokumentenkolektion). 

– Projektion: Die Dokumente können nun als Punkte im k-dimensionalen Raum 

verstanden werden. Um sie im 2D darzustelen, werden häufig Projektionstechniken 

verwendet. Ziel hierbei ist es zumeist eine Präsentation im 2D zu finden, bei der die 2D 

Abstände möglichst ähnlich den kD Abständen sind. 

– Dichteschätzung: Jedem hochdimensionalen Punkt wird durch die Projektion eine 

Koordinate im 2D zugewiesen. Um hieraus nun eine Landschaft zeichnen zu können, 

benötigen wir Dichtewerte, die die Höhe angeben. Hierfür kann zB die Kerneldichteschätzung 

verwendet werden. 

– Rendering: Aus Datenpunkten und Höheninformation kann nun die Landschaft 

erstelt werden. 




1.Diagramme 

2.InfoVis 


2.Zeitreihen 

3.Text 






3.SciVis 


Visualisierung von Dokumentenkolektionen 

● 

In vielen Dokumenten werden verschiedene Aspekte (Faceten) eines Themas beleuchtet, 

z.B. 

– Kochen: Zutaten, Zubereitung, Arbeitszeit, Kalorienangaben, Vegetarisch 

– Medizin: Krankheiten, Ursache, Symptome, Behandlung, Dauer, Verlauf/Prognose 

– Sport: Sportart, Anzahl Mitspieler, benötigte Ausrüstung/Spielfeld, in-/out-door 

● 

Sucht man nach Information in diesen Dokumenten kommt es häufig dazu, das man 

verschiedene Aspekte miteinander vergleichen möchte, z.B. 

– Bei welchen Krankheiten habe ich ähnliche Symptome? 

– Wie unterscheiden sich diese Krankheiten in ihrem Verlauf/ihrer Prognose? 

– Wie hängen diese Krankheiten zusammen und wie werden sie behandelt? 

● 

Hier hilft der FacetenAtlas [Cao 2010], dieser stelt die verschiedene Aspekte gleichzeitig 

dar, clustert ähnliche Strukturen und zeigt Relationen zwischen verschiedenen Aspekten 

auf. 


Facetenatlas (FacetAtlas) 


Facetenatlas - Datenstruktur 

Folgende Informationen werden im Facetenatlas in verschiedenen Datenstrukturen 

gespeichert: 

● 

● 

● 

● 

Entitäten sind Instanzen eines bestimmten Konzepts, z.B. „Apfelkuchen“, „Typ-1-Diabetes“, 

„Hockey“ 

Faceten sind Klasen von Entitäten, z.B. Zubereitungszeit {10min., 5h., 25min.}, Krankheit 

{Erkältung, Grippe, Migräne}, Anzahl Mitspieler {1, 2, 4, 6, 12, 22}. 

Relationen sind Verbindungen zwischen Paaren von Entitäten. Wir unterscheiden 

– Interne Relationen verbinden Entitäten der gleichen Facet, z.B. Grippe und Migräne. 

– Externe Relationen verbinden Entitäten verschiedener Faceten, z.B. Fußbal mit 22 

und 90 Minuten. 

Cluster sind Gruppen ähnlicher Entitäten innerhalb einer Facete, z.B. innerhalb der 

Sportarten bilden die Balsportarten ein Cluster. 


Facetenatlas (FacetAtlas) 

Fig. 2. (a) The FacetAtlas multifaceted entity-relational data model. Concepts in a complex text corpus are transformed 

into facets, entities and relations. (b) The data model is visualy encoded using a spatial arangement of color-coded nodes 

and edges. 


Facetenatlas - Datenstruktur 

Um Suchanfragen später schnel verarbeiten zu können, wird ein relationales Datenmodel 

verwendet. Hierzu werden folgende Operationen ausgeführt. 

● 

● 

● 

Extraktion der Entitäten: Aus den Dokumenten müsen zunächst die relevanten Begrife 

extrahiert werden. 

Themenzugehörigkeit: Als nächstes mus für jede Entität bestimmt werden, zu welcher 

Facete sie gehört. Hierzu kann im einfachsten Fal geclustert (z.B. Ähnlichkeitsgraph) 

werden, wobei Clusternamen später manuel vergeben werden müsen. Die automatische 

Bestimmung von Themengebieten fält im Machine-Learning und der Computerlinguistik 

u.a. unter den Begrif Topic Modeling. 

In einigen Fälen, etwa in Datenbanken, sind die ersten beiden Schrite bereits erledigt und 

Themengebiete sind direkt gegeben. 

Suchindex: Für eine schnele Darstelung der Daten bei beliebigen Nutzeranfragen, wird 

zusätzlich ein Suchindex aufgebaut. 


Facetenatlas – Visuele Codierung 

● 

● 

● 

Faceten werden durch unterschiedliche Farben symbolisiert. Diese werden sowohl für die 

Entitäten als auch für die Relationen verwendet. In der Visualisierung kann der Nutzer eine 

Facete als primäre Facete auswählen. Die Daten werden dann entsprechend dieser 

gruppiert. 

Entitäten werden als Kreise in der Farbe ihrer Facete dargestelt. Die Größe des Kreises 

wird so skaliert, das sie die Stärke der Übereinstimmung mit der Nutzeranfrage angibt 

(große Kreise, hohe Übereinstimmung). Entitäten von sekundären Faceten werden in 

einem Knoten (Kompaktknoten) zusammengefast, so das ein übersichtlicheres Bild 

entsteht. 

Relationen werden auf zwei Arten codiert: 

– Interne Relationen zwischen verschiedenen Kompaktknoten werden als Kantenzug 

dargestelt. Farbe kodiert die Facete und Dicke die Stärke der Relation. 

– Externe Relationen werden durch räumliche Nähe dargestelt. Nahe dem primären 

Knoten werden die sekundären Kompaktknoten dargestelt, die zu ihm gehören. 


Facetenatlas – Algorithmus 


Facetenatlas – Algorithmus (Visualisierung) 

Der Algorithmus für den Facetenatlas besteht aus drei großen Blöcken: 

● 

● 

● 

Layout der Knoten (primäre Faceten und Kompaktknoten): Für jede primäre Entität und 

jeden sekundären Kompaktknoten wird ein Kreis dargestelt. Positionen der Kreise werden 

über ein Clusterlayout bestimmt. In diesem Schrit werden implizit externe Relationen 

dargestelt, da diese ebenfals durch das Layout codiert sind (Nähe zum primären Knoten). 

Rendern der internen Relationen: Interne Relationen werden als Kanten zwischen 

Knoten der gleichen Facete dargestelt. Geschwungene Linien, im Gegensatz zu geraden 

Verbindungen, lasen das Bild organischer und klarer erscheinen. Mitels Kantenbündelung 

werden ähnlich verlaufende Kanten zusammengefast und man erhält so ein 

übersichtlicheres Bild. 

[Holten, D. and Van Wijk, J. J. (2009), Force-Directed Edge Bundling for Graph Visualization. Computer Graphics 

Forum, 28: 983–990.] 

Darstelung der Cluster: Um Cluster zu markieren, wird die Darstelung mit einer Farbkarte 

hinterlegt. Bereiche, die viele Knoten enthalten, werden dunkler markiert, als solche 

mit wenigen Knoten. Somit werden Cluster schnel sichtbar. Die Farbverteilung ist diskret, 

jeder Bereich wird als Isokontur im Dichtefeld dargestelt. ( →Marching Cubes Algorithmus 

in Abschnit 4.3) Hierzu wird die Dichte über eine Kerneldichteschätzung approximiert. 


Facetenatlas – Interaktion 

Die Interaktion mit der Visualisierung spielt bei komplexen Datensätzen eine sehr wichtige 

Role. Mitels folgender Techniken, kann der Nutzer zusätzliche Information erhalten: 

● 

Hervorheben: Fährt der Nutzer mit der Maus über einen Knoten, so werden seine 

Verbindung hervorgehoben. 


Facetenatlas – Interaktion 

Die Interaktion mit der Visualisierung spielt bei komplexen Datensätzen eine sehr wichtige 

Role. Mitels folgender Techniken, kann der Nutzer zusätzliche Information erhalten: 

● 

● 

● 

● 

Hervorheben: Fährt der Nutzer mit der Maus über einen Knoten, so werden seine 

Verbindung hervorgehoben. 

Kontextwechsel: Der Nutzer kann interaktiv zwischen verschiedenen Kontexten wechseln, 

z.B. von Symptomen zu Krankheiten. 

Detailgrad: Per Slider kann die Anzahl der angezeigten Elemente geändert werden. Je 

höher der Sliderwert, desto beser müsen Ergebnise zur Suche pasen. 

Dokumente öfnen: Per Doppelklick können zugehörige Dokumente geöfnet werden. 

→Video mit Demo htp:/www.cse.ust.hk/~nancao/movie/facetatlas.mov 


Facetenatlas – Beispiel 

Fig. 7. Case study on HIV infection. (a) Semantic zoom. 

When zooming in on “Asymptomatic HIV Infection” from 

the initial view shown in Fig. 3, more related diseases are 

shown (highlighted in the red circle). The initial context is 

preserved and represented by the black circles. (b) 

Context switch. After switching from a disease view to a 

symptom view for “Asymptomatic HIV Infection”, two 

prominent symptom clusters are shown. These symptoms 

share similar complications within each cluster as 

indicated by the red links. 


Literatur 

● 

H. Reijner, Panopticon Software. The Development of the Horizon Graph. Vis Workshop, 2008. 

● 

Wilkinson L., Anand A., Grosman R.: Graphtheoretic scagnostics. IEEE Info Vis (2005), 157–164. 

● 

● 

● 

● 

● 

● 

● 

L. Wilkinson, A. Anand, R. Grosman: High-Dimensional Visual Analytics: Interactive Exploration Guided by 

Pairwise Views of Point Distributions. In: IEEE Transactions on Visualization and Computer Graphics. 12, Nr. 6, 

2006, S. 1363-1372. 

Wei Peng, Mathew O. Ward, and Elke A. Rundensteiner. 2004. Cluter Reduction in Multi-Dimensional Data 

Visualization Using Dimension Reordering. In Proceedings of the IEEE Symposium on Information 

Visualization (INFOVIS '04). IEEE Computer Society, Washington, DC, USA, 89-96. 

Eisen, M., Spelman, P., Brown, P., and Botstein, D. (1998), „Cluster analysis and display of genome-wide 

expresion paterns," Proceedings of the National Academy of Sciences, 95, 14863-14868. 

A. Dasgupta, R. Kosara. Pargnostics: screen-space metrics for paralel coordinates. IEEE Trans Vis Comput 

Graph. 2010;16(6):1017-26. 

Lee Byron and Martin Watenberg. 2008. Stacked Graphs – Geometry & Aesthetics. IEEE Transactions on 

Visualization and Computer Graphics 14, 6 (November 2008), 1245-1252. 

Watenberg, M.; Viegas, F.B.; , "The Word Tree, an Interactive Visual Concordance," Visualization and 

Computer Graphics, IEEE Transactions on , vol.14, no.6, pp.1221-1228, Nov.-Dec. 2008. 

Nan Cao; Jimeng Sun; Yu-Ru Lin; Gotz, D.; Shixia Liu; Huamin Qu; , "FacetAtlas: Multifaceted Visualization for 

Rich Text Corpora," Visualization and Computer Graphics, IEEE Transactions on , vol.16, no.6, pp.1172-1181, 

Nov.-Dec. 2010. 

● 

Furu Wei et al. TIARA: A Visual Exploratory Text Analytic System, KDD 2010.

Skalardaten II - Informationsvisualisierung - IWR

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?