11.03.2014 Aufrufe

Skalardaten II - Informationsvisualisierung - IWR

Skalardaten II - Informationsvisualisierung - IWR

Skalardaten II - Informationsvisualisierung - IWR

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

4.2 <strong>Skalardaten</strong> – InfoVis<br />

Vorlesung: Mo, 11:00 – 13:00, INF 368 – 432<br />

Do, 11:00 – 13:00, INF 350 – OMZ, U014<br />

Übung: Mo, 9:00 – 11:00, INF 350 – OMZ, U011<br />

JProf. Dr. Heike Leite – htp:/www.iwr.uni-heidelberg.de/groups/CoVis/


Inhaltsverzeichnis<br />

1.Einführung<br />

2.Datentypen, Datenrepräsentation und Visualisierungspipeline<br />

3.Wahrnehmung<br />

4.<strong>Skalardaten</strong><br />

5.Statistische Graphiken<br />

6.Interaktion und Datenexploration<br />

7.Graphen<br />

8.Vektordaten<br />

Grundlagen SciVis – 4.2 InfoVis 2


Inhaltsverzeichnis<br />

4.<strong>Skalardaten</strong><br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

1.Streudiagramme<br />

1.Definition und Erweiterungen<br />

2.Scagnostics<br />

2.Paralele Koordinaten<br />

1.Definition<br />

2.Sortierverfahren<br />

3.Pargnostics<br />

3.Heatmaps<br />

2.Zeitreihen<br />

3.Text<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 InfoVis 3


Kleine Vielfache (Smal Multiples)<br />

[Christian Huygens, Systema Saturnium (The Hague, 1659)]<br />

Grundlagen SciVis – 4.2 InfoVis 4


Kleine Vielfache (Smal Multiples)<br />

[A. Ghizzo et al. Stability of Bernstein-Greene-Kruskal Plasma Equilibria:<br />

Numerical Experiments Over a Long Time. Physics of Fluids, 31:72-82, 1988]<br />

Grundlagen SciVis – 4.2 InfoVis 5


Kleine Vielfache<br />

Zeichnungen eines in Stein gehauenen<br />

Reliefs: Je nach Dokumentator und<br />

zeitlicher Epoche entstanden sehr<br />

unterschiedliche Darstelung. Erst im<br />

Vergleich werden die Unterschiede<br />

richtig deutlich. [Tufte, Envisioning<br />

Information, S. 72]<br />

Grundlagen SciVis – 4.2 InfoVis 6


Kleine Vielfache (Smal Multiples)<br />

●<br />

●<br />

●<br />

Wenn wir Daten analysieren und nach Struktur suchen, brauchen wir immer einen<br />

Vergleich. Wir suchen nach Unterschieden (zu bekannten, zu anderen Zeitpunkten, zu<br />

anderen Bereichen).<br />

Das „kleine Vielfache“-Design bietet eine solche Möglichkeit: Hierzu wird der gleiche<br />

Visualisierungstyp mehrfach nebeneinander mit unterschiedlichen Daten dargestelt. Die<br />

Daten sind so gewählt, das sie die Fragestelung unterstützen. Dargestelt werden etwa<br />

– Unterschiedliche Zeitpunkte (z.B. Klimadaten)<br />

– Unterschiedliche Kategorien (z.B. Bevölkerungstatistiken)<br />

– Veränderungen mit einer zusätzlichen nicht dargestelten Variable<br />

– Unterschiedliche Paramtereinstelungen (z.B. numerische Simulation)<br />

– Unterschiedliche Sichten auf die Daten (z.B. Projektion in der Architektur)<br />

Man solte beachten:<br />

– Die Daten sind ale gleichzeitig im Sichtfeld, so das sie gut verglichen werden<br />

können.<br />

– Die Daten sind systematisch angeordnet, so das ein leichtes Verständnis der Struktur<br />

möglich ist.<br />

– Das Design der Visualisierungen ist konsistent (z.B. gleiche Colormap)<br />

Grundlagen SciVis – 4.2 InfoVis 7


Kleine Vielfache<br />

●<br />

Drei Beispiele, die das Konzept der kleinen Vielfachen ausnutzen sind Streudiagrammmatrizen,<br />

paralele Koordinaten und Heatmaps.<br />

htp:/www.r-project.org/<br />

htp:/spotfirecommunity.tibco.com<br />

htp:/mbostock.github.com/protovis<br />

8


Inhaltsverzeichnis<br />

4.<strong>Skalardaten</strong><br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

1.Streudiagramme<br />

1.Definition und Erweiterungen<br />

2.Scagnostics<br />

2.Paralele Koordinaten<br />

1.Definition<br />

2.Sortierverfahren<br />

3.Pargnostics<br />

3.Heatmaps<br />

2.Zeitreihen<br />

3.Text<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 InfoVis 9


Streudiagrammmatrizen<br />

●<br />

●<br />

●<br />

Ein Streudiagramm stelt bivariate Daten in einem 2D<br />

Kartesischen Giter dar. Die Achsen entsprechen den<br />

beiden Variablen. Jedem Datenpunkt ist ein Punkt im<br />

Koordinatensystem zugewiesen.<br />

Folgende Information kann aus dem Diagramm abgelesen<br />

werden:<br />

– Verteilung der Daten im Parameteraum.<br />

– Korelationen zwischen zwei Variablen.<br />

– Einfärbung ermöglicht Clusteranalyse (siehe Bild)<br />

Erweitert man diese Idee nun auf n Variablen erhält man<br />

nx(n-1) Streudiagramme für ale möglichen Kombinationen.<br />

Diese kann man nun in einer Matrix anordnen und<br />

erhält eine Streudiagrammmatrix.<br />

[wikipedia]<br />

Grundlagen SciVis – 4.2 InfoVis 10


Streudiagramm-Matrix – Beispiele Irisblüten<br />

●<br />

●<br />

●<br />

Auf der kanadische Gaspésie-Halbinsel gibt es mehrere<br />

verschiedene Irisarten.<br />

Diese können anhand der Größe der Blüten- und<br />

Kelchbläter unterschieden werden.<br />

Um gute Schätzer für die Grenzwerte zu erhalten, mus<br />

man die natürliche Streuung berücksichtigen und<br />

geeignete Grenzwerte finden.<br />

Grundlagen SciVis – 4.2 InfoVis 11


406 Autos mit 4 Variablen<br />

Clustering: Herkunftsland<br />

12


Streudiagramm-Matrix<br />

●<br />

●<br />

Gemesen wurden vier Parameter, die miteinander korelieren:<br />

– Breite Blütenbläter<br />

– Länge Blütenbläter<br />

– Breite Kelchbläter<br />

– Länge Kelchbläter<br />

Um sich ein beseres Bild von den Korelationen machen zu können, betrachtet man<br />

paarweise Streudiagramme.<br />

Kelchblatt Länge<br />

Kelchblatt Breite Blütenblatt Länge Blütenblatt Breite<br />

Grundlagen SciVis – 4.2 InfoVis 13


Streudiagramm-Matrix<br />

●<br />

Achtung: Im Regelfal sind die Daten vorher nicht klasifiziert, so das eine hilfreiche<br />

Einfärbung wie hier verwendet, nicht möglich ist.<br />

14


Streudiagramme – Erweiterungen<br />

●<br />

Gerade bei vielen Datenpunkten werden Streudiagramme schnel sehr unübersichtlich, da<br />

man einzelne Punkte nicht mehr unterscheiden kann.<br />

●<br />

Hier hilft es mit Transparenz zu arbeiten und jedem Punkt nur eine kleine Opazität<br />

zuzuweisen.<br />

Grundlagen SciVis – 4.2 InfoVis 15


Streudiagramme – Erweiterungen<br />

●<br />

Besonders bei vielen Datenpunkten ist auch dieser Ansatz nicht mehr praktikabel, da die<br />

Graphikkarte sehr lange braucht um mehrere Milionen/Miliarden Kreise zu zeichnen. Hier<br />

solte man für das Streudiagramm eine Textur verwenden, in welche man die Punkte<br />

einzeichnet.<br />

●<br />

Transparenz erhält man durch Alphablending der bereits gezeichneten mit dem neuen<br />

Punkt. Sei B die im Pixel bereits gezeichnete Farbe, A die Farbe des neuen Datenpunkts, α<br />

der entsprechenden Transparenzwerte der neuen Farben. Dann ergibt sich die<br />

resultierende nichtransparente Farbe C durch<br />

C=α A<br />

A+(1−α A<br />

) B<br />

Grundlagen SciVis – 4.2 InfoVis 16


Streudiagrammmatrizen für viele Variablen<br />

●<br />

Ein Problem, das sich nicht vermeiden läst, ist das Streudiagramm schnel<br />

unübersichtlich werden, wenn die Anzahl der Variablen wächst:<br />

[Lehmann et al., Selecting Coherent and Relevant Plots in Largs Scaterplot Matrices, Computer Graphics Forum, 2012]<br />

Grundlagen SciVis – 4.2 InfoVis 17


Analysestrategieen für SPLOMs<br />

●<br />

Folgende Strategien können eingesetzt werden, um die Daten übersichtlicher zu gestalten:<br />

– Navigation: Der Nutzer wird bei der Navigation in der Matrix unterstützt und kann<br />

sich gezielt verschiedene Streudiagramme in der Matrix ansehen.<br />

[Elmqvist N., Dragicevic P., Fekete J.: Roling the dice: Multidimensional visual exploration using scaterplot<br />

matrix navigation. IEEE TVCG, 14/6 (2008)]<br />

– Sortierung: Die Streudiagramme werden so sortiert, das ähnlich nahe beieinander<br />

liegen und so Muster deutlicher hervortreten.<br />

[Keim D.: Designing pixel-oriented visualization techniques: Theory & applications. IEEE TVCG 6 (2000), 59f.]<br />

– Selektion: Dem Nutzer werden nicht ale Streudiagramme gezeigt, sonder nur solche,<br />

die als wichtig erkannt wurde.<br />

[Friedman J. H., Tukey J. W.: A projection pursuit algorithm for exploratory data analysis. IEEE Trans. Comput. 23<br />

(1974), 881–890.]<br />

– Hierarchische Analyse: Streudiagramme werden hierarchische geclustert und der<br />

Nutzer kann den Detailgrad interaktiv steuern.<br />

[Yang J., Peng W., Ward M. O., Rundensteiner E. A.: Interactive hierarchical dimension ordering, spacing and<br />

filtering for exploration of high dimensional datasets. In IEEE Symp. on Information Visualization, 105–112<br />

(2003).]<br />

– Metaanalyse: Es werden nicht die Streudiagramme selbst gezeigt, sondern<br />

abgeleitete Größen.<br />

[Wilkinson L., Anand A., Grosman R.: Graphtheoretic scagnostics. IEEE Info Vis (2005), 157–164.]<br />

Grundlagen SciVis – 4.2 InfoVis 18


Scagnostics<br />

●<br />

●<br />

●<br />

Im Folgenden werden wir uns den Algorithmus von Wilkinson et al. 2004 ansehen, welcher<br />

Scagnostics (Scaterplot Diagnostics) zur Metaanalyse beschreibt.<br />

Der Scagnostics-Algorithmus berechnet charakteristische Merkmale zur Beschreibung<br />

einer Punktwolke im 2D (z.B. gibt es Cluster, wie dicht sind die Punkte, wie ist die Form der<br />

Punktwolke). Hierzu werden graphentheoretischer Maße verwendet.<br />

Wir definieren zunächst einen Graphen:<br />

Definition (Graph): Ein Graph G = {V, E}, wobei V eine Menge von Knoten<br />

(vertex/vertices) und E eine Menge von Kanten (edges) bezeichnet. Eine Kante e(v,<br />

w) mit e ∈ E und v, w ∈ V ist ein ungeordnetes Vertexpaar.<br />

Definition (geometrischer Graph): Ein geometrischer Graph G* = [f(V), g(E), S]<br />

ist eine Einbetung des Graphen in einen metrischen Raum S, welche Knoten auf<br />

Punkte und Kante auf Liniensegmente die Punktpaare verbinden abbildet.<br />

●<br />

Im Folgende gehen wir davon aus, das wir nur auf geometrischen Graphen operieren,<br />

welche ungerichtet, einfach, planar und endlich sind, und welche auschließlich gerade<br />

Kanten besitzen.<br />

Grundlagen SciVis – 4.2 InfoVis 19


Scagnostic – Maßzahlen<br />

●<br />

Wir werden die folgenden Maßzahlen für Streudiagramme betrachten:<br />

Ausreiser in den Daten<br />

– Ausreiseranteil (outlying)<br />

Form der Datenpunkte<br />

– Konvexität (convex)<br />

– Dünnheit (skinny)<br />

– Faserig (stringy)<br />

– Gerade (straight)<br />

Zusammenhang in den Daten<br />

– Monotonie (monotonic)<br />

Dichte der Datenpunkte<br />

– Schiefe (skewed)<br />

– Klumpigkeit (clumpy)<br />

– Gestreift (striated)<br />

Grundlagen SciVis – 4.2 InfoVis 20


Scagnostics<br />

●<br />

Wir definieren zunächst einen Graphen:<br />

Definition (Graph): Ein Graph G = {V, E}, wobei V eine Menge von Knoten<br />

(vertex/vertices) und E eine Menge von Kanten (edges) bezeichnet. Eine Kante e(v,<br />

w) mit e ∈ E und v, w ∈ V ist ein ungeordnetes Vertexpaar.<br />

Definition (geometrischer Graph): Ein geometrischer Graph G* = [f(V), g(E), S]<br />

ist eine Einbetung des Graphen in einen metrischen Raum S, welche Knoten auf<br />

Punkte und Kante auf Liniensegmente die Punktpaare verbinden abbildet.<br />

●<br />

Im Folgende gehen wir davon aus, das wir nur auf geometrischen Graphen operieren,<br />

welche ungerichtet, einfach, planar und endlich sind, und welche auschließlich gerade<br />

Kanten besitzen.<br />

Grundlagen SciVis – 4.2 InfoVis 21


Scagnostics<br />

●<br />

Die Graphenstrukturen, die wir verwenden werden, sind konvexe Hüle ( →Rand),<br />

Alphahüle ( →Form) und Minimaler Spannbaum (minimal spanning tree →relative Lage<br />

von Punkten).<br />

[wikipedia]<br />

●<br />

Die konvexe Hüle ist eine Möglichkeit den Rand einer Punktwolke X zu beschreiben. Ihre<br />

Knoten sind eine Teilmenge von X. Außerdem enthält sie ale Punkte der Menge X.<br />

Definition (konvexe Hüle): Die konvexe Hüle einer Teilmenge X eines reelen<br />

oder komplexen Vektoraumes V ist definiert als der Schnit aler konvexen<br />

Obermengen von X. Sie ist selbst konvex und damit die kleinste konvexe Menge,<br />

die X enhält.<br />

Grundlagen SciVis – 4.2 InfoVis 22


Scagnostics<br />

●<br />

Die Alphahüle beschreibt den Rand einer Punktwolke präziser.<br />

Definition (Alphahüle): Die Alphahüle einer Menge X enthält ale Kanten<br />

zwischen zwei Punkten aus X, die auf einem Kreis mit Radius α liegen, welcher<br />

keine weiteren Punkte aus X enthält.<br />

Edelsbrunner, H.; Kirkpatrick, D. G.; Seidel, R. (1983), "On the shape of a set of points in<br />

the plane", IEEE Transactions on Information Theory 29 (4): 551–559.<br />

Alphahülen können efizient berechnet werden und man kann bei ihnen den Einfluß von<br />

Ausreißern reduzieren.<br />

●<br />

Spannbäume verbinden ale Punkte der Wolke durch einen Baum und geben so eine<br />

Strukturbeschreibung.<br />

Definition (Spannbaum): Ein Spannbaum ist ein Baum, desen Knoten durch<br />

eine gegebene Punktmenge X gegeben sind.<br />

Definition (minimaler Spannbaum MST): Von alen Spannbäumen einer<br />

Punktmenge ist derjenige der minimale, der die geringste Gesamtlänge (Summe<br />

aler Kantengewichte) besitzt.<br />

Grundlagen SciVis – 4.2 InfoVis 23


Scagnostics<br />

●<br />

Zusätzlich benötigen wir folgende (normierte) Maßzahlen auf geometrischen Graphen:<br />

– Die Länge einer Kante length(e) ist die Euklidische Distanz zwischen ihren beiden<br />

Vertices.<br />

– Die Länge eines Graphen length(T) ist die Summe der Längen al seiner Kanten.<br />

– Ein Pfad ist eine Liste von Vertices, so das je zwei benachbarte Knoten in der Liste<br />

eine Kante des Graphen bilden.<br />

– Ein Pfad heißt geschlossen wenn sein erster und letzter Knoten identisch sind.<br />

– Ein geschlosener Pfad heißt Rand eines Polygons.<br />

– Der Umfang perimeter eines Polygons ist die Länge seines Randes.<br />

– Die Fläche area eines Polygons ist die Fläche in seinem Inneren.<br />

– Der Durchmesser diameter eines Graphen ist der längste kürzeste Pfad in G.<br />

Grundlagen SciVis – 4.2 InfoVis 24


Scagnostic – Maßzahlen zur Detektion von Ausreißern<br />

●<br />

Ausreisseranteil: Den Ausreiseranteil an den Punkten mesen wir mitels des MST. Hierzu<br />

filtern wir ale Punkte mit Grad 1 (eine angrenzende Kante) und Gewicht größer ω mit<br />

ω=q 75<br />

+1.5(q 75<br />

−q 25<br />

)<br />

wobei q 75<br />

das 75% Quantil ist (75% der Kanten sind kürze als diese Länge) und (q 75<br />

– q 25<br />

)<br />

ist der Interquartilsabstan.<br />

„Ausreiseranteil“ mist nun, den Anteil von sehr langen, einfach verbunden Kanten an der<br />

Gesamtlänge des MST T<br />

c entlegen = length(T Ausreißer )<br />

length(T )<br />

Grundlagen SciVis – 4.2 InfoVis 25


Scagnostic – Maßzahlen für die Form<br />

●<br />

●<br />

Im Folgenden werden die Graphen wie folgt abgekürzt: H konvexe Hüle, A Alphahüle, T<br />

minimaler Spannbaum.<br />

Konvexität: Die Konvexität gibt ab, wie gut sich Alphahüle und konvexen Hüle<br />

überdecken.<br />

c konvex = area(A)<br />

area( H )<br />

●<br />

Dünnheit: Wir vergleichen die Fläche der Alphahüle mit ihrem Umfang. Das Maß ist<br />

normiert, so das wir für einen Kreis 0 für ein Quadrat 0.12 und für ein langes Rechteck 1<br />

erhalten.<br />

c dünn<br />

=1− √ 4 Π area(A)<br />

perimeter ( A)<br />

Grundlagen SciVis – 4.2 InfoVis 26


Scagnostic – Maßzahlen für die Form<br />

●<br />

Faserig: Eine faserige Form ist eine dünne Form ohne Äste. Hierzu analysieren wir die<br />

Pfade im Spannbaum. Ist der längste kürzeste Pfad im Baum etwa so lang wie die Summe<br />

aler Kantenlängen, hat der Baum wenig Verzweigungen/Äste, und ist somit sehnig.<br />

c sehnig =<br />

diameter (T )<br />

length(T )<br />

●<br />

Gerade: Um zu mesen wie gerade eine Punktewolke ist, betrachten wir den längsten<br />

kürzesten Pfad im MST. Bei geraden Punktwolken ist der Abstand zwischen den<br />

Endpunkten genauso lang, wie die Länge des Pfades.<br />

c gerade = dist (t j , t k )<br />

diameter(T )<br />

ti und tk sind die Vertices die den Durchmeser bestimmen.<br />

Das Maß liefert für gerade Graphen 1.<br />

Grundlagen SciVis – 4.2 InfoVis 27


Scagnostic – Maßzahlen für Trends<br />

●<br />

Monoton: Wenn wir die Folge der Punkte im Streudiagramm als Funktion aufasen, sol<br />

dieses Maß angeben, ob die Funktion monoton ist oder nicht. Hierzu verwenden wir<br />

Spearmans Rangkorelationskoefizienten:<br />

r s<br />

= Cov(rang x , rang y )<br />

s rang x<br />

s rang y<br />

rang( x i<br />

) der Rang von x i<br />

s rangx<br />

die Standardabweichung der Ränge von x<br />

Cov( rang(x), rang(y) ) die Kovarianz<br />

Das Maß für die Monotonie verwendet nun den quadrierten Rangkorelationskoefizienten,<br />

da es dem Betrachter zumeist egal ist, ob die Funktion monton steigend oder falend<br />

ist.<br />

c monton =r s<br />

2<br />

Grundlagen SciVis – 4.2 InfoVis 28


Scagnostic – Maßzahlen für Dichte<br />

●<br />

Schiefe: Die Verteilung der Kantenlängen im MST gibt Aufschlus über die relative Dichte<br />

der Punkte im Streudiagramm. Über die Schiefe (statistisches Moment) des Histogramms<br />

über die Kantenlängen kann man nun Rückschlüse auf die Dichte der Punktwolke ziehen.<br />

c skew<br />

= q 90−q 50<br />

q 90<br />

−q 10<br />

Die q geben hier wieder die Quantile an. Bei q90 sind<br />

90% der Kanten des MST kürzer als diese Länge.<br />

●<br />

Klumpigkeit: Die Klumpigkeit mesen wir durch die Kanten im MST. Hier sehen wir uns die<br />

Distanzen innerhalb von Clustern an.<br />

c clumpy (T )=max<br />

j<br />

[<br />

max [length(e k )]<br />

]<br />

1−<br />

k<br />

length(e j )<br />

wobei j Indices für Kante im MST stehen. k Indices stehen<br />

für Kanten in Runt-Mengen der einzelnen Kanten j.<br />

Grundlagen SciVis – 4.2 InfoVis 29


c clumpy (T )=max<br />

j<br />

Scagnostic – Maßzahlen für Dichte<br />

[<br />

max [length(e k )]<br />

]<br />

1−<br />

k<br />

length(e j )<br />

W. Stuetzle. Estimating the cluster tree<br />

of a density by analyzing the minimal<br />

spanning tree of a sample. Journal of<br />

Clasification, 20:25–47, 2003.<br />

Grundlagen SciVis – 4.2 InfoVis 30


Scagnostic – Maßzahlen für Kohärenz<br />

●<br />

Gestreift: Um zu mesen wie streifig das Streudiagramm ist, analysieren wir die Winkel<br />

zwischen den Kanten an Knoten mit Grad 2. Der Durchschnitswinkel solte bei streifigen<br />

Daten in etwa 180° betragen.<br />

c striate<br />

= 1<br />

∣V (2) ∣ ∑<br />

v∈V (2) ∣cos θ(e(v ,a) ,e(v ,b))∣<br />

wobei V(2) ⊂ V die Menge aler Knoten mit Grad 2 angibt, θ<br />

den Winkel zwischen zwei Kanten und e(v,a) die Kante<br />

zwischen v und a.<br />

Grundlagen SciVis – 4.2 InfoVis 31


Scagnostics – Ergebnisse<br />

●<br />

●<br />

●<br />

Eine einfache Form um die Maßzahlen zu<br />

kodieren ist die Heatmap. Datenpunkte (=<br />

Streudiagramme) werden in Zeilen<br />

abgetragen, Atribute (= Scagnostics) in<br />

Spalten.<br />

Wie stark ein Streudiagramm einem<br />

Merkmal entspricht ist als Farbe codiert. Rot<br />

bedeutet, sehr gute Übereinstimmung, blau<br />

sehr geringe.<br />

Wir sehen:<br />

– Punktwolken entsprechen oft mehreren<br />

Kategorien (rote und orange Kästchen).<br />

– Punktwolken mit gleichem starken<br />

Atribut können noch sehr verschieden<br />

ausehen (vgl. Skewed oder Monotonic)<br />

– Es gibt Punktwolken, die schwer zu charakterisieren<br />

sind (max. gelbe Farbe).<br />

Grundlagen SciVis – 4.2 InfoVis 32


Streudiagramm mit Scagnostic Maßzahlen<br />

●<br />

Jedes Streudiagramm können wir nun wieder als Punkt im hochdimensionalen<br />

Scagnosticsraum aufasen und diese wieder als Streudiagrammmatrix darstelen.<br />

Abalone Datensatz:<br />

(unten) Streudiagrammmatrix<br />

(rechts) Scagnostics<br />

Grundlagen SciVis – 4.2 InfoVis 33


Scagnostics – Anwendung<br />

●<br />

Hier ein weiteres Beispiel für Wohnungsdaten in Boston. Jede Wohnung ist durch 14<br />

Variablen beschrieben, deren Korelationen durch 91 Streudiagramme dargestelt werden<br />

können.<br />

●<br />

Aufälig ist z.B. der isolierte Punkte<br />

in der Zeile für Dünn (sparse) der<br />

einem Streudiagramm entspricht<br />

bei dem die Punkte nur an 16 verschiedenen<br />

Positionen liegen<br />

können (Merkmal A: zwei Ausprägungen<br />

und Merkmal B: acht Ausprägungen).<br />

Grundlagen SciVis – 4.2 InfoVis 34<br />

[wikipedia]


Scagnostics – Anwendung<br />

●<br />

Die Maße können wir nun auch benutzen, um die Streudiagramm zu sortieren:<br />

Scaterplots of<br />

weather data sorted<br />

by features<br />

[Wilkinson 2006]<br />

35


Scagnostics – Anwendung<br />

●<br />

Die Streudiagramme können auch wieder in einer Matrix dargestelt werden und so<br />

sortiert werden, das ähnliche Diagramme nah beieinander liegen. Ungewöhnliche<br />

Streudiagramme können automatisch hervorgehoben werden. Hierzu wird der<br />

Algorithmus zur Detektion von Ausreißern in Streudiagrammen verwendet.<br />

SPLOM of basebal data sorted<br />

by features component and<br />

colored by MST outlier statistic<br />

[Wilkinson 2006]<br />

36


Scagnostics – Beschleunigung<br />

●<br />

●<br />

●<br />

Die Laufzeit des Algorithmus beträgt in etwa<br />

O( n p² )<br />

wobei n die Anzahl der Datenpunkte ist und p die Anzahl der Parameter. Besonders bei der<br />

Implementierung der Graphen ist auf einen efizienten Algorithmus zu achten. Die<br />

algorithmische Geometrie beschreibt hierfür optimale Algorithmen.<br />

Beschleunigen läst sich der Algorithmus weiter, indem die Daten in Klasen eingeteilt<br />

werden. Wilkinson et al. schlagen hier hexagonales binning vor. Die Fläche wird in 40x40<br />

Hexagone unterteilt und die Daten werden entsprechend<br />

klasifiziert. Enthalten mehr als 250 Hexagone Datenpunkte<br />

so wird das Giter angepast, bis weniger als 250 Hexagone<br />

Daten enthalten.<br />

Für das Maß Faserigkeit (stringy) mus weiterhin mit den<br />

originalen Daten gearbeitet werden, da kurze Kanten sonst<br />

verloren gehen und das Maß stark verfälscht wird.<br />

[wikipedia]<br />

Grundlagen SciVis – 4.2 InfoVis 37


Inhaltsverzeichnis<br />

4.<strong>Skalardaten</strong><br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

1.Streudiagramme<br />

1.Definition und Erweiterungen<br />

2.Scagnostics<br />

2.Paralele Koordinaten<br />

1.Definition<br />

2.Sortierverfahren<br />

3.Pargnostics<br />

3.Heatmaps<br />

2.Zeitreihen<br />

3.Text<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 InfoVis 38


Paralele Koordinaten<br />

●<br />

Paralele Koordinaten sind eine weitere Technik zur Darstelung von Datenpunkten mit n<br />

Atributen. Die Koordinatenachsen werden hier nicht orthogonal sondern paralel<br />

angeordnet.<br />

Grundlagen SciVis – 4.2 InfoVis 39


Paralele Koordinaten<br />

●<br />

Für jede gemesene Variable wird eine vertikale Achse angelegt, die so skaliert ist, das sie<br />

den gesamten Wertebereich der Daten abdeckt.<br />

Grundlagen SciVis – 4.2 InfoVis 40


Paralele Koordinaten<br />

●<br />

Jeder Datenpunkt wird nun als Polygonzug in die Koordinatenachsen eingetragen.<br />

name:"chevrolet chevele malibu", mpg:18, cyl:8, dsp:307, hp:130, lbs:3504, acc:12, year:70, origin:1<br />

Grundlagen SciVis – 4.2 InfoVis 41


Paralele Koordinaten<br />

●<br />

Geschieht dies für ale Datenpunkte erhält man die klasische paralele Koordinaten-<br />

Darstelung.<br />

[htp:/eagereyes.org/techniques/paralel-coordinates]<br />

Grundlagen SciVis – 4.2 InfoVis 42


Paralele Koordinaten<br />

●<br />

Für eine efiziente Analyse und Mustererkennung bedarf es ein wenig Training. Hier einige<br />

Beispiele für Strukturen in Streudiagrammen und korespondierenden Mustern in<br />

paralelen Koordinaten.<br />

Grundlagen SciVis – 4.2 InfoVis 43


Paralele Koordinaten<br />

Man kann aus dem Diagramm folgende Informationen direkt ablesen:<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

Wie sind die Daten innerhalb einer Variable verteilt?<br />

Gibt es Werte die häufig/selten auftreten?<br />

Welchen Variablen sind kontinuierlich, welche diskret?<br />

Welche Zusammenhänge bestehen mit „benachbarten“ Variablen?<br />

Viele gleich gerichtete Linien weisen auf eine positive Korelation, viele sich kreuzende<br />

Linien auf eine negative Korelation hin.<br />

Wie groß ist die Streuung bei<br />

Verbindungen zwischen „benachbarten“<br />

Variablen?<br />

Grundlagen SciVis – 4.2 InfoVis 44


Paralele Koordinaten – Erweiterungen<br />

Ähnlich wie bei den Streudiagrammen, werden paralele Koordinaten schnel unübersichtlich.<br />

Hier helfen ähnlich Konzepte dabei mehr Struktur erkennbar zu machen.<br />

●<br />

Transparenz und Farbe: Zum einen können die Polygonzüge wieder transparent<br />

gezeichnet werden, so das Überlagerungen deutlicher werden.<br />

Demo: htp:/vis.stanford.edu/protovis/ex/<br />

Grundlagen SciVis – 4.2 InfoVis 45


Paralele Koordinaten – Erweiterungen<br />

●<br />

Wird eine Achse als primäre Achse ausgewählt und ihr ein Farbverlauf, der sich auf die<br />

Datenpunkte überträgt, zugewiesen, so können Korelationen beser gesehen werden.<br />

Grundlagen SciVis – 4.2 InfoVis 46


Paralele Koordinaten – Probleme und Grenzen<br />

Paralele Koordinaten können gut zur Exploration multivariater Datensätze verwendet werden.<br />

Sie haben alerdings auch einige Einschränkungen:<br />

●<br />

●<br />

●<br />

●<br />

●<br />

Bei sehr vielen Datenpunkten kommt es meist zu Verdeckung. Die gesamte Bildfläche<br />

erscheint mehr oder minder einfarbig und es kann kaum Struktur abgelesen werden.<br />

Korelation zwischen zwei Variablen lasen sich in einem Streudiagramm leichter und<br />

genauer bestimmen.<br />

Es können etwa 12 verschiedene Dimensionen analysiert werden. Darüber hinaus wird die<br />

Darstelung und Analyse sehr schwierig.<br />

Die Darstelung zeigt nur eine kleine Auswahl der paarweisen Korelationen (n stat der<br />

n(n-1) Paare in Streudiagrammmatrizen).<br />

Die Anordnung der Achsen spielt eine sehr wichtige Role. Je nach Einstelung können<br />

Merkmale leichter bzw. schwerer oder gar nicht erkannt werden. (Es gibt Forschung im<br />

Bereich der automatischen Achsenanordnung, um dieses Problem zu überwinden.<br />

●<br />

Einige Verfahren zur verbeserten Darstelung sind auf der nächsten Folie gelistet.<br />

Grundlagen SciVis – 4.2 InfoVis 47


Paralele Koordinaten – Erweiterungen<br />

●<br />

●<br />

●<br />

●<br />

●<br />

Clustering: Werden ähnlich verlaufende Kurven in Clustern zusammengefast, kann man<br />

die Visuale Komplexität der Darstelung stark reduzieren.<br />

[Yang, Jing; Peng, Wei; Ward, Mathew O.; Rundensteiner, Elke A. (2003). "Interactive Hierarchical Dimension<br />

Ordering Spacing and Filtering for Exploration of High Dimensional Datasets". IEEE Symposium on Information<br />

Visualization (INFOVIS 2003): 3–4.]<br />

Achsensortierung: Durch die fixe Achsensortierung stelen Par.Koord. nur einen kleinen<br />

Teil des hochdimensionalen Datenraumes äquivalent dar. Interaktive Sortieralgorithmen<br />

sind hier dringend nötig, um ale Kombination betrachten zu können.<br />

Kurvenbasierte Darstelungen: Kurven stelen visuele Kontinuität her und erleichtern es<br />

Muster zu erkennen. Es gibt Erweiterungen, die Paralele Koordinaten durch glate Kurven<br />

anstat durch Polygonzüge verbinden.<br />

[Using Curves to Enhance Paralel Coordinate Visualisations by Martin Graham & Jesie Kennedy, Napier University,<br />

Edinburgh, UK]<br />

Kontinuierliche Darstelungen: Ähnlich dem texturbasierten Ansatz für Streudiagramme<br />

gibt es eine Erweiterung der paralelen Koordinaten, die die kontinuierlich<br />

zugrundeliegende Verteilung approximiert.<br />

[Julian Heinrich, Daniel Weiskopf: Continuous Paralel Coordinates. IEEE Trans. Vis. Comput. Graph. 15(6): 1531-1538<br />

(2009)]<br />

Mustererkennung: Auch für par.Koord. gibt es Methode zur Metanalyse, die abgeleitete<br />

Merkmale berechnen.<br />

Grundlagen SciVis – 4.2 InfoVis 48


Paralele Koordinaten – Erweiterungen<br />

Kurvenbasiert<br />

Clustering<br />

Kontinuierliche PK<br />

Grundlagen SciVis – 4.2 InfoVis 49


Achsensortierung<br />

●<br />

●<br />

Wie bereits erwähnt, stelen paralele Koordinate<br />

nur eine kleine Auswahl der möglichen<br />

Variablenpaare dar. Umsortieren der Daten<br />

kann hier helfen<br />

– dem Nutzer eine möglichst gute<br />

Sortierung zu zeigen.<br />

– ihn bei der dynamischen Umsortierung<br />

unterstützen.<br />

Wir wolen uns einen Algorithmus ansehen,<br />

der die Achsen so umsortiert, so das es<br />

zwischen zwei Achsen möglichst wenig<br />

„Stördaten“ (cluter) gibt, also starke<br />

Korelationen bevorzugt werden.<br />

Algorithmus in [Peng 2004]<br />

Grundlagen SciVis – 4.2 InfoVis 50


Achsensortierung<br />

●<br />

●<br />

●<br />

Um eine optimale Achsenkombination zu wählen, berechnen wir zunächst die Güte aler<br />

paarweisen Kombinationen.<br />

Hierzu bestimmen wir die Anzahl der Ausreißer in jedem 2D paralele Koordinaten plot.<br />

Zunächst berechnen wir für jeden Punkt im 2D den Abstand zum nächsten Nachbarn und<br />

normalisieren diesen. Ale Punkte, deren Abstand größer als ein Nutzerspezifizierter Wert<br />

ist, werden nun als Ausreißer deklariert. S outlier<br />

gibt nun die Anzahl der Ausreißer für ein<br />

Achsenpaar an und S avg<br />

= S outlier<br />

/ (n-1) gibt die mitlere Ausreißerzahl an.<br />

Der Cluter pro Paar berechnet sich nun als<br />

●<br />

●<br />

Da S total<br />

, also die Anzahl an Datenpunkten, fix ist, können wir diese zusätzliche Normierung<br />

vernachläsigen.<br />

C = S avg<br />

S total<br />

Den Cluterwert berechnen wir jetzt für jede Paarkombination und speichern sie in einer<br />

Matrix ab.<br />

Die Achsenordnung mit minimalem Cluterwert zu finden ist nun ein<br />

Optimierungsproblem. Testen wir einfach ale Achsen durch, was bei unseren Falzahlen<br />

häufig noch möglich ist, erhalten wir einen Algorithmus der Komplexität O(n*n!)<br />

Grundlagen SciVis – 4.2 InfoVis 51


Achsensortierung – Beispiele<br />

Heinrich, Julian; Stasko, John; Weiskopf, Daniel: The Paralel Coordinates Matrix. In: EuroVis - Short Papers, pp. 37-41, 2012.<br />

Grundlagen SciVis – 4.2 InfoVis 52


Pargnostics<br />

●<br />

●<br />

●<br />

Pargnostics [Dagupta 2010] analysieren die Struktur (auf dem Bildschirm) gezeichneter<br />

paralelen Koord. und verwenden diese Maße um eine günstige Sortierung vorzugeben.<br />

Je nach Aufgabe kann der Nutzer unterschiedlich Sortierungstrategien auswählen.<br />

Folgende Aufgaben werden unterstützt:<br />

– Korelation finden<br />

– Cluster finden<br />

– Zusammenhänge zwischen<br />

Variablen<br />

Verwendet werden Maße zur<br />

Analyse von:<br />

1)Anzahl der Linienschnite<br />

2)Schnitwinkel<br />

3)Paralelität<br />

4)Korelation (Mutual Information)<br />

5)Konvergenz/Divergenz<br />

6)Überdeckung<br />

1) 2) 3) 4) 5) 6)<br />

Grundlagen SciVis – 4.2 InfoVis 53


Pargnostics – Histogramme<br />

●<br />

●<br />

Pargnostics verwenden zur Darstelung der paralelen Koordinaten Texturen, wodurch die<br />

Diskretisierung exakt spezifiziert wird.<br />

Für viele Maße werden später pixelbasierte Histogramme verwendet:<br />

– Achsenhistogramme unterteilen die Achsen in Bins und zählen jeweils die ein und<br />

ausgehenden Linien.<br />

– Distanzhistogramme speichern die Steigung der Geradenstücke (Diferenz von<br />

Ausgangs- und Eingangspixel.<br />

– Achsenpaarhistogramme speichern in einer Matrix wie häufig Geradenstücke von<br />

einem Eingangsbin zu einem Ausgangsbin laufen.<br />

Grundlagen SciVis – 4.2 InfoVis 54


Pargnostics – Maße<br />

●<br />

●<br />

Anzahl der Linienschnite: Hierzu verwenden wir das Achsenpaarhistogramm.<br />

h−1 h−1<br />

L=∑ ∑<br />

i=0 j=0<br />

h−1 l < j<br />

∑ ∑<br />

k=i+1 l=0<br />

b ij b kl<br />

Teilt man nun durch die maximale Anzahl möglicher Schnite, erhält man den normierten<br />

Wert:<br />

L norm =<br />

2L<br />

n(n−1)<br />

Grundlagen SciVis – 4.2 InfoVis 55


Pargnostics – Maße<br />

●<br />

Mitlerer Schnitwinkel: Als Maß zur Beschreibung der Schnitwinkel, verwenden wir den<br />

Median aler Schnitwinkel. Wir verwenden jeweils den kleineren der beiden Schnitwinkel<br />

zwischen zwei Geraden.<br />

Grundlagen SciVis – 4.2 InfoVis 56


Pargnostics – Maße<br />

●<br />

●<br />

Paralelität: Um die Paralelität zu beschreiben, sehen wir uns die Verteilung der<br />

Steigungen an. Ist diese sehr schmal, deutet dies auf viele ähnliche Steigungen, also hohe<br />

Paralelität hin. Sehr konfuse Verläufe sind durch eine weite Streuung im<br />

Distanzhistogramm markiert.<br />

Als Maß verwenden wir den Interquartilsabstand der Steigungen:<br />

P norm<br />

=1−∣q 75<br />

−q 25<br />

∣<br />

Fig. 5: Distance histograms (left half of each cell below the parallel<br />

coordinates) and angles of crossings (right half) histograms for different<br />

dimensions of the cars data.<br />

Grundlagen SciVis – 4.2 InfoVis 57


Pargnostics – Optimierung<br />

●<br />

●<br />

●<br />

Um nun eine möglichst gute Achsensortierung zu finden, wird ein Optimierungsalgorithmus<br />

verwendet. Im Paper wird hierzu ein Branch-and-Bound Ansatz verwendet.<br />

Grundidee: Mögliche Anordnungen für die paralelen Koordinaten werden als Baum<br />

dargestelt. Der Algorithmus testet nun verschiedene Wege und verwirft<br />

wenigversprechende Bereiche. Als Schätzer für die Güte werden hierbei die<br />

vorberechneten Maße verwendet.<br />

Häufig wird hier einfach die Achse genommen, die den nächsten Abstand minimiert. Es<br />

werden nicht ale Permutationen durchgerechnet.<br />

Grundlagen SciVis – 4.2 InfoVis 58


Pargnostics – Weine<br />

Grundlagen SciVis – 4.2 InfoVis 59


Inhaltsverzeichnis<br />

4.<strong>Skalardaten</strong><br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

1.Streudiagramme<br />

1.Definition und Erweiterungen<br />

2.Scagnostics<br />

2.Paralele Koordinaten<br />

1.Definition<br />

2.Sortierverfahren<br />

3.Pargnostics<br />

3.Heatmaps<br />

2.Zeitreihen<br />

3.Text<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 InfoVis 60


Matrixdiagramm – Genexpression<br />

[Zapapa 2005]<br />

Grundlagen SciVis – 4.2 InfoVis 62


Matrixdiagramm – Kommunikation<br />

Grundlagen SciVis – 4.2 InfoVis 63


Matrixdiagramm – Infrastruktur<br />

●<br />

Das Sortieren von Heatmaps wurde u.a. stark von Jaques Bertin (Kartograph, 1918-2010)<br />

propagiert. Hier sehen wir ein Beispiel, in dem er verschiedene Orte bezüglich ihrer<br />

Infrastruktur vergleicht.<br />

Innar Liv. 2010. Seriation and matrix reordering methods: An historical overview. Stat. Anal. Data Min. 3, 2 (April 2010), 70-91.<br />

Grundlagen SciVis – 4.2 InfoVis 64


Matrixdiagramm – Infrastruktur<br />

●<br />

Folgende Fragen können in der geordneten Variante nun leicht beantwortet werden:<br />

– Fragen zu bestimmten Spalten und Zeilen (z.B. Gibt es in Gemeinde '08' einen<br />

Bahnhof? Welche Gemeinden haben ein Polizeirevier?)<br />

– Lokale Muster in den Daten (z.B. Wenn es kein Waser gibt, dann gibt es auch keine<br />

weiterführenden Schulen.)<br />

– Globale Muster und Trends (z.B. Welche Veränderungen finden stat, wenn sich eine<br />

Gemeinde von ländlich zu urban wandelt?)<br />

Grundlagen SciVis – 4.2 InfoVis 65


Matrixdiagramm – Verarbeitungskete<br />

[Liv Innar, Opik Rain, Ubi Jaan, Stasko John. Visual matrix explorer for colaborative seriation. WIREs Comp Stat 2012,<br />

4: 85-97.]<br />

Grundlagen SciVis – 4.2 InfoVis 66


Matrixdiagramm – Sortierung<br />

●<br />

●<br />

Die Frage ist nun, wie man Matrixdiagramme sortiert, damit Muster möglichst gut sichtbar<br />

werden. Auch hier gibt es leider keine (stets gültige) optimale Lösung, da eine gute<br />

Sortierung stark von der Fragestelung abhängt.<br />

Grundlegend unterscheidet man die Anzahl der Freiheitsgrade bei der Optimierung:<br />

– Umsortierung der Zeilen ( →Datenpunkte)<br />

– Umsortierung der Spalten ( →Variablen)<br />

– Unabhängige Sortierung von Zeilen und Spalten<br />

– Gemeinsame Sortierung von Zeilen und Spalten. Bond-Energy Algorithmus<br />

→Gruppierung von Blöcken<br />

Grundlagen SciVis – 4.2 InfoVis 67


Matrixdiagramm – Sortierung<br />

●<br />

●<br />

Der clusterbasierte Ansatz berechnet zuerst ein<br />

Clustering auf den Daten. Dieses kann nun als Baum<br />

dargestelt werden (ab einem gewisen Ähnlichkeitswert,<br />

werden Daten als gleich angesehen und gehören zum<br />

selben Cluster). Die Daten werden nun entsprechend der<br />

Clusterordnung im Baum sortiert.<br />

Folgende Zutaten brauchen wir für die Berechnung:<br />

– Ähnlichkeitsmaß: Dieses quantifiziert, wie<br />

(un-)ähnlich zwei Objekt sind.<br />

– Clusteralgorithmus: Ein Algorithmus, der Objekte<br />

gruppiert. Ziel: kleine Unterschiede zwischen<br />

Objekten innerhalb eines Clusters, große<br />

Unterschiede zwischen Elementen verschiedener<br />

Cluster<br />

[Eisen 98]<br />

Grundlagen SciVis – 4.2 InfoVis 68


Matrixdiagramm – Abstandsmaße<br />

Für zwei Vektoren x = (x 1 ,., x n ) und y = (y 1 ,., y n ) sind gebräuchliche Distanzmaße sind:<br />

●<br />

Euklidische Distanz<br />

d E ( x , y )=√ ∑ i=1<br />

n<br />

( x i − y i ) 2<br />

●<br />

Manhatan Distanz<br />

d M (x , y )=∑∣x i − y i ∣.<br />

n<br />

i=1<br />

●<br />

Korelationsdistanz<br />

d C ( x , y )=1−<br />

√ ∑ i=1<br />

∑<br />

i=1<br />

( x i −̄x )( y i −̄y )<br />

( x i −̄x ) 2 ∑<br />

i=1<br />

( y i −̄y ) 2 .<br />

Grundlagen SciVis – 4.2 InfoVis 69


Matrixdiagramm – Abstandsmaße<br />

●<br />

●<br />

Euklidische- und Manhatandistanz mesen absolute Abstände zwischen Datenpunkten,<br />

wobei die Manhatandistanz robuster gegenüber Ausreißern ist.<br />

Die Korelationsdistanz mist Trends und relative Abstände. Normiert man die Daten, so<br />

sind Korelations- und Euklidische-Distanz äquivalent.<br />

x = (1.0, 1.0, 1.5, 1.5)<br />

y = (2.5, 2.5, 3.5, 3.5) = 2x + 0.5<br />

z = (1.5, 1.5, 1.0, 1.0)<br />

d kor ( x, y ) = 0 d Euklid ( x, y ) = 3.54<br />

d kor ( x, z ) = 2 d Euklid ( x, z ) = 1<br />

Grundlagen SciVis – 4.2 InfoVis 70


Matrixdiagramm – Hierarchisches Clustering<br />

●<br />

●<br />

●<br />

Mit der Metrik können wir bestimmen, wie weit zwei Datenpunkte voneinander entfernt<br />

sind. Im nächsten Schrit berechnen wir durch ein hierarchisches Clustering, welche Punkte<br />

ähnlicher sind, als andere.<br />

Im unterschied zum Standardclustering hat das hierarchische Clustering kein vom Nutzer<br />

spezifiziertes Abbruchkriterium (z.B. Anzahl der gesuchten Cluster) sondern verbindet<br />

zumeist Botom-Up die Punkte miteinander in einer Hierarchie von Clustern.<br />

Wichtiges Kriterium für das Clustering ist die<br />

Art, wie Datenpunkte verbunden werden. Man<br />

unterscheidet hier u.a.<br />

– Complete linkage: größte Distanz<br />

– Average linkage: mitlere Distanz<br />

– Single linkage: kürzeste Distanz<br />

Complete linkage findet eher kompakte/<br />

sphärische Cluster, single linkage kann zu<br />

langgezogenen Clustern führen.<br />

[wikipedia]<br />

71


Matrixdiagramm – Hierarchisches Clustering<br />

●<br />

●<br />

●<br />

Der Abstand von den Blätern zu einem inneren Knoten im Baum repräsentiert den<br />

Abstand der beiden Kinder des inneren Knoten.<br />

Von den n(n-1)/2 möglichen paarweisen Kombinationen von benachbarten Datenpunkten<br />

stelen wir hier nur einen kleinen Auschnit dar (optimiert nach Ähnlichkeit von<br />

Nachbarn). Ist nun ein Punkt sehr ähnlich zu drei oder mehr anderen, kann dies nicht mehr<br />

dargestelt werden.<br />

Für die Darstelung der Matrix basierend auf<br />

dem Clustering gibt es nun 2 n-1 Möglichkeiten<br />

(n-1 innere Knoten, an jedem können die<br />

Kinder vertauscht werden).<br />

●<br />

Mehr und vertiefte Information zum Clustering<br />

gibt es in der Machine Learning Vorlesung.<br />

[wikipedia]<br />

72


Matrixdiagramm – Beispiel<br />

●<br />

Analyse von Zelwachstum. (Clustered display of data from time course of serum<br />

stimulation of primary human fibroblasts [Eisen 1998]. )<br />

●<br />

●<br />

(A) cholesterol biosynthesis, (B) the cel cycle, (C) the immediate–early response, (D)<br />

signaling and angiogenesis, and (E) wound healing and tisue remodeling<br />

Bemerkenswert ist, das uniforme Blöcke von Genen entstehen, die zusammen aktive sind.<br />

Korektheit der Ergebnise wurde geprüft, indem die Daten in drei Gruppen aufgeteilt<br />

wurden, separat visualisiert wurden und die gleichen Ergebnise herauskamen.<br />

Grundlagen SciVis – 4.2 InfoVis 73


Inhaltsverzeichnis<br />

4.<strong>Skalardaten</strong><br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

2.Zeitreihen<br />

1.Algemeines<br />

2.Kalendervisualisierung<br />

3.Themenflus und geschichtete Diagramme<br />

3.Text<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 InfoVis 74


Zeitabhängige Daten<br />

●<br />

Bei der Visualisierung von zeitabhängigen Daten, mus man sich zunächst einmal<br />

Gedanken darüber machen, welchen Typ man genau hat. Hierzu drei Beispiele:<br />

Datensatz 1:<br />

t 0 , Sonnenintensität<br />

t 1 , Sonnenintensität<br />

t 2 , Sonnenintensität<br />

…<br />

t n , Sonnenintensität<br />

Datensatz 2:<br />

Tag 1: 5 Zeitungsartikel über Fußbal, 7 Zeitungsartikel über<br />

Politik, 2 Zeitungsartikel über Ernährung<br />

Tag 2: .<br />

Tag n: .<br />

Datensatz 3:<br />

Antonia wurde 1992 in Waldorf geboren<br />

1994 zog sie nach Düseldorf<br />

2001 machte sie Urlaub in China<br />

2010 zog sie nach Berlin<br />

2013 wird sie für 6 Monate nach Südamerika reisen<br />

Grundlagen SciVis – 4.2 InfoVis 76


Zeitabhängige Daten<br />

●<br />

Wichtige Kriterien zur Unterscheidung von Zeitreihen sind [Aigner 2008]<br />

– Linear Zeit vs. zyklische Zeit: Solen ale Zeitpunkte nebeneinander Dargestelt<br />

werden, wie etwa in einem Börsendiagramm, oder gibt es zyklische Ereignise, wie<br />

etwa in der Meteorologie, die verdeutlicht werden solen.<br />

– Zeitpunkte vs. Zeitinterval: Solen einzelne Mespunkte dargestelt werden, z.B.<br />

Zeitpunkt eines Ereignises, oder geht es um die Analyse von Intervalen mit festem<br />

Anfangs und Endpunkt, z.B. Stauzeiten auf der Autobahn.<br />

– Geordnete Zeit vs. Verzweigende Zeit vs. Paralele Zeit: Wir ein Prozes analysiert,<br />

der chronologisch Strukturiert wird, z.B. Tagesablauf einer Person, oder solen<br />

verschiedene Szenarien durchgespielt und verglichen werden, z.B. Feuersimulation<br />

und Verhalten von Menschen, oder sol der gleiche Zeitabschnit aus<br />

unterschiedlichen Perspektiven beleuchtet werden, z.B. Augenzeugenschilderungen<br />

bei Überfal.<br />

Grundlagen SciVis – 4.2 InfoVis 77


Zeitabhängige Daten<br />

●<br />

Lineare Zeit vs. Zyklische Zeit: Solen Muster erkannt werden, ist nicht nur darauf zu<br />

achten, das die richtige Technik verwendet wird, sondern auch, das sie korekt<br />

parametrisiert ist.<br />

In untenstehendem Beispiel wurden Influenzafalzahlen in Norddeutschland visualisiert. Im<br />

Balkendiagramm sind Muster nur schwer zu erahnen (auch weil eine korekte<br />

Achsenbeschriftung fehlt). Im mitleren Diagramm (Spiraldiagramm) wurde ein Zyklus von<br />

27 Tagen angenommen und Muster sind nicht klar erkennbar. Bei einem Zyklus von 28<br />

Tagen (= 4 Wochen) wird der große Anzahl an Falzahlen am Montag deutlich.<br />

Grundlagen SciVis – 4.2 InfoVis 78


Zeitabhängige Daten<br />

●<br />

Zeitpunkte vs. Zeitinterval: Bei Intervaldaten geht es häufig um die Darstelung der<br />

zeitlichen Dauer. Ein weiterer wichtiger Aspekt ist hierbei die Darstelung von Unsicherheit,<br />

da etwa gerade bei Planungszeiten oft nicht genau gesagt werden kann, wie lange etwas<br />

exakt dauern wird.<br />

Grundlagen SciVis – 4.2 InfoVis 79


Zeitabhängige Daten<br />

●<br />

Geordnete Zeit vs. Verzweigende Zeit vs. Paralele Zeit: Ein Beispiel für verzweigende<br />

zeitabhängige Visualisierungen sind die WorldLines, die unterschiedliche<br />

Flutungszenarien darstelen.<br />

Waser, J.; Fuchs, R.; Ribicic, H.; Schindler, B.; Bloschl, G.; Groler, E.; , "World<br />

̌ ̌ ̈ ̈<br />

Lines," Visualization and Computer Graphics, IEEE Transactions on , vol.16,<br />

no.6, pp.1458-1467, Nov.-Dec. 2010<br />

Grundlagen SciVis – 4.2 InfoVis 80


Zeitabhängige Daten<br />

●<br />

Geordnete Zeit vs. Verzweigende Zeit vs. Paralele Zeit: Ein Beispiel für paralele Zeit ist<br />

die ThemeRiver (Themenflus)-Darstelung, welche die Relevanz verschiedener Größen<br />

(Themen, Kinofilme, etc) anzeigt und ihre zeitliche Entwicklung paralel darstelt.<br />

htp:/www.nytimes.com/interactive/2008/02/23/<br />

movies/20080223_REVENUE_GRAPHIC.html<br />

Grundlagen SciVis – 4.2 InfoVis 81


Inhaltsverzeichnis<br />

4.<strong>Skalardaten</strong><br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

2.Zeitreihen<br />

1.Algemeines<br />

2.Kalendervisualisierung<br />

3.Themenflus und geschichtete Diagramme<br />

3.Text<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 InfoVis 82


Kalendervisualisierung<br />

●<br />

Bei der Kalendervisualisierung [vanWijk 1999] solen Muster in univariaten Zeitreihendaten<br />

gefunden werden. Diese Muster sind häufig auf verschiedenen Skalen zu finden (Tage,<br />

Wochen, Saison) und haben einen Bezug zum Kalender (hier Arbeitszeiten von Menschen).<br />

Grundlagen SciVis – 4.2 InfoVis 83


Kalendervisualisierung – Clustering<br />

●<br />

Die Kalendervisualisierung nutzt ebenfals einen Clusteransatz, um Daten zu aggregieren,<br />

ohne dabei wichtige Details zu verlieren, wie es etwa geschehen würde, wenn man die<br />

Daten miteln würde (z.B. über ale Montage, pro Woche, pro Monat, etc).<br />

●<br />

Folgende Metriken clustern nach bestimmten Merkmalen in den Zeitreihen y und z:<br />

– Euklidischer Abstand →robustes generisches Maß<br />

– Normalisierter Euklidischer Abstand →ähnliche Form<br />

d E = 1 N √ ∑ i ( y i −z i ) 2 d NE = 1 N √ ∑ i ( y i / y max −z i / z max ) 2<br />

– Mitlere Diferenz-bereinigter Abstand →ähnliche Form mit Ofset<br />

d sh = 1 N √ ∑ i ( y i −z i −Δ) 2 Δ= 1 N ∑ i ( y i −z i )<br />

– Maximalabstand →Vergleich von Spitzenwerten<br />

d max<br />

=∣y max<br />

−z max<br />

∣<br />

Grundlagen SciVis – 4.2 InfoVis 84


Kalendervisualisierung – Beispiel<br />

Grundlagen SciVis – 4.2 InfoVis 85


Kalendervisualisierung – Beispiel<br />

Several conclusions can be drawn from this image. We see that:<br />

●<br />

Ofice hours are folowed strictly. Most people arivebetween 8:30 and 9:00 am, and leave<br />

between 4:00 and 5:00 pm. Furthermore, in the morning the number of employees present<br />

is slightly higher than in the afternoon.<br />

●<br />

On Fridays and in the summer fewer people are present (cluster 722);<br />

●<br />

On Fridays in the summer even fewer people are present (cluster 718);<br />

●<br />

●<br />

●<br />

In the weekend and at holidays only very few people are working (cluster 710): security<br />

and fire brigade;<br />

Holidays in the Netherlands in 1997 were January 1st, March 28th, March 31st, April 30th,<br />

May 5th,May 8th, May 19th, December 25th and 26th.<br />

School vacations are visible in Spring (May 3rd toMay 11th), in Autumn (October 11th to<br />

October 19th), and in Winter (December 21th to December 31st);<br />

●<br />

Many people take a day of after a holiday (cluster 721);<br />

●<br />

On December 5th many people left at 4:00 PM. Dutch people wil immediately know the<br />

explanation: On this day we celebrate Santa Claus and are alowed to leave earlier!<br />

Grundlagen SciVis – 4.2 InfoVis 86


Inhaltsverzeichnis<br />

4.<strong>Skalardaten</strong><br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

2.Zeitreihen<br />

1.Algemeines<br />

2.Kalendervisualisierung<br />

3.Themenfluss und geschichtete Diagramme<br />

3.Text<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 InfoVis 87


Paralele Zeitreihen<br />

●<br />

Eine Möglichkeit paralele Ereignise darzustelen, ist die Zeitreihendaten als geschichtete<br />

Balkendiagrammen zu visualisieren. Jeder Balken steht hierbei für einen Zeitpunkt und ist<br />

aufgegliedert in die paralelen Ereignise, welche nach Bedeutung gewichtet sind. Beispiel:<br />

Häufigkeit von Schlagwörtern in Zeitungsartikeln.<br />

88


Paralele Zeitreihen<br />

●<br />

●<br />

Probleme die hierbei auftreten sind:<br />

– Ein Thema ist nur schwer nachzuverfolgen (Anfang, Ende, Höhenvergleich).<br />

– Die Labels werden unübersichtlich, da die Farben nicht unterschieden werden<br />

können.<br />

Der Themenflus behebt diese Probleme, indem er zeitliche Kontinuität schaft und<br />

Themen miteinander verbindet.<br />

89


Themenfluss (ThemeRiver, Steamgraph)<br />

●<br />

●<br />

Ziel dieser Visualisierung ist die Beantwortung folgender Fragen:<br />

– Was sind die wichtigsten Themen zu einem bestimmten Zeitpunkt?<br />

– Wann hat ein Thema begonnen und wann geendet?<br />

– Welche Bereiche sind andersartig/interesant/aufalend?<br />

– Wann war ein bestimmtes Thema am wichtigsten?<br />

– Welche Themen traten zu welchen Zeitpunkt gleichzeitig auf?<br />

– Wie wichtig sind die verschiedenen Themen im Verhältnis zueinander?<br />

Nutzer haben mit dieser Visualisierung die folgenden Probleme:<br />

– Exakte Werte können nicht abgelesen werden?<br />

– Der zeitliche Vergleich ist zum Teil schwierig, da die Kurven sehr „wackelig“ sind.<br />

– Der Themenflus trägt absolute Werte ab. Hierdurch entstehen starke Verengungen<br />

an den Wochenenden, die iritierend sein können.<br />

– Die Sortierung der einzelnen Elemente ist nicht klar und hat keinen semantischen<br />

Hintergrund.<br />

90


NameVoyager<br />

●<br />

●<br />

Der NameVoyager umgeht einige dieser Probleme indem er<br />

– die Themen (hier Namen) alphabetisch sortiert.<br />

– eine fixe Basislinie verwendet und Achsen, sowie ein Giter einblendet.<br />

– Eine divergierende Farbgebung (zwei Farben: rosa für Mädchen, blau für Jungen)<br />

verwendet und die Heligkeit der Farbe durch die Häufigkeit bestimmt wird.<br />

Link zu NameVoyager:<br />

htp:/www.babynamewizard.com/voyager<br />

Grundlagen SciVis – 4.2 InfoVis 91


Name Voyager<br />

Namen mit Jo*<br />

Namen mit Lat*<br />

[Baby Names, Visualization, and Social Data Analysis.<br />

Martin Watenberg. InfoVis 2005.]<br />

Namen mit O*<br />

Grundlagen SciVis – 4.2 InfoVis 92


Themenfluss (ThemeRiver, Steamgraph)<br />

●<br />

●<br />

●<br />

Mit dem Design von geschichteten Graphen<br />

beschäftigt sich das Paper „Stacked Graphs –<br />

Geometry & Aesthetics“ [Byron 2008]<br />

Probleme die behandelt werden sind:<br />

– Wackler in den Kurven, die nicht in den<br />

Daten sind.<br />

– Unterschiedliche Wahrnehmung<br />

gleicher Werte in Abhängigkeit von der<br />

Steigung.<br />

– Lesbarkeit der einzelnen Schichten.<br />

– Ästhetik<br />

Diskutiert werden folgende Aspekte:<br />

– die Gesamtsilhouete<br />

– die Ordnung der Variablen<br />

– das Labeling<br />

– die Farbwahl<br />

[Filme des Sommers 2007 – Byron 2008]<br />

Grundlagen SciVis – 4.2 InfoVis 93


Gestapelte Graphen – Silhouete<br />

●<br />

●<br />

●<br />

Die Silhouete eines gestapelten Graphen wird durch<br />

die Basislinie g 0<br />

bestimmt, also der Unterkante des<br />

Graphen.<br />

Die einzelnen Zeitreihen werden hierfür ales<br />

reelwertige nichtnegative stetig-diferenzierbare<br />

Funktionen f 1 , …, f n modeliert, welche auf das Interval<br />

[0,1] skaliert wurden.<br />

Die Oberkante der i-ten Funktion ist nun durch<br />

folgende Funktion g i gegeben:<br />

i<br />

g i =g 0 + ∑ f i<br />

j=1<br />

●<br />

Wählt man g0 = 0 erhält man das übliche geschichtete<br />

Liniendiagramm.<br />

Grundlagen SciVis – 4.2 InfoVis 94


Gestapelte Graphen – Silhouete<br />

●<br />

Weitere Möglichkeiten für die Berechnung der Basislinie sind:<br />

– ThemeRiver<br />

g 0 =− 1 2 ∑ i=1<br />

n<br />

f i<br />

→Symmetrisch um x-Achse, kleinster Abstand<br />

von der x-Achse, minimale Steigungen der Randkurven.<br />

– Wackler<br />

g 0 =− 1 ∑ n<br />

n1 i=1<br />

n−i1f i<br />

→Kleine Änderungen in den lokalen<br />

Ableitungen der einzelnen Ströme.<br />

– Gewichtete Wackler<br />

g' 0 =− 1<br />

n<br />

∑<br />

∑ f i i=0<br />

i−1<br />

(0.5 f i '+∑<br />

j=1<br />

f j ')f i<br />

→Kleine Änderungen in den lokalen<br />

Ableitungen der einzelnen Ströme.<br />

Grundlagen SciVis – 4.2 InfoVis 95


Gestapelte Graphen – Farbgebung<br />

●<br />

●<br />

Die Farbgebung kann die Wahrnehmung verschiedene Themen sehr stark beeinflusen. Zu<br />

beachten sind:<br />

– Wichtige Themen (Integral über die Funktion) solten dunklere/kräftigere Farben<br />

erhalten, so das sie schnel aufalen.<br />

– Kontrast zwischen benachbarten Themen solte groß genug sein, so das sie<br />

unterschieden werden können.<br />

– Das Gesamtbild solte trotzdem harmonisch bleiben.<br />

– Schlusendlich solte die Graphik auch noch gut ausehen.<br />

Byron 2008 verwendet die rechts abgebildete Farbkodierung.<br />

Sie unterstützt folgende Aspekte:<br />

– Beginn eines Themas ist farblich kodiert.<br />

●<br />

●<br />

Kalte Farben: bekannte Themen/Musiker<br />

Warme Farben: Hot Topics, neue Themen<br />

– Sinkende Sätigung mit sinkender Popularität.<br />

– Ausgewählte natürliche Farben und speziel<br />

designte Übergänge für eine gute Optik.<br />

– Nichtlineare Übergänge um neue Themen hervorzuheben.<br />

Grundlagen SciVis – 4.2 InfoVis 96


Gestapelte Graphen – Farbgebung<br />

Grundlagen SciVis – 4.2 InfoVis 97


Gestapelte Graphen – Labeling<br />

●<br />

●<br />

●<br />

Bei der Beschriftung der einzelnen Themen mus auf folgende Aspekte geachtet werden:<br />

– Das Label sol visuelen Bezug zu den Daten haben.<br />

– Das Label überlagert keine anderen Labels oder Themen.<br />

– Das Label lenkt nicht von der Graphik ab.<br />

Der Algorithmus zur Detektion der besten<br />

Labelposition ist nicht angegeben (brute-force<br />

Ansatz). Denkbar ist etwa Bereich mit maximalem<br />

Integral zu suchen.<br />

Alternativ können standardmäßig auch keine<br />

Labels gezeigt werden und nur eingeblendet<br />

werden, wenn der Nutzer mit der Maus über ein<br />

Thema fährt.<br />

Grundlagen SciVis – 4.2 InfoVis 98


Gestapelte Graphen – Ordnung der Variablen<br />

●<br />

●<br />

Einen wichtigen Einfluß auf die<br />

Gesamterscheinung hat auch die Ordnung<br />

der Variablen.<br />

Mögliche Sortierungen sind:<br />

– Alphabetisch: Themen werden<br />

alphabetisch sortiert.<br />

→Viele Wackler und stark hervorstehende<br />

Bereiche<br />

– Anfangsdatum: Das neueste Thema ist<br />

am weitesten oben.<br />

→iritierendes Muster<br />

– Inside out: Je füher ein Thema beginnt,<br />

desto weiter rutscht es in die Mite des<br />

Datenstroms. Neuere Themen fügen<br />

sich dann links und recht an.<br />

→Starke Auschläge (meist am Anfang<br />

erscheinen am Rand) sind weniger<br />

iritierend und sorgen für weniger<br />

Wackler, Dirfts werden verhindert<br />

Grundlagen SciVis – 4.2 InfoVis 99


Gestapelte Graphen – Ordnung der Variablen<br />

Sortieralgorithmus<br />

●<br />

●<br />

●<br />

●<br />

Berechne das Gewicht eines jeden Themas (Integral über die Zeit).<br />

Sortiere nach Anfangszeit.<br />

Füge das älteste Thema in eine Liste ein.<br />

Füge jedes weitere Thema ein.<br />

– Am Anfang der Liste, wenn die Summe der Gewichte der Elemente nach dem ersten<br />

Element größer ist, als die aler Elemente vor ihm.<br />

– Am Ende der Liste, sonst.<br />

Grundlagen SciVis – 4.2 InfoVis 100


Inhaltsverzeichnis<br />

4.<strong>Skalardaten</strong><br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

2.Zeitreihen<br />

3.Text<br />

1.Schlagwörter: Wortwolken/-mosaike<br />

2.Zeitabhängige Schlagwörter: TIARA<br />

3.Textvisualisierung: WordTree<br />

4.Themenvisualisierung: ThemeScape<br />

5.Erweiterte Themen: FacetAtlas<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 InfoVis 101


Textvisualisierung<br />

●<br />

Im Bereich der Textvisualisierung wolen wir uns zwei große Bereiche ansehen:<br />

– Schlagwortvisualsierung: Welche Schlagwörter sind charakteristisch für einen<br />

Text/eine Sammlung von Texten? Wie häufig kommen sie vor?<br />

– Zusammenhangsvisualisierung: Wie stehen verschiedene Dokumente in<br />

Verbindung zueinander? Welche sind ähnlich und welche nicht und warum?<br />

Beatles Lyrics<br />

[htp:/thebeatlescompleteonukulele.co<br />

m/2009/10/039-the-word-radigan/]<br />

Symptome bei Krankheiten<br />

[Cao 2010]<br />

Grundlagen SciVis – 4.2 InfoVis 102


Darstelung von Texten<br />

Asociation footbal, more commonly known as footbal or soccer (etymology), is a team sport played between two teams of<br />

eleven players using a spherical bal. It is widely considered to be the most popular sport in the world.[1][2][3]<br />

The game is played on a rectangular gras or artificial turf field, with a goal in the centre of each of the short ends. The object<br />

of the game is to score by driving the bal into the opposing goal. In general play, the goalkeepers are the only players alowed<br />

to use their hands or arms to propel the bal; the rest of the team usualy use their feet to kick the bal into position,<br />

occasionaly using their torso or head to intercept a bal in midair. The team that scores the most goals by the end of the<br />

match wins. If the score is tied at the end of the game, either a draw is declared or the game goes into extra time and/or a<br />

penalty shootout, depending on the format of the competition.<br />

The modern game was codified in England folowing the formation of The Footbal Asociation, whose 1863 Laws of the<br />

Game created the foundations for the way the sport is played today. Footbal is governed internationaly by the Fédération<br />

Internationale de Footbal Asociation (International Federation of Asociation Footbal), commonly known by the acronym<br />

FIFA. The most prestigious international footbal competition is the FIFA World Cup, held every four years.[4]<br />

Footbal is played in accordance with a set of rules known as the Laws of the Game. The game is played using a single<br />

spherical bal, known as the footbal or soccer bal. Two teams of eleven players each compete to get the bal into the other<br />

team\'s goal (between the posts and under the bar), thereby scoring a goal. The team that has scored more goals at the end of<br />

the game is the winner; if both teams have scored an equal number of goals then the game is a draw. Each team is led by a<br />

captain.<br />

The primary law is that players other than goalkeepers may not deliberately handle the bal with their hands or arms during<br />

play, though they do use their hands during a throw-in restart. Although players usualy use their feet to move the bal<br />

around, they may use any part of their bodies other than their hands or arms.[5] Within normal play, al players are free to play<br />

the bal in any direction and move throughout the pitch, though the bal cannot be received in an ofside position.<br />

In typical game play, players atempt to create goal scoring opportunities through individual control of the bal, such as by<br />

dribbling, pasing the bal to a team-mate, and by taking shots at the goal, which is guarded by the opposing goalkeeper.<br />

Opposing players may try to regain control of the bal by intercepting a pas or through tackling the opponent in posesion<br />

of the bal; however, physical contact between opponents is restricted. Footbal is generaly a free-flowing game, with play<br />

stopping only when the bal has left the field of play or when play is stopped by the referee. After a stoppage, play<br />

recommences with a specified restart.[6]<br />

Frequency and top words :<br />

Word # FrequencyRank<br />

game 33 2.50% 1<br />

bal 32 2.40% 2<br />

players 32 2.40% 2<br />

goal 26 2.00% 3<br />

play 22 1.70% 4<br />

time 20 1.50% 5<br />

footbal 19 1.40% 6<br />

team 18 1.40% 6<br />

may 18 1.40% 6<br />

laws 17 1.30% 7<br />

At a profesional level, most matches produce only a few goals. For example, the 2005–06 season of the English Premier<br />

League produced an average of 2.48 goals per match.[7] The Laws of the Game do not specify any player positions other than<br />

goalkeeper,[8] but a number of specialised roles have evolved. Broadly, these include three main categories: strikers, or<br />

forwards, whose main task is to score goals; defenders, who specialise in preventing their opponents from scoring; and<br />

midfielders, who disposes the opposition and keep posesion of the bal in order to pas it to the forwards on their team.<br />

Players in these positions are refered to as outfield players, in order to discern them from the single goalkeeper. These<br />

positions are further subdivided according to the area of the field in which the player spends most time. For example, there<br />

are central defenders, and left and right midfielders. The ten outfield players may be aranged in any combination. The<br />

number of players in each position determines the style of the team\'s play; more forwards and fewer defenders creates a<br />

more aggresive and ofensive-minded game, while the reverse creates a slower, more defensive style of play. While players<br />

typicaly spend most of the game in a specific position, there are few restrictions on player movement, and players can switch<br />

positions at any time.[9] The layout of a team\'s players is known as a formation. Defining the team\'s formation and tactics is<br />

usualy the prerogative of the team\'s manager.[10]<br />

Grundlagen SciVis – 4.2 InfoVis 103


Darstelung von Texten<br />

Asociation footbal, more commonly known as footbal or soccer (etymology), is a team sport played between two teams of<br />

eleven players using a spherical bal. It is widely considered to be the most popular sport in the world.[1][2][3]<br />

The game is played on a rectangular gras or artificial turf field, with a goal in the centre of each of the short ends. The object<br />

of the game is to score by driving the bal into the opposing goal. In general play, the goalkeepers are the only players alowed<br />

to use their hands or arms to propel the bal; the rest of the team usualy use their feet to kick the bal into position,<br />

occasionaly using their torso or head to intercept a bal in midair. The team that scores the most goals by the end of the<br />

match wins. If the score is tied at the end of the game, either a draw is declared or the game goes into extra time and/or a<br />

penalty shootout, depending on the format of the competition.<br />

The modern game was codified in England folowing the formation of The Footbal Asociation, whose 1863 Laws of the<br />

Game created the foundations for the way the sport is played today. Footbal is governed internationaly by the Fédération<br />

Internationale de Footbal Asociation (International Federation of Asociation Footbal), commonly known by the acronym<br />

FIFA. The most prestigious international footbal competition is the FIFA World Cup, held every four years.[4]<br />

Footbal is played in accordance with a set of rules known as the Laws of the Game. The game is played using a single<br />

spherical bal, known as the footbal or soccer bal. Two teams of eleven players each compete to get the bal into the other<br />

team\'s goal (between the posts and under the bar), thereby scoring a goal. The team that has scored more goals at the end of<br />

the game is the winner; if both teams have scored an equal number of goals then the game is a draw. Each team is led by a<br />

captain.<br />

The primary law is that players other than goalkeepers may not deliberately handle the bal with their hands or arms during<br />

play, though they do use their hands during a throw-in restart. Although players usualy use their feet to move the bal<br />

around, they may use any part of their bodies other than their hands or arms.[5] Within normal play, al players are free to play<br />

the bal in any direction and move throughout the pitch, though the bal cannot be received in an ofside position.<br />

In typical game play, players atempt to create goal scoring opportunities through individual control of the bal, such as by<br />

dribbling, pasing the bal to a team-mate, and by taking shots at the goal, which is guarded by the opposing goalkeeper.<br />

Opposing players may try to regain control of the bal by intercepting a pas or through tackling the opponent in posesion<br />

of the bal; however, physical contact between opponents is restricted. Footbal is generaly a free-flowing game, with play<br />

stopping only when the bal has left the field of play or when play is stopped by the referee. After a stoppage, play<br />

recommences with a specified restart.[6]<br />

Frequency and top words :<br />

Word # FrequencyRank<br />

game 33 2.50% 1<br />

bal 32 2.40% 2<br />

players 32 2.40% 2<br />

goal 26 2.00% 3<br />

play 22 1.70% 4<br />

time 20 1.50% 5<br />

footbal 19 1.40% 6<br />

team 18 1.40% 6<br />

may 18 1.40% 6<br />

laws 17 1.30% 7<br />

At a profesional level, most matches produce only a few goals. For example, the 2005–06 season of the English Premier<br />

League produced an average of 2.48 goals per match.[7] The Laws of the Game do not specify any player positions other than<br />

goalkeeper,[8] but a number of specialised roles have evolved. Broadly, these include three main categories: strikers, or<br />

forwards, whose main task is to score goals; defenders, who specialise in preventing their opponents from scoring; and<br />

midfielders, who disposes the opposition and keep posesion of the bal in order to pas it to the forwards on their team.<br />

Players in these positions are refered to as outfield players, in order to discern them from the single goalkeeper. These<br />

positions are further subdivided according to the area of the field in which the player spends most time. For example, there<br />

are central defenders, and left and right midfielders. The ten outfield players may be aranged in any combination. The<br />

number of players in each position determines the style of the team\'s play; more forwards and fewer defenders creates a<br />

more aggresive and ofensive-minded game, while the reverse creates a slower, more defensive style of play. While players<br />

typicaly spend most of the game in a specific position, there are few restrictions on player movement, and players can switch<br />

positions at any time.[9] The layout of a team\'s players is known as a formation. Defining the team\'s formation and tactics is<br />

usualy the prerogative of the team\'s manager.[10]<br />

Grundlagen SciVis – 4.2 InfoVis 104


Wortwolke/-mosaik (TagCloud, Wordle)<br />

●<br />

●<br />

In einer Schlagwortwolke wird eine Liste von Schlagwörtern flächig<br />

dargestelt. Wichtige Wörter werden zumeist durch Skalierung<br />

hervorgehoben.<br />

Skalierung der Wörter nach Häufigkeit:<br />

a=<br />

√ n i−n min<br />

n max −n min<br />

s i<br />

=(1−a)⋅s min<br />

+a⋅s max<br />

mit<br />

– n i<br />

: Häufigkeit des aktuelen Wortes<br />

– n min<br />

: Häufigkeit des seltensten Wortes<br />

– n max<br />

: Häufigkeit des häufigsten Wortes<br />

– s min<br />

: kleinste Schriftgröße<br />

– s max<br />

: größte Schriftgröße<br />

●<br />

Wordle: htp:/www.wordle.net<br />

Grundlagen SciVis – 4.2 InfoVis 105


Beispiele – flickr<br />

Grundlagen SciVis – 4.2 InfoVis 106


Wortwolke (TagCloud, Wordle)<br />

●<br />

Die einfachste Art dieser Darstelung ist die Wortwolke. Hier werden die Worte<br />

alphabetisch in Zeilen angeordnet. Die Größe eines Wortes entspricht wie gehabt seiner<br />

Häufigkeit.<br />

●<br />

●<br />

Vorteile:<br />

– Leicht zu implementieren<br />

– Leichtes Suchen nach bestimmten<br />

Wörtern<br />

Nachteile:<br />

– Platz wird nicht efizient ausgenutzt<br />

– Position von Wörtern kann nur wenig<br />

beeinflust werden<br />

wikipedia: Häufigste<br />

Schlagwörter bei Flickr<br />

Grundlagen SciVis – 4.2 InfoVis 107


Wortmosaik (TagCloud, Wordle)<br />

●<br />

Im Wortmosaik kann die Position der einzelnen Wörter frei bestimmt werden. Häufig<br />

werden Optimierungsalgorithmen eingesetzt, die für eine kompakte Darstelung sorgen.<br />

●<br />

Vorteile:<br />

– Besere Ausnutzung des Platzes<br />

– Meist optisch ansprechender<br />

– Text kann in eine bestimmte<br />

Form eingepast werden<br />

●<br />

Nachteile:<br />

– Rechenaufwand<br />

– Suche nach bestimmten Wörtern<br />

sehr umständlich<br />

[InfoVis:Wiki]<br />

[htp:/manyeyes.alphaworks.ibm.com/manyeyes/]<br />

Grundlagen SciVis – 4.2 InfoVis 108


Demo Wordle<br />

●<br />

●<br />

Programm: Wortwolkengenerator Wordle unter<br />

htp:/www.wordle.net/<br />

Text: 1. Mose – Schöpfungsgeschichte (Bibel) unter<br />

htp:/www.bibel-online.net/buch/01.1-mose/1.html#1,1<br />

Grundlagen SciVis – 4.2 InfoVis 109


[htp:/readwrite.com/2008/08/02/tag_clouds_rip]<br />

Grundlagen SciVis – 4.2 InfoVis 110


Wortwolke Algorithmus<br />

●<br />

Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />

(z.B. htp:/fivefilters.org/term-extraction/)<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Grundlagen SciVis – 4.2 InfoVis 111


Wortwolke Algorithmus<br />

●<br />

●<br />

Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />

Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert.<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Grundlagen SciVis – 4.2 InfoVis 112


Wortwolke Algorithmus<br />

●<br />

●<br />

●<br />

Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />

Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert.<br />

Man sortiere die Wörter nach absteigender Relevanz.<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Sonne<br />

Badesee<br />

Fussball<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 InfoVis 113


Wortwolke Algorithmus<br />

●<br />

●<br />

●<br />

●<br />

Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />

Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert.<br />

Man sortiere die Wörter nach absteigender Relevanz.<br />

Für jedes Wort wird bestimmt, ob es horizontal oder vertikal angezeigt werden sol.<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Badesee<br />

Eis<br />

Fussball<br />

Heidelberg<br />

Sommer<br />

Sonne<br />

Urlaub<br />

Wasser<br />

Sonne<br />

Badesee<br />

Fussball<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 InfoVis 114


Wortwolke Algorithmus<br />

●<br />

●<br />

●<br />

●<br />

●<br />

Man nehme einen Text, ein Themengebiet etc. und extrahiere die relevanten Wörter.<br />

Die Schriftgröße eines jeden Wortes wird entsprechend seiner Bedeutung skaliert.<br />

Man sortiere die Wörter nach absteigender Relevanz.<br />

Für jedes Wort wird bestimmt, ob es horizontal oder vertikal angezeigt werden sol.<br />

Innerhalb eines begrenzten Bereiches bestimmt man für jedes Wort eine zufälige<br />

Startposition.<br />

Sonne<br />

Badesee<br />

7<br />

1<br />

Fussball<br />

5<br />

Urlaub<br />

Wasser<br />

2<br />

4<br />

8<br />

6<br />

3<br />

Sommer<br />

Eis<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 InfoVis 115


Wortwolke Algorithmus<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Sonne<br />

Badesee<br />

7<br />

1<br />

Fussball<br />

5<br />

Urlaub<br />

Wasser<br />

4<br />

Sonne<br />

2<br />

8<br />

6<br />

3<br />

Sommer<br />

Eis<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 InfoVis 116


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

Badesee<br />

7<br />

1<br />

Fussball<br />

5<br />

Urlaub<br />

Wasser<br />

4<br />

Sonne<br />

2<br />

8<br />

6<br />

3<br />

Sommer<br />

Eis<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 InfoVis 117


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Badesee<br />

Fussball<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

4<br />

Sonne<br />

5<br />

Badesee<br />

2<br />

8<br />

6<br />

3<br />

Grundlagen SciVis – 4.2 InfoVis 118


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Fussball<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

4<br />

Sonne<br />

5<br />

Badesee<br />

2<br />

8<br />

6<br />

3<br />

Grundlagen SciVis – 4.2 InfoVis 119


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Fussball<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

4<br />

Sonne<br />

5<br />

2<br />

Badesee<br />

8<br />

6<br />

3<br />

Grundlagen SciVis – 4.2 InfoVis 120


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Fussball<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

4<br />

Sonne<br />

5<br />

2<br />

Badesee<br />

8<br />

6<br />

3<br />

Grundlagen SciVis – 4.2 InfoVis 121


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Urlaub<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

4<br />

Sonne<br />

5<br />

2<br />

Fussball 3<br />

Badesee<br />

8<br />

6<br />

Grundlagen SciVis – 4.2 InfoVis 122


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Wasser<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

Urlaub<br />

4<br />

Sonne<br />

5<br />

2<br />

Fussball 3<br />

Badesee<br />

8<br />

6<br />

Grundlagen SciVis – 4.2 InfoVis 123


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Sommer<br />

Eis<br />

Heidelberg<br />

7<br />

Wasser 5<br />

Urlaub<br />

4<br />

Sonne<br />

2<br />

Fussball 3<br />

Badesee<br />

8<br />

6<br />

Grundlagen SciVis – 4.2 InfoVis 124


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

7<br />

Wasser 5<br />

Urlaub<br />

4<br />

Sonne<br />

2<br />

Fussball 3<br />

Badesee<br />

Sommer<br />

8<br />

6<br />

Eis<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 InfoVis 125


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Eis 7<br />

Wasser 5<br />

Urlaub<br />

2<br />

4<br />

Sonne<br />

Fussball 3<br />

Badesee<br />

Sommer<br />

8<br />

6<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 InfoVis 126


Wortwolke Algorithmus<br />

●<br />

●<br />

Man versucht nun sukzesive jedes Wort an der Position anzuzeigen, die vorher bestimmt<br />

wurde.<br />

Es ergeben sich nun zwei Fäle:<br />

– Das Wort überdeckt kein anderes → Es bleibt wo es ist.<br />

– Das Wort überdeckt ein anderes → Suche entlang einer Spirale eine freie<br />

Position.<br />

Eis<br />

Sonne<br />

Wasser<br />

Urlaub<br />

Fussball<br />

Badesee<br />

Sommer<br />

Heidelberg<br />

Grundlagen SciVis – 4.2 InfoVis 127


Wortwolken – Implementierung<br />

●<br />

●<br />

Überdeckungstest: Um zu Testen, ob ein Wort die bereits dargestelten Wörter überdeckt,<br />

gibt es zwei wesentliche Ansätze:<br />

– Geometrische Schnitberechnung zwischen Zeichen: Jedes bereits Dargestelte<br />

Zeichen wird mit den Buchstaben des neuen Wortes geschniten.<br />

– Pixelbasierte Analyse zwischen gerenderten Wörtern: Ale bereits dargestelten<br />

Wörter sind in einer Textur gespeichert. Das neue Wort wird ebenfals in einer Textur<br />

gespeichert und es wird nun pixelweise verglichen, ob die vom Wort benötigten Pixel<br />

noch frei sind.<br />

Der pixelbasierte Ansatz ist hier wesentlich efizienter, da er unabhängig von der Anzahl<br />

der Wörter ist und durch Filter (Bildverarbeitung) noch beschleunigt werden kann.<br />

Halo Text<br />

Grundlagen SciVis – 4.2 InfoVis 128


Wahrnehmung von Wortwolken<br />

●<br />

●<br />

●<br />

●<br />

●<br />

Interpretation: Manchen Betrachter fält die Interpretation der Darstelung schwer.<br />

Größe von Wörtern: Große Wörter ziehen mehr Aufmerksamkeit auf sich als kleine<br />

Wörter. Dies wird auch beeinflust durch Anzahl der Buchstaben und nebenstehende<br />

Wörter.<br />

Position: Wörter im Zentrum der Wortwolke ziehen mehr Aufmerksamkeit auf sich als<br />

solche am Rand.<br />

Informationsaufnahme: Die meisten Betrachter analysieren eher die Struktur, als das sie<br />

einzelne Wörter lesen.<br />

Datenerkundung: Es ist eher schwierig gezielt nach Wörtern in einer Wortwolke zu<br />

suchen.<br />

[Lohmann, S., Ziegler, J., Tetzlaf, L. Comparison of<br />

Tag Cloud Layouts: Task-Related Performance and<br />

Visual Exploration, T. Gros et al. (Eds.): INTERACT<br />

2009, Part I, LNCS 5726, pp. 392–404, 2009.]<br />

Grundlagen SciVis – 4.2 InfoVis 129


Wortwolke – Probleme und Lösungsansätze<br />

●<br />

Mangelnde Interaktivität: Wortwolken werden zumeist einmal berechnet und müsen<br />

dann so interpretiert werden, wie sie sind.<br />

→ Erweiterung um eine Zoomfunktion, die es dem Nutzer ermöglicht minimale<br />

Häufigkeitswerte anzugeben. (Achtung: Kohärenz mus gegeben bleiben)<br />

●<br />

Keine zeitliche Abgrenzung: Die zeitliche Information die in Textdaten steckt, welche<br />

über einen langen Zeitraum aufgezeichnet wurden, werden normalerweise nicht<br />

abgebildet (Häufigkeit wird relativ zum Gesamtbestand berechnet).<br />

→ Zeitpunkt des ersten Auftrits wird mitgespeichert und in die Skalierung<br />

hineingerechnet. (Unterscheidung zwischen Al-Time-Favourites und zeitlich begrenzten<br />

Häufungen.)<br />

●<br />

Keine semantische Anordnung: Begriflich ähnliche Wörter sind räumlich nicht nah<br />

angeordnet.<br />

→Verfahren aus der Computerlinguistik einbeziehen um zusammengehörige Wörter zu<br />

identifizieren und benachbart anzuordnen.<br />

Grundlagen SciVis – 4.2 InfoVis 130


Inhaltsverzeichnis<br />

4.<strong>Skalardaten</strong><br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

2.Zeitreihen<br />

3.Text<br />

1.Schlagwörter: Wortwolken/-mosaike<br />

2.Zeitabhängige Schlagwörter: TIARA<br />

3.Textvisualisierung: WordTree<br />

4.Themenvisualisierung: ThemeScape<br />

5.Erweiterte Themen: FacetAtlas<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 InfoVis 131


TIARA<br />

Figure 8: TIARA’s visual summary of the “cause of injury” field of the 23,000+ emergency room records from 2002 to 2003.<br />

We have previously shown the visual summary of the “reason for visit” in Fig. 1. In addition to visualy summarizing the<br />

free-text fields (e.g. “cause of injury”, “diagnosis” and “reason for visit” in the above figure), TIARA incorporates structured<br />

fields (e.g. patient gender) to explain the visual summary. As shown, the topics in the “cause of injury” field including<br />

“cuting”, “lifting”, “twisting”, “fracturing”, etc.<br />

Grundlagen SciVis – 4.2 InfoVis 132


TIARA<br />

●<br />

●<br />

TIARA [Wei 2010] kombiniert die Konzepte des Themenfluses und der Wortwolke. Hier<br />

werden Themen klasifiziert und jedes Cluster wird als Strang im Flus dargestelt.<br />

Für die Visualisierung sind auch hier einige Vorverarbeitungsschrite nötig:<br />

– Schlagwortextraktion bestimmt, welche Wörter im Text relevant sind.<br />

– Themenextraktion: Anschließend werden die Dokumente basierend auf ihren<br />

Schlagwörtern verschiedenen Themengebieten zugeordnet, z.B. Clustering ( →<br />

Algorithmen aus Computerlinguistik). TIARA bietet verschiedene Algorithmen an, u.a.<br />

solche die ein Dokument zu mehreren Themengebieten zuordnet.<br />

– Themenrangliste: Der Themenflus benötigt eine Sortierung der einzelnen Elemente.<br />

TIARA sortiert hier nach Wichtigkeit der Themengebiet. Hierfür wird eine<br />

Themenrangliste erstelt. Hierzu wird eine Mischung aus Dokumentenabdeckung und<br />

Themenvarianz verwendet.<br />

d i : Dokument i<br />

K: Anzahl der Schlagwörter<br />

N: Anzahl der Dokumente<br />

N i : Anzahl Wörter in d i<br />

Θ i : Häufigkeitsmatrix<br />

Grundlagen SciVis – 4.2 InfoVis 133


TIARA<br />

●<br />

●<br />

TIARA [] kombiniert die Konzepte des Themenfluses und der Wortwolke. Hier werden<br />

Themen klasifiziert und jedes Cluster wird als Strang im Flus dargestelt.<br />

Für die Visualisierung sind auch hier einige Vorverarbeitungsschrite nötig:<br />

– Schlagwortextraktion bestimmt, welche Wörter im Text relevant sind.<br />

– Themenextraktion: Anschließend werden die Dokumente basierend auf ihren<br />

Schlagwörtern verschiedenen Themengebieten zugeordnet, z.B. Clustering. TIARA<br />

bietet verschiedene Algorithmen an, u.a. solche die ein Dokument zu mehreren<br />

Themengebieten zuordnet.<br />

– Themenrangliste: Der Themenflus benötigt eine Sortierung der einzelnen Elemente.<br />

TIARA sortiert hier nach Wichtigkeit der Themengebiet. Hierfür wird eine<br />

Themenrangliste erstelt. Hierzu wird eine Mischung aus Dokumentenabdeckung und<br />

Themenvarianz verwendet.<br />

– Themenspezifische Schlagwortrangliste: Außerdem werden für jedes Thema<br />

Schlagwörter gesucht, die für dieses besonders charakteristisch sind und die in<br />

anderen Themengebieten nur selten auftrete.<br />

– Zeitspezifische Schlagwörter: Zusätzlich werden Schlagwörter gefiltert, die für einen<br />

bestimmten Zeitabschnit charakteristisch sind. Hierbei wir darauf geachtet, das die<br />

Zeitunterteilung sich an der Dauer von Themen orientiert.<br />

Grundlagen SciVis – 4.2 InfoVis 134


TIARA – Beispiele<br />

Figure 1: TIARA’s visual summary of the “reason<br />

for visit” field of the 23,000+ patient emergency<br />

room records, depicting 8 major reasons of visit.<br />

Grundlagen SciVis – 4.2 InfoVis 135


TIARA – Beispiele<br />

Figure 3: TIARA’s visual summary of 8,000+ emails. In the visualization, each layer represents a topic, which is described by a<br />

set of keywords. We show the top 8 topics out of 18 topics in total. These topic keywords are distributed along time,<br />

summarizing the content evolution over time. The x-axis encodes the time and the y-axis encodes the strength of each topic.<br />

For each topic , the height encodes the number of emails of the topic at a particular time. From the height of each topic and<br />

its content distributed over time, the user can observe the topic evolution over time.<br />

Grundlagen SciVis – 4.2 InfoVis 136


Inhaltsverzeichnis<br />

4.<strong>Skalardaten</strong><br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

2.Zeitreihen<br />

3.Text<br />

1.Schlagwörter: Wortwolken/-mosaike<br />

2.Zeitabhängige Schlagwörter: TIARA<br />

3.Textvisualisierung: WordTree<br />

4.Themenvisualisierung: ThemeScape<br />

5.Erweiterte Themen: FacetAtlas<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 InfoVis 137


Goethe's Faust für Fortgeschritene<br />

Grundlagen SciVis – 4.2 InfoVis 138


Goethe's Faust für Fortgeschritene<br />

Visualisiert mit ManyEyes<br />

Grundlagen SciVis – 4.2 InfoVis 139


Goethe's Faust für Fortgeschritene<br />

Grundlagen SciVis – 4.2 InfoVis 140


Goethe's Faust für Fortgeschritene<br />

Grundlagen SciVis – 4.2 InfoVis 141


Goethe's Faust für Fortgeschritene<br />

Grundlagen SciVis – 4.2 InfoVis 142


Wörterbaum (Word Tree)<br />

●<br />

●<br />

Der Wörterbaum basiert auf der Datenstruktur des Sufixbaumes. Dieser speichert ale<br />

Endungen einer Zeichenkete (hier Folge von Wörtern und Zeichen) und ist besonders gut<br />

geeignet zum Suchen von Wörtern und Phrasen.<br />

Die Visualisierung orientiert sich stark an der Struktur des Baumes und erhält größtenteils<br />

das lineare Layout von Text.<br />

Grundlagen SciVis – 4.2 InfoVis 143


Wörterbaum – Layout<br />

●<br />

Die Schriftgröße einzelner Wörter und Phrasen orientiert sich an deren Häufigkeit im Text.<br />

Es wir wieder entsprechend der Wurzel der Frequenz skaliert, um der zweidimensionalen<br />

Ausdehnung gerecht zu werden.<br />

Text Text Text Text Text Text<br />

1.0 0.8 0.6 0.4 0.2 0.0<br />

●<br />

Bei der Farbgebung wird zwischen Baumstruktur und zusätzlichen Text unterschieden.<br />

Wörter des eigentlichen Baumes sind schwarz dargestelt, zusätzlicher Text, der den<br />

Kontext des Wortes angibt, ist grau dargestelt.<br />

●<br />

Satzzeichen und Stoppwörter werden beibehalten, um ein intuitives Suchen und Lesen zu<br />

ermöglichen.<br />

Grundlagen SciVis – 4.2 InfoVis 144


Wörterbaum – Layout<br />

●<br />

Für die Anordnung der Unterbäume gibt es folgende Optionen:<br />

– Alphabetisch<br />

– Nach Häufigkeit<br />

– Nach Reihenfolge des Auftretens im Text<br />

●<br />

Beim Starten ist die Seite leer. Der Nutzer mus selbst ein Wort eingeben, um die<br />

Visualisierung zu starten. Mögliche initiale Visualisierungen sind:<br />

– Häufigste Wörter<br />

– Baum mit vielen Verzweigungen<br />

– Baum mit tiefster Verzweigung<br />

Grundlagen SciVis – 4.2 InfoVis 145


Wörterbaum – Animation und Interaktion<br />

●<br />

●<br />

●<br />

●<br />

Der Wörterbaum wird immer dann aktualisiert, wenn der Nutzer<br />

– Enter drückt,<br />

– ein Satzzeichen eingibt oder<br />

– ein Leerzeichen eingibt.<br />

Kontinuierliche Updates nach der Eingabe jedes Zeichens wurden als iritierend<br />

empfunden.<br />

Es gibt zwei Interaktionsmechanismen:<br />

– Anclicken eines Wortes: erweitert die aktuele Phrase bis zu diesem Wort<br />

– Strg+Anclicken: Startet eine neue Suche mit dem angeclickten Wort.<br />

Der Übergang zu einer erweiterten Darstelung ist fließend, so das der Kontext erhalten<br />

bleibt und der Nutzer sich leichter im neuen Bild orientieren kann.<br />

Der Nutzer kann außerdem wählen, ob er Sätze sucht die mit der gewählten Wortkombination<br />

anfangen oder enden.<br />

●<br />

Demo:<br />

htp:/www-958.ibm.com/software/data/cognos/manyeyes/visualizations/new/word-tree/faust-d<br />

Grundlagen SciVis – 4.2 InfoVis 146


Wörterbaum – Implementierungsdetails<br />

●<br />

●<br />

Der Wörterbaumalgorithmus in ManyEyes ist ein Java Applet. Hierdurch steht dem<br />

Programm relativ wenig Speicher zur Verfügung. Da der Aufbau des Sufixbaumes<br />

verhältnismäßig schnel geht, wird dieser on demand für die aktuele Phrase gebaut.<br />

Level-of-detail Ansätze werden verwendet um auch große bzw. stark verzweigte Bäume<br />

darzustelen. Unterbäume mit wenigen Einträgen werden reduziert dargestelt. Ähnliches<br />

gilt für Stoppwörter (z.B. und, der, die, das), die in vielen Kombination gebraucht werden.<br />

147


Wörterbaum – Beispiele<br />

Alberto Gonzales (ehem. US-Justizminister) Zeugenausage 2007<br />

Grundlagen SciVis – 4.2 InfoVis 148


Wörterbaum – Beispiele<br />

Bil Clintons Zeugenausage 1998<br />

Grundlagen SciVis – 4.2 InfoVis 149


Wörterbaum – Erweiterungen<br />

Folgende Erweiterungen wären hilfreich, um das Arbeiten mit dem Wörterbaum noch zu<br />

vereinfachen:<br />

●<br />

Erweiterungen:<br />

– Einstiegsvisualisierung, die einen Überblick über den Datensatz gibt.<br />

– Möglichkeit gefundene Pasagen im Gesamtkontext zu sehen, z.B. Highlighting in<br />

einem Überblicksdokument.<br />

– Zoomen&Verschieben der Visualisierung<br />

●<br />

Weitere Optionen:<br />

– Unterstützung für Umlaute und Sonderzeichen<br />

– An- und Abschalten von Stoppwörtern und Interpunktion<br />

– Anzeige des Wörterbaums in beide Richtungen (Info vor und nach dem Wort)<br />

– Wörterbaum nur für bestimmte Pasagen<br />

Grundlagen SciVis – 4.2 InfoVis 150


Inhaltsverzeichnis<br />

4.<strong>Skalardaten</strong><br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

2.Zeitreihen<br />

3.Text<br />

1.Schlagwörter: Wortwolken/-mosaike<br />

2.Zeitabhängige Schlagwörter: TIARA<br />

3.Textvisualisierung: WordTree<br />

4.Themenvisualisierung: ThemeScape<br />

5.Erweiterte Themen: FacetAtlas<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 InfoVis 151


Themenlandschaften (ThemeScape)<br />

htp:/mappa.mundi.net/maps/maps_015/#ref_2<br />

J. Wise, "Visualizing the Non-Visual: spatial<br />

analysis and interaction with information from text<br />

documents," Proceedings of the Information<br />

Visualization '95 Conference, Atlanta, GA, Oct.<br />

1995, pp. 51-58.<br />

Grundlagen SciVis – 4.2 InfoVis 152


Themenlandschaft<br />

●<br />

●<br />

Eine Themenlandschaft stele eine Dokumentenkolektion als Landschaft dar. Hügel<br />

repräsentieren Themengebiete. Je höher ein Hügel ist, desto mehr<br />

Information/Dokumente gibt es zu diesem Bereich. Die relative Lage der Hügel zueinander<br />

gibt an, wie ähnlich sich zwei Themengebiete sind.<br />

Algorithmus:<br />

– Schlagwortextraktion: Jedes Dokument wird beschlagwortet und durch einen k-<br />

dimensionalen Vektor repräsentiert (k ist die Anzahl der auftretenden Schlagwörter in<br />

der Dokumentenkolektion).<br />

– Projektion: Die Dokumente können nun als Punkte im k-dimensionalen Raum<br />

verstanden werden. Um sie im 2D darzustelen, werden häufig Projektionstechniken<br />

verwendet. Ziel hierbei ist es zumeist eine Präsentation im 2D zu finden, bei der die 2D<br />

Abstände möglichst ähnlich den kD Abständen sind.<br />

– Dichteschätzung: Jedem hochdimensionalen Punkt wird durch die Projektion eine<br />

Koordinate im 2D zugewiesen. Um hieraus nun eine Landschaft zeichnen zu können,<br />

benötigen wir Dichtewerte, die die Höhe angeben. Hierfür kann zB die Kerneldichteschätzung<br />

verwendet werden.<br />

– Rendering: Aus Datenpunkten und Höheninformation kann nun die Landschaft<br />

erstelt werden.<br />

Grundlagen SciVis – 4.2 InfoVis 153


Inhaltsverzeichnis<br />

4.<strong>Skalardaten</strong><br />

1.Diagramme<br />

2.InfoVis<br />

1.Multivariate Daten<br />

2.Zeitreihen<br />

3.Text<br />

1.Schlagwörter: Wortwolken/-mosaike<br />

2.Zeitabhängige Schlagwörter: TIARA<br />

3.Textvisualisierung: WordTree<br />

4.Themenvisualisierung: ThemeScape<br />

5.Erweiterte Themen: FacetAtlas<br />

3.SciVis<br />

Grundlagen SciVis – 4.2 InfoVis 154


Visualisierung von Dokumentenkolektionen<br />

●<br />

In vielen Dokumenten werden verschiedene Aspekte (Faceten) eines Themas beleuchtet,<br />

z.B.<br />

– Kochen: Zutaten, Zubereitung, Arbeitszeit, Kalorienangaben, Vegetarisch<br />

– Medizin: Krankheiten, Ursache, Symptome, Behandlung, Dauer, Verlauf/Prognose<br />

– Sport: Sportart, Anzahl Mitspieler, benötigte Ausrüstung/Spielfeld, in-/out-door<br />

●<br />

Sucht man nach Information in diesen Dokumenten kommt es häufig dazu, das man<br />

verschiedene Aspekte miteinander vergleichen möchte, z.B.<br />

– Bei welchen Krankheiten habe ich ähnliche Symptome?<br />

– Wie unterscheiden sich diese Krankheiten in ihrem Verlauf/ihrer Prognose?<br />

– Wie hängen diese Krankheiten zusammen und wie werden sie behandelt?<br />

●<br />

Hier hilft der FacetenAtlas [Cao 2010], dieser stelt die verschiedene Aspekte gleichzeitig<br />

dar, clustert ähnliche Strukturen und zeigt Relationen zwischen verschiedenen Aspekten<br />

auf.<br />

Grundlagen SciVis – 4.2 InfoVis 155


Facetenatlas (FacetAtlas)<br />

Grundlagen SciVis – 4.2 InfoVis 156


Facetenatlas - Datenstruktur<br />

Folgende Informationen werden im Facetenatlas in verschiedenen Datenstrukturen<br />

gespeichert:<br />

●<br />

●<br />

●<br />

●<br />

Entitäten sind Instanzen eines bestimmten Konzepts, z.B. „Apfelkuchen“, „Typ-1-Diabetes“,<br />

„Hockey“<br />

Faceten sind Klasen von Entitäten, z.B. Zubereitungszeit {10min., 5h., 25min.}, Krankheit<br />

{Erkältung, Grippe, Migräne}, Anzahl Mitspieler {1, 2, 4, 6, 12, 22}.<br />

Relationen sind Verbindungen zwischen Paaren von Entitäten. Wir unterscheiden<br />

– Interne Relationen verbinden Entitäten der gleichen Facet, z.B. Grippe und Migräne.<br />

– Externe Relationen verbinden Entitäten verschiedener Faceten, z.B. Fußbal mit 22<br />

und 90 Minuten.<br />

Cluster sind Gruppen ähnlicher Entitäten innerhalb einer Facete, z.B. innerhalb der<br />

Sportarten bilden die Balsportarten ein Cluster.<br />

Grundlagen SciVis – 4.2 InfoVis 157


Facetenatlas (FacetAtlas)<br />

Fig. 2. (a) The FacetAtlas multifaceted entity-relational data model. Concepts in a complex text corpus are transformed<br />

into facets, entities and relations. (b) The data model is visualy encoded using a spatial arangement of color-coded nodes<br />

and edges.<br />

Grundlagen SciVis – 4.2 InfoVis 158


Facetenatlas - Datenstruktur<br />

Um Suchanfragen später schnel verarbeiten zu können, wird ein relationales Datenmodel<br />

verwendet. Hierzu werden folgende Operationen ausgeführt.<br />

●<br />

●<br />

●<br />

Extraktion der Entitäten: Aus den Dokumenten müsen zunächst die relevanten Begrife<br />

extrahiert werden.<br />

Themenzugehörigkeit: Als nächstes mus für jede Entität bestimmt werden, zu welcher<br />

Facete sie gehört. Hierzu kann im einfachsten Fal geclustert (z.B. Ähnlichkeitsgraph)<br />

werden, wobei Clusternamen später manuel vergeben werden müsen. Die automatische<br />

Bestimmung von Themengebieten fält im Machine-Learning und der Computerlinguistik<br />

u.a. unter den Begrif Topic Modeling.<br />

In einigen Fälen, etwa in Datenbanken, sind die ersten beiden Schrite bereits erledigt und<br />

Themengebiete sind direkt gegeben.<br />

Suchindex: Für eine schnele Darstelung der Daten bei beliebigen Nutzeranfragen, wird<br />

zusätzlich ein Suchindex aufgebaut.<br />

Grundlagen SciVis – 4.2 InfoVis 159


Facetenatlas – Visuele Codierung<br />

●<br />

●<br />

●<br />

Faceten werden durch unterschiedliche Farben symbolisiert. Diese werden sowohl für die<br />

Entitäten als auch für die Relationen verwendet. In der Visualisierung kann der Nutzer eine<br />

Facete als primäre Facete auswählen. Die Daten werden dann entsprechend dieser<br />

gruppiert.<br />

Entitäten werden als Kreise in der Farbe ihrer Facete dargestelt. Die Größe des Kreises<br />

wird so skaliert, das sie die Stärke der Übereinstimmung mit der Nutzeranfrage angibt<br />

(große Kreise, hohe Übereinstimmung). Entitäten von sekundären Faceten werden in<br />

einem Knoten (Kompaktknoten) zusammengefast, so das ein übersichtlicheres Bild<br />

entsteht.<br />

Relationen werden auf zwei Arten codiert:<br />

– Interne Relationen zwischen verschiedenen Kompaktknoten werden als Kantenzug<br />

dargestelt. Farbe kodiert die Facete und Dicke die Stärke der Relation.<br />

– Externe Relationen werden durch räumliche Nähe dargestelt. Nahe dem primären<br />

Knoten werden die sekundären Kompaktknoten dargestelt, die zu ihm gehören.<br />

Grundlagen SciVis – 4.2 InfoVis 160


Facetenatlas – Algorithmus<br />

Grundlagen SciVis – 4.2 InfoVis 161


Facetenatlas – Algorithmus (Visualisierung)<br />

Der Algorithmus für den Facetenatlas besteht aus drei großen Blöcken:<br />

●<br />

●<br />

●<br />

Layout der Knoten (primäre Faceten und Kompaktknoten): Für jede primäre Entität und<br />

jeden sekundären Kompaktknoten wird ein Kreis dargestelt. Positionen der Kreise werden<br />

über ein Clusterlayout bestimmt. In diesem Schrit werden implizit externe Relationen<br />

dargestelt, da diese ebenfals durch das Layout codiert sind (Nähe zum primären Knoten).<br />

Rendern der internen Relationen: Interne Relationen werden als Kanten zwischen<br />

Knoten der gleichen Facete dargestelt. Geschwungene Linien, im Gegensatz zu geraden<br />

Verbindungen, lasen das Bild organischer und klarer erscheinen. Mitels Kantenbündelung<br />

werden ähnlich verlaufende Kanten zusammengefast und man erhält so ein<br />

übersichtlicheres Bild.<br />

[Holten, D. and Van Wijk, J. J. (2009), Force-Directed Edge Bundling for Graph Visualization. Computer Graphics<br />

Forum, 28: 983–990.]<br />

Darstelung der Cluster: Um Cluster zu markieren, wird die Darstelung mit einer Farbkarte<br />

hinterlegt. Bereiche, die viele Knoten enthalten, werden dunkler markiert, als solche<br />

mit wenigen Knoten. Somit werden Cluster schnel sichtbar. Die Farbverteilung ist diskret,<br />

jeder Bereich wird als Isokontur im Dichtefeld dargestelt. ( →Marching Cubes Algorithmus<br />

in Abschnit 4.3) Hierzu wird die Dichte über eine Kerneldichteschätzung approximiert.<br />

Grundlagen SciVis – 4.2 InfoVis 162


Facetenatlas – Interaktion<br />

Die Interaktion mit der Visualisierung spielt bei komplexen Datensätzen eine sehr wichtige<br />

Role. Mitels folgender Techniken, kann der Nutzer zusätzliche Information erhalten:<br />

●<br />

Hervorheben: Fährt der Nutzer mit der Maus über einen Knoten, so werden seine<br />

Verbindung hervorgehoben.<br />

Grundlagen SciVis – 4.2 InfoVis 163


Facetenatlas – Interaktion<br />

Die Interaktion mit der Visualisierung spielt bei komplexen Datensätzen eine sehr wichtige<br />

Role. Mitels folgender Techniken, kann der Nutzer zusätzliche Information erhalten:<br />

●<br />

●<br />

●<br />

●<br />

Hervorheben: Fährt der Nutzer mit der Maus über einen Knoten, so werden seine<br />

Verbindung hervorgehoben.<br />

Kontextwechsel: Der Nutzer kann interaktiv zwischen verschiedenen Kontexten wechseln,<br />

z.B. von Symptomen zu Krankheiten.<br />

Detailgrad: Per Slider kann die Anzahl der angezeigten Elemente geändert werden. Je<br />

höher der Sliderwert, desto beser müsen Ergebnise zur Suche pasen.<br />

Dokumente öfnen: Per Doppelklick können zugehörige Dokumente geöfnet werden.<br />

→Video mit Demo htp:/www.cse.ust.hk/~nancao/movie/facetatlas.mov<br />

Grundlagen SciVis – 4.2 InfoVis 164


Facetenatlas – Beispiel<br />

Fig. 7. Case study on HIV infection. (a) Semantic zoom.<br />

When zooming in on “Asymptomatic HIV Infection” from<br />

the initial view shown in Fig. 3, more related diseases are<br />

shown (highlighted in the red circle). The initial context is<br />

preserved and represented by the black circles. (b)<br />

Context switch. After switching from a disease view to a<br />

symptom view for “Asymptomatic HIV Infection”, two<br />

prominent symptom clusters are shown. These symptoms<br />

share similar complications within each cluster as<br />

indicated by the red links.<br />

Grundlagen SciVis – 4.2 InfoVis 165


Literatur<br />

●<br />

H. Reijner, Panopticon Software. The Development of the Horizon Graph. Vis Workshop, 2008.<br />

●<br />

Wilkinson L., Anand A., Grosman R.: Graphtheoretic scagnostics. IEEE Info Vis (2005), 157–164.<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

L. Wilkinson, A. Anand, R. Grosman: High-Dimensional Visual Analytics: Interactive Exploration Guided by<br />

Pairwise Views of Point Distributions. In: IEEE Transactions on Visualization and Computer Graphics. 12, Nr. 6,<br />

2006, S. 1363-1372.<br />

Wei Peng, Mathew O. Ward, and Elke A. Rundensteiner. 2004. Cluter Reduction in Multi-Dimensional Data<br />

Visualization Using Dimension Reordering. In Proceedings of the IEEE Symposium on Information<br />

Visualization (INFOVIS '04). IEEE Computer Society, Washington, DC, USA, 89-96.<br />

Eisen, M., Spelman, P., Brown, P., and Botstein, D. (1998), „Cluster analysis and display of genome-wide<br />

expresion paterns," Proceedings of the National Academy of Sciences, 95, 14863-14868.<br />

A. Dasgupta, R. Kosara. Pargnostics: screen-space metrics for paralel coordinates. IEEE Trans Vis Comput<br />

Graph. 2010;16(6):1017-26.<br />

Lee Byron and Martin Watenberg. 2008. Stacked Graphs – Geometry & Aesthetics. IEEE Transactions on<br />

Visualization and Computer Graphics 14, 6 (November 2008), 1245-1252.<br />

Watenberg, M.; Viegas, F.B.; , "The Word Tree, an Interactive Visual Concordance," Visualization and<br />

Computer Graphics, IEEE Transactions on , vol.14, no.6, pp.1221-1228, Nov.-Dec. 2008.<br />

Nan Cao; Jimeng Sun; Yu-Ru Lin; Gotz, D.; Shixia Liu; Huamin Qu; , "FacetAtlas: Multifaceted Visualization for<br />

Rich Text Corpora," Visualization and Computer Graphics, IEEE Transactions on , vol.16, no.6, pp.1172-1181,<br />

Nov.-Dec. 2010.<br />

●<br />

Furu Wei et al. TIARA: A Visual Exploratory Text Analytic System, KDD 2010.<br />

Grundlagen SciVis – 4.2 InfoVis 166

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!