Parallele Algorithmen zur Motivsuche in großen Netzwerken

DIPLOMARBEIT 

UNIVERSITÄTSZENTRUM INFORMATIK 

Martin-Luther-Universität Halle-Wittenberg 

Parallele Algorithmen zur Motivsuche in großen Netzwerken 

Sven Ritsche 

(2008) 

© Universitätszentrum Informatik • Universität Halle 

von-Seckendorff-Platz 1 • 06120 Halle (Saale)

Allgemeine Angaben 

Die Diplomarbeit wurde am Lehrstuhl für Datenstrukturen und effiziente Algorithmen 

von Prof. Dr. Matthias Müller-Hannemann, Institut für Informatik, Martin-Luther- 

Universität angefertigt. 

Zur Kontaktaufnahme benutzen Sie bitte die Email-Adresse 

direktor@uzi.uni-halle.de. 

Zusammenfassung 

Im Mittelpunkt der Diplomarbeit stand das Finden von Motiven in Netzwerken. Als 

Motiv eines Netzwerks bezeichnet man kleine induzierte Subgraphen, deren 

Auftreten sich innerhalb eines zu untersuchenden Netzwerks häufen kann. Das 

vermehrte Auftreten eines bestimmten Motivs deutet dabei auf eine strukturelle 

Eigenschaft hin, die für die Analyse großer Netzwerke von Bedeutung sein kann. Ein 

wichtiges Beispiel für die Relevanz von Motiven kann der Biologie entnommen 

werden, denn komplexe biologische und chemische Vorgänge innerhalb von 

Organismen können als sehr große Netzwerke dargestellt werden, und ein 

vermehrtes Auftreten eines Motivs kann auf eine wichtige biologische Funktion 

hindeuten. Die Wichtigkeit der Identifizierung solcher biologischen Funktionen ergibt 

sich daraus, dass sich diese Funktionen in einem lang andauernden evolutionären 

Prozess gebildet haben und somit besonders effizient sein können. Aber nicht nur in 

der Biologie haben Motive eine große Bedeutung, auch in der Technischen 

Informatik existieren Bestrebungen häufig auftretende Motive innerhalb von 

Schaltungen zu identifizieren, um eventuelle Optimierungen vornehmen zu können, 

indem diese speziellen Funktionen hinsichtlich Platz- oder Zeiteffizienz optimiert 

werden. 

Um die Signifikanz eines Motivs bezüglich des gegebenen Netzwerks zu zeigen, 

muss eine Vielzahl an strukturell ähnlichen Netzwerken auf dieses Motiv untersucht 

werden. Wenn es sich zeigt, dass die Anzahl der gefundenen Motive statistisch 

höher ist als die Anzahl in den strukturell ähnlichen Netzwerken, dann kann auf eine 

Bedeutung des Motivs geschlossen werden. Da zur Bestimmung der Signifikanz 

eines gegebenen Motivs eine Vielzahl an strukturell ähnlichen Netzwerken auf dieses 

Motiv untersucht werden muss, ist der Berechnungsaufwand sehr groß. Jedoch mit 

zunehmender Verbreitung von Multi-Prozessor-Systemen stellt sich die Frage nach 

Algorithmen, die die vorhandenen Ressourcen optimal ausnutzen, worunter auch die 

Verteilung des Berechnungsaufwands auf mehrere Prozessoren fällt. Dies kann zum 

einen geschehen, indem die Motive für mehrere unterschiedliche Netzwerke parallel 

berechnet werden, zum anderen es ist auch möglich die Motivsuche an sich zu 

parallelisieren, um gegebene strukturelle Vorteile des Netzwerks ausnutzen zu 

können. 

- 2 -

Die Algorithmen zur Motivsuche können in zwei Arten unterteilt werden, zum einen 

die Algorithmen, die alle vorhandenen Motive innerhalb eines Netzwerks bestimmen 

und deren Auftreten zählen, zum anderen die Algorithmen, die gegebene Netzwerke 

auf ein bestimmtes Motiv untersuchen. Beide Arten haben bestimmte Vorteile und 

aufgrund ihrer Aufgabenstellungen unterschiedliche Möglichkeiten zur Optimierung. 

Mit dem Erscheinen der Arbeit [GK07] wurden neue Möglichkeiten zur Optimierung 

der Algorithmen zur Suche nach einzelnen Motiven vorgestellt. Außerdem wird in 

dieser Arbeit zwar auf die Möglichkeiten zur Parallelisierung des gegebenen 

Algorithmus eingegangen, jedoch folgen keine genaueren Analysen. Es wird darin 

lediglich auf die parallele Suche in verschiedenen Netzwerken eingegangen, jedoch 

sollten auch die Möglichkeiten zur Parallelisierung einer konkreten Motivsuche 

untersucht werden. 

Ziel dieser Arbeit war es einerseits die Arbeitsweise des Algorithmus darzustellen 

und eine praktische Umsetzung zu erstellen. Andererseits wurden verschiedene 

Parallelisierungsansätze entwickelt und deren Vor- bzw. Nachteile näher untersucht. 

Nachfolgend wurden diese dann mit Hilfe der Boost-Threadbibliothek umgesetzt und 

hinsichtlich ihrer Effizienz untersucht. 

Die verschiedenen Parallelisierungen basieren dabei auf der nebenläufigen Suche 

nach dem gegebenen Motiv, sowie der Partitionierung des Netzwerks und der Suche 

innerhalb der Partitionen sowie zusätzlicher Berechnungen in Umgebung der 

Partitionsgrenzen. Mittels der Partitionierung sollte eine effiziente Ausnutzung der 

Speicherhierarchien erreicht werden. 

Die verschiedenen Vorgehensweisen lassen sich einteilen in eine triviale Suche, eine 

2-Phasen-Suche und eine 1-Phasen-Suche. Die triviale Suche berechnet die Motive 

nebenläufig für alle Knoten des Graphen. In der 2-Phasen-Suche wird der zu 

durchsuchende Graph partitioniert und nach Motiven durchsucht, die vollständig 

innerhalb einer Partition liegen. Ein nachfolgender Schritt sucht dann alle Motive, die 

sich über mehrere Partitionen erstrecken. In der 1-Phasen-Suche wird der zu 

durchsuchende Graph partitioniert und dann die nebenläufige Suche für jede Menge 

von Knoten einer Partition durchführt. Dabei bestand das Ziel der Motivsuche auf den 

Partitionen darin, die Zugriffe auf die unterliegende Datenstruktur zu optimieren. 

Die erarbeiteten Ansätze wurden implementiert und auf einem 16 Prozessor SMP- 

System getestet. Für die Implementierung der trivialen Variante zeigte sich ein 

Speedup, der jedoch hinter den theoretischen Erwartungen zurück blieb. Für die 2- 

Phasen-Suche konnte gezeigt werden, dass die Partitionierung eines Netzwerks und 

die Suche innerhalb der Partitionen die Laufzeit verringert und man somit einen 

vorteilhaften Einfluss des Caches annehmen kann. Insbesondere im Vergleich zur 

trivialen Variante zeigte sich ein deutlicher Vorteil. Die Laufzeiten können sich hierbei 

unterschiedlich auf die zwei Phasen verteilen. Bei einem Netzwerk, das eine geringe 

Anzahl an partitionsübergreifenden Kanten besitzt, wird sich der Großteil des 

Berechnungsaufwands auf die erste Phase beschränken. Es entstehen jedoch für die 

zweite Phase immer gewisse Grundkosten, da über alle Kanten des Netzwerks 

iteriert werden muss. Die dritte Variante zeigte ein noch besseres Laufzeitverhalten 

im Vergleich zu den zwei anderen Varianten. Zurückzuführen war dies auf die 

Vermeidung der Kosten für eine zweite Phase und der positiven Auswirkungen der 

Partitionierung. 

- 3 -

Da die Partitionierung eines Netzwerks Kosten verursacht, bietet es sich an nacheinander 

nach mehreren Motiven zu suchen und somit nur einmal die Partitionierung 

berechnen zu müssen. 

Literatur 

[GK07] GROCHOW, Joshua A. ; KELLIS, Manolis: Network Motif Discovery 

Using Subgraph Enumeration and Symmetry-Breaking. In: RECOMB, 

2007, S. 92–106 

- 4 -

Parallele Algorithmen zur Motivsuche in großen Netzwerken

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?