Grundlagen der Informatik III Wintersemester 2010/2011 â 28 ...

Grundlagen der Informatik III 

Wintersemester 2010/2011 – 28. Vorlesung 

Dr.-Ing. Wolfgang Heenes 

int main() { 

printf("Hello, world!"); 

return 0; 

} 

msg: 

main: 

.data 

.asciiz "Hello, world!" 

.text 

.globl main 

la $a0,msg 

li $v0,4 

syscall 

jr $ra 

9. Februar 2011 | Technische Universität Darmstadt | Dr.-Ing. Wolfgang Heenes | 1

Inhalt 

1. Literatur 

2. Multiprozessorsysteme 

3. Verbindungsnetzwerke 

4. Kostenmodelle und Kommunikationsmodelle 

5. Anwendung von Verbindungsnetzwerken 

6. Praktische Realisierungen 

7. Zusammenfassung und Ausblick 


Literatur 

[Sch97] Schürmann, Bernd: Rechnerverbindungsstrukturen. 

Vieweg Verlag, Braunschweig, Wiesbaden, 1997. 


Multiprozessorsysteme 

◮ Multiprozessorsysteme werden nach Flynn´s Taxonomie in die Klasse MIMD 

eingeteilt. 

◮ Anhand der Entfernung der Systemkomponenten und der Übertragungsrate 

wird festgelegt, ob ein paralleles Rechnersystem als Multiprozessorsystem 

bezeichnet wird 

◮ Taxonomie: Multiprozessorsysteme werden auf einer ersten Ebene in 

speichergekoppelte und nachrichtengekoppelte Systeme unterteilt. 

◮ In der Vergangenheit wurden verschiedene Multiprozessorsysteme mit 

mehrstufigen Schalternetzwerken gebaut. 

◮ Ein nachrichtengekoppeltes Multiprozessorsystem ist der 

SUPRENUM-1-Rechner 



◮ Die Abbildung zeigt ein Rechnersystem mit physikalisch gemeinsamem 

Speicher. 



◮ Die physikalische Struktur eines Rechnersystems mit verteiltem Speicher ist 

in der folgenden Abbildung zu sehen. Jeder Knoten besteht aus einem 

Prozessor und einem Speicher und ggf. der I/O Peripherie. Die Knoten 

werden über ein Verbindungsnetzwerk gekoppelt. 


Verbindungsnetzwerke 

◮ Die Verbindungsnetzwerke sind ein wesentlicher Bestandteil von 

Parallelrechnern und bestimmen maßgeblich deren Leistungsfähigkeit [Sch97] 

◮ Ein Verbindungsnetzwerk ist innerhalb eines Parallelrechners in zwei 

Ausprägungen vorhanden. 

◮ Verbindungsnetzwerk zur Kopplung von Prozessoren, Speichern und 

I/O-Einheiten 

◮ Verbindungsnetzwerk zur Kopplung mehrerer Knoten, wobei jeder Knoten aus 

Prozessor, Speicher und I/O-Einheiten besteht 

◮ Verbindungsnetzwerke sind auch in der Kommunikationstechnik (Telefon) zu 

finden. 

◮ Nach was für Kriterien werden Verbindungsnetzwerke charakterisiert? 



◮ Die Kriterien, nach denen Verbindungsnetzwerke charakterisiert werden, sind: 

◮ Die Übertragungsgeschwindigkeit/Bandbreite des Verbindungsnetzwerks. 

Außerdem ist die Bisektionsbandbreite, also die Bandbreite die benötigt wird, 

wenn die eine Hälfte der Knoten an die andere Hälfte gleichzeitig sendet, eine 

wichtige Kenngröße. 

◮ Die Latenz des Verbindungsnetzwerks. Damit wird die Verzögerung 

beschrieben, die vom Absenden einer Nachricht bzw. eines Datums bis zur 

Ankunft und der Verarbeitung gemessen wird. 

◮ Skalierbarkeit bezeichnet die Eigenschaft, ein Verbindungsnetzwerk (modular) 

zu erweitern. 

◮ Das Blockierungsverhalten beschreibt, inwiefern ggf. Einschränkungen auf 

bestehende Verbindungen durch andere Verbindungen zu erwarten sind. 



◮ Weitere Kriterien an ein Verbindungsnetzwerk sind die Kosten, die räumliche 

Ausdehnung und die Fehlertoleranz. 

◮ Die Einteilung der Verbindungsnetzwerke kann nach folgenden Kriterien 

vorgenommen werden. 

◮ Topologie 

◮ Verbindungsart 

◮ Steuerung des Verbindungsaufbaus 

◮ Arbeitsweise 

◮ Die Topologie spielt dabei eine herausragende Rolle, da sie Eigenschaften 

wie Skalierbarkeit entscheidend mitbestimmt. 

◮ Die Auswahl des geeigneten Verbindungsnetzwerks trägt im Wesentlichen zur 

Leistungssteigerung eines Parallelrechners bei, da in der Regel die 

Leistungsgrenze immer durch die erzielbare Speicherbandbreite und die 

Kommunikationsbandbreite begrenzt ist. 



◮ Die Topologie, also die räumliche Anordnung eines Verbindungsnetzwerkes, 

kann in reguläre und irreguläre Strukturen unterteilt werden. 

◮ Irreguläre Strukturen werden in Parallelrechnern selten eingesetzt. 

◮ Reguläre Strukturen haben den Vorteil, Prozessoren und damit auch auf das 

Programmiermodell bezogen Prozesse in regelmäßigen Strukturen 

anzuordnen. 

◮ Des Weiteren unterscheidet man statische und dynamische 

Verbindungsnetzwerke. 

◮ Statische Netzwerke sind feste Punkt zu Punkt Verbindungen der Prozessoren 

◮ dynamische Netzwerke enthalten Schaltelemente, die durch 

Konfigurationsinformationen eine bestimmte Verbindung herstellen können 


Statische Verbindungsnetzwerke 

◮ Bei der Einführung der Zellularen Automaten wurden bereits zwei 

Verbindungsnetzwerke beschrieben, nämlich das zweidimensionale und das 

hexagonale Gitter. 

◮ In Verbindungsnetzwerken werden solche Gitter häufig zur Lösung 

zweidimensionaler Probleme eingesetzt. 

◮ Der Vorteil ist die feste Anzahl von vier Verbindungskanälen (Links) bei 

beliebiger Größe des Gitters. 

◮ Um die Kommunikation an den Rändern des Gitters nicht abbrechen zu 

lassen, kann das Gitter zum Torus geschlossen werden. 

◮ Im Prinzip beliebige Geometrien möglich 



◮ Wichtige statische Topologien sind 



◮ Die vollständige Vernetzung 1 verbindet alle Knoten mit je einem Link 

untereinander und stellt damit die verbindungsreichste Topologie dar. 

◮ Der Aufwand von N − 1 Kommunikationskanälen pro Knoten ist allerdings nur 

für relativ kleine N möglich. 

◮ Deswegen wird in vielen Parallelrechnern die vollständige Vernetzung nicht 

verwendet, obwohl die Eigenschaften, nur einen Verbindungsschritt (hop) zu 

benötigen und keine Resourcenkonflikte zu verursachen, bei der Realisierung 

von Parallelrechnern ideal sind. 

1 engl.: completely interconnected 


Dynamische Verbindungsnetzwerke 

◮ Dynamische Verbindungsnetzwerke enthalten konfigurierbare Schaltelemente 

und werden in einstufige und mehrstufige Netze eingeteilt. 

◮ Zu den einstufigen, dynamischen Verbindungsnetzwerken gehören das 

Shuffle-Netzwerk, der Crossbar und der Bus. 

◮ Mehrstufige dynamische Verbindungsnetzwerke werden oft aus einstufigen 

Elementen zusammengesetzt. 

◮ Die Struktur der Verbindungen bezeichnet dann das Netzwerk (Butterfly, 

Omega usw.) 



◮ Der Crossbar oder Kreuzschienenverteiler ist das universellste dynamische 

Verbindungsnetz. Es gestattet mit nur einer Stufe, beliebige Paare von Einund 

Ausgängen miteinander zu verbinden. Außerdem ist es möglich, an alle 

Empfänger eine Nachricht zu senden (broadcast). Die Abbildung zeigt einen 

2×2 Crossbar. 



◮ Die Schalter einer Zeile (z. B. K12 und K22) dürfen nicht gleichzeitig aktiviert 

werden. 

◮ Schließlich kann an E1 eine logische Null und an E2 eine logische Eins 

anliegen. 

◮ Aus diesem Grund besitzen Crossbars sogenannte Arbitrierungseinheiten. 

◮ Die Komplexität der Schaltung mit n Eingängen und n Ausgängen ist O(n 2 ). 

◮ Zusätzlich ist allerdings noch die Logik für die Arbitrierungseinheiten zu 

berücksichtigen. 

◮ Ein dynamisches Verbindungsnetzwerk mit sehr großer Verbreitung ist der 

Bus. 

◮ Der Bus ist ein Crossbar mit der Konfiguration m×1 und damit eine Spalte 

dieses Verbindungsnetzwerkes. 



◮ Bus (Fortsetzung) 

◮ Er ist kostengünstig realisierbar. 

◮ Allerdings ist die Bandbreite begrenzt und skaliert nicht. 

◮ Die Latenzzeiten sind höher und auch das Blockierungsverhalten wesentlich 

kritischer als beim Crossbar. 

◮ In Parallelrechnern wird der Bus deswegen nur zur Steuerung von peripheren 

Komponenten verwendet 



◮ Das Shuffle-Netzwerk lässt sich ebenfalls aus der Crossbar-Struktur ableiten. 

◮ Abbildung zeigt die Schaltfunktionen. 



◮ Ist K unwahr, so erfolgt die Verbindung von E1 nach A1 und von E2 nach A2 

◮ Ist K wahr, so vertauscht sich die Zuordnung der Ausgänge 

◮ Einige Ausprägungen des Shuffle-Netzwerks sind um eine Broadcastfunktion 

erweitert worden 

◮ Das Shuffle-Netzwerk ist durch die eingeschränkte Struktur nicht mehr 

skalierbar. 

◮ Viele mehrstufige Verbindungsnetzwerke sind aus dem Schaltelement des 

Shuffle-Netzwerks zusammengesetzt. 

◮ Zu den mehrstufigen Verbindungsnetzwerken gehören das Omega-Netz und 

das Butterfly-Netz. 

◮ Darstellung verschiedener Permutationsnetzwerke (Exchange, 

Perfect-Shuffle, Butterfly, Bit reversed) 



Butterfly-Netzwerk 



◮ Neben der Topologie trägt die Verbindungsart einen großen Teil zur 

Leistungsfähigkeit eines Verbindungsnetzes bei. 

◮ Bei den dynamischen Verbindungsnetzwerken wird die Leitungsvermittlung 

und die Paketvermittlung unterschieden. 

◮ Die Leitungsvermittlung ist eine physikalische Verbindung und erfordert einen 

Leitungsaufbau, die Übertragung der Daten und einen Leitungsabbau. 

◮ Die Paketvermittlung übergibt einen Datenblock (Paket) an das 

Verbindungsnetz, welches das Paket über wechselnde Routen zum Ziel 

transportiert. 

◮ Der Vorteil der Paketvermittlung ist, dass Ressourcen nur belegt werden, 

wenn diese auch benötigt werden und eine alternative Wegewahl möglich ist. 

◮ Der Nachteil gegenüber der Leitungsvermittlung ist, dass die Zeit für die 

Übertragung proportional zur Anzahl der Verbindungsschritte ist. 


Bulk-Synchronous Parallel Modell I 

◮ Das Bulk-Synchronous Parallel Modell (BSP) ist ein nachrichtengekoppeltes 

Modell 

◮ Es erlaubt den Prozessoren eine asynchrone Arbeitsweise und modelliert 

Latenzeit und begrenzte Bandbreite 

◮ Ein mit dem BSP Modell beschriebener Rechner besteht: aus einer Menge 

von Prozessoren (es ist dabei unerheblich, ob die Prozessoren lokalen 

Speicher besitzen). 

◮ einem Kommunikationsnetz für das Verschicken von Nachrichten und einem 

Mechanismus für die Barrieren-Synchronisation. 

◮ Eine Berechnung enthält eine Sequenz sogenannter Superschritte. Ein 

Superschritt besteht aus einer Anzahl von lokalen Berechnungsschritten und 

der Nachrichtenübertragungen, also dem Senden und Empfangen von 

Nachrichten an bzw. von anderen Komponenten. 

◮ Danach wird eine Barrierensynchronisation aller Prozessoren durchgeführt, 

bevor der nächste Superschritt starten kann. 


Bulk-Synchronous Parallel Modell II 

◮ Durch das Einführen der Superschritte werden Kommunikation und 

Synchronisation voneinander entkoppelt. 

◮ Außerdem werden Verklemmungen durch race conditions vermieden. 

◮ Der globale Zustand der Programmausführung ist bei der Ausführung der 

Barriere am Ende eines Superschrittes bekannt. 

◮ Das BSP Modell ist durch folgende drei Attribute definiert. 

◮ Die Anzahl p der Komponenten mit Berechnungs- und/oder Speicherfunktion 

(Prozessoren). 

◮ Einen Faktor g, der Kommunikationskosten in Berechnungskosten überführt. 

◮ Die minimale Zeit L zwischen zwei Synchronisationen. Diese Zeit ist auch als Zeit 

für die Ausführung eines Superschritts zu interpretieren. 

◮ Eine technische Realisierung des BSP Modells ist, abgesehen von der 

Barrierensynchronisation, in nachrichtengekoppelten 

Multiprozessorarchitekturen zu finden. 


LogP 

◮ Ein Modell zur Beurteilung der Verbindungskosten ist das LogP Modell. 

◮ Der Austausch der Daten zwischen den Prozessoren wird durch Nachrichten 

realisiert. 

◮ Das LogP Modell definiert also ein nachrichtengekoppeltes Maschinenmodell. 

◮ Dieses Modell abstrahiert von der Struktur und den Eigenschaften des 

Verbindungsnetzwerks, Konflikte im Verbindungsnetz werden nicht 

berücksichtigt. 

◮ Vier charakteristische Parameter L, o, g und P werden definiert: 

◮ Die Latenzzeit L (latency) ist die maximal benötigte Zeit für die Übertragung einer 

kleinen Nachricht. 

◮ Der Aufwand o (overhead) beschreibt die Zeitdauer für den Sende- bzw. 

Empfangsvorgang. 

◮ Mit g (gap) wird das kleinste Zeitintervall bezeichnet, welches zwischen der 

Übertragung von zwei Nachrichten eingehalten werden muss. 

◮ Die Anzahl der Prozessor- und/oder Speichermodule P. Die Zeiteinheit für eine 

Operation wird als Zyklus bezeichnet. Die Parameter L, o und g werden als 

Vielfache des Zyklus gemessen bzw. angegeben. 


Anwendung von Verbindungsnetzwerken 

◮ Verbindung von mehreren Prozessoren 

◮ Anwendungen müssen Parallelität unterstützen 

◮ Parallele Algorithmen 

◮ Vielzahl von Algorithmen, die für spezielle Architekturen 

(Verbindungsstrukturen) entwickelt wurden. 

◮ Parallele Algorithmen sind für 

◮ Sortieren 

◮ Matrixmultiplikation 

◮ Graphenalgorithmen 

◮ ... 

entwickelt worden. 

◮ Hier das einfache Beispiel des Bitonischen Mischens 


Bitonisches Mischen 

◮ Gegeben ist eine Bitonische Folge: 

◮ 1, 7, 9, 12, 13, 11, 8, 2 



◮ Analyse: Jede Zelle (Prozessor) enthält ein Datum 

◮ Auszuführende Operation: Vergleich der Daten, die in der Zelle gespeichert 

sind 

◮ ggf. Austausch 

◮ Wichtig: Synchronisation aller Prozessoren am Schluss, damit es nicht zu 

Inkonsistenzen kommt 

◮ Implementierung mit Prozessen (Threads)?! 

◮ Aufwand: Kommunikationskosten vs. Berechnungskosten (Vergleich) 


Bitonisches Sortieren 

◮ Gegeben ist eine beliebige Folge: 

◮ 7, 12, 1, 5, 13, 1, 4, 3 

9. Februar 2011 | Technische Universität Darmstadt | Dr.-Ing. Wolfgang Heenes | 28


◮ Analyse: Nach dem Erzeugen der Bitonischen Folge erfolgt das Mischen 

◮ Realisierung der Kommunikation über Verbindungsnetzwerk 

◮ In diesem Fall z. B. Omega-Netzwerk 

◮ Verbindungsstruktur 



◮ Erster Schritt 



◮ Zweiter Schritt 



◮ Dritter Schritt 


Blockmatrixzerlegung 

◮ Gegeben ist eine Matrix 

A = 

⎛ 

⎜ 

⎝ 

⎞ 

a 00 a 01 a 02 a 03 

a 10 a 11 a 12 a 13 

⎟ 

a 20 a 21 a 22 a 23 

⎠ 

a 30 a 31 a 32 a 33 

◮ Zerlegung 

( ) 

a00 a 

A 00 = 

01 

a 10 a 11 

A 01 = 

( ) 

a02 a 03 

a 12 a 13 

A 10 = 

( ) 

a20 a 21 

a 30 a 31 

A 11 = 

( ) 

a22 a 23 

a 32 a 33 



◮ Mit analogen Definitionen für die Matrizen B und C kann die 

Matrixmultiplikation wie folgt dargestellt werden: 

( ) ( ) 

A00 A 

C = A·B = 

01 B00 B 

· 

01 

A 10 A 11 B 10 B 11 

= 

= 

= 

( ) 

A00 · B 00 + A 01 · B 10 A 00 · B 01 + A 01 · B 11 

A 10 · B 00 + A 11 · B 10 A 10 · B 01 + A 11 · B 11 

( ) ( ) 

A00 · B 00 A 00 · B 01 A01 · B 

+ 

10 A 01 · B 11 

A 10 · B 00 A 10 · B 01 A 11 · B 10 A 11 · B 11 

( ) 

C00 C 01 

C 10 C 11 

◮ Die vier Ergebnisblockmatrizen C 00 bis C 11 können unabhängig voneinander 

berechnet werden. 



◮ Auf einem CC-Modell (Connected Cube) 


Praktische Realisierungen 

einer Multiprozessorarchitektur 


Altera - NIOS II 

◮ 32 General Purpose Register 

Nios II Processor Core 

Tightly Coupled 

JTAG 

interface 

to software 

debugger 

reset 

clock 

cpu_resetrequest 

cpu_resettaken 

JTAG 

Debug Module 

Program 

Controller 

& 

Address 

Generation 

Exception 

General 

Purpose 

Registers 

Control 

Registers 

Instruction 

Cache 

Instruction Memory 


Instruction Memory 

Instruction Bus 

Controller 

irq[31..0] 

Interrupt 

Controller 

Instruction 

Regions 

Memory 

Memory 

Management 

Unit 

Protection 

Unit 

Translation 

Data 

Regions 

Lookaside 

Buffer 

Data Bus 

Custom 

I/O 

Signals 

Custom 

Instruction 

Logic 

Arithmetic 

Logic Unit 

Data 

Cache 


Data Memory 


Data Memory 


Realisierung der Architektur auf FPGA 

◮ Kenngrößen 

- A B C D E F G H I J K 

p total total ALUTs ALUTs network network registers memory register max. max. DMIPS 

ALMs ALUTs for for per over for bits bits clock DMIPS speed 

processors network processor processor ALUTs network (MHz) up 

1 1,203 1,592 1,592 - - - - 195,296 1,520 200 232 1.0 

4 4,355 5,437 4,683 326 81.50 6.9% 184 289,568 4,995 133 617 2.6 

8 8,344 10,780 9,006 922 115.25 10.2% 368 415,264 9,568 120 1113 4.8 

16 17,638 21,935 17,697 2,616 163.50 14.8% 736 666,656 18,726 95 1763 7.6 

32 36,577 44,441 34,404 6,637 207.40 19.3% 1,472 1,169,440 37,047 75 2784 12.0 


Realisierung der Architektur auf FPGA 

◮ Anwendung, Sortieren von Zahlen: Algorithmen ⇒ Quicksort, Bitonic Sort 

processors cycles cycle speed-up execution time real speed-up 

1 4,971,726 1.00 24.8 ms 1.0 

4 1,443,694 3.4 10.8 ms 2.3 

8 726,336 6.8 6.0 ms 4.1 

16 366,650 13.5 3.8 ms 6.4 

32 182,598 27.2 2.4 ms 10.2 

sorted data random data 

algorithm cycles execution time cycles execution time 

standard quicksort 23,314,342 169.56 ms 502,411 3.65 ms 

median quicksort 420,197 3.06 ms 542,098 3.94 ms 


Zusammenfassung und Ausblick 

◮ Multiprozessorsysteme 

◮ Verbindungsnetzwerke 

Nächste Vorlesung behandelt 

◮ Kommunikationsnetze

Grundlagen der Informatik III Wintersemester 2010/2011 â 28 ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?

Grundlagen der Informatik III Wintersemester 2010/2011 â 28 ...