Paralleles Rechnen in der Physik - Blogdienst der Universität ...

Paralleles Rechnen in derPhysikGeorg HagerRegionales Rechenzentrum ErlangenHPC ServicesUniversität Erlangen-Nürnberg07.05. 2002Überblick Motivation Parallelität verstehen Paralleles Rechnen in Beispielen Aktuelle Hardware im Supercomputing Führung durch die Rechnerräume des RRZEParalleles Rechnen (2) 07.05.2002

Motivation:Warum reicht der Pentium nicht aus?Chips haben in den vergangenen Jahrzehnten einen immensenLeistungsschub verzeichnet• Moore's Law: Verdopplung der Chipkomplexität bzw. -Leistungalle 18 MonateQuelle: Intel Corp.Paralleles Rechnen (3) 07.05.2002Motivation:Schere zwischen Prozessor und SpeicherParalleles Rechnen (4) 07.05.2002

"Geschwindigkeit messen"Was ist ein gutes Maß für die Geschwindigkeit einesComputers?• Er soll mein Problem schnell lösen!• das bedeutet: die Anforderungen, die mein Problem stellt, sollenbestmöglich erfüllt seinWas sind also die Anforderungen der "Large Scale User"?schneller I/Oviel Speicher pro CPUschnelle Kommunikationviele CPUsgroße Speicherbandbreitegut für ganz bestimmte SoftwareParalleles Rechnen (5) 07.05.2002"Geschwindigkeit messen"Alle Aspekte der Benutzeranforderungen lassen sich nichtzusammen in eine Zahl pressenDennoch: Bekannteste Bewertungsziffer ist der LINPACK-Benchmark• Lösung eines großen, linearen Gleichungssystems Ax=b• Messung der Performance in Flops/s1 Flop = 1 Fließkomma-Operation (+ - * /)Analog: MFlops/s, GFlops/s, TFlops/s etc.Rangliste der 500 "schnellsten" Rechner der Welt:http://www.top500.org/Zweimal im Jahr (Juni/November) aktualisiertZum Vergleich: aktueller PC hat R max = 1-2 GFlops/sParalleles Rechnen (6) 07.05.2002

Rank Man. ComputerR max(GFlops)1 IBM ASCI White 7226Installation Site Country Proc.Lawrence LivermoreNational LaboratoryR peak(GFlops)USA 8192 122882 Compaq AlphaServer SC 4059 Pittsburgh SCC USA 3024 60483 IBM SP Power3 3052 NERSC/LBNL USA 3328 49924 Intel ASCI Red 2379 Sandia USA 9632 32075 IBMASCI Blue-Pacific2144 Lawrence Livermore USA 5808 38686 Compaq AlphaServer SC 2096Los Alamos NationalLaboratoryUSA 1536 30727 Hitachi SR8000/MPP 1709 University of Tokyo Japan 1152 20748 SGIASCI BlueMountain1608 Los Alamos USA 6144 30729 IBM SP Power3 1417 NAVOCEANO USA 1336 200410 IBM SP Power3 1272DeutscherWetterdienstGermany 1280 1920Stand: November 2001Paralleles Rechnen (7) 07.05.2002"Geschwindigkeit messen":Die Rolle der ParallelitätEnormes Anwachsen der Performance des Spitzenreiters überdie Jahre:• Moore's Law: Verdopplung alle 18 Monate• 1993: 59,7 GFLOPs LINPACK• 1999: 2380 GFLOPs LINPACK• 2000: 4039 GFLOPs LINPACKPerformance der Nr. 1 steigt schneller als von Moore's Lawvorausgesagt (Faktor 67 statt 26 in 7 Jahren)!• ⇒ Massive Parallelität gibt einen "extra Schub"Paralleles Rechnen (8) 07.05.2002

Warum reicht der Pentium nicht aus?Ganz einfach: Er ist zu langsam und zu klein!Die Definition eines "schnellen" Rechners ändert sich mit derZeit:"A supercomputer is a computer that is just onegeneration behind the requirements of the large scale users"Neil Lincoln (CDC Cyber 205 [1981])Was tut ein "Large Scale User"?Die zwei "Limetes" des Supercomputing:Durchsatz"Aldi-Limes"Viele kleine ProblemeWenig Ressourcen pro Problem"Trivial parallel"Capability"Rockefeller-Limes"wenige große Problemeenorme RessourcenParallelisierung notwendigParalleles Rechnen (9) 07.05.2002Warum reicht der Pentium nicht aus?Das DurchsatzproblemSogar wenn ein Einzelproblem schnell abgearbeitet ist, kanndie schiere Zahl der Probleme nicht nacheinander bewältigtwerdenTypisches Beispiel: Parameterstudien• "Abgrasen" eines großen, eventuell multidimensionalenParameterraumes (Temperatur, Dichte, Anfangsbedingungen …)• Einzelne Läufe müssen keine Daten miteinander kommunizieren• Einzelprobleme laufen unter Kontrolle eines "Master-Programmes" oder des Benutzers selbstParallele Abarbeitung vieler Einzelprobleme lastet denRechner meist gut aus (feine Granularität)Kommunikationshardware kann billig gehalten werden• Einfaches Ethernet genügt meistKonzentration auf Spitzenleistung des Einzelrechners• Ausgewogenheit des Gesamtsystems steht hintenanParalleles Rechnen (10) 07.05.2002

Beispiel für ein Durchsatzproblem:Absorptionsspektrum von MolekülenModellierung der elektronischen Struktur eines Moleküls• Numerische Lösung der Schrödinger-Gleichung• Anregung von außen durch oszillierendes elektrisches FeldSpektrum: Durchstimmen der Anregungsfrequenz über einengroßen Bereich• Berechnungen für jede Frequenz sind i.W. gleich aufwendig• Viele Frequenzen notwendig, um komplettes Spektrum zuerrechnen⇒ Ideales Durchsatzproblem!μ(f)Paralleles Rechnen (11) 07.05.2002fWarum reicht der Pentium nicht aus?Das DurchsatzproblemLösung des Durchsatzproblems: massivster Einsatz vonvernetzter, preiswerter "Aldi-Hardware"© W. Schmidt, TU ChemnitzParalleles Rechnen (12) 07.05.2002

Warum reicht der Pentium nicht aus?Das Capability-ProblemSpeicherverbrauch und Laufzeit sprengen die Möglichkeiteneines Einzel-PC• Technologische Grenzen für Moore's Law in unter 20 Jahrenerreicht!Parallelisierung nicht trivial, da Zerlegung in unabhängigeEinzelprobleme nicht möglich• Verschiedene Strategien zur Parallelisierung bieten sich an (s.später)• Kommunikation ist oft nicht zu vernachlässigen• Gute Auslastung des Gesamtsystems ist nicht einfach zuerreichen (s. später)Kommunikationshardware ist extrem teuer• dazu zählt auch die "Kommunikation" zum Speicher der CPUs!• keine Lösungen "von der Stange"Ausgewogenes System (Spitzenleistung/Bandbreite) istanzustrebenParalleles Rechnen (13) 07.05.2002Beispiel für ein Capability-Problem:StrömungsmechanikStrömungsmechanik (CFD):• Grid: 1000 x 1000 x 1000 Gitterpunkte O(n 3 )• Variablen pro Gitterpunkt (u,v,w,p,T,...): 20• Operationen zur Berechnung jeder Variable: 100• Zeitschritte: 10000 O(n)• Gesamtzahl Fließkomma-Operationen:1000 x 1000 x 1000 x 20 x 100 x 10000 Flop=20 000 000 000 000 000 Flop=2 x 10 16 Flop = 20 000 Tflop• Speicheranforderung: ca. 160 GByte• Langzeitspeicherung von Ergebnissen: 160 x 10 = 1.6 TbyteParalleles Rechnen (14) 07.05.2002

Beispiel für ein Capability-Problem:StrömungsmechanikPentium IV, 2GHz (ohne Berücksichtigung desSpeicherproblems):• Max. Leistung: 2 GFLOP/s = 2.0 x 10 9 , Rechenzeit:2 x 10 16 Flop2 x 10 9 Flop/s= 10 000 000 s = 115 TageModerner Supercomputer (Hitachi SR8000):• Max. Leistung: 2.0 TFLOP/s = 2.0 x 10 12• Rechenzeit:2 x 10 16 Flop2 x 10 12 Flop/s= 10 000 s = 2.8 hRealität:Lückenoch vielgrößer!Paralleles Rechnen (15) 07.05.2002Warum reicht der Pentium nicht aus?Das Capability-ProblemLösung des Capability-Problems: speziell angefertigteSuperrechner mit außergewöhnlicher BandbreiteQuelle: LRZMünchenParalleles Rechnen (16) 07.05.2002

Parallelität verstehen:Sequenzielle ArbeitUniversellerRechenknechtNach 16 Zeitschritten: 4 AutosParalleles Rechnen (17) 07.05.2002Parallelität verstehen:Ideal parallele Arbeit4 UniversalknechteFaktor 4 schneller, aber: Universalgenies sind teuer und langsam!Paralleles Rechnen (18) 07.05.2002

Parallelität verstehen:Spezialisierung und Fließbandarbeit4 Spezialisten Nach Anlaufphase: Ebenfalls 1Auto pro Zeitschritt, aber billiger!Paralleles Rechnen (19) 07.05.2002Parallelität verstehen:Grenzen der ParallelitätUngenutzte Ressourcendurch ungleiche Last!Paralleles Rechnen (20) 07.05.2002

Grenzen der Parallelität:Amdahls GesetzIdealsituation: Arbeit vollständig undgleichmäßig verteilbarseriellseriellseriellseriellRealität: rein serielle Anteilebeschränken maximalen "Speedup"seriellseriellNoch schlimmer: Kommunikationverschlechtert Speedup bei großen"Arbeiterzahlen"Paralleles Rechnen (21) 07.05.2002Grenzen der Parallelität:Amdahls Gesetz1 = ursprüngliche Rechenzeit (seriell)Beispiel für N p = 4:ideal parallelisierbarer Teil: f = 1-srein seriellerAnteil sAnteil k für Kommunikation zwischenje 2 RecheneinheitenAllgemeine Formel für den Speedup(worst case):P=s+1−sNp1+NpkParalleles Rechnen (22) 07.05.2002

Grenzen der Parallelität:Amdahls GesetzIdeale SkalierungAmdahl-Limit(k=0)k ≠ 0Paralleles Rechnen (23) 07.05.2002Grenzen der Parallelität:Wie man Amdahls Gesetz austrickstSerieller Anteil ist oft unabhängig von der Problemgröße• Vergrößerung des Problems schafft bessere ParallelitätKommunikation ist nicht notwendigerweise vollkommen seriell• Blockierungsfreie Kreuzschienen-Netzwerke können vieleNachrichten gleichzeitig zwischen Rechenknoten übermitteln(technische Maßnahme)• Kommunikation kann u.U. mit sinnvoller Rechenarbeit überlapptwerden (Implementierung, Algorithmik)Paralleles Rechnen (24) 07.05.2002

Parallelität verstehen:GranularitätNumerische Probleme haben oft unterschiedliche Ebenenvon GranularitätBeispiel: Wettersimulationgrobfein• Oberste Ebene: Simulation verschiedener Teilaspekte Physik(Wind, Temperatur, Niederschlag...)• Zerlegung des Simulationsgebietes in Blöcke• Jeder Block besteht aus N Gitterplätzen, an denen MathematikObservablen gemessen werden• Numerische Verfahren zur Lösung der Gleichungen arbeitenmit Matrizen und Vektoren• Unterste Ebene: Instruktions- und Datenströme Siliziumin der CPUAufgabe des Programmierers: Abbildung derGranularitätsstruktur des Problems auf die Rechnerstruktur(Parallelisierung)!Paralleles Rechnen (25) 07.05.2002Grobkörnige Parallelität:GebietszerlegungAufteilung des Rechengebietes in Blöcke, die inunterschiedlichen Teilen des Parallelrechners bearbeitetwerden• Px kann auch aus mehreren CPUs bestehenKommunikation!P1 P2 P3 P4Paralleles Rechnen (26) 07.05.2002

Mittelkörnige Parallelität:SchleifenBlockweise Aufteilung der Arbeit in Schleifen auf verschiedeneCPUs, die auf gemeinsamem Speicher arbeiten• Beispiel: Matrix-Vektor-MultiplikationDO j = 1,500B(j) = B(j) + M(j,1:1000) * B(1:1000)ENDDODO j = 501,1000B(j) = B(j) + M(j,1:1000) * B(1:1000)ENDDOP0P1SpeicherParalleles Rechnen (27) 07.05.2002Feinkörnige Parallelität:Multiple Funktionseinheiten auf dem ChipBeispiel: Prozessor mit zwei Funktionseinheiten, die je eineMultiplikation pro Takt (z.B. 1.0 ns bei 1 GHz) ausführenkönnen• Alternierende Iterationen laufen jeweils in unterschiedlicherFunktionseinheit ab• Effektive Verdopplung der Fließkomma-Leistung bei solchenSchleifenDO i = 1 , 1000 ,2C(i) = A(i) * B(i)C(i+1) = A(i+1) * B(i+1)ENDDOfp0fp1Paralleles Rechnen (28) 07.05.2002

Beispiele zur Parallelisierung:MVMVerteilung der Matrix und des Vektors auf 4 Rechner1 2 3 4c = c + A * r= +XParalleles Rechnen (31) 07.05.2002Beispiele zur Parallelisierung:MVM1. Schritt:MVM nur aufdiagonalenBlöcken= +XRing shift vonVektor c2. Schritt:MVM aufsubdiagonalenBlöcken= +XParalleles Rechnen (32) 07.05.2002

Beispiele zur Parallelisierung:RandwertproblemProblem: Temperaturverteilung auf quadratischer Platte beifester Vorgabe am Rand• Lösung der Laplace-Gleichung unter Randbedingungen:ΔT= 0• Numerisch: Abbildung auf NxN-Gitter• Verfahren: "Relaxation"T an einem Punkt ist der Mittelwertüver die 4 nächsten Nachbarn• Iteration: Bei genügend durchgängendurch das Gitter konvergiert Tgegen die LösungParallelisierung mittelsGebietszerlegung• Was passiert mit Randzellen einesGebietes?Paralleles Rechnen (33) 07.05.2002Beispiele zur Parallelisierung:RandwertproblemDas Problem der Gebietsränder wird durch "Geisterzellen"gelöst• Jedes Gebiet ist an jeder Kontaktfläche eine Zelle breiter alsnotwendig• Nach jeder Iteration werden die Inhalte der Geisterzellen mit demInhalt der Nachbar-Randzellen gefülltGebiet 1Gebiet 2Paralleles Rechnen (34) 07.05.2002

Supercomputing:Hochleistungsrechner in der RealitätSupercomputer unterscheiden sich in den Ausprägungen derParallelität• Massiv parallele Systeme• Vektorsysteme bzw. Vektor- Parallelrechner• Hybride SystemeBestimmende Größe ist nicht die Spitzen- oder LINPACK-Performance, sondern die Speicherbandbreite!• Wie viele Daten können die CPUs pro Sekunde laden/speichern?• Speicher- und Kommunikationsbandbreite sind diekostenbestimmenden Faktoren• Es gibt immer Applikationen, die auf große Bandbreiteangewiesen sindParalleles Rechnen (35) 07.05.2002Speicherbandbreite als bestimmenderFaktor: Vektortriade• Standardtest: Vektor-Triade• Extrem sensitiv aufSpeicherbandbreiteDO J=1,NTIMESDO I=1,NA(I) = B(I) + C(I)*D(I)ENDDOENDDOSchleifenlänge NParalleles Rechnen (36) 07.05.2002

Supercomputing:Massiv parallele Systeme Typische CPU-Zahlen: 100 - 10000(schnelles) KommunikationsnetzP P P P P P P PS S S S S S S SStandardprozessoren: RISC, Pentium,..StandardspeicherbausteineParalleles Rechnen (37) 07.05.2002Supercomputing:Vektorsysteme Extremes Pipelining auf Datenebene (SIMD: Single InstructionMultiple Data) Extrem hohe Speicherbandbreite Typische CPU-Zahlen: 10-100KommunikationsnetzVPVPVPVPSSSSVektorprozessorenSpezialspeicherbausteineParalleles Rechnen (38) 07.05.2002

Supercomputing heute:Aktuelle HardwareIBM ASCI White (Lawrence Livermore National Laboratory,USA)• 8192 CPUs (512 Knoten mit je 16 CPUs)• Spitzenleistung: 12.3 TFlop/s• 8 TByte Hauptspeicher• 145 TByte Festplattenplatz• Zugriff ist beschränkt (classified)• LINPACK: 7.2 TFlop/s• Aktuelle Nr. 1 in Top500-Liste, ab Juni2002 Nr. 2Paralleles Rechnen (39) 07.05.2002Supercomputing heute:Aktuelle HardwareEarth Simulator• 5120 Vektor-CPUs (640 Knotenmit je 8 CPUs)• Spitzenleistung: 41 TFlop/s• LINPACK: 35 TFlop/s• Schneller als die ersten 20Rechner der Top500zusammen, neue Nummer 1!• Vorgesehen für Simulation vonKlima- und UmweltmodellenParalleles Rechnen (40) 07.05.2002

Supercomputing heute:Aktuelle HardwareHitachi SR8000-F1/168 am Leibniz-Rechenzentrum in München• 1344 CPUs (168 Rechenknoten mitje 8 CPUs)• 1376 GByte Hauptspeicher (8GByte pro Knoten, 4 Knoten mit 16GByte)• 10 TByte Festplattenplatz• Spitzenperformance:168 x 12 GFlop/s = 2016 GFlop/s• LINPACK: 1645 GFlop/s• ca. Platz 9 in nächster Top500Paralleles Rechnen (41) 07.05.2002Supercomputing heute:Aktuelle HardwareKepler-Cluster der Universität Tübingen• 196 CPUs (98 Rechenknoten mitje 2 CPUs)• 100 GByte Hauptspeicher• Standard-PC-Hardware (PentiumIII @ 650 MHz)• Vernetzung durch Myrinetinterconnect• Spitzenleistung: 127 GFlops• LINPACK: 96.2 GFlops• effizientester Cluster inEuropa• Top500 Rang 495Paralleles Rechnen (42) 07.05.2002

Links und Literatur HPC@RRZE: http://www.rrze.uni-erlangen.de/dienste/hpc/ LRZ München: http://www.lrz.de/services/compute/hlr/ HLRS Stuttgart: http://www.hlrs.de/ NIC Jülich: http://www.kfa-juelich.de/nic/ Top500: http://www.top500.org/ Earth Simulator: http://www.gaia.jaeri.go.jp/ MPI: http://www.mpi-forum.org/ OpenMP: http://www.openmp.org/W. Schönauer: "Scientific Supercomputing"• http://www.uni-karlsruhe.de/Uni/RZ/Personen/rz03/book/W. Press et al: "Numerical Recipes in C" (Fortran…)• Cambridge University PressParalleles Rechnen (43) 07.05.2002Hochleistungssysteme am RRZEWorkstation-Cluster17 Rechner, je 128MByte RAMMemory-Server28 CPUs, je 1 GFlop Peak56 GByte gemeinsamerHauptspeicherVPP3008 Vektor-CPUsje 2.2 GFlops Peakje 2 GByte RAMParalleles Rechnen (44) 07.05.2002

Vielen Dank!Paralleles Rechnen (45) 07.05.2002Motivation:Schere zwischen Spitzen- und RealleistungParalleles Rechnen (46) 07.05.2002

Motivation:Möglichkeiten zur LeistungssteigerungLeistungssteigerung :Hardware, Software undAlgorithmen Bessere Hardware• Prozessorgeschwindigkeit verdoppeltsich etwa alle 18 Monate• Aber: Speicherzugriff wächst deutlichlangsamer!Bessere Software• Bessere Compiler Bessere Algorithmen• Bessere Bibliotheken • Fourier-Transformation → Fast-Fourier-Transformation• Gauß-Seidel → Multigrid-VerfahrenParalleles Rechnen (47) 07.05.2002

Paralleles Rechnen in der Physik - Blogdienst der Universität ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?