09.07.2015 Aufrufe

Paralleles Rechnen in der Physik - Blogdienst der Universität ...

Paralleles Rechnen in der Physik - Blogdienst der Universität ...

Paralleles Rechnen in der Physik - Blogdienst der Universität ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Paralleles</strong> <strong>Rechnen</strong> <strong>in</strong> <strong>der</strong><strong>Physik</strong>Georg HagerRegionales Rechenzentrum ErlangenHPC Services<strong>Universität</strong> Erlangen-Nürnberg07.05. 2002Überblick Motivation Parallelität verstehen <strong>Paralleles</strong> <strong>Rechnen</strong> <strong>in</strong> Beispielen Aktuelle Hardware im Supercomput<strong>in</strong>g Führung durch die Rechnerräume des RRZE<strong>Paralleles</strong> <strong>Rechnen</strong> (2) 07.05.2002


Motivation:Warum reicht <strong>der</strong> Pentium nicht aus?Chips haben <strong>in</strong> den vergangenen Jahrzehnten e<strong>in</strong>en immensenLeistungsschub verzeichnet• Moore's Law: Verdopplung <strong>der</strong> Chipkomplexität bzw. -Leistungalle 18 MonateQuelle: Intel Corp.<strong>Paralleles</strong> <strong>Rechnen</strong> (3) 07.05.2002Motivation:Schere zwischen Prozessor und Speicher<strong>Paralleles</strong> <strong>Rechnen</strong> (4) 07.05.2002


"Geschw<strong>in</strong>digkeit messen"Was ist e<strong>in</strong> gutes Maß für die Geschw<strong>in</strong>digkeit e<strong>in</strong>esComputers?• Er soll me<strong>in</strong> Problem schnell lösen!• das bedeutet: die Anfor<strong>der</strong>ungen, die me<strong>in</strong> Problem stellt, sollenbestmöglich erfüllt se<strong>in</strong>Was s<strong>in</strong>d also die Anfor<strong>der</strong>ungen <strong>der</strong> "Large Scale User"?schneller I/Oviel Speicher pro CPUschnelle Kommunikationviele CPUsgroße Speicherbandbreitegut für ganz bestimmte Software<strong>Paralleles</strong> <strong>Rechnen</strong> (5) 07.05.2002"Geschw<strong>in</strong>digkeit messen"Alle Aspekte <strong>der</strong> Benutzeranfor<strong>der</strong>ungen lassen sich nichtzusammen <strong>in</strong> e<strong>in</strong>e Zahl pressenDennoch: Bekannteste Bewertungsziffer ist <strong>der</strong> LINPACK-Benchmark• Lösung e<strong>in</strong>es großen, l<strong>in</strong>earen Gleichungssystems Ax=b• Messung <strong>der</strong> Performance <strong>in</strong> Flops/s1 Flop = 1 Fließkomma-Operation (+ - * /)Analog: MFlops/s, GFlops/s, TFlops/s etc.Rangliste <strong>der</strong> 500 "schnellsten" Rechner <strong>der</strong> Welt:http://www.top500.org/Zweimal im Jahr (Juni/November) aktualisiertZum Vergleich: aktueller PC hat R max = 1-2 GFlops/s<strong>Paralleles</strong> <strong>Rechnen</strong> (6) 07.05.2002


Rank Man. ComputerR max(GFlops)1 IBM ASCI White 7226Installation Site Country Proc.Lawrence LivermoreNational LaboratoryR peak(GFlops)USA 8192 122882 Compaq AlphaServer SC 4059 Pittsburgh SCC USA 3024 60483 IBM SP Power3 3052 NERSC/LBNL USA 3328 49924 Intel ASCI Red 2379 Sandia USA 9632 32075 IBMASCI Blue-Pacific2144 Lawrence Livermore USA 5808 38686 Compaq AlphaServer SC 2096Los Alamos NationalLaboratoryUSA 1536 30727 Hitachi SR8000/MPP 1709 University of Tokyo Japan 1152 20748 SGIASCI BlueMounta<strong>in</strong>1608 Los Alamos USA 6144 30729 IBM SP Power3 1417 NAVOCEANO USA 1336 200410 IBM SP Power3 1272DeutscherWetterdienstGermany 1280 1920Stand: November 2001<strong>Paralleles</strong> <strong>Rechnen</strong> (7) 07.05.2002"Geschw<strong>in</strong>digkeit messen":Die Rolle <strong>der</strong> ParallelitätEnormes Anwachsen <strong>der</strong> Performance des Spitzenreiters überdie Jahre:• Moore's Law: Verdopplung alle 18 Monate• 1993: 59,7 GFLOPs LINPACK• 1999: 2380 GFLOPs LINPACK• 2000: 4039 GFLOPs LINPACKPerformance <strong>der</strong> Nr. 1 steigt schneller als von Moore's Lawvorausgesagt (Faktor 67 statt 26 <strong>in</strong> 7 Jahren)!• ⇒ Massive Parallelität gibt e<strong>in</strong>en "extra Schub"<strong>Paralleles</strong> <strong>Rechnen</strong> (8) 07.05.2002


Warum reicht <strong>der</strong> Pentium nicht aus?Ganz e<strong>in</strong>fach: Er ist zu langsam und zu kle<strong>in</strong>!Die Def<strong>in</strong>ition e<strong>in</strong>es "schnellen" Rechners än<strong>der</strong>t sich mit <strong>der</strong>Zeit:"A supercomputer is a computer that is just onegeneration beh<strong>in</strong>d the requirements of the large scale users"Neil L<strong>in</strong>coln (CDC Cyber 205 [1981])Was tut e<strong>in</strong> "Large Scale User"?Die zwei "Limetes" des Supercomput<strong>in</strong>g:Durchsatz"Aldi-Limes"Viele kle<strong>in</strong>e ProblemeWenig Ressourcen pro Problem"Trivial parallel"Capability"Rockefeller-Limes"wenige große Problemeenorme RessourcenParallelisierung notwendig<strong>Paralleles</strong> <strong>Rechnen</strong> (9) 07.05.2002Warum reicht <strong>der</strong> Pentium nicht aus?Das DurchsatzproblemSogar wenn e<strong>in</strong> E<strong>in</strong>zelproblem schnell abgearbeitet ist, kanndie schiere Zahl <strong>der</strong> Probleme nicht nache<strong>in</strong>an<strong>der</strong> bewältigtwerdenTypisches Beispiel: Parameterstudien• "Abgrasen" e<strong>in</strong>es großen, eventuell multidimensionalenParameterraumes (Temperatur, Dichte, Anfangsbed<strong>in</strong>gungen …)• E<strong>in</strong>zelne Läufe müssen ke<strong>in</strong>e Daten mite<strong>in</strong>an<strong>der</strong> kommunizieren• E<strong>in</strong>zelprobleme laufen unter Kontrolle e<strong>in</strong>es "Master-Programmes" o<strong>der</strong> des Benutzers selbstParallele Abarbeitung vieler E<strong>in</strong>zelprobleme lastet denRechner meist gut aus (fe<strong>in</strong>e Granularität)Kommunikationshardware kann billig gehalten werden• E<strong>in</strong>faches Ethernet genügt meistKonzentration auf Spitzenleistung des E<strong>in</strong>zelrechners• Ausgewogenheit des Gesamtsystems steht h<strong>in</strong>tenan<strong>Paralleles</strong> <strong>Rechnen</strong> (10) 07.05.2002


Beispiel für e<strong>in</strong> Durchsatzproblem:Absorptionsspektrum von MolekülenModellierung <strong>der</strong> elektronischen Struktur e<strong>in</strong>es Moleküls• Numerische Lösung <strong>der</strong> Schröd<strong>in</strong>ger-Gleichung• Anregung von außen durch oszillierendes elektrisches FeldSpektrum: Durchstimmen <strong>der</strong> Anregungsfrequenz über e<strong>in</strong>engroßen Bereich• Berechnungen für jede Frequenz s<strong>in</strong>d i.W. gleich aufwendig• Viele Frequenzen notwendig, um komplettes Spektrum zuerrechnen⇒ Ideales Durchsatzproblem!μ(f)<strong>Paralleles</strong> <strong>Rechnen</strong> (11) 07.05.2002fWarum reicht <strong>der</strong> Pentium nicht aus?Das DurchsatzproblemLösung des Durchsatzproblems: massivster E<strong>in</strong>satz vonvernetzter, preiswerter "Aldi-Hardware"© W. Schmidt, TU Chemnitz<strong>Paralleles</strong> <strong>Rechnen</strong> (12) 07.05.2002


Warum reicht <strong>der</strong> Pentium nicht aus?Das Capability-ProblemSpeicherverbrauch und Laufzeit sprengen die Möglichkeitene<strong>in</strong>es E<strong>in</strong>zel-PC• Technologische Grenzen für Moore's Law <strong>in</strong> unter 20 Jahrenerreicht!Parallelisierung nicht trivial, da Zerlegung <strong>in</strong> unabhängigeE<strong>in</strong>zelprobleme nicht möglich• Verschiedene Strategien zur Parallelisierung bieten sich an (s.später)• Kommunikation ist oft nicht zu vernachlässigen• Gute Auslastung des Gesamtsystems ist nicht e<strong>in</strong>fach zuerreichen (s. später)Kommunikationshardware ist extrem teuer• dazu zählt auch die "Kommunikation" zum Speicher <strong>der</strong> CPUs!• ke<strong>in</strong>e Lösungen "von <strong>der</strong> Stange"Ausgewogenes System (Spitzenleistung/Bandbreite) istanzustreben<strong>Paralleles</strong> <strong>Rechnen</strong> (13) 07.05.2002Beispiel für e<strong>in</strong> Capability-Problem:StrömungsmechanikStrömungsmechanik (CFD):• Grid: 1000 x 1000 x 1000 Gitterpunkte O(n 3 )• Variablen pro Gitterpunkt (u,v,w,p,T,...): 20• Operationen zur Berechnung je<strong>der</strong> Variable: 100• Zeitschritte: 10000 O(n)• Gesamtzahl Fließkomma-Operationen:1000 x 1000 x 1000 x 20 x 100 x 10000 Flop=20 000 000 000 000 000 Flop=2 x 10 16 Flop = 20 000 Tflop• Speicheranfor<strong>der</strong>ung: ca. 160 GByte• Langzeitspeicherung von Ergebnissen: 160 x 10 = 1.6 Tbyte<strong>Paralleles</strong> <strong>Rechnen</strong> (14) 07.05.2002


Beispiel für e<strong>in</strong> Capability-Problem:StrömungsmechanikPentium IV, 2GHz (ohne Berücksichtigung desSpeicherproblems):• Max. Leistung: 2 GFLOP/s = 2.0 x 10 9 , Rechenzeit:2 x 10 16 Flop2 x 10 9 Flop/s= 10 000 000 s = 115 TageMo<strong>der</strong>ner Supercomputer (Hitachi SR8000):• Max. Leistung: 2.0 TFLOP/s = 2.0 x 10 12• Rechenzeit:2 x 10 16 Flop2 x 10 12 Flop/s= 10 000 s = 2.8 hRealität:Lückenoch vielgrößer!<strong>Paralleles</strong> <strong>Rechnen</strong> (15) 07.05.2002Warum reicht <strong>der</strong> Pentium nicht aus?Das Capability-ProblemLösung des Capability-Problems: speziell angefertigteSuperrechner mit außergewöhnlicher BandbreiteQuelle: LRZMünchen<strong>Paralleles</strong> <strong>Rechnen</strong> (16) 07.05.2002


Parallelität verstehen:Sequenzielle ArbeitUniversellerRechenknechtNach 16 Zeitschritten: 4 Autos<strong>Paralleles</strong> <strong>Rechnen</strong> (17) 07.05.2002Parallelität verstehen:Ideal parallele Arbeit4 UniversalknechteFaktor 4 schneller, aber: Universalgenies s<strong>in</strong>d teuer und langsam!<strong>Paralleles</strong> <strong>Rechnen</strong> (18) 07.05.2002


Parallelität verstehen:Spezialisierung und Fließbandarbeit4 Spezialisten Nach Anlaufphase: Ebenfalls 1Auto pro Zeitschritt, aber billiger!<strong>Paralleles</strong> <strong>Rechnen</strong> (19) 07.05.2002Parallelität verstehen:Grenzen <strong>der</strong> ParallelitätUngenutzte Ressourcendurch ungleiche Last!<strong>Paralleles</strong> <strong>Rechnen</strong> (20) 07.05.2002


Grenzen <strong>der</strong> Parallelität:Amdahls GesetzIdealsituation: Arbeit vollständig undgleichmäßig verteilbarseriellseriellseriellseriellRealität: re<strong>in</strong> serielle Anteilebeschränken maximalen "Speedup"seriellseriellNoch schlimmer: Kommunikationverschlechtert Speedup bei großen"Arbeiterzahlen"<strong>Paralleles</strong> <strong>Rechnen</strong> (21) 07.05.2002Grenzen <strong>der</strong> Parallelität:Amdahls Gesetz1 = ursprüngliche Rechenzeit (seriell)Beispiel für N p = 4:ideal parallelisierbarer Teil: f = 1-sre<strong>in</strong> seriellerAnteil sAnteil k für Kommunikation zwischenje 2 Rechene<strong>in</strong>heitenAllgeme<strong>in</strong>e Formel für den Speedup(worst case):P=s+1−sNp1+Npk<strong>Paralleles</strong> <strong>Rechnen</strong> (22) 07.05.2002


Grenzen <strong>der</strong> Parallelität:Amdahls GesetzIdeale SkalierungAmdahl-Limit(k=0)k ≠ 0<strong>Paralleles</strong> <strong>Rechnen</strong> (23) 07.05.2002Grenzen <strong>der</strong> Parallelität:Wie man Amdahls Gesetz austrickstSerieller Anteil ist oft unabhängig von <strong>der</strong> Problemgröße• Vergrößerung des Problems schafft bessere ParallelitätKommunikation ist nicht notwendigerweise vollkommen seriell• Blockierungsfreie Kreuzschienen-Netzwerke können vieleNachrichten gleichzeitig zwischen Rechenknoten übermitteln(technische Maßnahme)• Kommunikation kann u.U. mit s<strong>in</strong>nvoller Rechenarbeit überlapptwerden (Implementierung, Algorithmik)<strong>Paralleles</strong> <strong>Rechnen</strong> (24) 07.05.2002


Parallelität verstehen:GranularitätNumerische Probleme haben oft unterschiedliche Ebenenvon GranularitätBeispiel: Wettersimulationgrobfe<strong>in</strong>• Oberste Ebene: Simulation verschiedener Teilaspekte <strong>Physik</strong>(W<strong>in</strong>d, Temperatur, Nie<strong>der</strong>schlag...)• Zerlegung des Simulationsgebietes <strong>in</strong> Blöcke• Je<strong>der</strong> Block besteht aus N Gitterplätzen, an denen MathematikObservablen gemessen werden• Numerische Verfahren zur Lösung <strong>der</strong> Gleichungen arbeitenmit Matrizen und Vektoren• Unterste Ebene: Instruktions- und Datenströme Silizium<strong>in</strong> <strong>der</strong> CPUAufgabe des Programmierers: Abbildung <strong>der</strong>Granularitätsstruktur des Problems auf die Rechnerstruktur(Parallelisierung)!<strong>Paralleles</strong> <strong>Rechnen</strong> (25) 07.05.2002Grobkörnige Parallelität:GebietszerlegungAufteilung des Rechengebietes <strong>in</strong> Blöcke, die <strong>in</strong>unterschiedlichen Teilen des Parallelrechners bearbeitetwerden• Px kann auch aus mehreren CPUs bestehenKommunikation!P1 P2 P3 P4<strong>Paralleles</strong> <strong>Rechnen</strong> (26) 07.05.2002


Mittelkörnige Parallelität:SchleifenBlockweise Aufteilung <strong>der</strong> Arbeit <strong>in</strong> Schleifen auf verschiedeneCPUs, die auf geme<strong>in</strong>samem Speicher arbeiten• Beispiel: Matrix-Vektor-MultiplikationDO j = 1,500B(j) = B(j) + M(j,1:1000) * B(1:1000)ENDDODO j = 501,1000B(j) = B(j) + M(j,1:1000) * B(1:1000)ENDDOP0P1Speicher<strong>Paralleles</strong> <strong>Rechnen</strong> (27) 07.05.2002Fe<strong>in</strong>körnige Parallelität:Multiple Funktionse<strong>in</strong>heiten auf dem ChipBeispiel: Prozessor mit zwei Funktionse<strong>in</strong>heiten, die je e<strong>in</strong>eMultiplikation pro Takt (z.B. 1.0 ns bei 1 GHz) ausführenkönnen• Alternierende Iterationen laufen jeweils <strong>in</strong> unterschiedlicherFunktionse<strong>in</strong>heit ab• Effektive Verdopplung <strong>der</strong> Fließkomma-Leistung bei solchenSchleifenDO i = 1 , 1000 ,2C(i) = A(i) * B(i)C(i+1) = A(i+1) * B(i+1)ENDDOfp0fp1<strong>Paralleles</strong> <strong>Rechnen</strong> (28) 07.05.2002


Beispiele zur Parallelisierung:MVMVerteilung <strong>der</strong> Matrix und des Vektors auf 4 Rechner1 2 3 4c = c + A * r= +X<strong>Paralleles</strong> <strong>Rechnen</strong> (31) 07.05.2002Beispiele zur Parallelisierung:MVM1. Schritt:MVM nur aufdiagonalenBlöcken= +XR<strong>in</strong>g shift vonVektor c2. Schritt:MVM aufsubdiagonalenBlöcken= +X<strong>Paralleles</strong> <strong>Rechnen</strong> (32) 07.05.2002


Beispiele zur Parallelisierung:RandwertproblemProblem: Temperaturverteilung auf quadratischer Platte beifester Vorgabe am Rand• Lösung <strong>der</strong> Laplace-Gleichung unter Randbed<strong>in</strong>gungen:ΔT= 0• Numerisch: Abbildung auf NxN-Gitter• Verfahren: "Relaxation"T an e<strong>in</strong>em Punkt ist <strong>der</strong> Mittelwertüver die 4 nächsten Nachbarn• Iteration: Bei genügend durchgängendurch das Gitter konvergiert Tgegen die LösungParallelisierung mittelsGebietszerlegung• Was passiert mit Randzellen e<strong>in</strong>esGebietes?<strong>Paralleles</strong> <strong>Rechnen</strong> (33) 07.05.2002Beispiele zur Parallelisierung:RandwertproblemDas Problem <strong>der</strong> Gebietsrän<strong>der</strong> wird durch "Geisterzellen"gelöst• Jedes Gebiet ist an je<strong>der</strong> Kontaktfläche e<strong>in</strong>e Zelle breiter alsnotwendig• Nach je<strong>der</strong> Iteration werden die Inhalte <strong>der</strong> Geisterzellen mit demInhalt <strong>der</strong> Nachbar-Randzellen gefülltGebiet 1Gebiet 2<strong>Paralleles</strong> <strong>Rechnen</strong> (34) 07.05.2002


Supercomput<strong>in</strong>g:Hochleistungsrechner <strong>in</strong> <strong>der</strong> RealitätSupercomputer unterscheiden sich <strong>in</strong> den Ausprägungen <strong>der</strong>Parallelität• Massiv parallele Systeme• Vektorsysteme bzw. Vektor- Parallelrechner• Hybride SystemeBestimmende Größe ist nicht die Spitzen- o<strong>der</strong> LINPACK-Performance, son<strong>der</strong>n die Speicherbandbreite!• Wie viele Daten können die CPUs pro Sekunde laden/speichern?• Speicher- und Kommunikationsbandbreite s<strong>in</strong>d diekostenbestimmenden Faktoren• Es gibt immer Applikationen, die auf große Bandbreiteangewiesen s<strong>in</strong>d<strong>Paralleles</strong> <strong>Rechnen</strong> (35) 07.05.2002Speicherbandbreite als bestimmen<strong>der</strong>Faktor: Vektortriade• Standardtest: Vektor-Triade• Extrem sensitiv aufSpeicherbandbreiteDO J=1,NTIMESDO I=1,NA(I) = B(I) + C(I)*D(I)ENDDOENDDOSchleifenlänge N<strong>Paralleles</strong> <strong>Rechnen</strong> (36) 07.05.2002


Supercomput<strong>in</strong>g:Massiv parallele Systeme Typische CPU-Zahlen: 100 - 10000(schnelles) KommunikationsnetzP P P P P P P PS S S S S S S SStandardprozessoren: RISC, Pentium,..Standardspeicherbauste<strong>in</strong>e<strong>Paralleles</strong> <strong>Rechnen</strong> (37) 07.05.2002Supercomput<strong>in</strong>g:Vektorsysteme Extremes Pipel<strong>in</strong><strong>in</strong>g auf Datenebene (SIMD: S<strong>in</strong>gle InstructionMultiple Data) Extrem hohe Speicherbandbreite Typische CPU-Zahlen: 10-100KommunikationsnetzVPVPVPVPSSSSVektorprozessorenSpezialspeicherbauste<strong>in</strong>e<strong>Paralleles</strong> <strong>Rechnen</strong> (38) 07.05.2002


Supercomput<strong>in</strong>g heute:Aktuelle HardwareIBM ASCI White (Lawrence Livermore National Laboratory,USA)• 8192 CPUs (512 Knoten mit je 16 CPUs)• Spitzenleistung: 12.3 TFlop/s• 8 TByte Hauptspeicher• 145 TByte Festplattenplatz• Zugriff ist beschränkt (classified)• LINPACK: 7.2 TFlop/s• Aktuelle Nr. 1 <strong>in</strong> Top500-Liste, ab Juni2002 Nr. 2<strong>Paralleles</strong> <strong>Rechnen</strong> (39) 07.05.2002Supercomput<strong>in</strong>g heute:Aktuelle HardwareEarth Simulator• 5120 Vektor-CPUs (640 Knotenmit je 8 CPUs)• Spitzenleistung: 41 TFlop/s• LINPACK: 35 TFlop/s• Schneller als die ersten 20Rechner <strong>der</strong> Top500zusammen, neue Nummer 1!• Vorgesehen für Simulation vonKlima- und Umweltmodellen<strong>Paralleles</strong> <strong>Rechnen</strong> (40) 07.05.2002


Supercomput<strong>in</strong>g heute:Aktuelle HardwareHitachi SR8000-F1/168 am Leibniz-Rechenzentrum <strong>in</strong> München• 1344 CPUs (168 Rechenknoten mitje 8 CPUs)• 1376 GByte Hauptspeicher (8GByte pro Knoten, 4 Knoten mit 16GByte)• 10 TByte Festplattenplatz• Spitzenperformance:168 x 12 GFlop/s = 2016 GFlop/s• LINPACK: 1645 GFlop/s• ca. Platz 9 <strong>in</strong> nächster Top500<strong>Paralleles</strong> <strong>Rechnen</strong> (41) 07.05.2002Supercomput<strong>in</strong>g heute:Aktuelle HardwareKepler-Cluster <strong>der</strong> <strong>Universität</strong> Tüb<strong>in</strong>gen• 196 CPUs (98 Rechenknoten mitje 2 CPUs)• 100 GByte Hauptspeicher• Standard-PC-Hardware (PentiumIII @ 650 MHz)• Vernetzung durch Myr<strong>in</strong>et<strong>in</strong>terconnect• Spitzenleistung: 127 GFlops• LINPACK: 96.2 GFlops• effizientester Cluster <strong>in</strong>Europa• Top500 Rang 495<strong>Paralleles</strong> <strong>Rechnen</strong> (42) 07.05.2002


L<strong>in</strong>ks und Literatur HPC@RRZE: http://www.rrze.uni-erlangen.de/dienste/hpc/ LRZ München: http://www.lrz.de/services/compute/hlr/ HLRS Stuttgart: http://www.hlrs.de/ NIC Jülich: http://www.kfa-juelich.de/nic/ Top500: http://www.top500.org/ Earth Simulator: http://www.gaia.jaeri.go.jp/ MPI: http://www.mpi-forum.org/ OpenMP: http://www.openmp.org/W. Schönauer: "Scientific Supercomput<strong>in</strong>g"• http://www.uni-karlsruhe.de/Uni/RZ/Personen/rz03/book/W. Press et al: "Numerical Recipes <strong>in</strong> C" (Fortran…)• Cambridge University Press<strong>Paralleles</strong> <strong>Rechnen</strong> (43) 07.05.2002Hochleistungssysteme am RRZEWorkstation-Cluster17 Rechner, je 128MByte RAMMemory-Server28 CPUs, je 1 GFlop Peak56 GByte geme<strong>in</strong>samerHauptspeicherVPP3008 Vektor-CPUsje 2.2 GFlops Peakje 2 GByte RAM<strong>Paralleles</strong> <strong>Rechnen</strong> (44) 07.05.2002


Vielen Dank!<strong>Paralleles</strong> <strong>Rechnen</strong> (45) 07.05.2002Motivation:Schere zwischen Spitzen- und Realleistung<strong>Paralleles</strong> <strong>Rechnen</strong> (46) 07.05.2002


Motivation:Möglichkeiten zur LeistungssteigerungLeistungssteigerung :Hardware, Software undAlgorithmen Bessere Hardware• Prozessorgeschw<strong>in</strong>digkeit verdoppeltsich etwa alle 18 Monate• Aber: Speicherzugriff wächst deutlichlangsamer!Bessere Software• Bessere Compiler Bessere Algorithmen• Bessere Bibliotheken • Fourier-Transformation → Fast-Fourier-Transformation• Gauß-Seidel → Multigrid-Verfahren<strong>Paralleles</strong> <strong>Rechnen</strong> (47) 07.05.2002

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!