Obliczenia rÃ³wnolegÅe w chemii kwantowej - ICM

Obliczenia równoległe w chemii 

kwantowej 

Łukasz Walewski 

ljw@icm.edu.pl 

Interdyscyplinarne Centrum Modelowania Matematycznego i 

Komputerowego 

Zakład Biofizyki, Wydział Fizyki 

Uniwersytet Warszawski 

Jadwisin, 9 marca 2007 – p.1/15

Przeglad 

˛ 

• Na czym polega złożoność obliczeń ab initio? 

• Infrastruktura obliczeniowa 

• Przykład zadania obliczeniowego 

• Skalowanie metod dynamiki molekularnej 


Density Functional Theory 

Gęstość elektronowa: 

∫ 

N dr 2 · · ·dr N |Ψ(r,r 2 ,...,r N )| 2 = n(r) = 

N∑ 

i=1 

|Φ i (r)| 2 

Ψ(r,r 2 ,...,r N ) – N -elektronowa f. falowa 

n(r) – jednoelektronowa gęstość (Hohenberg-Kohn) 

Φ i (r) – jednoelektronowe spin-orbitale (Kohn-Sham) 


Reprezentacja orbitali KS 

Rozwinięcie w bazie fal płaskich: 

Φ j (r) = √ 1 

G∑ 

max 

Ω 

G 

c j (G) × e iG·r 

G – wektor sieci odwrotnej 

G max = 1 

2π 2 Ω E 3 2 

cut – ilość fal płaskich w rozwinięciu 

Ω – objętość komórki elementarnej 

CP: potraktować c j (G) jako klasyczne 

zmienne dynamiczne 


Złożoność obliczeniowa 

• N = 8 

• a = 5 Å 

• E cut = 70 Ry 

⇓ 

• N occ = 4 

• Ω = 843.5 Bohr 

• G max = 4 193 

Optymalizacja 4 193 × 4 = 16 772 współczynników. 


Jülich MUlti Processor 

John von Neumann Institute für Computing (NIC) 

Jülich, Niemcy 

Oddany do użytku w 2004 r. 



Charakterystyka węzła IBM p690 Regatta 

• 32 processors, Power4+, 1.7 GHz 

• Main Memory: 128 GB, 567 MHz 

• Internal L1 cache: 64 KB instruction, 32 KB data 

(per processor) 

• Shared L2 cache: 1.5 MB (per chip = 2 

processors) 

• Shared L3 cache: 512 MB (per frame) 

• Peak performance: 218 GFLOPS 



Charakterystyka klastra JUMP 

• Total number of p690 frames: 41 

• Total number of processors: 1312 

• Aggregate peak performance: 8.9 TFLOPS 

• LINPACK performance (41 nodes): 5.568 TFLOPS 

• Aggregate main memory: 5.2 TByte 

• Global disk space (GPFS): 8 x 7 x 14 x 72 GB = 56 TB 

• Cluster interconnect: HPS - High Performance Switch: 

• Bandwidth > 1400 MB/s per link 

• Latency < 6.5 us 


Czas obliczeń – przykład 

8 

7 

CPMD 

PIMD 

6 

∆F [ kcal / mol ] 

5 

4 

3 

2 

1 

0 

reaction coordinate 

n CPUs 128 

czas CPU na krok CPMD 1.9 sek 

czas CPU na punkt 03:06:00 h 

czas ELA na punkt 03:20:00 h 

128 × 3 h = 384 h = 16 dni 


Wpływ długości rozwinięcia 

E cut [ Ry ] t CPU [ s ] 

120 12 

70 10 

40 5 

25 3 

t CPU 

[ s ] 

14 

12 

10 

8 

6 

4 

2 

20 40 60 80 100 120 140 

E cut 

[ Ry ] 

Tablica 1: Czas wykonania t CPU w funkcji obcięcia 

funkcji falowej E cut (32 Power4 processors at 1.7 GHz, 

IBM p690). 


Skalowanie obliczeń – IBM p690 

16384 

CPU time 

Elapsed time 

time [ s ] 

8192 

8 16 32 64 128 256 

number of CPUs 

CPMD: wersja równoległa (MPI), 38 atomów, 100 kroków PIMD; 


Skalowanie obliczeń – Cray X1e i PC 

10000 

CrayX1e (MSP) CPU 

CrayX1e (MSP) ELA 

CrayX1e (SSP) CPU 

CrayX1e (SSP) ELA 

PC (1cpu/node) CPU 

PC (1 cpu/node) ELA 

PC (2 cpu/node) CPU 

PC (2 cpu/node) ELA 

Time [ s ] 

1000 

100 

1 2 4 8 16 32 

Number of processors 

CPMD: wersja równoległa (MPI), 32 H 2 O, 50 kroków MD; 


Wydajność: biblioteki numeryczne 

Serial CPMD performance 

400 

IFC / ACML 

IFC / MKL 

PGI / ACML 

PGI / LAPACK 

300 

CPU time [ s ] 

200 

100 

0 

AMD Athlon, 1.6 GHz AMD Opteron, 2.0 GHz Intel Pentium 4, 2.4 GHz 

Processor type 

CPMD: wersja skalarna, 32 H 2 O, 1 krok MD; 


Podsumowanie 

• Kwantowy opis układu ⇒ wiele stopni swobody 

• Wydajne zrównoleglenie oprogramowania 

• Szybka wymiana danych między procesorami 


Zespół G16-7

Obliczenia rÃ³wnolegÅe w chemii kwantowej - ICM

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?

Obliczenia rÃ³wnolegÅe w chemii kwantowej - ICM