Zaawansowane programowanie GPU.pdf - Drobot.org

Programowanie GPU 

Michał Drobot 

Drobot.org

Poznanie GPU 

Jak to działa? 

Język (GLSL/HLSL) 

Optymalny kod

Architektura współczesnego GPU 

S IMD – konsekwencje 

S truktura 

Pipeline 

Obsługa GPU w oparciu o S M 3.0 

Praktyki programistyczne 

Podstawy prawidłowego kodowania w oparciu 

o znajomość architektury i sprzętu

Architektura GPU 

GPU – Graphic Processing Unit 

R ównoległa architektura S IMD 

Komputer wektorowy (4 skalarne wektory) 

GPU vs Multicore CPU 

GPU – olbrzymia ilość lekkich wątków, szybkie przez 

równoległość, powolne pojedynczo 

CPU – mała liczba ciężkich wątków, szybkie 

pojedynczo 

GPU dobre w rozwiązywaniu problemów 

równoległych, strumieniowych pamięciowo, 

ciężkich arytmetycznie


Podstawowe jednostki sprzętowe 

ALU 

Texture S amplers 

Jednostki wykonawcze wątków 

▪ Vertex Processing Unit 

▪ Pixel Processing Unit 

▪ Unified Thread Processor 

Pamięć DR AM


Obiekty w pamieci 

Buffered Objects 

Uniform R egisters/S tate Table 

Interpolated R egisters 

Temporary R egisters 

Textures


Buffered Objects 

S trumienie danych generowane przez CPU 

Ograniczona modyfikowalność 

Przykład 

▪ dane Vertexów obiektu


Uniform R egisters/S tate Table 

S tałe podczas działania potoku 

▪ Przekazywane względem poligonu 

rejestry dowolnego przeznaczenia (16 INT, 

224 Float) 

R ejestry Tablic S tanu 

▪ Macierze 

▪ Ś wiatła 

▪ Itp… .


Interpolated R egisters 

Dane opisujące poligon dostępne dla vertexa 

Posiadają dane interpolowane wzdłuż 

poligonu 

10 interpolatorów dowolnego przeznaczenia


Temporary R egisters 

Typowa reprezentacja rejestrów 

Tymczasowe rejestry obliczeń chwilowych


Textures 

Pojęciowo bliskie tablicom typu RAM 

▪ Nie można naraz czytać/pisać 

Kosztowne w dostępie 

▪ Wykorzystują samplery hardware’owe 

▪ Wyjątkowo kosztowne odczyty zależne

Pipeline 

Aplikacja 

Geometria 

Generuje dane 3D, wywołuje funkcje api, 

przekazuje dane do GPU 

Transformacja 3D->2D 

[równoległe / vertex shader] 

Rasteryzacja 

Generowanie fragmentów z geometrii 

[równoległe / pixel shader] 

Kompozycja 

Łączenie fragmentów w obraz 

GPU

Pipeline

Pipeline 

Dx 10 / OGl 3.0

Pipeline 

6th generation GPU

Pipeline 

8th generation GPU

Pipeline - Shaders 

S haders 

Operacje na: 

▪ Macierzach 

▪ Wektorach 

Tablice stałe 

Zmienne powiązane z GPU 

Podział danych: 

▪ Per-instance – np.. Per-vertex position 

▪ Per-pixel interpolated – np.. Koordynaty UV 

▪ Per-batch – np… dane zewnętrzne dt. światła

Pipeline – Shaders (VS 3.0) 

Transformacje do płaszczyzny przycięcia 

= clip-space 

Input: 

Vertex pos 

Tex coord 

Constant 

Dodatkowe kanały : fog, color itp.. 

Output – wyjście przekazuje do pixel 

shader 

Vertex shader działa raz per vertex

Pipeline – Shaders (VS 3.0) 

Vertex Stream – 16 rejestrów 

v0 

v1 v2 v15 

32 rejestry tymczasowe 

r0 r1 r2 r31 

>256F & 16int - const 

c0 c1 c2 cN 

aL 

a0 

Rejestr 

Pętli 

Rejestr 

Adresu 

Vertex 

Shader 

12 Rejestrów wyjścia 

oPos 

position 

oTn 

Tex coord 

oPts

Pipeline – Shaders (PS 3.0) 

Ustala wyjściowy kolor pixela 

S amplowanie 

Operacje na pixelach 

Input 

Interpolowane wyjście z VS 

Podstawowe rejestry z VS : vertex: pos, normal, tex 

coors , etc. 

R ejestry dowolnego przeznaczenia 

Output 

Wektor R /G/B/A koloru 

Depth – głębia wg ustaleń R ender S tate 

Pixel shader uruchamiany raz dla każdego 

pixela

Pipeline – Shaders (PS 3.0) 

Pixel Stream – 10 rejestrów 

v0 v1 v2 v9 

32 rejestry tymczasowe 

r0 r1 r2 r31 

>256F & 16int - const 

c0 c1 c2 cN 

16 Rejestrów Samplerów 

s0 s1 s2 s15 

Pixel 

Shader 

aL 

a0 

Wyjście dla 4 kanałów 

oC0 

oC1 

oC2 

oC3 

oDepth

Pipeline 

Istniejące potoki (pipeline’y) 

Ustalony - Fixed 

▪ Konfigurowalny, nie programowalny 

Programowalne shadery - Programmable 

shaders 

▪ Centrowany na shadery 

▪ Programowalne shadery, lecz ustalony potok 

Programowalny potok 

▪ W pełni progrmowalny przepływ danych na GPU

Pipeline 

Dodatkowe elementy potoku 

Vertex cache 

Texture cache 

Z-buffer 

▪ E arly-Z 

S tencil 

Branch processor – >= S M 3.0

Pipeline 

Vertex cache 

Cache pamięci na vertexy 

Przeważnie liniowy długoś ci 256 bits 

Dos tępny globalnie dla ws zys tkich vertex 

fetchy

Pipeline 

Texture cache 

Liniowy o długości 32K 

▪ Współdzielony / segmentowany między wszystkie 

samplery 

▪ M ultitexturing niszczy cache 

▪ Naraz odczytuje jedynie pojedynczy sektor w 

pobliżu aktualnej operacji 

▪ Odczyty zależne niszczą cache 

▪ Przechowuje dane w liniach o określonej długości 

▪ S egmentuje tablice na małe bloki używane przy 

cache’owaniu

Pipeline 

Z-buffer 

Dodatkowy bufor karty graficznej przechowujący 

głębie każdego pixela 

Używany w rozwiązywaniu problemu widoczności 

pixela przy zapisywaniu do bufora ramki 

▪ Algorytm malarza 

Aktualna głębia pixela jest sprawdzana z głebią 

zapisana w Z-buforze, jeśli jest większa pixel nie jest 

rysowany 

Obecnie 24b lub 32b o skali log 

▪ Problematyka artefaktów 

▪ Z-Fighting 

Obsługa parametryczna, sprzętowa, nie 

programowalna

Pipeline 

Z-buffer 

E arly-Z 

▪ Naturalne rozwinięcie Z-bufora 

▪ Podczas budowania Z, dokonuje testu 

▪ Odpalany przed wykonaniem R asteryzacji 

▪ Posiada wartość Z pixela z Vertex S hadera 

▪ Może być wykorzystywany jako świadoma optymalizacja 

▪ Depth pre-pass 

▪ Front – to – Back sorting 


programowalna

Pipeline 

S tencil 

Dodatkowy bufor używany wraz z buforem Z 

S łuży dodatkowych testom odrzucania pixeli 

Można do niego pisać i wykorzystywać przy 

optymalizacji 


programowalna

Pipeline 

R ender state 

S tany sprzętowe GPU 

▪ Z-test 

▪ S tencil 

▪ Culling 

▪ Blending 

Parametryzują wewnętrzne sprzętowe 

systemy optymalizacji

Pipeline 

Branch processor (>= S M 3.0) 

Umożliwia wprowadzenie architektury M IMD 

Operacje na fragmentach są przeprowadzane w 

bloczkach (np. 32x32, 8x8 , 2x2) 

▪ Każdy z bloczków za pomocą Branch processora i tzw. Flow 

control może wykonać odmienną ścieżkę wykonawczą 

▪ Jeśli którykolwiek texel z bloczku musi wybrać odmienną 

drogę od innych ,obliczenia są wykonywane dla wszystkich 

texeli i wszystkich dróg 

▪ Wprowadza fizyczną obsługę dynamicznych if, else, for, while 

itp. 

Narzut obliczeniowy < 6 cykli

Języki 

GLS L 

HLS L 

C G 

Wszystkie są podobne składniowo 

R óżnice występują jedynie na poziomie 

składniowym kilku funkcji 

▪ Np.. Lerp (HLS L) = mix(GLS L), float4 = vec4 etc. 

HLS L > CG > GLS L

Języki 

Języki przygotowane do obliczeń wektorowych 

Podstawowe typy 

▪ Float 

▪ Float2, float3, float4 / vec2, vec3, vec4 

▪ Float4x4 / mat4 

Operacje wektorowe ALU 

▪ Dot 

▪ Mul 

▪ Normalize 

▪ Lerp / mix 

▪ C lamp

Języki 

Obsługa samplerów 

tex2D / texture2D 

texCube / textureCube 

tex3D / texture3D 

Filtrowanie 

▪ POINT 

▪ LINE AR 

▪ ANIZO 

▪ E tc.

Języki 

Dyrektywy kompilatora 

Asm 

Flow control 

▪ [loop] 

▪ [flatten] 

▪ [branch] 

▪ E tc. 

Zapoznać się z możliwościami języków 

Google 

OGL consorcium 

MS DN 

Nvidia developer 

Ati developer


Zalecenia ogólne 

S tosunek ALU:Tex S amplers > 5:1 

▪ Jeśli to możliwe odczyty z textury zastąpić arytmetyką 

Liczba vertexów


Zagadka ;] 

#R1 = (x,y,z) 

DP3 R0.w, R1, R1; 

RSQ R0.w, R0.w; 

MUL R0.xyz , R1 , R0.w;


Zalecenia dla vertex shaderów 

Usuwać nieużywane interpolatory oraz 

rejestry ogólnego przeznaczenia 

Jeśli to możliwe używać wczesnego 

odrzucania 

Zalecenia dla pixel shaderów 

Texture sampling 

▪ Unikać zależnych odczytów textur 

▪ Unikać samplowania dużych obszarów (cache) 

▪ Korzystać właściwie z własności samplera 

(POINT/LINNE AR )


Branching 

Zaawansowana problematyka umożliwiająca wzrost 

prędkości o rzędy wielkości jak i również spowolnienie 

przetwarzania 

Podobieństwo w optymalizacji programów na CPU 

▪ S truktury wyboru drogi 

▪ If – else 

Dodatkowe utrudnienie wynikające z równoległości 

przetwarzania danych 

Dokładne omówienie być może kiedyś ;]


 

Jeśli wszystko zawiedzie 

Używać wstawek asm w miejscach szczególnie wrażliwych 

wydajnościowo 

▪ For, while etc… 

S prawdzić kod asm tworzony przez kompilator 

▪ Niestety często dochodzi do błędów i mało wydajnej optymalizacji 

▪ Poprawić w asm 

Używać dyrektyw kompilacji 

▪ Optymalizacij 

▪ Isolate 

▪ Call / Inline 

▪ Unrolll 

▪ loop 

▪ Flow control 

▪ Branch 

▪ flatten

Plan wykładów 

Architektura oraz optymalizacja shaderów 

Modelowanie właściwości fizycznych 

materiałów 

Obliczenia na texturach / tablicach 

Wprowadzenie – obsługa render targetów 

Post processing obrazu – metody i praktyki 

GPGPU – obliczenia ogólnego zastosowania 

na GPU

Punktacja etapu ‘rozbudowy’ 

Do zdobycia 10 (+2) pkt 

5 pkt 

▪ Wybranie 3 materiałów a następnie wymodelowanie ich oraz 

zintegrowanie z frameworkiem 

▪ Wybierane z puli materiałów 

▪ 2 proste , 1 średni 

▪ Dodatkowo do +1 pkt za zaawansowany materiał 

5 pkt 

▪ Integracja modułu obsługi render targetów 

▪ Wprowadzenie 3 efektów post processingu 

▪ Wybierane z puli efektów 

▪ 2 proste, 1 średni 

▪ Dodatkowo do +1 pkt za zaawansowany efekt

Punktacja etapu ‘rozbudowy’ 

S hadery będą oceniane pod względem 

Przejrzystości 

Wydajności (optymalizacji) 

Prawidłowego efektu 

Zastosowanej metody 

Pomysłowości 

Zastrzegam możliwość rozmowy nt. 

konkretnego rozwiązania, jego zasadności 

oraz zrozumienia zagadnienia

Michał Drobot 

Drobot.org

Zaawansowane programowanie GPU.pdf - Drobot.org

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?