Антон Джораев, NVIDIA

Антон Джораев, NVIDIA 

1

Гетерогенные вычисления 

CPU 

GPU 

Ускорение 

АКСЕЛЕРАТОР: 

Сочетание GPU и CPU ускоряет 

приложения до 10-ков раз

Минимальное портирование для 

значительного ускорения 

Только критические 

Код приложения 

GPU функции 

CPU код CPU 

Параллелизация 

в соответствии 

с программной 

моделью CUDA 

Весь остальной 

последовательный

3 способа получить ускорение 

Приложение 

Библиотеки Директивы 

Языки 

программирования 

Самый простой путь для 2-10 кратного ускорения Максимум 

производительности

Директивы: добавление одной строки 

CPU GPU 

main() { 

… 

 

… 

#pragma acc region 

{ 

 

} 

… 

} 

Исходный код 

на C/Fortran 

Метки для 

компилятора 

Добавляются только метки 

Простой путь к параллелилизму 

Компилятор параллелизует код 

Работает на многоядерных CPU и 

массивно параллельных GPU

В 2 раза за 4 недели. Гарантировано. 

Бесплатная 30-дневная лицензия PGI Accelerator* 

+ поддержка. 

www.nvidia.com/2xin4weeks 

*для 1000 разработчиков

Программно-аппаратная архитектура для 

параллельных вычислений

Что использовать - CUDA или OpenCL? 

CUDA 

Процессоры NVIDIA (решения Cray, HP, IBM, T-Platforms, NextIO…) 

Производительность 

Функциональность 

Удобство разработки 

Поддержка 

Учебные материалы и библиотеки 

OpenCL 

Архитектура не фиксирована, требуется универсальность 

Производительность не приоритетна

NVIDIA открыла платформу CUDA 

Исходный код компилятора 

CUDA для исследователей и 

разработчиков инструментов 

Поддержка 

Новых языков 

Новых процессоров 

Доступ 

http://developer.nvidia.com/cuda-source 

NVIDIA PGI 

C C++ Fortran 

Новые языки 

CUDA компилятор 

LLVM 

NVIDIA 

GPUs 

x86 

CPUs 

Новые 

процессоры

Вычисления на GPU в цифрах: 

>350,000,000 

>1,000,000 

>120,000 

>450 

100% 

CUDA GPU 

Скачиваний набора для разработчиков 

Активных CUDA разработчиков 

Университетов преподают CUDA 

OEM предлагают решения с CUDA GPU / Tesla 

11

Курс по архитектуре CUDA в 

200 университетах в Китае 

“ 

20,000 студентов 

ежегодно 

Модель параллельного программирования CUDA позволяет 

нам учить будущих инженеров и исследователей создавать 

инновации за счет использования мощи современных 

параллельных процессоров. 

” 

Профессор Steve Deng 

Университет Цинхуа

GPU для сейсмоанализа (HESS) 

Global Tier 1 RTM 

Seismic Contractor 

Время моделирования 7 дней вместо 28 дней 

Расходы на обеспечение 75% экономия 

Общее число Tesla GPU 

тысячи

Обработка спутниковых 

изображений 

Машинное 

зрение 

Видео аналитика 

Гидро- газодинамика 

GPU для государственных нужд 

Обработка 

сигналов 

Электромагнетизм

GPU для финансового сектора 

Бонды 

2 часа вместо 16 часов 

Страхование 

Минуты вместо дней 

Капитализация 

В 10 раз меньше энергии 

Опционы 

В 70 раз быстрее

GPU ускоряет естественные науки 

Секвенирование 

генов 

Анализ цепочек Молекулярное 

моделирование 

Медицинская 

визуализация

Инженерные расчеты на GPU 

• ANSYS Mechanical 

• Abaqus/Standard (Silmulia) 

• MSC Nastran 

• Matlab 

• CST Microwave Studio 

Ускорение моделирования = больше итераций = выше качество и надежность 

Меньше отказов у клиентов / меньше отзывов

MATLAB 

MATLAB R2011b 

Критическая масса функционала уже на GPU 

Преимущества 

177 функций портированны на GPU (из ~250) 

• Random number generation 

• FFT 

• Matrix multiplications 

• Solvers 

• Convolutions 

• Min/max 

Поддержка компилятора MATLAB 

GPU функционал в Communications Systems Toolbox 

Дальнейшее повышение производительности 

Фокусный рынок: наука, исследования и ... 

• SVD 

• Cholesky and LU 

factorization 

18

#2 : Tianhe-1A 

7168 Tesla GPU’s 2.5 PFLOPS 

GPU Tesla в основе 3 из Top 5 СК 

#4 : Nebulae 


#5 : Tsubame 2.0 


“ Мы не только создали самый быстрый компьютер, но так же 

внедрили гетерогенную вычислительную архитектуру, использующую 

CPU и GPU, это действительно инновация. ” Премьер министр Вен Цзябао 

Публичный комментарий Tianhe-1A 

19

Топ50 – РФ и СНГ. Интересные факты 

• 12 кластеров на базе NVIDIA Tesla 

• 5 систем из Toп10, включая № 1 и 2 

12 GPU-систем обеспечивают 61% суммарной пиковой 

производительности списка Топ50 и 53% Linpack

В 8 раз лучше результат по Linpack 

CPU 1U Server: 2x Intel Xeon X5550 (Nehalem) 2.66 GHz, 48 GB memory, $7K, 0.55 kw 

GPU-CPU 1U Server: 2x Tesla C2050 + 2x Intel Xeon X5550, 48 GB memory, $11K, 1.0 kw 

21

Два суперкомпьютера, построенных одновременно 

Tsubame 2.0 

4,224 Tesla GPUs + 2,816 x86 CPUs 12,784 x86 CPUs 

1.4 МВт 

Самый зеленый петафлопсный СК 

Hopper-NERSC 

2.9 МВт 

22

Экзаскейл сегодня с CPU 

DATA: U.S. Dept. of Energy 

2 Гигаватта 

Hoover Dam 

23

CARMA - набор для разработчиков CUDA для ARM 

Tegra 3 Quad-core ARM A9 

Quadro 1000M (96 CUDA cores) 

Ubuntu 

CUDA GPU Tegra ARM CPU 

Gigabit Ethernet 

SATA Connector 

HDMI, DisplayPort, USB 

24

DP GFLOPS per Watt 

16 

14 

12 

10 

8 

6 

4 

2 

Tesla: в 2-3 раза быстрее каждые 2 года 

T10 

Fermi 

Kepler 

Maxwell 

2008 2010 2012 2014

Параллелизм – это просто 

GPU доступны 

Путь к Exascale 

Заключение 

Директивы OpenACC: 

Просто, быстро, удобно 

Increase 

GPU делают 

Effectiveness 

доступными 

& 

Efficiency 

суперкомпьютерные 

вычисления 

Суперкомпьютеры на базе 

ARM CPU + CUDA GPU 

26

Курс по программированию GPU 

Время: 11-13 апреля 

Место: Сибирский Суперкомпьютерный Центр 

Increase Effectiveness & 

Efficiency 

Регистрация и программа будет размещены на 

www.sscc.ru 

27

Спасибо за внимание 

Антон Джораев 

adzhoraev@nvidia.com

Решения Tesla для рабочих станций и ЦОД 

Tesla M-series GPUs 

M2090 | M2075 

Серверы & блейды 

M2090 M2075 

Кол-во ядер 512 448 

Объем памяти 6 GB 6 GB 

Пс памяти 

(ECC откл) 

Пиковая 

произв 

Gflops 

Одинарная 

точность 

Двойная 

точность 

177.6 GB/s 150 GB/s 

1331 1030 

665 515 

Tesla C-series GPUs 

C2075 

Рабочие станции 

C2075 

448 

6 GB 

148.8 

GB/s 

1030 

515

Технологическая конференция по GPU 

14-17 мая 2012 | Сан Хосе, Калифорния 

Одно из мероприятий, которое нельзя пропустить 

� Передовые достижения в области вычислений на GPU 

� Новые научные и коммерческие приложения 

� Лучшие умы в области параллельных вычислений 

� Самые инновационные продукты и решения 

Способы участия 

� Докладчик – презентация полученных результатов 

� Посетитель – общение с экспертами и коллегами из вашей предметной области 

� Участник/стенд – реклама вашей организации, как ключевого игрока в экосистеме GPU 

www.gputechconf.com

Будущее сегодня 

Система Titan в лаборатории Oak Ridge 

18,000 GPU Tesla 

20+ петафлопс 

~90% флопс дают GPU 

В 2 раза быстрее, в 3 раза энергоэффективнее, 

чем текущий #1 (K Computer)

Первая в мире полная симуляция 

вируса H1N1 

Точная полная модель 

Лучшее понимание природы вируса 

Mole-8.5 

GPU суперкомпьютер 

в CAS-IPE 

32

Антон Джораев, NVIDIA

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?