20.01.2013 Views

Антон Джораев, NVIDIA

Антон Джораев, NVIDIA

Антон Джораев, NVIDIA

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Антон</strong> <strong>Джораев</strong>, <strong>NVIDIA</strong><br />

1


Гетерогенные вычисления<br />

CPU<br />

GPU<br />

Ускорение<br />

АКСЕЛЕРАТОР:<br />

Сочетание GPU и CPU ускоряет<br />

приложения до 10-ков раз


Минимальное портирование для<br />

значительного ускорения<br />

Только критические<br />

Код приложения<br />

GPU функции<br />

CPU код CPU<br />

Параллелизация<br />

в соответствии<br />

с программной<br />

моделью CUDA<br />

Весь остальной<br />

последовательный


3 способа получить ускорение<br />

Приложение<br />

Библиотеки Директивы<br />

Языки<br />

программирования<br />

Самый простой путь для 2-10 кратного ускорения Максимум<br />

производительности


Директивы: добавление одной строки<br />

CPU GPU<br />

main() {<br />

…<br />

<br />

…<br />

#pragma acc region<br />

{<br />

<br />

}<br />

…<br />

}<br />

Исходный код<br />

на C/Fortran<br />

Метки для<br />

компилятора<br />

Добавляются только метки<br />

Простой путь к параллелилизму<br />

Компилятор параллелизует код<br />

Работает на многоядерных CPU и<br />

массивно параллельных GPU


В 2 раза за 4 недели. Гарантировано.<br />

Бесплатная 30-дневная лицензия PGI Accelerator*<br />

+ поддержка.<br />

www.nvidia.com/2xin4weeks<br />

*для 1000 разработчиков


Программно-аппаратная архитектура для<br />

параллельных вычислений


Что использовать - CUDA или OpenCL?<br />

CUDA<br />

Процессоры <strong>NVIDIA</strong> (решения Cray, HP, IBM, T-Platforms, NextIO…)<br />

Производительность<br />

Функциональность<br />

Удобство разработки<br />

Поддержка<br />

Учебные материалы и библиотеки<br />

OpenCL<br />

Архитектура не фиксирована, требуется универсальность<br />

Производительность не приоритетна


<strong>NVIDIA</strong> открыла платформу CUDA<br />

Исходный код компилятора<br />

CUDA для исследователей и<br />

разработчиков инструментов<br />

Поддержка<br />

Новых языков<br />

Новых процессоров<br />

Доступ<br />

http://developer.nvidia.com/cuda-source<br />

<strong>NVIDIA</strong> PGI<br />

C C++ Fortran<br />

Новые языки<br />

CUDA компилятор<br />

LLVM<br />

<strong>NVIDIA</strong><br />

GPUs<br />

x86<br />

CPUs<br />

Новые<br />

процессоры


Вычисления на GPU в цифрах:<br />

>350,000,000<br />

>1,000,000<br />

>120,000<br />

>450<br />

100%<br />

CUDA GPU<br />

Скачиваний набора для разработчиков<br />

Активных CUDA разработчиков<br />

Университетов преподают CUDA<br />

OEM предлагают решения с CUDA GPU / Tesla<br />

11


Курс по архитектуре CUDA в<br />

200 университетах в Китае<br />

“<br />

20,000 студентов<br />

ежегодно<br />

Модель параллельного программирования CUDA позволяет<br />

нам учить будущих инженеров и исследователей создавать<br />

инновации за счет использования мощи современных<br />

параллельных процессоров.<br />

”<br />

Профессор Steve Deng<br />

Университет Цинхуа


GPU для сейсмоанализа (HESS)<br />

Global Tier 1 RTM<br />

Seismic Contractor<br />

Время моделирования 7 дней вместо 28 дней<br />

Расходы на обеспечение 75% экономия<br />

Общее число Tesla GPU<br />

тысячи


Обработка спутниковых<br />

изображений<br />

Машинное<br />

зрение<br />

Видео аналитика<br />

Гидро- газодинамика<br />

GPU для государственных нужд<br />

Обработка<br />

сигналов<br />

Электромагнетизм


GPU для финансового сектора<br />

Бонды<br />

2 часа вместо 16 часов<br />

Страхование<br />

Минуты вместо дней<br />

Капитализация<br />

В 10 раз меньше энергии<br />

Опционы<br />

В 70 раз быстрее


GPU ускоряет естественные науки<br />

Секвенирование<br />

генов<br />

Анализ цепочек Молекулярное<br />

моделирование<br />

Медицинская<br />

визуализация


Инженерные расчеты на GPU<br />

• ANSYS Mechanical<br />

• Abaqus/Standard (Silmulia)<br />

• MSC Nastran<br />

• Matlab<br />

• CST Microwave Studio<br />

Ускорение моделирования = больше итераций = выше качество и надежность<br />

Меньше отказов у клиентов / меньше отзывов


MATLAB<br />

MATLAB R2011b<br />

Критическая масса функционала уже на GPU<br />

Преимущества<br />

177 функций портированны на GPU (из ~250)<br />

• Random number generation<br />

• FFT<br />

• Matrix multiplications<br />

• Solvers<br />

• Convolutions<br />

• Min/max<br />

Поддержка компилятора MATLAB<br />

GPU функционал в Communications Systems Toolbox<br />

Дальнейшее повышение производительности<br />

Фокусный рынок: наука, исследования и ...<br />

• SVD<br />

• Cholesky and LU<br />

factorization<br />

18


#2 : Tianhe-1A<br />

7168 Tesla GPU’s 2.5 PFLOPS<br />

GPU Tesla в основе 3 из Top 5 СК<br />

#4 : Nebulae<br />

4650 Tesla GPU’s 1.2 PFLOPS<br />

#5 : Tsubame 2.0<br />

4224 Tesla GPU’s 1.194 PFLOPS<br />

“ Мы не только создали самый быстрый компьютер, но так же<br />

внедрили гетерогенную вычислительную архитектуру, использующую<br />

CPU и GPU, это действительно инновация. ” Премьер министр Вен Цзябао<br />

Публичный комментарий Tianhe-1A<br />

19


Топ50 – РФ и СНГ. Интересные факты<br />

• 12 кластеров на базе <strong>NVIDIA</strong> Tesla<br />

• 5 систем из Toп10, включая № 1 и 2<br />

12 GPU-систем обеспечивают 61% суммарной пиковой<br />

производительности списка Топ50 и 53% Linpack


В 8 раз лучше результат по Linpack<br />

CPU 1U Server: 2x Intel Xeon X5550 (Nehalem) 2.66 GHz, 48 GB memory, $7K, 0.55 kw<br />

GPU-CPU 1U Server: 2x Tesla C2050 + 2x Intel Xeon X5550, 48 GB memory, $11K, 1.0 kw<br />

21


Два суперкомпьютера, построенных одновременно<br />

Tsubame 2.0<br />

4,224 Tesla GPUs + 2,816 x86 CPUs 12,784 x86 CPUs<br />

1.4 МВт<br />

Самый зеленый петафлопсный СК<br />

Hopper-NERSC<br />

2.9 МВт<br />

22


Экзаскейл сегодня с CPU<br />

DATA: U.S. Dept. of Energy<br />

2 Гигаватта<br />

Hoover Dam<br />

23


CARMA - набор для разработчиков CUDA для ARM<br />

Tegra 3 Quad-core ARM A9<br />

Quadro 1000M (96 CUDA cores)<br />

Ubuntu<br />

CUDA GPU Tegra ARM CPU<br />

Gigabit Ethernet<br />

SATA Connector<br />

HDMI, DisplayPort, USB<br />

24


DP GFLOPS per Watt<br />

16<br />

14<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

Tesla: в 2-3 раза быстрее каждые 2 года<br />

T10<br />

Fermi<br />

Kepler<br />

Maxwell<br />

2008 2010 2012 2014


Параллелизм – это просто<br />

GPU доступны<br />

Путь к Exascale<br />

Заключение<br />

Директивы OpenACC:<br />

Просто, быстро, удобно<br />

Increase<br />

GPU делают<br />

Effectiveness<br />

доступными<br />

&<br />

Efficiency<br />

суперкомпьютерные<br />

вычисления<br />

Суперкомпьютеры на базе<br />

ARM CPU + CUDA GPU<br />

26


Курс по программированию GPU<br />

Время: 11-13 апреля<br />

Место: Сибирский Суперкомпьютерный Центр<br />

Increase Effectiveness &<br />

Efficiency<br />

Регистрация и программа будет размещены на<br />

www.sscc.ru<br />

27


Спасибо за внимание<br />

<strong>Антон</strong> <strong>Джораев</strong><br />

adzhoraev@nvidia.com


Решения Tesla для рабочих станций и ЦОД<br />

Tesla M-series GPUs<br />

M2090 | M2075<br />

Серверы & блейды<br />

M2090 M2075<br />

Кол-во ядер 512 448<br />

Объем памяти 6 GB 6 GB<br />

Пс памяти<br />

(ECC откл)<br />

Пиковая<br />

произв<br />

Gflops<br />

Одинарная<br />

точность<br />

Двойная<br />

точность<br />

177.6 GB/s 150 GB/s<br />

1331 1030<br />

665 515<br />

Tesla C-series GPUs<br />

C2075<br />

Рабочие станции<br />

C2075<br />

448<br />

6 GB<br />

148.8<br />

GB/s<br />

1030<br />

515


Технологическая конференция по GPU<br />

14-17 мая 2012 | Сан Хосе, Калифорния<br />

Одно из мероприятий, которое нельзя пропустить<br />

� Передовые достижения в области вычислений на GPU<br />

� Новые научные и коммерческие приложения<br />

� Лучшие умы в области параллельных вычислений<br />

� Самые инновационные продукты и решения<br />

Способы участия<br />

� Докладчик – презентация полученных результатов<br />

� Посетитель – общение с экспертами и коллегами из вашей предметной области<br />

� Участник/стенд – реклама вашей организации, как ключевого игрока в экосистеме GPU<br />

www.gputechconf.com


Будущее сегодня<br />

Система Titan в лаборатории Oak Ridge<br />

18,000 GPU Tesla<br />

20+ петафлопс<br />

~90% флопс дают GPU<br />

В 2 раза быстрее, в 3 раза энергоэффективнее,<br />

чем текущий #1 (K Computer)


Первая в мире полная симуляция<br />

вируса H1N1<br />

Точная полная модель<br />

Лучшее понимание природы вируса<br />

Mole-8.5<br />

GPU суперкомпьютер<br />

в CAS-IPE<br />

32

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!