NVIDIA CUDA — неграфические вычисления на графических ...

NVIDIA CUDA — неграфическиевычисления на графических процессорахВведениеУстройства для превращения персональных компьютеров в маленькие суперкомпьютерыизвестны довольно давно. Ещё в 80-х годах прошлого века на рынке предлагались такназываемые транспьютеры, которые вставлялись в распространенные тогда слотырасширения ISA. Первое время их производительность в соответствующих задачахвпечатляла, но затем рост быстродействия универсальных процессоров ускорился, ониусилили свои позиции в параллельных вычислениях, и смысла в транспьютерах неосталось. Хотя подобные устройства существуют и сейчас — это разнообразныеспециализированные ускорители. Но зачастую сфера их применения узка и особогораспространения такие ускорители не получили.Но в последнее время эстафета параллельных вычислений перешла к массовому рынку,так или иначе связанному с трёхмерными играми. Универсальные устройства смногоядерными процессорами для параллельных векторных вычислений, используемых в3D-графике, достигают высокой пиковой производительности, которая универсальнымпроцессорам не под силу. Конечно, максимальная скорость достигается лишь в рядеудобных задач и имеет некоторые ограничения, но такие устройства уже начали довольношироко применять в сферах, для которых они изначально и не предназначались.Отличным примером такого параллельного процессора является процессор Cell,разработанный альянсом Sony-Toshiba-IBM и применяемый в игровой приставке SonyPlayStation 3, а также и все современные видеокарты от лидеров рынка — компанийNVIDIA и AMD.Cell мы сегодня трогать не будем, хоть он и появился раньше и является универсальнымпроцессором с дополнительными векторными возможностями, речь сегодня не о нём. Для3D видеоускорителей ещё несколько лет назад появились первые технологиинеграфических расчётов общего назначения GPGPU (General-Purpose computation onGPUs). Ведь современные видеочипы содержат сотни математических исполнительныхблоков, и эта мощь может использоваться для значительного ускорения множествавычислительно интенсивных приложений. И нынешние поколения GPU обладаютдостаточно гибкой архитектурой, что вместе с высокоуровневыми языками

программирования и программно-аппаратными архитектурами, подобнымирассматриваемой в этой статье, раскрывает эти возможности и делает их значительноболее доступными.На создание GPCPU разработчиков побудило появление достаточно быстрых и гибкихшейдерных программ, которые способны исполнять современные видеочипы.Разработчики задумали сделать так, чтобы GPU рассчитывали не только изображение в3D приложениях, но и применялись в других параллельных расчётах. В GPGPU для этогоиспользовались графические API: OpenGL и Direct3D, когда данные к видеочипупередавались в виде текстур, а расчётные программы загружались в виде шейдеров.Недостатками такого метода является сравнительно высокая сложностьпрограммирования, низкая скорость обмена данными между CPU и GPU и другиеограничения, о которых мы поговорим далее.Вычисления на GPU развивались и развиваются очень быстро. И в дальнейшем, дваосновных производителя видеочипов, NVIDIA и AMD, разработали и анонсировалисоответствующие платформы под названием CUDA (Compute Unified Device Architecture)и CTM (Close To Metal или AMD Stream Computing), соответственно. В отличие отпредыдущих моделей программирования GPU, эти были выполнены с учётом прямогодоступа к аппаратным возможностям видеокарт. Платформы не совместимы между собой,CUDA — это расширение языка программирования C, а CTM — виртуальная машина,исполняющая ассемблерный код. Зато обе платформы ликвидировали некоторые изважных ограничений предыдущих моделей GPGPU, использующих традиционныйграфический конвейер и соответствующие интерфейсы Direct3D или OpenGL.Конечно же, открытые стандарты, использующие OpenGL, кажутся наиболеепортируемыми и универсальными, они позволяют использовать один и тот же код длявидеочипов разных производителей. Но у таких методов есть масса недостатков, онизначительно менее гибкие и не такие удобные в использовании. Кроме того, они не даютиспользовать специфические возможности определённых видеокарт, такие, как быстраяразделяемая (общая) память, присутствующая в современных вычислительныхпроцессорах.Именно поэтому компания NVIDIA выпустила платформу CUDA — C-подобный языкпрограммирования со своим компилятором и библиотеками для вычислений на GPU.Конечно же, написание оптимального кода для видеочипов совсем не такое простое и этазадача нуждается в длительной ручной работе, но CUDA как раз и раскрывает всевозможности и даёт программисту больший контроль над аппаратными возможностямиGPU. Важно, что поддержка NVIDIA CUDA есть у чипов G8x, G9x и GT2xx,применяемых в видеокартах GeForce серий 8, 9 и 200, которые очень широкораспространены. В настоящее время выпущена финальная версия CUDA 2.0, в которойпоявились некоторые новые возможности, например, поддержка расчётов с двойнойточностью. CUDA доступна на 32-битных и 64-битных операционных системах Linux,Windows и MacOS X.Разница между CPU и GPU в параллельных расчётахРост частот универсальных процессоров упёрся в физические ограничения и высокоеэнергопотребление, и увеличение их производительности всё чаще происходит за счётразмещения нескольких ядер в одном чипе. Продаваемые сейчас процессоры содержатлишь до четырёх ядер (дальнейший рост не будет быстрым) и они предназначены дляобычных приложений, используют MIMD — множественный поток команд и данных.

Каждое ядро работает отдельно от остальных, исполняя разные инструкции для разныхпроцессов.Специализированные векторные возможности (SSE2 и SSE3) для четырехкомпонентных(одинарная точность вычислений с плавающей точкой) и двухкомпонентных (двойнаяточность) векторов появились в универсальных процессорах из-за возросших требованийграфических приложений, в первую очередь. Именно поэтому для определённых задачприменение GPU выгоднее, ведь они изначально сделаны для них.Например, в видеочипах NVIDIA основной блок — это мультипроцессор с восемьюдесятьюядрами и сотнями ALU в целом, несколькими тысячами регистров и небольшимколичеством разделяемой общей памяти. Кроме того, видеокарта содержит быструюглобальную память с доступом к ней всех мультипроцессоров, локальную память вкаждом мультипроцессоре, а также специальную память для констант.Самое главное — эти несколько ядер мультипроцессора в GPU являются SIMD(одиночный поток команд, множество потоков данных) ядрами. И эти ядра исполняютодни и те же инструкции одновременно, такой стиль программирования являетсяобычным для графических алгоритмов и многих научных задач, но требуетспецифического программирования. Зато такой подход позволяет увеличить количествоисполнительных блоков за счёт их упрощения.Итак, перечислим основные различия между архитектурами CPU и GPU. Ядра CPUсозданы для исполнения одного потока последовательных инструкций с максимальнойпроизводительностью, а GPU проектируются для быстрого исполнения большого числапараллельно выполняемых потоков инструкций. Универсальные процессорыоптимизированы для достижения высокой производительности единственного потокакоманд, обрабатывающего и целые числа и числа с плавающей точкой. При этом доступ кпамяти случайный.Разработчики CPU стараются добиться выполнения как можно большего числаинструкций параллельно, для увеличения производительности. Для этого, начиная спроцессоров Intel Pentium, появилось суперскалярное выполнение, обеспечивающеевыполнение двух инструкций за такт, а Pentium Pro отличился внеочереднымвыполнением инструкций. Но у параллельного выполнения последовательного потокаинструкций есть определённые базовые ограничения и увеличением количестваисполнительных блоков кратного увеличения скорости не добиться.У видеочипов работа простая и распараллеленная изначально. Видеочип принимает навходе группу полигонов, проводит все необходимые операции, и на выходе выдаётпиксели. Обработка полигонов и пикселей независима, их можно обрабатыватьпараллельно, отдельно друг от друга. Поэтому, из-за изначально параллельнойорганизации работы в GPU используется большое количество исполнительных блоков,которые легко загрузить, в отличие от последовательного потока инструкций для CPU.Кроме того, современные GPU также могут исполнять больше одной инструкции за такт(dual issue). Так, архитектура Tesla в некоторых условиях запускает на исполнениеоперации MAD+MUL или MAD+SFU одновременно.GPU отличается от CPU ещё и по принципам доступа к памяти. В GPU он связанный илегко предсказуемый — если из памяти читается тексель текстуры, то через некотороевремя придёт время и для соседних текселей. Да и при записи то же — пиксельзаписывается во фреймбуфер, и через несколько тактов будет записываться

расположенный рядом с ним. Поэтому организация памяти отличается от той, чтоиспользуется в CPU. И видеочипу, в отличие от универсальных процессоров, просто ненужна кэш-память большого размера, а для текстур требуются лишь несколько (до 128-256 в нынешних GPU) килобайт.Да и сама по себе работа с памятью у GPU и CPU несколько отличается. Так, не всецентральные процессоры имеют встроенные контроллеры памяти, а у всех GPU обычноесть по несколько контроллеров, вплоть до восьми 64-битных каналов в чипе NVIDIAGT200. Кроме того, на видеокартах применяется более быстрая память, и в результатевидеочипам доступна в разы большая пропускная способность памяти, что также весьмаважно для параллельных расчётов, оперирующих с огромными потоками данных.В универсальных процессорах большие количества транзисторов и площадь чипа идут набуферы команд, аппаратное предсказание ветвления и огромные объёмы начиповой кэшпамяти.Все эти аппаратные блоки нужны для ускорения исполнения немногочисленныхпотоков команд. Видеочипы тратят транзисторы на массивы исполнительных блоков,управляющие потоками блоки, разделяемую память небольшого объёма и контроллерыпамяти на несколько каналов. Вышеперечисленное не ускоряет выполнение отдельныхпотоков, оно позволяет чипу обрабатывать нескольких тысяч потоков, одновременноисполняющихся чипом и требующих высокой пропускной способности памяти.Про отличия в кэшировании. Универсальные центральные процессоры используют кэшпамятьдля увеличения производительности за счёт снижения задержек доступа к памяти,а GPU используют кэш или общую память для увеличения полосы пропускания. CPUснижают задержки доступа к памяти при помощи кэш-памяти большого размера, а такжепредсказания ветвлений кода. Эти аппаратные части занимают большую часть площадичипа и потребляют много энергии. Видеочипы обходят проблему задержек доступа кпамяти при помощи одновременного исполнения тысяч потоков — в то время, когда одиниз потоков ожидает данных из памяти, видеочип может выполнять вычисления другогопотока без ожидания и задержек.Есть множество различий и в поддержке многопоточности. CPU исполняет 1-2 потокавычислений на одно процессорное ядро, а видеочипы могут поддерживать до 1024потоков на каждый мультипроцессор, которых в чипе несколько штук. И еслипереключение с одного потока на другой для CPU стоит сотни тактов, то GPUпереключает несколько потоков за один такт.Кроме того, центральные процессоры используют SIMD (одна инструкция выполняетсянад многочисленными данными) блоки для векторных вычислений, а видеочипыприменяют SIMT (одна инструкция и несколько потоков) для скалярной обработкипотоков. SIMT не требует, чтобы разработчик преобразовывал данные в векторы, идопускает произвольные ветвления в потоках.Вкратце можно сказать, что в отличие от современных универсальных CPU, видеочипыпредназначены для параллельных вычислений с большим количеством арифметическихопераций. И значительно большее число транзисторов GPU работает по прямомуназначению — обработке массивов данных, а не управляет исполнением (flow control)немногочисленных последовательных вычислительных потоков. Это схема того, сколькоместа в CPU и GPU занимает разнообразная логика:

В итоге, основой для эффективного использования мощи GPU в научных и иныхнеграфических расчётах является распараллеливание алгоритмов на сотниисполнительных блоков, имеющихся в видеочипах. К примеру, множество приложений помолекулярному моделированию отлично приспособлено для расчётов на видеочипах, онитребуют больших вычислительных мощностей и поэтому удобны для параллельныхвычислений. А использование нескольких GPU даёт ещё больше вычислительныхмощностей для решения подобных задач.Выполнение расчётов на GPU показывает отличные результаты в алгоритмах,использующих параллельную обработку данных. То есть, когда одну и ту жепоследовательность математических операций применяют к большому объёму данных.При этом лучшие результаты достигаются, если отношение числа арифметическихинструкций к числу обращений к памяти достаточно велико. Это предъявляет меньшиетребования к управлению исполнением (flow control), а высокая плотность математики ибольшой объём данных отменяет необходимость в больших кэшах, как на CPU.В результате всех описанных выше отличий, теоретическая производительностьвидеочипов значительно превосходит производительность CPU. Компания NVIDIAприводит такой график роста производительности CPU и GPU за последние нескольколет:Естественно, эти данные не без доли лукавства. Ведь на CPU гораздо проще на практикедостичь теоретических цифр, да и цифры приведены для одинарной точности в случаеGPU, и для двойной — в случае CPU. В любом случае, для части параллельных задач

одинарной точности хватает, а разница в скорости между универсальными играфическими процессорами весьма велика, и поэтому овчинка стоит выделки.Первые попытки применения расчётов на GPUВидеочипы в параллельных математических расчётах пытались использовать довольнодавно. Самые первые попытки такого применения были крайне примитивными иограничивались использованием некоторых аппаратных функций, таких, как растеризацияи Z-буферизация. Но в нынешнем веке, с появлением шейдеров, начали ускорятьвычисления матриц. В 2003 году на SIGGRAPH отдельная секция была выделена подвычисления на GPU, и она получила название GPGPU (General-Purpose computation onGPU) — универсальные вычисления на GPU).Наиболее известен BrookGPU — компилятор потокового языка программирования Brook,созданный для выполнения неграфических вычислений на GPU. До его появленияразработчики, использующие возможности видеочипов для вычислений, выбирали одиниз двух распространённых API: Direct3D или OpenGL. Это серьёзно ограничивалоприменение GPU, ведь в 3D графике используются шейдеры и текстуры, о которыхспециалисты по параллельному программированию знать не обязаны, они используютпотоки и ядра. Brook смог помочь в облегчении их задачи. Эти потоковые расширения кязыку C, разработанные в Стэндфордском университете, скрывали от программистовтрёхмерный API, и представляли видеочип в виде параллельного сопроцессора.Компилятор обрабатывал файл .br с кодом C++ и расширениями, производя код,привязанный к библиотеке с поддержкой DirectX, OpenGL или x86.Естественно, у Brook было множество недостатков, на которых мы останавливались, и окоторых ещё подробнее поговорим далее. Но даже просто его появление вызвалозначительный прилив внимания тех же NVIDIA и ATI к инициативе вычислений на GPU,так как развитие этих возможностей серьёзно изменило рынок в дальнейшем, открывцелый новый его сектор — параллельные вычислители на основе видеочипов.В дальнейшем, некоторые исследователи из проекта Brook влились в командуразработчиков NVIDIA, чтобы представить программно-аппаратную стратегиюпараллельных вычислений, открыв новую долю рынка. И главным преимуществом этойинициативы NVIDIA стало то, что разработчики отлично знают все возможности своихGPU до мелочей, и в использовании графического API нет необходимости, а работать саппаратным обеспечением можно напрямую при помощи драйвера. Результатом усилийэтой команды стала NVIDIA CUDA (Compute Unified Device Architecture) — новаяпрограммно-аппаратная архитектура для параллельных вычислений на NVIDIA GPU,которой посвящена эта статья.Области применения параллельных расчётов на GPUЧтобы понять, какие преимущества приносит перенос расчётов на видеочипы, приведёмусреднённые цифры, полученные исследователями по всему миру. В среднем, припереносе вычислений на GPU, во многих задачах достигается ускорение в 5-30 раз, посравнению с быстрыми универсальными процессорами. Самые большие цифры (порядка100-кратного ускорения и даже более!) достигаются на коде, который не очень хорошоподходит для расчётов при помощи блоков SSE, но вполне удобен для GPU.Это лишь некоторые примеры ускорений синтетического кода на GPU против SSEвекторизованногокода на CPU (по данным NVIDIA):

Флуоресцентная микроскопия: 12x; Молекулярная динамика (non-bonded force calc): 8-16x; Электростатика (прямое и многоуровневое суммирование Кулона): 40-120x и 7x.А это табличка, которую очень любит NVIDIA, показывая её на всех презентациях, накоторой мы подробнее остановимся во второй части статьи, посвящённой конкретнымпримерам практических применений CUDA вычислений:Как видите, цифры весьма привлекательные, особенно впечатляют 100-150-кратныеприросты. В следующей статье, посвящённой CUDA, мы подробно разберём некоторые изэтих цифр. А сейчас перечислим основные приложения, в которых сейчас применяютсявычисления на GPU: анализ и обработка изображений и сигналов, симуляция физики,вычислительная математика, вычислительная биология, финансовые расчёты, базыданных, динамика газов и жидкостей, криптография, адаптивная лучевая терапия,астрономия, обработка звука, биоинформатика, биологические симуляции, компьютерноезрение, анализ данных (data mining), цифровое кино и телевидение, электромагнитныесимуляции, геоинформационные системы, военные применения, горное планирование,молекулярная динамика, магнитно-резонансная томография (MRI), нейросети,океанографические исследования, физика частиц, симуляция свёртывания молекул белка,квантовая химия, трассировка лучей, визуализация, радары, гидродинамическоемоделирование (reservoir simulation), искусственный интеллект, анализ спутниковыхданных, сейсмическая разведка, хирургия, ультразвук, видеоконференции.

Подробности о многих применениях можно найти на сайте компании NVIDIA в разделепо технологии CUDA. Как видите, список довольно большой, но и это ещё не всё! Егоможно продолжать, и наверняка можно предположить, что в будущем будут найдены идругие области применения параллельных расчётов на видеочипах, о которых мы пока недогадываемся.Возможности NVIDIA CUDAТехнология CUDA — это программно-аппаратная вычислительная архитектура NVIDIA,основанная на расширении языка Си, которая даёт возможность организации доступа кнабору инструкций графического ускорителя и управления его памятью при организациипараллельных вычислений. CUDA помогает реализовывать алгоритмы, выполнимые награфических процессорах видеоускорителей GeForce восьмого поколения и старше (серииGeForce 8, GeForce 9, GeForce 200), а также Quadro и Tesla.Хотя трудоёмкость программирования GPU при помощи CUDA довольно велика, онаниже, чем с ранними GPGPU решениями. Такие программы требуют разбиенияприложения между несколькими мультипроцессорами подобно MPI программированию,но без разделения данных, которые хранятся в общей видеопамяти. И так как CUDAпрограммирование для каждого мультипроцессора подобно OpenMP программированию,оно требует хорошего понимания организации памяти. Но, конечно же, сложностьразработки и переноса на CUDA сильно зависит от приложения.Набор для разработчиков содержит множество примеров кода и хорошо документирован.Процесс обучения потребует около двух-четырёх недель для тех, кто уже знаком сOpenMP и MPI. В основе API лежит расширенный язык Си, а для трансляции кода с этогоязыка в состав CUDA SDK входит компилятор командной строки nvcc, созданный наоснове открытого компилятора Open64.Перечислим основные характеристики CUDA:унифицированное программно-аппаратное решение для параллельных вычисленийна видеочипах NVIDIA;большой набор поддерживаемых решений, от мобильных до мультичиповыхстандартный язык программирования Си;стандартные библиотеки численного анализа FFT (быстрое преобразование Фурье)и BLAS (линейная алгебра);оптимизированный обмен данными между CPU и GPU;взаимодействие с графическими API OpenGL и DirectX;поддержка 32- и 64-битных операционных систем: Windows XP, Windows Vista,Linux и MacOS X;возможность разработки на низком уровне.Касательно поддержки операционных систем нужно добавить, что официальноподдерживаются все основные дистрибутивы Linux (Red Hat Enterprise Linux 3.x/4.x/5.x,SUSE Linux 10.x), но, судя по данным энтузиастов, CUDA прекрасно работает и на другихсборках: Fedora Core, Ubuntu, Gentoo и др.Среда разработки CUDA (CUDA Toolkit) включает:компилятор nvcc;библиотеки FFT и BLAS;

профилировщик;отладчик gdb для GPU;CUDA runtime драйвер в комплекте стандартных драйверов NVIDIAруководство по программированию;CUDA Developer SDK (исходный код, утилиты и документация).В примерах исходного кода: параллельная битонная сортировка (bitonic sort),транспонирование матриц, параллельное префиксное суммирование больших массивов,свёртка изображений, дискретное вейвлет-преобразование, пример взаимодействия сOpenGL и Direct3D, использование библиотек CUBLAS и CUFFT, вычисление ценыопциона (формула Блэка-Шоулза, биномиальная модель, метод Монте-Карло),параллельный генератор случайных чисел Mersenne Twister, вычисление гистограммыбольшого массива, шумоподавление, фильтр Собеля (нахождение границ).Преимущества и ограничения CUDAС точки зрения программиста, графический конвейер является набором стадий обработки.Блок геометрии генерирует треугольники, а блок растеризации — пиксели, отображаемыена мониторе. Традиционная модель программирования GPGPU выглядит следующимобразом:Чтобы перенести вычисления на GPU в рамках такой модели, нужен специальный подход.Даже поэлементное сложение двух векторов потребует отрисовки фигуры на экране иливо внеэкранный буфер. Фигура растеризуется, цвет каждого пикселя вычисляется позаданной программе (пиксельному шейдеру). Программа считывает входные данные изтекстур для каждого пикселя, складывает их и записывает в выходной буфер. И все этимногочисленные операции нужны для того, что в обычном языке программированиязаписывается одним оператором!Поэтому, применение GPGPU для вычислений общего назначения имеет ограничение ввиде слишком большой сложности обучения разработчиков. Да и других ограниченийдостаточно, ведь пиксельный шейдер — это всего лишь формула зависимости итоговогоцвета пикселя от его координаты, а язык пиксельных шейдеров — язык записи этихформул с Си-подобным синтаксисом. Ранние методы GPGPU являются хитрым трюком,

позволяющим использовать мощность GPU, но без всякого удобства. Данные тампредставлены изображениями (текстурами), а алгоритм — процессом растеризации.Нужно особо отметить и весьма специфичную модель памяти и исполнения.Программно-аппаратная архитектура для вычислений на GPU компании NVIDIAотличается от предыдущих моделей GPGPU тем, что позволяет писать программы дляGPU на настоящем языке Си со стандартным синтаксисом, указателями инеобходимостью в минимуме расширений для доступа к вычислительным ресурсамвидеочипов. CUDA не зависит от графических API, и обладает некоторымиособенностями, предназначенными специально для вычислений общего назначения.Преимущества CUDA перед традиционным подходом к GPGPU вычислениям: интерфейс программирования приложений CUDA основан на стандартном языкепрограммирования Си с расширениями, что упрощает процесс изучения ивнедрения архитектуры CUDA; CUDA обеспечивает доступ к разделяемой между потоками памяти размером в 16Кб на мультипроцессор, которая может быть использована для организации кэша сширокой полосой пропускания, по сравнению с текстурными выборками; более эффективная передача данных между системной и видеопамятью отсутствие необходимости в графических API с избыточностью и накладнымирасходами; линейная адресация памяти, и gather и scatter, возможность записи попроизвольным адресам; аппаратная поддержка целочисленных и битовых операций.Основные ограничения CUDA:отсутствие поддержки рекурсии для выполняемых функций;минимальная ширина блока в 32 потока;закрытая архитектура CUDA, принадлежащая NVIDIA.Слабыми местами программирования при помощи предыдущих методов GPGPU являетсято, что эти методы не используют блоки исполнения вершинных шейдеров в предыдущихнеунифицированных архитектурах, данные хранятся в текстурах, а выводятся вовнеэкранный буфер, а многопроходные алгоритмы используют пиксельные шейдерныеблоки. В ограничения GPGPU можно включить: недостаточно эффективноеиспользование аппаратных возможностей, ограничения полосой пропускания памяти,отсутствие операции scatter (только gather), обязательное использование графическогоAPI.Основные преимущества CUDA по сравнению с предыдущими методами GPGPUвытекают из того, что эта архитектура спроектирована для эффективного использованиянеграфических вычислений на GPU и использует язык программирования C, не требуяпереноса алгоритмов в удобный для концепции графического конвейера вид. CUDAпредлагает новый путь вычислений на GPU, не использующий графические API,предлагающий произвольный доступ к памяти (scatter или gather). Такая архитектуралишена недостатков GPGPU и использует все исполнительные блоки, а также расширяетвозможности за счёт целочисленной математики и операций битового сдвига.Кроме того, CUDA открывает некоторые аппаратные возможности, недоступные изграфических API, такие как разделяемая память. Это память небольшого объёма (16

килобайт на мультипроцессор), к которой имеют доступ блоки потоков. Она позволяеткэшировать наиболее часто используемые данные и может обеспечить более высокуюскорость, по сравнению с использованием текстурных выборок для этой задачи. Что, всвою очередь, снижает чувствительность к пропускной способности параллельныхалгоритмов во многих приложениях. Например, это полезно для линейной алгебры,быстрого преобразования Фурье и фильтров обработки изображений.Удобнее в CUDA и доступ к памяти. Программный код в графических API выводитданные в виде 32-х значений с плавающей точкой одинарной точности (RGBA значенияодновременно в восемь render target) в заранее предопределённые области, а CUDAподдерживает scatter запись — неограниченное число записей по любому адресу. Такиепреимущества делают возможным выполнение на GPU некоторых алгоритмов, которыеневозможно эффективно реализовать при помощи методов GPGPU, основанных награфических API.Также, графические API в обязательном порядке хранят данные в текстурах, что требуетпредварительной упаковки больших массивов в текстуры, что усложняет алгоритм изаставляет использовать специальную адресацию. А CUDA позволяет читать данные полюбому адресу. Ещё одним преимуществом CUDA является оптимизированный обменданными между CPU и GPU. А для разработчиков, желающих получить доступ к низкомууровню (например, при написании другого языка программирования), CUDA предлагаетвозможность низкоуровневого программирования на ассемблере.История развития CUDAРазработка CUDA была анонсирована вместе с чипом G80 в ноябре 2006, а релизпубличной бета-версии CUDA SDK состоялся в феврале 2007 года. Версия 1.0 вышла виюне 2007 года под запуск в продажу решений Tesla, основанных на чипе G80, ипредназначенных для рынка высокопроизводительных вычислений. Затем, в конце годавышла бета-версия CUDA 1.1, которая, несмотря на малозначительное увеличение номераверсии, ввела довольно много нового.Из появившегося в CUDA 1.1 можно отметить включение CUDA-функциональности вобычные видеодрайверы NVIDIA. Это означало, что в требованиях к любой CUDAпрограмме достаточно было указать видеокарту серии GeForce 8 и выше, а такжеминимальную версию драйверов 169.xx. Это очень важно для разработчиков, присоблюдении этих условий CUDA программы будут работать у любого пользователя.Также было добавлено асинхронное выполнение вместе с копированием данных (толькодля чипов G84, G86, G92 и выше), асинхронная пересылка данных в видеопамять,атомарные операции доступа к памяти, поддержка 64-битных версий Windows ивозможность мультичиповой работы CUDA в режиме SLI.На данный момент актуальной является версия для решений на основе GT200 — CUDA2.0, вышедшая вместе с линейкой GeForce GTX 200. Бета-версия была выпущена ещёвесной 2008 года. Во второй версии появились: поддержка вычислений двойной точности(аппаратная поддержка только у GT200), наконец-то поддерживается Windows Vista (32 и64-битные версии) и Mac OS X, добавлены средства отладки и профилирования,поддерживаются 3D текстуры, оптимизированная пересылка данных.Что касается вычислений с двойной точностью, то их скорость на текущем аппаратномпоколении ниже одинарной точности в несколько раз. Причины рассмотрены в нашейбазовой статье по GeForce GTX 280. Реализация в GT200 этой поддержки заключается в

том, блоки FP32 не используются для получения результата в четыре раза меньшем темпе,для поддержки FP64 вычислений в NVIDIA решили сделать выделенные вычислительныеблоки. И в GT200 их в десять раз меньше, чем блоков FP32 (по одному блоку двойнойточности на каждый мультипроцессор).Реально производительность может быть даже ещё меньше, так как архитектураоптимизирована для 32-битного чтения из памяти и регистров, кроме того, двойнаяточность не нужна в графических приложениях, и в GT200 она сделана скорее,чтобы просто была. Да и современные четырехъядерные процессоры показывают ненамного меньшую реальную производительность. Но будучи даже в 10 раз медленнее, чемодинарная точность, такая поддержка полезна для схем со смешанной точностью. Одна израспространенных техник — получить изначально приближенные результаты водинарной точности, и затем их уточнить в двойной. Теперь это можно сделать прямо навидеокарте, без пересылки промежуточных данных к CPU.Ещё одна полезная особенность CUDA 2.0 не имеет отношения к GPU, как ни странно.Просто теперь можно компилировать код CUDA в высокоэффективный многопоточныйSSE код для быстрого исполнения на центральном процессоре. То есть, теперь этавозможность годится не только для отладки, но и реального использования на системахбез видеокарты NVIDIA. Ведь использование CUDA в обычном коде сдерживается тем,что видеокарты NVIDIA хоть и самые популярные среди выделенных видеорешений, ноимеются не во всех системах. И до версии 2.0 в таких случаях пришлось бы делать дваразных кода: для CUDA и отдельно для CPU. А теперь можно выполнять любую CUDAпрограмму на CPU с высокой эффективностью, пусть и с меньшей скоростью, чем навидеочипах.Решения с поддержкой NVIDIA CUDAВсе видеокарты, обладающие поддержкой CUDA, могут помочь в ускорении большинстватребовательных задач, начиная от аудио- и видеообработки, и заканчивая медициной инаучными исследованиями. Единственное реальное ограничение состоит в том, чтомногие CUDA программы требуют минимум 256 мегабайт видеопамяти, и это — одна изважнейших технических характеристик для CUDA-приложений.Актуальный список поддерживающих CUDA продуктов можно получить на вебсайтеNVIDIA. На момент написания статьи расчёты CUDA поддерживали все продукты серийGeForce 200, GeForce 9 и GeForce 8, в том числе и мобильные продукты, начиная сGeForce 8400M, а также и чипсеты GeForce 8100, 8200 и 8300. Также поддержкой CUDAобладают современные продукты Quadro и все Tesla: S1070, C1060, C870, D870 и S870.

Особо отметим, что вместе с новыми видеокартами GeForce GTX 260 и 280, былианонсированы и соответствующие решения для высокопроизводительных вычислений:Tesla C1060 и S1070 (представленные на фото выше), которые будут доступны дляприобретения осенью этого года. GPU в них применён тот же — GT200, в C1060 он один,в S1070 — четыре. Зато, в отличие от игровых решений, в них используется по четырегигабайта памяти на каждый чип. Из минусов разве что меньшая частота памяти и ПСП,чем у игровых карт, обеспечивающая по 102 гигабайт/с на чип.Состав NVIDIA CUDACUDA включает два API: высокого уровня (CUDA Runtime API) и низкого (CUDA DriverAPI), хотя в одной программе одновременное использование обоих невозможно, нужноиспользовать или один или другой. Высокоуровневый работает «сверху»низкоуровневого, все вызовы runtime транслируются в простые инструкции,обрабатываемые низкоуровневым Driver API. Но даже «высокоуровневый» APIпредполагает знания об устройстве и работе видеочипов NVIDIA, слишком высокогоуровня абстракции там нет.

Есть и ещё один уровень, даже более высокий — две библиотеки:CUBLAS — CUDA вариант BLAS (Basic Linear Algebra Subprograms), предназначенныйдля вычислений задач линейной алгебры и использующий прямой доступ к ресурсамGPU;CUFFT — CUDA вариант библиотеки Fast Fourier Transform для расчёта быстрогопреобразования Фурье, широко используемого при обработке сигналов. Поддерживаютсяследующие типы преобразований: complex-complex (C2C), real-complex (R2C) и complexreal(C2R).Рассмотрим эти библиотеки подробнее. CUBLAS — это переведённые на язык CUDAстандартные алгоритмы линейной алгебры, на данный момент поддерживается толькоопределённый набор основных функций CUBLAS. Библиотеку очень легко использовать:нужно создать матрицу и векторные объекты в памяти видеокарты, заполнить ихданными, вызвать требуемые функции CUBLAS, и загрузить результаты из видеопамятиобратно в системную. CUBLAS содержит специальные функции для создания иуничтожения объектов в памяти GPU, а также для чтения и записи данных в эту память.Поддерживаемые функции BLAS: уровни 1, 2 и 3 для действительных чисел, уровень 1CGEMM для комплексных. Уровень 1 — это векторно-векторные операции, уровень 2 —векторно-матричные операции, уровень 3 — матрично-матричные операции.CUFFT — CUDA вариант функции быстрого преобразования Фурье — широкоиспользуемой и очень важной при анализе сигналов, фильтрации и т.п. CUFFTпредоставляет простой интерфейс для эффективного вычисления FFT на видеочипахпроизводства NVIDIA без необходимости в разработке собственного варианта FFT дляGPU. CUDA вариант FFT поддерживает 1D, 2D, и 3D преобразования комплексных идействительных данных, пакетное исполнение для нескольких 1D трансформаций в

параллели, размеры 2D и 3D трансформаций могут быть в пределах [2, 16384], для 1Dподдерживается размер до 8 миллионов элементов.Основы создания программ на CUDAДля понимания дальнейшего текста следует разбираться в базовых архитектурныхособенностях видеочипов NVIDIA. GPU состоит из нескольких кластеров текстурныхблоков (Texture Processing Cluster). Каждый кластер состоит из укрупнённого блокатекстурных выборок и двух-трех потоковых мультипроцессоров, каждый из которыхсостоит из восьми вычислительных устройств и двух суперфункциональных блоков. Всеинструкции выполняются по принципу SIMD, когда одна инструкция применяется ковсем потокам в warp (термин из текстильной промышленности, в CUDA это группа из 32потоков — минимальный объём данных, обрабатываемых мультипроцессорами). Этотспособ выполнения назвали SIMT (single instruction multiple threads — одна инструкция имного потоков).Каждый из мультипроцессоров имеет определённые ресурсы. Так, есть специальнаяразделяемая память объемом 16 килобайт на мультипроцессор. Но это не кэш, так какпрограммист может использовать её для любых нужд, подобно Local Store в SPUпроцессоров Cell. Эта разделяемая память позволяет обмениваться информацией междупотоками одного блока. Важно, что все потоки одного блока всегда выполняются одним итем же мультипроцессором. А потоки из разных блоков обмениваться данными не могут,и нужно помнить это ограничение. Разделяемая память часто бывает полезной, кроме техслучаев, когда несколько потоков обращаются к одному банку памяти.Мультипроцессоры могут обращаться и к видеопамяти, но с большими задержками ихудшей пропускной способностью. Для ускорения доступа и снижения частотыобращения к видеопамяти, у мультипроцессоров есть по 8 килобайт кэша на константы итекстурные данные.

Мультипроцессор использует 8192-16384 (для G8x/G9x и GT2xx, соответственно)регистра, общие для всех потоков всех блоков, выполняемых на нём. Максимальное числоблоков на один мультипроцессор для G8x/G9x равно восьми, а число warp — 24 (768потоков на один мультипроцессор). Всего топовые видеокарты серий GeForce 8 и 9 могутобрабатывать до 12288 потоков единовременно. GeForce GTX 280 на основе GT200предлагает до 1024 потоков на мультипроцессор, в нём есть 10 кластеров по тримультипроцессора, обрабатывающих до 30720 потоков. Знание этих ограниченийпозволяет оптимизировать алгоритмы под доступные ресурсы.Первым шагом при переносе существующего приложения на CUDA является егопрофилирование и определение участков кода, являющихся «бутылочным горлышком»,тормозящим работу. Если среди таких участков есть подходящие для быстрогопараллельного исполнения, эти функции переносятся на Cи расширения CUDA длявыполнения на GPU. Программа компилируется при помощи поставляемого NVIDIAкомпилятора, который генерирует код и для CPU, и для GPU. При исполнениипрограммы, центральный процессор выполняет свои порции кода, а GPU выполняетCUDA код с наиболее тяжелыми параллельными вычислениями. Эта часть,предназначенная для GPU, называется ядром (kernel). В ядре определяются операции,которые будут исполнены над данными.Видеочип получает ядро и создает копии для каждого элемента данных. Эти копииназываются потоками (thread). Поток содержит счётчик, регистры и состояние. Длябольших объёмов данных, таких как обработка изображений, запускаются миллионыпотоков. Потоки выполняются группами по 32 штуки, называемыми warp'ы. Warp'амназначается исполнение на определенных потоковых мультипроцессорах. Каждыймультипроцессор состоит из восьми ядер — потоковых процессоров, которые выполняютодну инструкцию MAD за один такт. Для исполнения одного 32-поточного warp'атребуется четыре такта работы мультипроцессора (речь о частоте shader domain, котораяравна 1.5 ГГц и выше).Мультипроцессор не является традиционным многоядерным процессором, он отличноприспособлен для многопоточности, поддерживая до 32 warp'ов единовременно. Каждыйтакт аппаратное обеспечение выбирает, какой из warp'ов исполнять, и переключается отодного к другому без потерь в тактах. Если проводить аналогию с центральнымпроцессором, это похоже на одновременное исполнение 32 программ и переключениемежду ними каждый такт без потерь на переключение контекста. Реально ядра CPUподдерживают единовременное выполнение одной программы и переключаются надругие с задержкой в сотни тактов.Модель программирования CUDAПовторимся, что CUDA использует параллельную модель вычислений, когда каждый изSIMD процессоров выполняет ту же инструкцию над разными элементами данныхпараллельно. GPU является вычислительным устройством, сопроцессором (device) дляцентрального процессора (host), обладающим собственной памятью и обрабатывающимпараллельно большое количество потоков. Ядром (kernel) называется функция для GPU,исполняемая потоками (аналогия из 3D графики — шейдер).Мы говорили выше, что видеочип отличается от CPU тем, что может обрабатыватьодновременно десятки тысяч потоков, что обычно для графики, которая хорошораспараллеливается. Каждый поток скалярен, не требует упаковки данных в 4-компонентные векторы, что удобнее для большинства задач. Количество логических

потоков и блоков потоков превосходит количество физических исполнительныхустройств, что даёт хорошую масштабируемость для всего модельного ряда решенийкомпании.Модель программирования в CUDA предполагает группирование потоков. Потокиобъединяются в блоки потоков (thread block) — одномерные или двумерные сеткипотоков, взаимодействующих между собой при помощи разделяемой памяти и точексинхронизации. Программа (ядро, kernel) исполняется над сеткой (grid) блоков потоков(thread blocks), см. рисунок ниже. Одновременно исполняется одна сетка. Каждый блокможет быть одно-, двух- или трехмерным по форме, и может состоять из 512 потоков натекущем аппаратном обеспечении.Блоки потоков выполняются в виде небольших групп, называемых варп (warp), размеркоторых — 32 потока. Это минимальный объём данных, которые могут обрабатываться вмультипроцессорах. И так как это не всегда удобно, CUDA позволяет работать и сблоками, содержащими от 64 до 512 потоков.Группировка блоков в сетки позволяет уйти от ограничений и применить ядро к большемучислу потоков за один вызов. Это помогает и при масштабировании. Если у GPUнедостаточно ресурсов, он будет выполнять блоки последовательно. В обратном случае,блоки могут выполняться параллельно, что важно для оптимального распределенияработы на видеочипах разного уровня, начиная от мобильных и интегрированных.Модель памяти CUDAМодель памяти в CUDA отличается возможностью побайтной адресации, поддержкой какgather, так и scatter. Доступно довольно большое количество регистров на каждыйпотоковый процессор, до 1024 штук. Доступ к ним очень быстрый, хранить в них можно32-битные целые или числа с плавающей точкой.

Каждый поток имеет доступ к следующим типам памяти:Глобальная память — самый большой объём памяти, доступный для всехмультипроцессоров на видеочипе, размер составляет от 256 мегабайт до 1.5 гигабайт натекущих решениях (и до 4 Гбайт на Tesla). Обладает высокой пропускной способностью,более 100 гигабайт/с для топовых решений NVIDIA, но очень большими задержками внесколько сот тактов. Не кэшируется, поддерживает обобщённые инструкции load и store,и обычные указатели на память.Локальная память — это небольшой объём памяти, к которому имеет доступ толькоодин потоковый процессор. Она относительно медленная — такая же, как и глобальная.Разделяемая память — это 16-килобайтный (в видеочипах нынешней архитектуры) блокпамяти с общим доступом для всех потоковых процессоров в мультипроцессоре. Этапамять весьма быстрая, такая же, как регистры. Она обеспечивает взаимодействиепотоков, управляется разработчиком напрямую и имеет низкие задержки. Преимуществаразделяемой памяти: использование в виде управляемого программистом кэша первогоуровня, снижение задержек при доступе исполнительных блоков (ALU) к данным,сокращение количества обращений к глобальной памяти.Память констант — область памяти объемом 64 килобайта (то же — для нынешнихGPU), доступная только для чтения всеми мультипроцессорами. Она кэшируется по 8килобайт на каждый мультипроцессор. Довольно медленная — задержка в несколько соттактов при отсутствии нужных данных в кэше.Текстурная память — блок памяти, доступный для чтения всеми мультипроцессорами.Выборка данных осуществляется при помощи текстурных блоков видеочипа, поэтомупредоставляются возможности линейной интерполяции данных без дополнительныхзатрат. Кэшируется по 8 килобайт на каждый мультипроцессор. Медленная, какглобальная — сотни тактов задержки при отсутствии данных в кэше.

Естественно, что глобальная, локальная, текстурная и память констант — это физическиодна и та же память, известная как локальная видеопамять видеокарты. Их отличия вразличных алгоритмах кэширования и моделях доступа. Центральный процессор можетобновлять и запрашивать только внешнюю память: глобальную, константную итекстурную.Из написанного выше понятно, что CUDA предполагает специальный подход кразработке, не совсем такой, как принят в программах для CPU. Нужно помнить о разныхтипах памяти, о том, что локальная и глобальная память не кэшируется и задержки придоступе к ней гораздо выше, чем у регистровой памяти, так как она физически находитсяв отдельных микросхемах.Типичный, но не обязательный шаблон решения задач:задача разбивается на подзадачи;входные данные делятся на блоки, которые вмещаются в разделяемую память;каждый блок обрабатывается блоком потоков;подблок подгружается в разделяемую память из глобальной;над данными в разделяемой памяти проводятся соответствующие вычисления;результаты копируются из разделяемой памяти обратно в глобальную.Среда программированияВ состав CUDA входят runtime библиотеки:общая часть, предоставляющая встроенные векторные типы и подмножествавызовов RTL, поддерживаемые на CPU и GPU;CPU-компонента, для управления одним или несколькими GPU;GPU-компонента, предоставляющая специфические функции для GPU.Основной процесс приложения CUDA работает на универсальном процессоре (host), онзапускает несколько копий процессов kernel на видеокарте. Код для CPU делаетследующее: инициализирует GPU, распределяет память на видеокарте и системе,

копирует константы в память видеокарты, запускает несколько копий процессов kernel навидеокарте, копирует полученный результат из видеопамяти, освобождает память изавершает работу.В качестве примера для понимания приведем CPU код для сложения векторов,представленный в CUDA:Функции, исполняемые видеочипом, имеют следующие ограничения: отсутствуетрекурсия, нет статических переменных внутри функций и переменного числа аргументов.Поддерживается два вида управления памятью: линейная память с доступом по 32-битным указателям, и CUDA-массивы с доступом только через функции текстурнойвыборки.Программы на CUDA могут взаимодействовать с графическими API: для рендерингаданных, сгенерированных в программе, для считывания результатов рендеринга и ихобработки средствами CUDA (например, при реализации фильтров постобработки). Дляэтого ресурсы графических API могут быть отображены (с получением адреса ресурса) впространство глобальной памяти CUDA. Поддерживаются следующие типы ресурсовграфических API: Buffer Objects (PBO / VBO) в OpenGL, вершинные буферы и текстуры(2D, 3D и кубические карты) Direct3D9.Стадии компиляции CUDA-приложения:

Файлы исходного кода на CUDA C компилируются при помощи программы NVCC,которая является оболочкой над другими инструментами, и вызывает их: cudacc, g++, cl идр. NVCC генерирует: код для центрального процессора, который компилируется вместе состальными частями приложения, написанными на чистом Си, и объектный код PTX длявидеочипа. Исполнимые файлы с кодом на CUDA в обязательном порядке требуютналичия библиотек CUDA runtime library (cudart) и CUDA core library (cuda).Оптимизация программ на CUDAЕстественно, в рамках обзорной статьи невозможно рассмотреть серьёзные вопросыоптимизации в CUDA программировании. Поэтому просто вкратце расскажем о базовыхвещах. Для эффективного использования возможностей CUDA нужно забыть прообычные методы написания программ для CPU, и использовать те алгоритмы, которыехорошо распараллеливаются на тысячи потоков. Также важно найти оптимальное местодля хранения данных (регистры, разделяемая память и т.п.), минимизировать передачуданных между CPU и GPU, использовать буферизацию.В общих чертах, при оптимизации программы CUDA нужно постараться добитьсяоптимального баланса между размером и количеством блоков. Большее количествопотоков в блоке снизит влияние задержек памяти, но снизит и доступное число регистров.Кроме того, блок из 512 потоков неэффективен, сама NVIDIA рекомендует использоватьблоки по 128 или 256 потоков, как компромиссное значение для достижения оптимальныхзадержек и количества регистров.Среди основных моментов оптимизации программ CUDA: как можно более активноеиспользование разделяемой памяти, так как она значительно быстрее глобальнойвидеопамяти видеокарты; операции чтения и записи из глобальной памяти должны бытьобъединены (coalesced) по возможности. Для этого нужно использовать специальныетипы данных для чтения и записи сразу по 32/64/128 бита данных одной операцией. Еслиоперации чтения трудно объединить, можно попробовать использовать текстурныевыборки.Выводы

Представленная компанией NVIDIA программно-аппаратная архитектура для расчётов навидеочипах CUDA хорошо подходит для решения широкого круга задач с высокимпараллелизмом. CUDA работает на большом количестве видеочипов NVIDIA, и улучшаетмодель программирования GPU, значительно упрощая её и добавляя большое количествовозможностей, таких как разделяемая память, возможность синхронизации потоков,вычисления с двойной точностью и целочисленные операции.CUDA — это доступная каждому разработчику ПО технология, её может использоватьлюбой программист, знающий язык Си. Придётся только привыкнуть к иной парадигмепрограммирования, присущей параллельным вычислениям. Но если алгоритм в принципехорошо распараллеливается, то изучение и затраты времени на программирование наCUDA вернутся в многократном размере.Вполне вероятно, что в силу широкого распространения видеокарт в мире, развитиепараллельных вычислений на GPU сильно повлияет на индустриювысокопроизводительных вычислений. Эти возможности уже вызвали большой интерес внаучных кругах, да и не только в них. Ведь потенциальные возможности ускоренияхорошо поддающихся распараллеливанию алгоритмов (на доступном аппаратномобеспечении, что не менее важно) сразу в десятки раз бывают не так часто.Универсальные процессоры развиваются довольно медленно, у них нет таких скачковпроизводительности. По сути, пусть это и звучит слишком громко, все нуждающиеся вбыстрых вычислителях теперь могут получить недорогой персональный суперкомпьютерна своём столе, иногда даже не вкладывая дополнительных средств, так как видеокартыNVIDIA широко распространены. Не говоря уже об увеличении эффективности втерминах GFLOPS/$ и GFLOPS/Вт, которые так нравятся производителям GPU.Будущее множества вычислений явно за параллельными алгоритмами, почти все новыерешения и инициативы направлены в эту сторону. Пока что, впрочем, развитие новыхпарадигм находится на начальном этапе, приходится вручную создавать потоки ипланировать доступ к памяти, что усложняет задачи по сравнению с привычнымпрограммированием. Но технология CUDA сделала шаг в правильном направлении и вней явно проглядывается успешное решение, особенно если NVIDIA удастся убедить какможно разработчиков в его пользе и перспективах.Но, конечно, GPU не заменят CPU. В их нынешнем виде они и не предназначены дляэтого. Сейчас что видеочипы движутся постепенно в сторону CPU, становясь всё болееуниверсальными (расчёты с плавающей точкой одинарной и двойной точности,целочисленные вычисления), так и CPU становятся всё более «параллельными»,обзаводясь большим количеством ядер, технологиями многопоточности, не говоря пропоявление блоков SIMD и проектов гетерогенных процессоров. Скорее всего, GPU и CPUв будущем просто сольются. Известно, что многие компании, в том числе Intel и AMDработают над подобными проектами. И неважно, будут ли GPU поглощены CPU, илинаоборот.В статье мы в основном говорили о преимуществах CUDA. Но есть и ложечка дёгтя. Одиниз немногочисленных недостатков CUDA — слабая переносимость. Эта архитектураработает только на видеочипах этой компании, да ещё и не на всех, а начиная с серииGeForce 8 и 9 и соответствующих Quadro и Tesla. Да, таких решений в мире очень много,NVIDIA приводит цифру в 90 миллионов CUDA-совместимых видеочипов. Это простоотлично, но ведь конкуренты предлагают свои решения, отличные от CUDA. Так, у AMDесть Stream Computing, у Intel в будущем будет Ct.

Которая из технологий победит, станет распространённой и проживёт дольше остальных— покажет только время. Но у CUDA есть неплохие шансы, так как по сравнению сStream Computing, например, она представляет более развитую и удобную дляиспользования среду программирования на обычном языке Си. Возможно, в определениипоможет третья сторона, выпустив некое общее решение. К примеру, в следующемобновлении DirectX под версией 11, компанией Microsoft обещаны вычислительныешейдеры, которые и могут стать неким усреднённым решением, устраивающим всех, илипочти всех.Судя по предварительным данным, этот новый тип шейдеров заимствует многое измодели CUDA. И программируя в этой среде уже сейчас, можно получить преимуществасразу и необходимые навыки для будущего. С точки зрения высокопроизводительныхвычислений, у DirectX также есть явный недостаток в виде плохой переносимости, так какэтот API ограничен платформой Windows. Впрочем, разрабатывается и ещё один стандарт— открытая мультиплатформенная инициатива OpenCL, которая поддерживаетсябольшинством компаний, среди которых NVIDIA, AMD, Intel, IBM и многие другие.Не забывайте, что в следующей статье по CUDA вас ждёт исследование конкретныхпрактических применений научных и других неграфических вычислений, выполненныхразработчиками из разных уголков нашей планеты при помощи NVIDIA CUDA.Алексей Берилло (sbe@ixbt.com)Обсудить в конференции (комментариев: 287)Опубликовано — 23 сентября 2008 г.Другие обсуждения в конференции:o [22:48] Выбор видеокарты для готовой конфигурации ПК (часть 3) (2101сообщений)o [22:44] AMD(ATI) vs NVIDIA (часть 18) (1275 сообщений)o [22:25] AMD Radeon HD 7750/7770 (Cape Verde) (198 сообщений)o [22:25] Имеет ли смысл ждать чего-то интересного под AGP? / Выбор картып… (1593 сообщений)o [21:06] Выбор видеокарты до $100 (часть 2) (453 сообщений)Технология NVIDIA CUDA - это фундаментально новая архитектура вычислений наGPU, предназначенная для решения комплекса вычислительных задач потребителей,бизнеса и технической индустрии. Технология CUDA (compute unified device architecture -вычисления на унифицированной аппаратной архитектуре) предоставляет приложениям,активно работающим с данными, доступ к потрясающим процессинговым мощностямграфических процессоров NVIDIA через революционную вычислительную архитектуру,связанную с новыми возможностями. Придавая значение большей производительности иупрощению разработки программного обеспечения через стандартный язык C, технологияCUDA даёт возможность разработчикам создавать решения для интенсивной работы сданными в кратчайшие сроки.

Что это за технология "CUDA"?Вычисления на GPU с технологией CUDA - это инновационное сочетаниевычислительных способностей следующего поколения графических процессоров NVIDIA,доступныз через стандартный язык 'C'. Тогда как предыдущее поколение графическихпроцессоров было основано на "потоковых шейдерных программах", программистыCUDA могут испльзовать 'C' для создания программ, вызывающих потоки также, как и натрадиционных многопоточных CPU (Блин, традиционных. _Ни у кого_ из моих знакомыхнет двуядерника. Да даже Пня4 с гипер-трейдингом.). Но многоядерные процессорымогут исполнять лишь несколько потоков одновременно, а графические процессорыNVIDIA с технологией CUDA обработают сразу тысячи потоков с высоким уровнеминформационной нагрузки. (Блин. Вот у "них" есть thread и flow. А как я должен назвать"поток", чтобы не повториться?)Одна из наиболее важных инноваций в технологии CUDA - возможность объединенияпотоков графических процессоров NVIDIA для решения одной задачи, что позволяетприложениям работать с большей эффективностью. Графические процессоры NVIDIA стехнологией CUDA имеют параллельные кэши данных, которых сохраняют частоиспользуемую информацию прямо в GPU. Хранение информации в GPU позволяетисполнять потоки, использующие общую информацию, во много раз быстрее, чем если быона запрашивалась из системной памяти. Эта прогрессивная технология даёт возможностьпользователям решать вычислительные задачи в режиме реального времени.Какие преимущества получают приложения от CUDA?Вычисления на GPU подходят для решения широкого спектра задач, связанных собработкой больших объёмов информации. Например игровые приложения могутиспользовать графический процессор NVIDIA для физических расчётов, поднимающихпроизводительность и эффектность на новый уровень. Также, коммерческие приложения,используемые для разработки программ или анализа больших массивов данных, ранеетребовавших высокой производительности системы, получат преимущество отиспользования на рабочей станции или сервере с технологией CUDA. Это перелом втехнологиях, позволяющий выполнять анализ и решение задач любого рода в режимереального времени. Кроме того, научные приложения, которые требуют высокойинтенсивности вычислений больше не будут занимать всё процессорное время.Вычисления с CUDA предоставляет платформу с высоким уровнем производительностивне зависимости от предполагаемого использования.Почему используется технология CUDA?Производительность. Графические процессоры NVIDIA предоставляют немыслимыйуровень производительности для приложений, интенсивно работающих с данными.Технология CUDA предоставляет стандартное, широко доступное решение для поставкиновых приложений с беспрецендентными возможностями.Совместимость. Приложения, разработанные с использованием CUDA C-компилятасовместимы с будующим поколением графических процессоров NVIDIA (лучше бы онипредыдущее добавили). Разработчики, вкладывающие силы в разработку приложений дляGPU, сразу получат преимущество от использования производительных графическихпроцессоров текущего поколения и могут быть уверены, что NVIDIA в будущем будетвкладывать средства в разработку ещё более производительных решений.Продуктивность. Разработчики, ищущие доступ к вычислительной мощи графическихпроцессоров NVIDIA могут теперь пользоваться стандартным языком программирования'C' для разработки приложений. CUDA предоставляет законченное решение дляразработчиков, которое интегрируется в программное обеспечение для CPU и GPU, чтобы

быстро получить доступ к новым возможностям и высокой оценке потребителей(возможно, они имели ввиду что-то другое. но получилось так).Масштабируемость. Приложения, разработанные с использованием технологии CUDAмасштабируются в производительности и возможностях по всей линейке графическихпроцессоров NVIDIA, начиная от интегрированных решений и заканчиваявысокопроизводительными профессиональными графическими картами, использующимимножество графических процессоров. Производительность CUDA теперь фактическидоступна в системах любого уровня от специальных вычислительных станций допотребительских продуктов.Разрабатывайте с CUDAКомплект разработки программного обеспечения CUDA (CUDA SDK) - это законченноерешение для разработчиков, использующих возможности графических процессоров длярешения задач общего назначения. SDK включает стандартные библиотеки FFT и BLAS (яне в курсе об этом), компилятор C для графического процессора NVIDIA и runtimeдрайвер.CUDA runtime-драйвер работающий совместно с самостоятельным драйвером,решающим задачи распределения нагрузки OpenGL и MS DirectX. Технология CUDA вравной степени поддерживается операционными системами MS Windows XP (ага! вистане поддерживается) и Linux.Возможности технологии- Унификация программных и аппаратных решений для потоковых вычислений награфических процессорах NVIDIA с поддержкой CUDA.- Графические процессоры с CUDA поддерживают кэш параллельных данных (ParallelData Cache) и менеджер исполняемых потоков (Thread Execution Manager) длявысокопроизводительных вычислений.- Стандартный язык программирования C для GPU.- Стандартные числовые библиотеки для FFT и BLAS.- Отдельный драйвер CUDА для вычислений.- Оптимизированный путь загрузки и выгрузки с CPU на GPU с CUDA.- CUDA-драйвер, работающий совместно с графическим драйвером.- Поддержка Linux и WinXP- Масштабируемость от высокопроизводительных профессиональных графическихрешений до мабильных и интегрированных GPU.- Встроенная поддержка multi-GPU для высоко"плотных" вычислений.- Поддержка аппаратной отладки и профилер для разработки и оптимизации программ.Материал взят со страницы (на англ. языке)Немного больше...Основу аппаратных средств CUDA-вычислителя образует потоковый процессор (SP,Streaming Processor), 32-битовое арифметико-логическое устройство которого ипредоставляет каждому потоку вычислительные возможности.Восемь SP, каждый со своим модулем регистровой памяти емкостью 32 KB,объединяются в потоковый мультипроцессор (SM, Streaming Multiprocessor) –вычислительную машину SIMD-архитектуры, имеющую собственные механизм выборкии декодирования команд, независимые кэши команд и данных (констант), диспетчерпотоков и блок памяти емкостью 16 KB, разделяемой между всеми восемью SP.Работающий на тактовой частоте 1,35 GHz, SM способен предоставлять более чем

семистам потокам вычислительную мощность порядка 20 GFLOPS. SP выполняет однуSIMD-команду за один машинный такт.Два SM, дополненные более высокоуровневой кэш-памятью команд и данных, образуюткластер обработки текстур (TPC, Texture Processing Cluster). И, наконец, из восьми TPCформируется собственно CUDA-вычислитель, – массив потоковых процессоров (SPA,Streaming Processor Array).Таким образом, в распоряжении CUDA-программиста имеется вычислительная система,пусть весьма сложная из-за разнообразия адресных пространств и специфическихмеханизмов, но все же оснащенная 128 32-разрядными арифметико-логическимиустройствами, способными за один такт исполнять такие команды, как умножение снакоплением (обычно обозначаются MADD, смысл этой трехоперандной операциипонятен из псевдокода A=A+B*C). Потенциальная пиковая производительность такойсистемы – 346 GFLOPS. Это одновременно и немало, и не очень много, если учесть тотфакт, что пиковая производительность четырехъядерных процессоров класса Core 2 Duoсовсем немного не дотягивает до 100 GFLOPS.Маленький пример программ использующие CUDAПриведу пару примеров, софт возьму от одного из пользователей нашего форума, аименно Xserg, за что ему спасибо)Mini Release nvCUDA.exeXP необходимо установить последние драйверы ForceWare: 169.21MD5 хеши // Заточено на популярную GF8600GTПредварительная атака 2..5 символов (0x21..0x7f)Командная строка:// перебирает 0..9,a..znvCUDA.exe -f=mypas.txt -s=7 -e=7-f= файл с паролями до 50 шт. типа admin:9987d22788e810116a45109f2ea88648-s= начальное количество символов в пароле 6 - by default-e= конечное количество символов в пароле 8 - by defaultНеобходимые библиотеки dll.rar (158кб.) // cudart.dll , cutil32.dllСобранный файл + Исходник nvCUDA.rar (82кб.)Mini Release nvCUDAsql.exeMySql хешиКомандная строка:nvCUDAsql.exe -f=mysqlpas.txt -s=4 -e=10 -sl=91 –bl=20-f= файл с паролями до 50 шт. типа hash:6cb1963d2018c3ea-s= начальное количество символов в пароле 4 - by default

-e= конечное количество символов в пароле 10 - by default-sl= 25 , 35 , 71 , 91 наборы символов-bl=производительность видеокарты. (20 - 128)Собранный файл + Исходник ncCuda_mysql.rar (81кб.)Скорость перебора одного хеша 8 000 000 000 000 п/c. на GF8600GT

NVIDIA CUDA — неграфические вычисления на графических ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?