Конференция Nvidia GTC 2015

Компания Nvidia уже давно старается пробиться на разные рынки, открывая для себя всё новые ниши и не ограничиваясь исключительно традиционным для них рынком игровых графических процессоров, который переживает не самые лучшие времена. Игровые ПК в последние годы в относительном застое, и причин этому множество: как проблемы с освоением новых техпроцессов, не позволяющие сделать качественный скачок в производстве новых GPU, так и засилье мультиплатформенных игровых проектов, не слишком требовательных к мощности графических процессоров.

Nvidia уже предлагает свою продукцию в сфере профессиональных графических решений, на рынках процессоров для высокопроизводительных вычислений, компактных игровых устройств и автомобильных систем. Интерес к вычислительным применениям графических процессоров за последние несколько лет вырос в сотни раз, и уже сейчас GPU производства компании Nvidia успешно применяются во многих сферах.

Ещё несколько лет назад компания организовала собственное крупное мероприятие, посвященное различным аспектам использования графических процессоров в широком наборе задач — GPU Technology Conference . Прошедшая в конце марта очередная ежегодная конференция компании Nvidia стала уже шестой, и она традиционно проходит в городе Сан-Хосе, в штате Калифорния, США. С тех пор конференция стала главным мероприятием года для Nvidia, и именно на нем делаются все самые крупные анонсы компании и раскрываются некоторые планы на будущее.

«Графически-вычислительная» конференция GTC с каждым годом привлекает все большее внимание со стороны исследователей и ученых из различных учебных заведений и компаний, собирая сотни компаний и тысячи участников, так или иначе связанных с темой использования графических процессоров.

В этом году число участников уже превысило 4000 человек (в прошлом году их было 3500), и они приехали в Сан-Хосе со всего мира для того, чтобы принять участие в этом интереснейшем мероприятии: выступить со своими докладами, послушать других участников, познакомиться и пообщаться с единомышленниками и конкурентами. Польза участия в GTC связана не только с ключевыми выступлениями лидеров индустрии, но и с сотнями интереснейших сессий по разной тематике — с кучей полезной информации о том, как графические процессоры Nvidia облегчают выполнение задач разработчиков в разных сферах.

Titan X — высокопроизводительное решение на основе топового чипа Maxwell

Выступления первого дня конференции всегда включают присутствие на сцене лидера компании — Дженсена Хуанга, который рассказывает о последних достижениях Nvidia в деле применения GPU в самых различных задачах,и практически ни один год не обходился без громких анонсов. Поэтому именно первое ключевое выступление главы компании вызывает у публики неподдельный интерес.

Начало GTC всегда связано с подведением итогов года, прошедшего с предыдущей конференции, и для Nvidia он был достаточно успешным. Компания добилась определённых успехов (в том числе и финансовых) для множества своих подразделений: GeForce, Quadro, Tesla и Tegra (по крайней мере, в автомобилях).

Основной темой нынешней конференции стало так называемое глубокое обучение (deep learning) — быстрорастущий в последние годы набор алгоритмов машинного обучения, тесно связанный с реализацией искусственного интеллекта. Nvidia в лице Дженсена считает глубокое обучение тем локомотивом, который способен продвинуть индустрию по многим направлениям, от автономных автомобилей до применения в медицинских исследованиях.

По ходу своего ключевого выступления, перед тысячами участников GTC, Дженсен представил несколько новых программных и аппаратных технологий, которые принесут лёгкость использования и высокую производительность в сферу глубокого машинного обучения. И началось всё с мощнейшего графического процессора Titan X.

Titan X — это мощнейший GPU игровой серии GeForce, который основан на второй версии графической архитектуры Maxwell и отлично подходит для применения в сфере deep learning. Анонс Titan X на GTC получился несколько скомканным, так как решение уже было фактически анонсировано и показано на конференции игровых разработчиков Game Developers Conference в Сан-Франциско несколькими днями ранее. Где также был показан демонстрационный ролик, показывающий возможности игрового движка Unreal Engine 4:

На данный момент, Titan X является самым мощным решением компании Nvidia и он вдвое энергоэффективнее аналогичных GPU из предыдущих поколений. Содержащиеся в новом GPU потоковые процессоры в количестве 3072 штук обеспечивают производительность вычислений с одинарной точностью до 7 терафлопов, а объём локальной видеопамяти у новинки достигает впечатляющих 12 гигабайт.

Кроме объёма, память Titan X обладает ещё и высокой пропускной способностью — более 336 ГБ/с, что также очень важно в задачах по тренировке нейросетей при deep learning. Так, при помощи стандартной модели AlexNet, новый Titan X достиг показателя в менее чем три дня для тренировки модели при помощи 1.2 миллионов изображений из набора ImageNet — сравните это с более чем 40 днями для 16-ядерного CPU или шестью днями для первого Titan.

Не очень понятно, зачем Nvidia указала на слайде столь смешную производительность для вычислений с двойной точностью — ведь подобным показателем погордиться вряд ли получится… Впрочем, из песни слов не выкинешь, что есть, то есть. Зато на GTC наконец-то стала известна розничная цена решения для рынка США. Начиная со дня анонса, GeForce GTX Titan X поступил в продажу на североамериканском рынке по цене $999. Кстати, обзор этой видеокарты вы уже можете прочитать на нашем сайте .

DIGITS и DIGITS DevBox — решения для построения и обучения нейросетей

В ходе своего главного выступления, Дженсен анонсировал также и DIGITS и DIGITS DevBox — новые возможности для простого и быстрого построения глубоких нейросетей, которые предлагает Nvidia. Использование нейросетей при тренировке машинных алгоритмов для самостоятельного обучения, классификации и распознавания объектов, является непростой и требующей серьёзной работы задачей. Эта тема сейчас является одной из самых обсуждаемых, и GPU-ускоренный deep learning используется в работе множества компаний:

Представленная на конференции система тренировки глубокого обучения DIGITS, использующая графические процессоры Nvidia, даёт пользователям всё необходимое для того, чтобы построить глубокие нейросети максимально простым и быстрым способом.

Данное программное средство доступно для скачивания с сайта компании Nvidia . Это первая подобная графическая система всё-в-одном для разработки, тренировки и использования глубоких нейросетей, предназначенных для классификации изображений.

Система DIGITS даёт пользователю простые возможности для установки, конфигурации и тренировки нейросетей, максимально облегчая работу исследователей и ускоряя получение результатов. Подготовка и тренировка DIGITS проста и имеет интуитивно-понятный интерфейс и возможности по управлению. Она поддерживает GPU-ускоренную версию Caffe — популярного фреймворка, используемого многими учеными и исследователями при постройке нейросетей.

Более того, чисто программными средствами дело не ограничивается. Глава Nvidia представил на GTC и специальный высокопроизводительный аппаратный комплекс для совместного использования с DIGITS — DIGITS DevBox. Это специализированная платформа для ускорения исследования задач deep learning.

DIGITS DevBox содержит максимально оптимизированное аппаратное обеспечение, дающее высокую производительность и эффективность в задачах глубокого обучения, начиная с четырёх графических процессоров Titan X и заканчивая подсистемами памяти и ввода-вывода данных. Каждый из четырёх GPU Titan X обеспечивает по 7 терафлопу вычислений одинарной точности, имеет пропускную способность в 336.5 ГБ/с для 12 гигабайт памяти.

Система основана на материнской плате ASUS X99, имеющей восемь слотов PCI-E и высокопроизводительном процессоре Intel Core i7, может иметь до 64 ГБ памяти типа DDR4, до трёх 3 ТБ дисков в RAID 5 массиве плюс SSD. Установленное на систему программное обеспечение Nvidia DIGITS включает стандартную операционную систему Ubuntu 14.04 с установленным ПО: популярными фреймворками deep learning (Caffe, Torch, Theano), cuDNN 2.0 (ускоренная на GPU библиотека deep learning) и CUDA 7.0. В общем, всё необходимое для работы исследователей и учёных в области deep learning установлено в системе и готово к работе.

Мощность системы питания обеспечивается до 1500 Вт, то есть эту систему можно считать обычным настольным решением, которое присоединяется к типичной розетке, не требуя специальных линий питания. Решение тихое, прохладное, энергоэффективное, да ещё и выглядит неплохо. Стоимость готового решения Nvidia для deep learning составляет $15000.

Уже первые оценки от применения DIGITS DevBox показывают почти четырёхкратное увеличение производительности по сравнению с одиночным графическим адаптером Titan X в ключевых тестах deep learning. Так, тренировка AlexNet может быть закончена всего лишь за 13 часов при помощи DIGITS DevBox, по сравнению с более чем двумя днями на лучшем из GPU, не говоря уже о полутора месяцах расчётов при CPU-системе.

Свежие данные о Pascal — следующем поколении графической архитектуры Nvidia

Глава Nvidia традиционно рассказал немного нового и о следующем поколении графической архитектуры — Pascal. Ничего особенно интересного о ней мы не услышали, а о самом существовании проекта было давно известно. Pascal — это следующая архитектура GPU компании, которая ожидается к выходу в 2016 году. Кроме всего прочего, от новинки ожидают до 10-кратного увеличения производительности в задачах deep learning по сравнению с текущими чипами Maxwell.

По ходу своего выступления Дженсен раскрыл некоторые детали Pascal и показал обновленный план по выпуску графических решений в ближайшие годы, выразив надежду, что новая архитектура после более чем трёхлетней разработки проявит себя с положительной стороны. Так как основной темой нынешней GTC является deep learning (использование самообучающихся нейросетей),то рассказали о том, как это сказалось на дизайне Pascal, анонсированном на прошлой конференции.

Графические решения архитектуры Pascal будут иметь три основных достоинства, связанных с подобным применением, что вызовет более точное и быстрое обучение сложных и глубоких нейросетей. Вместе с максимальным объёмом памяти в 32 гигабайта (что почти втрое больше, чем у анонсированного только что Titan X), выделяется ещё одна модификация — Pascal поддерживает вычисления смешанной точности. Также в GPU следующей архитектуры будет применяться 3D-память (stacked DRAM), которая в 5 раз быстрее в приложениях deep learning. Также необходимо помнить и о поддержке высокоскоростных межчиповых соединений NVLink, объединяющих два или более GPU. Всё вместе это в результате должно дать 10-кратный прирост в указанных задачах.

Вычисления смешанной точности в Pascal используются для двойного ускорения расчётов, которым достаточно 16-битной «половинной» точности вычислений — они вдвое быстрее, чем привычные FP32 (одинарная точность). Увеличенная производительность таких вычислений даст прирост скорости классификации и свёртки (convolution) — двух важных шагах deep learning, при сохранении достаточной точности вычислений.

Применение многоэтажной (stacked) 3D-памяти позволит увеличить скорость доступа к данным и одновременно с этим улучшить энергоэффективность. Это очень важно, так как именно ограничения ПСП зачастую определяют и конечную скорость сложных параллельных расчётов, и внедрение 3D-памяти обеспечит трёхкратный рост ПСП при таком же увеличении объёма буфера кадра (объема видеопамяти) — это позволит исследователям строить нейросети большего размера и ускорить некоторые из частей тренировки машинного алгоритма при глубоком обучении.

Как уже было известно, графические процессоры архитектуры Pascal будут иметь микросхемы памяти поставленные друг на друга и на GPU, вместо того, чтобы быть размещёнными на печатной плате. Снижение длины дорожек от чипов памяти к GPU вызовет ускорение вычислений и повышение энергоэффективности.

Добавление поддержки скоростного соединения NVLink к Pascal ускорит перемещение данных между GPU и CPU в 5-12 раз, по сравнению с передачей данных по ныне используемой PCI Express, что также серьёзно ускорит приложения deep learning, требующие быстрого сообщения между графическими процессорами. Это особенно важно для глубокого обучения, так как одно только появление NVLink позволит вдвое увеличить количество GPU в системе, одновременно работающих над одной и той же задачей deep learning.

Ключевые выступления Google и Baidu по теме deep learning

Так как главной темой конференции было глубокое обучение (deep learning) — современная реинкарнация того, что в 80-90-е годы называлось нейросетями, то и ключевые выступления других двух основных дней работы GTC 2015 были посвящены именно этому. Так, в разные дни перед тысячами посетителей выступили представители Google и Baidu (глобальный и китайский поисковики, соответственно). Их выступления во многом пересекались, что было вполне логично, так как работают они примерно над одинаковыми проблемами.

Самое главное в выступлениях от Google и Baidu было то, что для глубокого обучения нейросетей очень нужны значительные вычислительные ресурсы, которые есть у графических процессоров. Более того, многим из этих задач вполне достаточно половинной точности вычислений с плавающей запятой (FP16), чтосделает будущие GPU ещё более подходящими для deep learning.

Из основных примеров применения этого метода, который уже используется Google и Baidu, можно привести распознавание изображений и речи. Так, несколько раз в выступлениях на GTC была затронута тема того, что машинное распознавание изображений уже обогнало возможности человека — точность распознавания у хорошо обученной нейросети оказалась выше, чем у среднего представителя человечества.

Надо отдельно отметить, что между точностью распознавания (изображений, речи, да чего угодно) в 95% и 99%есть огромная разница. Так, 99%-ная точность приближает возможности машинных алгоритмов к человеческим, и это может изменить не только индустрию поиска информации, а и многое окружающее нас.

Важно понимать, что deep learning позволяет не писать специфические алгоритмы для каждого конкретного случая, а обходиться общими возможностями анализа, которые самообучаются при «скармливании» нейросети большого количества информации для обучения. Гипотетических применений методу очень много, вот лишь некоторые из них:

А из уже используемых применений GPU-ускоренного обучения можно привести 47 продуктов Google за последние пару лет, вот только часть из них: поиск по изображениям, распознавание речи в Android, размещение контекстной рекламы, просмотр улиц в Google Maps и др. В итоге, компьютерный анализ изо…

Источник: