Инстансы P3 в Amazon EC2

Ускорение машинного обучения и высокопроизводительных вычислений с помощью мощных графических процессоров

Инстансы P3 в Amazon EC2 используют до восьми графических процессоров NVIDIA® V100 с ядрами Tensor и обеспечивают пропускную способность сети до 100 Гбит/с, чтобы создать условия для работы приложений машинного обучения и высокопроизводительных вычислений в облаке. Эти инстансы обеспечивают производительность до 1 петафлопса в режиме смешанной точности на каждый инстанс, что позволяет значительно ускорить машинное обучение и высокопроизводительные вычисления. Опыты подтвердили, что инстансы P3 в Amazon EC2 сокращают продолжительность машинного обучения с нескольких дней до нескольких минут и в 3–4 раза увеличивают количество выполняемых симуляций в задачах высокопроизводительных вычислений.
Новейшее дополнение к семейству P3 в Amazon EC2 – инстансы P3dn.24xlarge, которые обеспечивают увеличенную в 4 раза пропускную способность сети по сравнению с инстансами P3.16xlarge. Новые инстансы оптимизированы для приложений распределенного машинного обучения и высокопроизводительных вычислений. Эти инстансы обеспечивают пропускную способность сети до 100 Гбит/с и используют 96 специализированных виртуальных ЦПУ Intel® Xeon® Scalable (Skylake), 8 графических процессоров NVIDIA® V100 с ядрами Tensor, каждый из которых оснащен 32 ГБ памяти, а также локальное хранилище объемом 1,8 ТБ, состоящее из твердотельных накопителей на базе NVMe.

Представляем Amazon EC2 P3dn.24xlarge – самые мощные из существующих инстансов P3

Оптимизированы для распределенного машинного обучения и высокопроизводительных вычислений

ReInvent_HA_P3_EDITORIAL

Преимущества

СОКРАЩЕНИЕ ПРОДОЛЖИТЕЛЬНОСТИ МАШИННОГО ОБУЧЕНИЯ С НЕСКОЛЬКИХ ДНЕЙ ДО НЕСКОЛЬКИХ МИНУТ

Инстансы P3 в Amazon EC2 – самые быстрые инстансы для машинного обучения в облаке. Это отличный выбор для специалистов по работе с данными, исследователей и разработчиков, желающих ускорить приложения машинного обучения. Инстансы P3 в Amazon EC2 используют до восьми графических процессоров последнего поколения NVIDIA V100 с ядрами Tensor и обеспечивают производительность до 1 петафлопса в режиме смешанной точности. Это помогает значительно ускорить рабочие нагрузки, связанные с машинным обучением. Ускорение обучения моделей позволяет специалистам по работе с данными и инженерам машинного обучения ускорять итерации, обучать большее количество моделей и повышать точность.

ОДНО ИЗ САМЫХ ЭКОНОМИЧНЫХ РЕШЕНИЙ ДЛЯ МАШИННОГО ОБУЧЕНИЯ В ОТРАСЛИ

Благодаря гибким тарифным планам на один из самых мощных облачных инстансов с графическим процессором клиенты получают максимально экономичное решение для машинного обучения. Как и остальные инстансы Amazon EC2, инстансы P3 доступны как инстансы по требованию, зарезервированные или спотовые инстансы. Спотовые инстансы задействуют неиспользуемые ресурсы инстансов EC2 и позволяют значительно снизить стоимость использования Amazon EC2, получив экономию до 70 % по сравнению с ценами на инстансы по требованию.

ГИБКИЕ И МОЩНЫЕ ВЫСОКОПРОИЗВОДИТЕЛЬНЫЕ ВЫЧИСЛЕНИЯ

В отличие от локальных систем высокопроизводительные вычисления на инстансах P3 в Amazon EC2 обеспечивают практически неограниченную производительность для масштабирования инфраструктуры и возможность гибко настраивать ресурсы в зависимости от рабочих нагрузок. Сервис позволяет настраивать ресурсы в соответствии с требованиями приложения, при этом кластер для высокопроизводительных вычислений можно запустить в течение нескольких минут и оплачивать его работу только по факту использования.

ИНТЕГРАЦИЯ С СЕРВИСАМИ AWS ДЛЯ МАШИННОГО ОБУЧЕНИЯ

Инстансы P3 в Amazon EC2 эффективно интегрированы с сервисом Amazon SageMaker, образуя мощную и интуитивно понятную комплексную платформу машинного обучения. Amazon SageMaker – полностью управляемая платформа машинного обучения, которая позволяет просто и быстро создавать, обучать и развертывать модели машинного обучения. Кроме того, инстансы P3 в Amazon EC2 можно использовать для развертывания образов виртуальных машин AWS Deep Learning AMI с предустановленными популярными платформами глубокого обучения. Это позволяет быстрее начать работу с машинным обучением и ускоряет получение логических выводов.

ПОДДЕРЖКА ВСЕХ ОСНОВНЫХ ПЛАТФОРМ МАШИННОГО ОБУЧЕНИЯ

Инстансы P3 в Amazon EC2 поддерживают все основные платформы машинного обучения, в том числе TensorFlow, PyTorch, Apache MXNet, Caffe, Caffe2, Microsoft Cognitive Toolkit (CNTK), Chainer, Theano, Keras, Gluon и Torch. У клиентов есть возможность выбрать платформу, которая лучше всего подходит для разрабатываемого приложения.

Масштабируемое обучение моделей на множестве узлов

Используя множество инстансов P3 в Amazon EC2 с пропускной способностью сети до 100 Гбит/с, можно быстро обучать модели машинного обучения. Высокая пропускная способность сети позволяет разработчикам устранить узкие места при передаче данных и эффективно масштабировать задания по обучению моделей на множество инстансов P3. Клиентам удалось обучить типовую модель классификации изображений ResNet‑50 до установленной отраслевым стандартом точности всего за 18 минут, используя 16 инстансов P3. Этот уровень производительности ранее был недостижим для подавляющего большинства клиентов, использующих машинное обучение, так как требовал больших капитальных расходов на создание локальных кластеров графических процессоров. Благодаря инстансам P3 с моделью использования по требованию этот уровень производительности теперь доступен всем разработчикам и инженерам по машинному обучению.

Истории клиентов

200x100_AirBNB_Logo

Airbnb использует машинное обучение для оптимизации поисковых рекомендаций и улучшения динамического ценообразования для хозяев жилья. Все это помогает повысить конверсию заказов на бронирование. С инстансами P3 в Amazon EC2 у Airbnb появилась возможность быстрее выполнять рабочие нагрузки по обучению моделей, что позволяет проводить больше итераций, создавать более совершенные модели машинного обучения и сокращать расходы.

salesforce_logo_200x100

Salesforce применяет машинное обучение для работы приложения Einstein Vision, которое позволяет разработчикам использовать распознавание изображений для визуального поиска, определения бренда и идентификации продукта. Инстансы P3 в Amazon EC2 позволяют разработчикам значительно ускорить процессы глубокого обучения моделей, что позволяет быстрее достигать результатов в сфере машинного обучения.

western-digital_200x100

Western Digital использует высокопроизводительные вычисления для запуска десятков тысяч симуляций с целью изучения свойств материалов, тепловых потоков, магнетизма, а также для моделирования передачи данных, чтобы повысить производительность и качество дисковых приводов и решений для хранения данных. По результатам первичного тестирования новые инстансы P3 в Amazon EC2 позволяют инженерным командам выполнять моделирование и симуляции как минимум в три раза быстрее, чем при использовании прошлых решений.  

schrodinger-200x100

Schrodinger использует высокопроизводительные вычисления для разработки прогнозирующих моделей, которые расширяют масштабы поиска и оптимизации и позволяют клиентам компании быстрее выводить на рынок жизненно важные лекарственные препараты. Благодаря инстансам P3 в Amazon EC2 компания Schrodinger может выполнять за день в четыре раза больше симуляций, чем при использовании инстансов P2.  

Инстансы Amazon EC2 P3 и Amazon SageMaker

Самый быстрый способ обучения и запуска моделей машинного обучения

Amazon SageMaker – полностью управляемый сервис для создания, обучения и развертывания моделей машинного обучения. При использовании этого сервиса совместно с инстансами P3 в Amazon EC2 клиенты могут без труда выполнять масштабирование рабочих нагрузок на десятки, сотни и тысячи графических процессоров для быстрого обучения моделей в любом масштабе, не беспокоясь о настройке кластеров и конвейеров обработки данных. Сервис предоставляет простой доступ к ресурсам Amazon Virtual Private Cloud (Amazon VPC) для обучения и размещения рабочих процессов Amazon SageMaker. Благодаря этой возможности для хранения данных при обучении, а также для хранения и размещения артефактов моделей, полученных в процессе обучения, можно использовать корзины сервиса Amazon Simple Storage Service (Amazon S3), доступные только через VPC. Помимо хранилища S3 модели могут получать доступ ко всем прочим ресурсам AWS в рамках VPC. Подробнее.

Создание

Сервис Amazon SageMaker позволяет без труда создавать модели машинного обучения и готовить их к обучению. Он предоставляет все необходимое, чтобы быстро подключиться к данным для обучения, а также выбрать и оптимизировать наилучший алгоритм и платформу для разрабатываемого приложения. Amazon SageMaker предоставляет размещенные блокноты Jupyter, которые облегчают обзор и визуализацию данных для обучения, хранимых в Amazon S3.  Инстанс блокнота можно также использовать для создания кода, которые создает задания по обучению моделей, выполняет развертывание моделей в сервисе Amazon SageMaker, а также проводит тестирование или оценку моделей.

Обучение

Приступить к обучению модели можно за один щелчок мышью в консоли или за один вызов API. В Amazon SageMaker уже установлены самые новые версии TensorFlow и Apache MXNet, а также обеспечена поддержка библиотеки CUDA9 для оптимальной производительности при работе с графическими процессорами NVIDIA. Кроме того, оптимизация гиперпараметров позволяет настроить модель автоматически путем интеллектуальной настройки различных комбинаций параметров, благодаря чему модель быстро выдает прогноз максимально возможной точности. Если есть потребности в увеличении масштаба, для ускорения построения моделей можно выполнить масштабирование на десятки инстансов.

Развертывание

После обучения модели можно за один щелчок выполнить ее развертывание на автоматически масштабируемых инстансах Amazon EC2 в нескольких зонах доступности. При рабочем развертывании Amazon SageMaker от имени пользователя управляет вычислительной средой: осуществляет проверку работоспособности, применяет обновления безопасности и выполняет другие рутинные операции по обслуживанию. Дополнительно сервис предоставляет встроенные возможности мониторинга и ведения журналов средствами Amazon CloudWatch.

 

Инстансы Amazon EC2 P3 и образы AWS Deep Learning AMI

Предварительно настроенные среды разработки для быстрого создания приложений глубокого обучения

Образы AWS Deep Learning AMI являются альтернативой сервису Amazon SageMaker для разработчиков с особыми требованиями. Они предоставляют специалистам по машинному обучению и ученым инфраструктуру и инструменты для ускорения глубокого обучения в облаке в любых масштабах. С помощью этих образов можно быстро запускать в Amazon EC2 инстансы P3 с предварительно установленными популярными платформами глубокого обучения, такими как TensorFlow, PyTorch, Apache MXNet, Microsoft Cognitive Toolkit, Caffe, Caffe2, Theano, Torch, Chainer, Gluon и Keras, что позволяет обучать сложные специальные модели искусственного интеллекта, экспериментировать с новыми алгоритмами или изучать новые навыки и методы. Подробнее

Инстансы Amazon EC2 P3 и высокопроизводительные вычисления

Решение сложных вычислительных задач и поиск новых идей с использованием максимальной мощности высокопроизводительных вычислений на AWS

Инстансы P3 сервиса Amazon EC2 – идеальная платформа для инженерного моделирования, финансовых вычислений, сейсмического анализа, молекулярного моделирования, геномики, рендеринга и прочих рабочих нагрузок, требующих наличия графического процессора. С помощью высокопроизводительных вычислений (HPC) ученые и инженеры могут решать сложные задачи, требующие больших вычислительных мощностей. Для работы HPC‑приложений часто требуется высокая производительность сети, хранилище с высокой скоростью чтения и записи, большая емкость памяти, крупные вычислительные мощности либо все эти ресурсы одновременно. AWS позволяет сократить время проведения исследований и ускорить получение результатов благодаря запуску высокопроизводительных вычислений в облаке и масштабированию с возможностью параллельного выполнения такого количества заданий, которое недостижимо в обычной локальной среде. При этом AWS способствует сокращению расходов, предоставляя решения, оптимизированные под определенные приложения, без больших капитальных инвестиций. Подробнее

Инстансы P3dn.24xlarge в Amazon EC2

Новые ускоренные и более мощные инстансы увеличенного размера, оптимизированные для распределенного машинного обучения и высокопроизводительных вычислений

Инстансы P3dn.24xlarge в Amazon EC2 – это самые быстрые, самые мощные и самые крупные инстансы P3. Они обеспечивают пропускную способность сети до 100 Гбит/с, имеют 8 графических процессоров NVIDIA® V100 с ядрами Tensor с 32 ГБ памяти у каждого, 96 специализированных виртуальных центральных процессоров Intel® Xeon® Scalable (Skylake) и локальное хранилище объемом 1,8 ТБ, состоящее из твердотельных накопителей на базе NVMe. Самая высокая пропускная способность сети, новые процессоры, удвоенный объем памяти графических процессоров и дополнительные виртуальные ЦПУ позволяют разработчикам значительно сократить время обучения моделей машинного обучения или запускать модели, требующие более высокопроизводительных вычислений, путем горизонтального масштабирования заданий на несколько инстансов (например, на 16, 32 или 64 инстанса). Модели машинного обучения требуют большого количества данных для обучения. Инстансы P3dn.24xlarge обеспечивают повышенную пропускную способность сети, что ускоряет не только передачу данных между инстансами, но и доступ к большим объемам данных для обучения при подключении к Amazon S3 или файловым системам с общим доступом, таким как Amazon EFS.

УСТРАНЕНИЕ УЗКИХ МЕСТ И СОКРАЩЕНИЕ ПРОДОЛЖИТЕЛЬНОСТИ МАШИННОГО ОБУЧЕНИЯ

Благодаря пропускной способности сети в 100 Гбит/с разработчики могут эффективно использовать большое количество инстансов P3dn.24xlarge (например, 16, 32 или 64 инстанса) для распределенного обучения, что позволяет значительно сократить время обучения моделей. 96 настроенных для работы с AWS виртуальных ЦПУ Intel Skylake с частотой 2,5 ГГц, поддерживающих набор инструкций AVX‑512, позволяют оптимизировать предварительную обработку данных. Кроме того, инстансы P3dn.24xlarge работают на базе системы AWS Nitro, состоящей из выделенного оборудования и компактных гипервизоров, которые позволяют использовать на инстансах практически все вычислительные возможности и ресурсы памяти, обеспечиваемые оборудованием хоста.

 

Снижение полной стоимости владения (TCO) благодаря оптимизации использования графических процессоров

Расширенные сетевые возможности на базе последней версии эластичного сетевого адаптера с совокупной пропускной способностью сети до 100 Гбит/с позволяют не только обмениваться данными между несколькими инстансами P3dn.24xlarge, но и обеспечивать высокоскоростной доступ к данным через Amazon S3 или файловые системы с общим доступом, такие как Amazon EFS. Высокоскоростной доступ к данным крайне важен для оптимизации использования графических процессоров и обеспечения максимальной производительности вычислительных инстансов.

Поддержка более крупных и сложных моделей

Инстансы P3dn.24xlarge используют графические процессоры NVIDIA V100 с ядрами Tensor с 32 ГБ памяти, которые позволяют с гибкостью обучать более сложные и крупные модели машинного обучения, а также обрабатывать более крупные пакеты данных (например, изображения с разрешением 4K) в системах классификации изображений и обнаружения объектов.

 

Инстансы Amazon EC2 P3: сведения о продукте

Размер инстанса Графические процессоры – Tesla V100 Одноранговая связь графических процессоров Память графического процессора (ГБ) Виртуальные ЦПУ Память (ГБ) Пропускная способность сети Пропускная способность EBS Цена по требованию/час* Инстанс, зарезервированный на 1 год, фактический почасовой тариф* Инстанс, зарезервированный на 3 года, фактический почасовой тариф*
p3.2xlarge 1 н/д 16 8 61 До 10 Гбит/с 1,5 Гбит/с 3,06 USD 1,99 USD 1,05 USD
p3.8xlarge 4
NVLink 64 32 244 10 Гбит/с 7 Гбит/с 12,24 USD 7,96 USD 4,19 USD
p3.16xlarge 8 NVLink 128 64 488 25 Гбит/с 14 Гбит/с 24,48 USD 15,91 USD 8,39 USD
p3dn.24xlarge 8 NVLink 256 96 768 100 Гбит/с 14 Гбит/с 31,218 USD 18,30 USD 9,64 USD

* Цены указаны для инстансов с Linux / Unix в регионе AWS Восток США (Северная Вирджиния) с округлением до цента. Полные сведения о ценах см. на странице цен на Amazon EC2.

Клиенты могут приобрести инстансы P3 в качестве инстансов по требованию, зарезервированных инстансов, спотовых инстансов или выделенного хостинга.

ПОСЕКУНДНАЯ ТАРИФИКАЦИЯ

Одно из преимуществ облачных вычислений – возможность эластичного выделения ресурсов по мере необходимости. За счет посекундной тарификации мы позволяем клиентам повысить эластичность, сократить расходы и оптимизировать распределение ресурсов для достижения целей в сфере машинного обучения.

ЦЕНЫ НА ЗАРЕЗЕРВИРОВАННЫЕ ИНСТАНСЫ

На зарезервированные инстансы предоставляется значительная скидка (до 75 %) по сравнению с ценой инстансов по требованию. Кроме того, когда зарезервированные инстансы связываются с определенной зоной доступности, они обеспечивают резервирование ресурсов и предоставляют гарантию того, что можно будет запускать инстансы, как только они потребуются.

СПОТОВЫЕ ЦЕНЫ

Использование спотовых инстансов оплачивается по ценам, которые действуют в период работы инстансов. Цены на спотовые инстансы устанавливаются Amazon EC2 и постепенно корректируются в зависимости от долгосрочных тенденций предложения и спроса на ресурсы спотовых инстансов. Спотовые инстансы доступны со скидкой до 90 % в сравнении с ценами по требованию.

Широчайшая доступность в международном масштабе

1856-Updated Map Image-P3 Instances-transparentBG_1024x543

Инстансы P3.2xlarge, P3.8xlarge и P3.16xlarge сервиса Amazon EC2 доступны в 14 регионах AWS, благодаря чему клиенты могут гибко обучать и развертывать модели машинного обучения, где бы ни хранились их данные. Инстансы P3 доступны в регионах AWS Восток США (Сев. Вирджиния), Восток США (Огайо), Запад США (Орегон), Канада (Центр), Европа (Ирландия), Европа (Франкфурт), Европа (Лондон), Азия и Тихий океан (Токио), Азия и Тихий океан (Сеул), Азия и Тихий океан (Сидней), Азия и Тихий океан (Сингапур), Китай (Пекин), Китай (Нинся) и AWS GovCloud (США).

Инстансы P3dn.24xlarge доступны в регионах AWS Восток США (Сев. Вирджиния) и Запад США (Орегон).

Начало работы с инстансами Amazon EC2 P3 для машинного обучения

Чтобы начать работу за считаные минуты, узнайте подробнее об Amazon SageMaker или воспользуйтесь образами AWS Deep Learning AMI, в которых предустановлены популярные платформы глубокого обучения, такие как Caffe2 и MXNet. Можно также воспользоваться NVIDIA AMI с предварительно установленным драйвером графического процессора и набором инструментов CUDA.

Публикации в блоге и статьи

Jeff-Barr_Bio-Pic
 
Джеф Барр
25 октября 2017 г.
evangelist-randall-hunt-square
 
Рэндол Хант
29 ноября 2017 г.
bio_ML_Article
 
Синтия Перанандам
13 сентября 2017 г.
amrraga
 
Амр Рагаб, Четан Капур, Рахул Уилгол, Джарвис Ли, Тайлер Малленбах и Йонг Ву
20 июля 2018 г.

О сервисе Amazon SageMaker

Подробности см. по ссылке

О глубоком обучении на AWS

Подробности см. по ссылке

О высокопроизводительных вычислениях (HPC)

Подробности см. по ссылке
Готовы начать работу?
Регистрация
Есть вопросы?
Свяжитесь с нами