Перейти к главному контенту

Amazon EC2

Инстансы Amazon EC2 P5

Инстансы на базе графических процессоров с высочайшей производительностью для программ глубокого обучения и высокопроизводительных вычислений

В чем преимущества инстансов Amazon EC2 P5?

Инстансы Amazon Elastic Compute Cloud (Amazon EC2) P5 на базе графических процессоров NVIDIA H100 Tensor Core и инстансы P5e и P5en на базе графических процессоров NVIDIA H200 Tensor Core обеспечивают самую высокую производительность в Amazon EC2 для приложений глубокого обучения и высокопроизводительных вычислений. Они помогают сократить время на создание решения до 4 раз по сравнению с инстансами EC2 на базе графических процессоров предыдущего поколения и снизить затраты на обучение моделей машинного обучения (экономия составит до 40 %). Эти инстансы помогают ускорить внедрение решений и быстрее выходить на рынок. Инстансы P5, P5e и P5en можно использовать для обучения и развертывания сложных больших языковых моделей (LLM) и моделей диффузии, лежащих в основе приложений генеративного искусственного интеллекта. Эти приложения включают ответы на вопросы, генерацию кода, генерацию видео и изображений и распознавание речи. Эти инстансы также можно использовать для масштабного развертывания HPC-приложений для фармацевтических исследований, сейсмического анализа, прогнозирования погоды и финансового моделирования.

Для повышения производительности и снижения затрат инстансы P5 и P5e дополняют графические процессоры NVIDIA Tensor Core H100 и H200, обеспечивающие в 2 раза больше производительности процессора, в 2 раза больше системной памяти и в 4 раза больше локальной памяти по сравнению с инстансами на базе графических процессоров предыдущего поколения. Инстансы P5en сочетают графические процессоры NVIDIA H200 Tensor Core и высокопроизводительный процессор Intel Sapphire Rapids, обеспечивая между процессором и графическим процессором соединение Gen5 PCIe. Инстансы P5en обеспечивают в 4 раза большую пропускную способность между процессором и графическим процессором и меньшую задержку в сети по сравнению с инстансами P5e и P5, тем самым повышая производительность распределенного обучения. Инстансы P5 и P5e поддерживают сеть со скоростью до 3200 Гбит/с с использованием Интерфейса эластичной матрицы (EFA) второго поколения. P5en благодаря третьему поколению EFA, использующему Nitro v5, демонстрирует меньшую задержку (до 35 %) по сравнению с P5, использующим предыдущее поколение EFA и Nitro. Это помогает повысить производительность параллельного взаимодействия для рабочих нагрузок распределенного обучения, таких как глубокое обучение, генеративный искусственный интеллект, обработка данных в реальном времени и приложения высокопроизводительных вычислений (HPC). Для обеспечения крупномасштабных вычислений с низкой задержкой эти инстансы развертываются в Amazon EC2 UltraClusters, что дает возможность масштабировать до 20 000 графических процессоров H100 или H200, связанных между собой в неблокирующую сеть петабитного уровня. Инстансы P5, P5e и P5en в кластерах EC2 UltraClusters обеспечивают совокупную вычислительную мощность до 20 эксафлопс, что эквивалентно производительности суперкомпьютера.

Инстансы Amazon EC2 P5

Преимущества

Инстансы P5, P5e и P5en могут обучать сверхбольшие модели генеративного искусственного интеллекта в любом масштабе и обеспечивать до 4 раз большую производительность по сравнению с инстансами EC2 на базе графических процессоров предыдущего поколения.

Инстансы P5, P5e и P5en сокращают время обучения и время на решение проблем с нескольких недель до нескольких дней. Это позволяет ускорить итерации и быстрее выходить на рынок.

Инстансы P5, P5e и P5en позволяют сократить расходы на глубокое обучение и инфраструктуру высокопроизводительных вычислений до 40 % по сравнению с инстансами EC2 предыдущего поколения на базе графических процессоров.

Инстансы P5, P5e и P5en обеспечивают пропускную способность сети EFA до 3200 Гбит/с. Эти инстансы развернуты в сверхкрупных кластерах EC2 UltraClusters и обеспечивают совокупную вычислительную мощность 20 эксафлопс.

Возможности

Инстансы P5 предоставляют до 8 графических процессоров NVIDIA H100 с общим объемом памяти графического процессора HBM3 до 640 ГБ на каждый инстанс. Инстансы P5e и P5en предоставляют до 8 графических процессоров NVIDIA H200 с общим объемом памяти графического процессора HBM3e до 1128 ГБ на каждый инстанс. Инстансы обоих типов поддерживают соединение графических процессоров NVSwitch со скоростью до 900 Гбит/с (общая пропускная способность для каждого инстанса составляет 3,6 ТБ/с), поэтому каждый графический процессор может взаимодействовать со всеми другими графическими процессорами того же инстанса с минимальной задержкой, без промежуточных переходов.

Графические процессоры NVIDIA H100 и H200 оснащены новым движком-трансформером, который использует интеллектуальное управление и динамически выбирает между FP8 и 16-битными вычислениями. Эта функция помогает ускорить глубокое обучение на больших языковых моделях (LLM) по сравнению с графическими процессорами A100 предыдущего поколения. Для рабочих нагрузок высокопроизводительных вычислений графические процессоры NVIDIA H100 и H200 содержат новые инструкции DPX, которые еще больше ускоряют алгоритмы динамического программирования по сравнению с графическими процессорами A100.

Инстансы P5, P5e и P5en обеспечивают пропускную способность сети EFA до 3200 Гбит/с. Кроме того, EFA сочетается с NVIDIA GPUDirect RDMA, обеспечивая обмен данными между серверами графических процессоров с низкой задержкой в обход операционной системы.

Инстансы P5, P5e и P5en поддерживают файловые системы Amazon FSx для Lustre, что позволяет получить доступ к данным с пропускной способностью в сотни Гбит/с и миллионами операций ввода-вывода в секунду, необходимых для крупномасштабных рабочих нагрузок глубокого обучения и высокопроизводительных вычислений. Кроме того, каждый инстанс поддерживает локальное SSD-хранилище NVMe емкостью до 30 ТБ для быстрого доступа к большим наборам данных. Amazon Simple Storage Service (Amazon S3) также позволяет использовать практически неограниченное экономичное хранилище.

Отзывы клиентов

Здесь представлены несколько примеров того, как наши клиенты и партнеры достигли бизнес-целей с помощью инстансов Amazon EC2 P4.

Anthropic

В Anthropic работают над созданием надежных, интерпретируемых и управляемых систем искусственного интеллекта. Несмотря на то, что современные крупные системы искусственного интеллекта общего назначения могут иметь значительные преимущества, они также могут быть непредсказуемыми, ненадежными и непрозрачными. Наша цель — добиться прогресса в решении этих вопросов и внедрить системы, которые будут полезны людям. Наша организация — одна из немногих в мире, которая создает фундаментальные модели исследований глубокого обучения. Эти модели очень сложны, и для их разработки и обучения необходимо эффективно распределить их по большим кластерам графических процессоров. Сегодня мы активно используем инстансы Amazon EC2 P4 и с нетерпением ждем запуска инстансов P5. Мы рассчитываем, что они обеспечат существенные преимущества по сравнению с инстансами P4d и будут доступны в больших масштабах, необходимых для создания больших языковых моделей нового поколения и сопутствующих продуктов.

Том Браун, соучредитель Anthropic
Missing alt text value

AON

В AON революционизировали подход страховых компаний к сложным вычислительным задачам. Актуарные прогнозы требуют большего объема моделирования для оценки сложных финансовых рисков и гарантий, однако разрозненные устаревшие системы и подверженные ошибкам ручные процессы ограничивают возможность проведения детального и строгого анализа. Инстансы Amazon EC2 P5 изменили правила игры. Теперь мы можем всего за несколько часов запускать модели машинного обучения и экономические прогнозы, которые раньше занимали несколько дней. Возможность использовать один инстанс графического процессора H100 (p5.4xlarge) означает, что мы не только экономим время, но и оптимизируем вычислительные ресурсы. Благодаря этой революционной технологии наши клиенты получают беспрецедентное понимание управления рисками и ценообразования продуктов.

Ван Бич, глобальный руководитель отдела решений в сфере страхования жизни, AON

Missing alt text value

Cohere

Cohere играет ведущую роль в том, чтобы помочь каждому предприятию использовать возможности языкового искусственного интеллекта для изучения, генерации, поиска и обработки информации естественным и интуитивно понятным способом, развертывая ее на нескольких облачных платформах в среде данных, наиболее подходящей для каждого клиента. Инстансы Amazon EC2 P5 на базе NVIDIA H100 позволят компаниям быстрее творить, расти и масштабироваться благодаря своим вычислительным мощностям в сочетании с передовыми возможностями больших языковых моделей Cohere и генеративным искусственным интеллектом.

Эйдан Гомес, генеральный директор Cohere
Missing alt text value

Hugging Face

Являясь самым быстрорастущим сообществом разработчиков ПО с открытым исходным кодом для машинного обучения, мы предоставляем более 150 000 предварительно обученных моделей и 25 000 наборов данных на нашей платформе для обработки естественного языка, машинного зрения, биологии, обучения с подкреплением и многого другого. Благодаря значительному прогрессу в области больших языковых моделей и генеративного искусственного интеллекта мы работаем с AWS над созданием и внедрением моделей будущего с открытым исходным кодом. Мы с нетерпением ждем возможности использования инстансов Amazon EC2 P5 через Amazon SageMaker в сверхкрупных кластерах UltraClusters с EFA в любом масштабе, чтобы ускорить разработку новых базовых моделей искусственного интеллекта для каждого.

Жюльен Шомонд, технический директор и соучредитель Hugging Face
Missing alt text value

Сведения о продукте

Instance Size
vCPUs
Instance Memory
GPU
GPU memory
Network Bandwidth (Gbps)
GPUDirect RDMA
GPU Peer to Peer
Instance Storage (TB)
EBS Bandwidth (Gbps)
p5.4xlarge

16

256 ГиБ

1 H100

80 ГБ

HBM3

EFA со скоростью 100 Гбит/с

Нет*

Н/П*

3,84 SSD на базе NVMe

10

p5.48xlarge
192

2 ТиБ

8 H100
640 ГБ
HBM3
EFA со скоростью 3200 Гбит/с
Да
NVSwitch 900 ГБ/с
8 × 3.84 SSD на базе NVMe
80
p5e.48xlarge
192

2 ТиБ

8 H200
1128 ГБ
HBM3e
EFA со скоростью 3200 Гбит/с
Да
NVSwitch 900 ГБ/с
8 × 3.84 SSD на базе NVMe
80
p5en.48xlarge
192

2 ТиБ

8 H200
HBM3e со скоростью 1128 ГБ
EFA со скоростью 3200 Гбит/с
Да
NVSwitch 900 ГБ/с
8 × 3,84 SSD на базе NVMe
100

*GPUDirect RDMA не поддерживается в версии P5.4xlarge

Начало работы со сценариями использования машинного обучения

SageMaker – полностью управляемый сервис для создания, обучения и развертывания моделей машинного обучения. При использовании SageMaker HyperPod можно с легкостью выполнять масштабирование рабочих нагрузок на десятки, сотни и тысячи графических процессоров для быстрого обучения моделей в любом масштабе, не беспокоясь о настройке кластеров эластичного обучения и управлении ими.

Образы DLAMI предоставляют специалистам по машинному обучению и ученым инфраструктуру и инструменты, которые позволяют ускорить работу с глубоким обучением в облаке в любых масштабах. Контейнеры для глубокого обучения – это образы Docker, на которые предварительно установлены платформы глубокого обучения. Они позволяют упростить процесс развертывания специальных сред для машинного обучения, избавляя от сложностей с их созданием и оптимизацией.

Если вы предпочитаете управлять собственными контейнерными рабочими нагрузками с помощью сервисов оркестрации контейнеров, вы можете развернуть инстансы P5, P5e и P5en с помощью Amazon EKS или Amazon ECS.

Начало работы со сценариями использования HPC

Инстансы P5, P5e и P5en – идеальная платформа для инженерного моделирования, финансовых вычислений, сейсмического анализа, молекулярного моделирования, геномики, рендеринга и прочих рабочих нагрузок высокопроизводительных вычислений, требующих наличия графического процессора. Для работы HPC‑приложений часто требуется высокая производительность сети, хранилище с высокой скоростью чтения и записи, большая емкость памяти, огромные вычислительные мощности либо все эти ресурсы одновременно. Все три типа инстансов поддерживают EFA, что позволяет HPC‑приложениям, использующим интерфейс передачи сообщений (MPI), масштабироваться до тысяч графических процессоров. Пакет AWS и AWS ParallelCluster помогают разработчикам высокопроизводительных вычислений быстро создавать и масштабировать распределенные приложения для высокопроизводительных вычислений.

Подробнее