- Amazon EC2
- Tipos de instancias
- Instancias P4
Instancias P4 de Amazon EC2
Alto rendimiento en entrenamiento de ML y aplicaciones de HPC en la nube
¿Por qué elegir las Instancias P4 de Amazon EC2?
Las instancias P4d de Amazon Elastic Compute Cloud (Amazon EC2) ofrecen un alto rendimiento para el entrenamiento del machine learning (ML) y las aplicaciones de computación de alto rendimiento (HPC) en la nube. Las instancias P4d cuentan con la tecnología de las GPU A100 Tensor Core de NVIDIA y brindan un rendimiento líder del sector y redes de baja latencia. Estas instancias admiten redes de instancias de 400 Gbps. Las instancias P4d ofrecen un costo hasta un 60 % más bajo de entrenamiento de modelos de ML, además de un rendimiento 2,5 veces mejor en promedio para los modelos de aprendizaje profundo, en comparación con las instancias P3 y P3dn de las generaciones anteriores.
Las instancias P4d se implementan en clústeres denominados Amazon EC2 UltraClusters, que comprenden procesamiento, redes y almacenamiento de alto rendimiento en la nube. Cada UltraCluster de EC2 es una de las supercomputadoras más poderosas del mundo, que le ayuda a ejecutar su entrenamiento de ML de varios nodos y cargas de trabajo de HPC distribuidas más complejas. Puede escalar fácilmente de unos pocos a miles de GPU NVIDIA A100 en los UltraClusters EC2, según las necesidades de su proyecto de ML o HPC.
Tanto investigadores, como científicos de datos y desarrolladores pueden usar las instancias P4d para entrenar modelos de ML para casos de uso, como el procesamiento de lenguaje natural, la detección y clasificación de objetos, y los motores de recomendación. También pueden usarlas para ejecutar aplicaciones de HPC, como el descubrimiento farmacéutico, el análisis sísmico y la modelización financiera. A diferencia de los sistemas locales, puede acceder a una capacidad informática y de almacenamiento prácticamente ilimitada, escalar su infraestructura según las necesidades de su negocio y poner en marcha un entrenamiento de ML de varios nodos o una aplicación de HPC distribuida estrechamente asociada en minutos, sin costos de instalación ni de mantenimiento.
Presentación de las nuevas instancias P4d de Amazon EC2
Beneficios
Con las GPU NVIDIA A100 Tensor Core de última generación, cada instancia P4d ofrece, en promedio, un rendimiento de aprendizaje profundo 2,5 veces mejor, en comparación con las instancias P3 de generaciones anteriores. Los UltraClusters de EC2 de instancias P4d ayudan a los desarrolladores, científicos de datos e investigadores a ejecutar sus cargas de trabajo de ML y HPC más complejas, y les permite acceder a un rendimiento de nivel de supercomputadora sin costos anticipados ni compromisos a largo plazo. El tiempo reducido de entrenamiento con las instancias P4d mejora la productividad, lo que ayuda a los desarrolladores a centrarse en su misión principal de incorporar inteligencia de ML en aplicaciones empresariales.
Los desarrolladores pueden escalar fácilmente hasta miles de GPU con UltraClusters de EC2 de instancias P4d. Alto rendimiento, conexión de red de baja latencia con compatibilidad con conexión de red de instancias de 400 Gbps, Elastic Fabric Adapter (EFA) y tecnología GPUDirect RDMA ayudan a entrenar rápidamente los modelos de ML mediante técnicas escalables/distribuidas. EFA utiliza NVIDIA Collective Communications Library (NCCL) para escalar a miles de GPU, y la tecnología GPUDirect RDMA habilita GPU de baja latencia para la comunicación de GPU entre instancias P4d.
Las instancias P4d ofrecen un costo hasta un 60 % menor para entrenar modelos de ML, en comparación con las instancias P3. Además, las instancias P4d están disponibles para comprar como instancias de spot. Las instancias de spot aprovechan la capacidad no utilizada de instancias de EC2 y pueden reducir significativamente los costos de EC2 con un descuento de hasta el 90 % sobre los precios bajo demanda. Con el costo más bajo de entrenamiento de ML con instancias P4d, usted puede reasignar los presupuestos para incorporar más inteligencia en aplicaciones empresariales.
Las AMI de aprendizaje profundo de AWS (DLAMI) y los contenedores de aprendizaje profundo de Amazon facilitan la implementación de entornos de aprendizaje profundo de P4d en cuestión de minutos, ya que contienen las herramientas y bibliotecas de marcos de aprendizaje profundo necesarias. También puede agregar más fácilmente sus propias bibliotecas y herramientas a esas imágenes. Las instancias P4d son compatibles con marcos populares de ML, como TensorFlow, PyTorch y MXNet. Además, las instancias P4d son compatibles con importantes servicios de AWS para ML, administración y orquestación, como Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch y AWS ParallelCluster.
Características
Las GPU NVIDIA A100 Tensor Core ofrecen una aceleración sin precedentes a escala para ML y HPC. Los Tensor Cores de tercera generación de NVIDIA A100 aceleran todas las cargas de trabajo de precisión, con lo que se agiliza el tiempo de obtención de información y el tiempo de comercialización. Cada GPU A100 ofrece más de 2,5 veces el rendimiento de computación en comparación con la GPU V100 de la generación anterior y viene con 40 GB HBM2 (en instancias P4d) u 80 GB HBM2e (en instancias P4de) de memoria de alto rendimiento para la GPU. Una mayor memoria de la GPU beneficia especialmente a las cargas de trabajo que se entrenan con grandes conjuntos de datos de alta resolución. Las GPU NVIDIA A100 usan el rendimiento de la interconexión de las GPU NVSwitch de modo que cada GPU se pueda comunicar con cualquier otra en la misma instancia, con el mismo rendimiento bidireccional de 600 GB/s y con latencia de un solo salto.
Las instancias P4d ofrecen redes de 400 Gbps para ayudar a los clientes a escalar horizontalmente mejor sus cargas de trabajo distribuidas, como por ejemplo hacer un entrenamiento de varios nodos de manera más eficiente con redes de alto rendimiento entre instancias P4d, además de entre instancias P4d y servicios de almacenamiento, como Amazon Simple Storage Service (Amazon S3) y FSx para Lustre. EFA es una interfaz de red personalizada y diseñada por AWS para ayudar a escalar las aplicaciones de ML y HPC a miles de GPU. Para reducir aún más la latencia, EFA se combina con NVIDIA GPUDirect RDMA para permitir comunicación de GPU a GPU de baja latencia entre servidores con omisión de sistema operativo.
Acceda a un almacenamiento a escala de petabytes, de alto rendimiento y baja latencia, con FSx para Lustre o a almacenamiento virtualmente ilimitado y rentable con Amazon S3 a velocidades de 400 Gbps. Para cargas de trabajo que necesitan acceso rápido a conjuntos de datos grandes, cada instancia P4d también incluye almacenamiento DDS basado en NVMe de 8 TB con rendimiento de lectura de 16 GB por segundo.
Las instancias P4d se incorporan a AWS Nitro System, que es una amplia colección de bloques funcionales que descargan muchas de las funciones de virtualización tradicionales a hardware y software dedicados para ofrecer alto rendimiento, alta disponibilidad y alta seguridad, al tiempo que reduce la sobrecarga de la virtualización.
Testimonios de clientes
Estos son algunos ejemplos de cómo los clientes y socios lograron sus objetivos empresariales con las instancias P4 de Amazon EC2.
Toyota Research Institute (TRI)
TRI-AD
TRI-AD
GE Healthcare
HEAVY.AI
Zenotech Ltd.
Aon
Rad AI
Detalles del producto
|
Instance Size
|
vCPUs
|
Instance Memory (GiB)
|
GPU – A100
|
GPU memory
|
Network Bandwidth (Gbps)
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (GB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p4d.24xlarge
|
96
|
1152
|
8
|
320 GB
HBM2 |
400 ENA y EFA
|
Sí
|
600 GB/s NVSwitch
|
8 x 1000 SSD NVMe
|
19
|
|
p4de.24xlarge
|
96
|
1152
|
8
|
640 GB
HBM2e |
400 ENA y EFA
|
Sí
|
600 GB/s NVSwitch
|
8 x 1000 SSD NVMe
|
19
|
Introducción a las instancias P4d para ML
Amazon SageMaker es un servicio totalmente administrado para crear, entrenar e implementar modelos de aprendizaje automático. Cuando se usa con las instancias P4d, los clientes pueden escalar rápidamente decenas, cientos o miles de GPU para entrenar rápidamente un modelo a cualquier escala sin preocuparse por configurar clústeres ni canalizaciones de datos.
DLAMI proporciona a los profesionales e investigadores del aprendizaje automático la infraestructura y las herramientas para acelerar la aprendizaje automático en la nube, a cualquier escala. Los contenedores de aprendizaje profundo son imágenes de Docker preinstaladas con marcos de aprendizaje automático para facilitar la implementación rápida de entornos de aprendizaje automático personalizados, ya que le permiten omitir el complicado proceso de crear y optimizar sus entornos desde cero.
Introducción a las instancias P4d para HPC
Las instancias P4d son ideales para ejecutar simulaciones de ingeniería, finanza computacional, análisis sísmico, modelado molecular, genómica, representaciones y otras cargas de trabajo de HPC con GPU. Con frecuencia, las aplicaciones de HPC exigen un alto nivel de rendimiento de red, almacenamiento ágil, gran capacidad de memoria, capacidades informáticas altas o todas estas características juntas. Las instancias P4d son compatibles con EFA, que permite que las aplicaciones de HPC que utilizan Message Passing Interface (MPI) escalen a miles de GPU. AWS Batch y AWS ParallelCluster ayudan a los desarrolladores de HPC a crear y escalar rápidamente aplicaciones de HPC distribuidas.