Instancias P4 de Amazon EC2

Alto rendimiento en entrenamiento de ML y aplicaciones de HPC en la nube

Las instancias P4d de Amazon Elastic Compute Cloud (Amazon EC2) ofrecen un alto rendimiento para el entrenamiento del machine learning (ML) y las aplicaciones de computación de alto rendimiento (HPC) en la nube. Las instancias P4d cuentan con la tecnología de las GPU A100 Tensor Core de NVIDIA y brindan un rendimiento líder del sector y redes de baja latencia. Estas instancias admiten redes de instancias de 400 Gbps. Las instancias P4d ofrecen un costo hasta un 60 % más bajo de entrenamiento de modelos de ML, además de un rendimiento 2,5 veces mejor en promedio para los modelos de aprendizaje profundo, en comparación con las instancias P3 y P3dn de las generaciones anteriores.

Las instancias P4d se implementan en clústeres de hiperescala llamados UltraClusters de Amazon EC2, que se componen de informática, redes y almacenamiento de alto rendimiento de la nube. Cada UltraCluster de EC2 es una de las supercomputadoras más poderosas del mundo, que le ayuda a ejecutar su entrenamiento de ML de varios nodos y cargas de trabajo de HPC distribuidas más complejas. Puede escalar fácilmente de unos pocos a miles de GPU NVIDIA A100 en los UltraClusters EC2, según las necesidades de su proyecto de ML o HPC.

Tanto investigadores, como científicos de datos y desarrolladores pueden usar las instancias P4d para entrenar modelos de ML para casos de uso, como el procesamiento de lenguaje natural, la detección y clasificación de objetos, y los motores de recomendación. También pueden usarlas para ejecutar aplicaciones de HPC, como el descubrimiento farmacéutico, el análisis sísmico y la modelización financiera. A diferencia de los sistemas locales, puede acceder a una capacidad informática y de almacenamiento prácticamente ilimitada, escalar su infraestructura según las necesidades de su negocio y poner en marcha un entrenamiento de ML de varios nodos o una aplicación de HPC distribuida estrechamente asociada en minutos, sin costos de instalación ni de mantenimiento.

Presentación de las nuevas instancias P4d de Amazon EC2 (2:00)

¿Tiene alguna pregunta o necesita ayuda con los UltraClusters de EC2?

Solicitar ayuda »

Reserve las instancias P4d ahora para usarlas en el futuro

Con los bloques de capacidad de Amazon EC2 para ML, reserve fácilmente instancias P4d con hasta ocho semanas de antelación. Puede reservar instancias P4d durante un periodo de uno a 14 días y en tamaños de clúster de una a 64 instancias (512 GPU), lo que le brinda la flexibilidad de ejecutar una amplia gama de cargas de trabajo.

Entrenamiento de ML y HPC a gran escala con UltraClusters P4d de EC2

Los UltraClusters de EC2 de las instancias P4d combinan HPC, redes y almacenamiento con una de las supercomputadoras más poderosas del mundo. Cada UltraCluster de EC2 de instancias P4d ofrece más de 4000 de las GPU NVIDIA A100 más recientes, una infraestructura de red sin bloqueo a escala de petabits y almacenamiento de baja latencia y alto rendimiento con Amazon FSx para Lustre. Los desarrolladores, investigadores o científicos de datos de ML pueden poner en marcha instancias P4d en UltraClusters de EC2 para obtener acceso a un rendimiento de nivel de supercomputadora con un modelo de uso de pago por uso para ejecutar sus cargas de trabajo de varios nodos de entrenamiento de ML y HPC.

Si tiene más preguntas o necesita asistencia con los UltraClusters de EC2, solicite ayuda.

Solo disponible en algunas regiones de AWS. Para obtener más información sobre las regiones que son compatibles y más detalles sobre los UltraClusters de EC2, contacte con nosotros.

Beneficios

Reduzca el tiempo de entrenamiento de ML de días a minutos

Con las GPU NVIDIA A100 Tensor Core de última generación, cada instancia P4d ofrece, en promedio, un rendimiento de aprendizaje profundo 2,5 veces mejor, en comparación con las instancias P3 de generaciones anteriores. Los UltraClusters de EC2 de instancias P4d ayudan a los desarrolladores, científicos de datos e investigadores a ejecutar sus cargas de trabajo de ML y HPC más complejas, y les permite acceder a un rendimiento de nivel de supercomputadora sin costos anticipados ni compromisos a largo plazo. El tiempo reducido de entrenamiento con las instancias P4d mejora la productividad, lo que ayuda a los desarrolladores a centrarse en su misión principal de incorporar inteligencia de ML en aplicaciones empresariales.

Ejecute el entrenamiento de ML de varios nodos con alta eficiencia

Los desarrolladores pueden escalar fácilmente hasta miles de GPU con UltraClusters de EC2 de instancias P4d. Alto rendimiento, conexión de red de baja latencia con compatibilidad con conexión de red de instancias de 400 Gbps, Elastic Fabric Adapter (EFA) y tecnología GPUDirect RDMA ayudan a entrenar rápidamente los modelos de ML mediante técnicas escalables/distribuidas. EFA utiliza NVIDIA Collective Communications Library (NCCL) para escalar a miles de GPU, y la tecnología GPUDirect RDMA habilita GPU de baja latencia para la comunicación de GPU entre instancias P4d.

Reduzca los costos de infraestructura para HPC y entrenamiento de ML

Las instancias P4d ofrecen un costo hasta un 60 % menor para entrenar modelos de ML, en comparación con las instancias P3. Además, las instancias P4d están disponibles para comprar como instancias de spot. Las instancias de spot aprovechan la capacidad no utilizada de instancias de EC2 y pueden reducir significativamente los costos de EC2 con un descuento de hasta el 90 % sobre los precios bajo demanda. Con el costo más bajo de entrenamiento de ML con instancias P4d, usted puede reasignar los presupuestos para incorporar más inteligencia en aplicaciones empresariales.

Comience y escale fácilmente con servicios de AWS

Las AMI de aprendizaje profundo de AWS (DLAMI) y los contenedores de aprendizaje profundo de Amazon facilitan la implementación de entornos de aprendizaje profundo de P4d en cuestión de minutos, ya que contienen las herramientas y bibliotecas de marcos de aprendizaje profundo necesarias. También puede agregar más fácilmente sus propias bibliotecas y herramientas a esas imágenes. Las instancias P4d son compatibles con marcos populares de ML, como TensorFlow, PyTorch y MXNet. Además, las instancias P4d son compatibles con importantes servicios de AWS para ML, administración y orquestación, como Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch y AWS ParallelCluster.

Características

Con tecnología de GPU NVIDIA A100 Tensor Core

Las GPU NVIDIA A100 Tensor Core ofrecen una aceleración sin precedentes a escala para ML y HPC. Los Tensor Cores de tercera generación de NVIDIA A100 aceleran todas las cargas de trabajo de precisión, con lo que se agiliza el tiempo de obtención de información y el tiempo de comercialización. Cada GPU A100 ofrece más de 2,5 veces el rendimiento de computación en comparación con la GPU V100 de la generación anterior y viene con 40 GB HBM2 (en instancias P4d) u 80 GB HBM2e (en instancias P4de) de memoria de alto rendimiento para la GPU. Una mayor memoria de la GPU beneficia especialmente a las cargas de trabajo que se entrenan con grandes conjuntos de datos de alta resolución. Las GPU NVIDIA A100 usan el rendimiento de la interconexión de las GPU NVSwitch de modo que cada GPU se pueda comunicar con cualquier otra en la misma instancia, con el mismo rendimiento bidireccional de 600 GB/s y con latencia de un solo salto.

Redes de alto rendimiento

Las instancias P4d ofrecen redes de 400 Gbps para ayudar a los clientes a escalar horizontalmente mejor sus cargas de trabajo distribuidas, como por ejemplo hacer un entrenamiento de varios nodos de manera más eficiente con redes de alto rendimiento entre instancias P4d, además de entre instancias P4d y servicios de almacenamiento, como Amazon Simple Storage Service (Amazon S3) y FSx para Lustre. EFA es una interfaz de red personalizada y diseñada por AWS para ayudar a escalar las aplicaciones de ML y HPC a miles de GPU. Para reducir aún más la latencia, EFA se combina con NVIDIA GPUDirect RDMA para permitir comunicación de GPU a GPU de baja latencia entre servidores con omisión de sistema operativo.

Almacenamiento de alto rendimiento y baja latencia

Acceda a un almacenamiento a escala de petabytes, de alto rendimiento y baja latencia, con FSx para Lustre o a almacenamiento virtualmente ilimitado y rentable con Amazon S3 a velocidades de 400 Gbps. Para cargas de trabajo que necesitan acceso rápido a conjuntos de datos grandes, cada instancia P4d también incluye almacenamiento DDS basado en NVMe de 8 TB con rendimiento de lectura de 16 GB por segundo.

Con integración en AWS Nitro System

Las instancias P4d se incorporan a AWS Nitro System, que es una amplia colección de bloques funcionales que descargan muchas de las funciones de virtualización tradicionales a hardware y software dedicados para ofrecer alto rendimiento, alta disponibilidad y alta seguridad, al tiempo que reduce la sobrecarga de la virtualización.

Historias de clientes

Toyota Research Institute (TRI), fundado en 2015, trabaja para desarrollar la conducción automatizada, robótica y otras tecnologías de amplificación humana para Toyota.

“En el TRI, trabajamos para construir un futuro en el que todos tengan la libertad de desplazarse. “Las instancias P3 de la generación anterior nos ayudaron a reducir nuestro tiempo de entrenamiento de modelos de ML de días a horas, y estamos ansiosos por utilizar las instancias P4d, ya que la memoria GPU adicional y los formatos flotantes más eficientes le permitirán a nuestro equipo de machine learning entrenar con modelos más complejos a una velocidad aún mayor”.

Mike Garrison, Technical Lead, Infrastructure Engineering, TRI

“En TRI-AD, estamos trabajando para crear un futuro en el que todos tengan la libertad de moverse y explorar con un enfoque en la reducción de lesiones y muertes en vehículos gracias a la conducción adaptada y la ciudad inteligente. Mediante el uso de instancias P4d de Amazon EC2, podemos reducir nuestro tiempo de entrenamiento para el reconocimiento de objetos en un 40 % en comparación con las instancias GPU de generaciones anteriores, sin modificaciones a los códigos existentes”.

Junya Inada, Director de Automated Driving (Recognition), TRI-AD

“Mediante el uso de instancias P4d de Amazon EC2, podemos reducir de inmediato el costo de entrenamiento en comparación con las instancias GPU de las generaciones anteriores, lo que nos permite aumentar la cantidad de equipos que trabajan en el entrenamiento de modelos. Las mejoras de red en P4d nos permitieron escalar eficientemente a docenas de instancias, lo que nos dio una agilidad importante para optimizar, volver a entrenar e implementar rápidamente docenas de modelos en autos de prueba o entornos de simulación para hacer más pruebas”.

Jack Yan, Senior Director de Infrastructure Engineering, TRI-AD

GE Healthcare es un innovador líder a nivel mundial de tecnología médica y soluciones digitales. GE Healthcare les permite a los médicos tomar decisiones más rápidas e informadas gracias a dispositivos inteligentes, análisis de datos, aplicaciones y servicios, compatibles con Edison, su plataforma de inteligencia.

“En GE Healthcare, proporcionamos a los médicos herramientas que los ayudan a agregar datos, aplicar IA y análisis a esos datos y acceder a información que mejore los resultados de los pacientes, generar eficiencia y eliminar los errores. “Nuestros servicios de imágenes médicas generan enormes cantidades de datos que deben procesar nuestros científicos de datos. Con clústeres GPU anteriores, nos tomaba días entrenar modelos de IA completos, como GAN progresivas, para hacer simulaciones y ver resultados. Al utilizar las nuevas instancias P4d, redujimos el tiempo de procesamiento de días a horas. Notamos una velocidad dos o tres veces mayor en los modelos de entrenamiento con varios tamaños de imágenes, mientras que logramos un mejor rendimiento con tamaños mayores de lotes y más productividad con un ciclo de desarrollo de modelo más veloz”.

Karley Yoder, VP & GM, Artificial Intelligence, GM Healthcare

HEAVY.AI es pionera en los análisis acelerados. La plataforma HEAVY.AI se usa en los negocios y el Gobierno para encontrar información en los datos más allá de los límites de las herramientas analíticas generales.

“En HEAVY.AI trabajamos para crear un futuro en el que la ciencia de datos y el análisis se unan para desglosar y fusionar silos de datos. Los clientes están aprovechando las enormes cantidades de datos, que pueden ser datos de localización y horarios, para generar un panorama completo, no solo de lo que está sucediendo, sino de cuándo y dónde, a través de la visualización pormenorizada de los datos espacio-temporal. Nuestra tecnología permite ver tanto el bosque como los árboles. “Al usar instancias P4d de Amazon EC2, pudimos reducir significativamente el costo de implementación de nuestra plataforma en comparación con las instancias GPU de generaciones anteriores, lo cual nos permite escalar conjuntos masivos de datos de manera rentable. Las mejoras de red en A100 aumentaron nuestra eficiencia en la forma en la que escalamos a miles de millones de filas de datos y les permitió a nuestros clientes obtener información aún más rápido”.

Ray Falcione, VP de US Public Sector, HEAVY.AI

Zenotech Ltd. redefine la ingeniería online mediante el uso de nubes de HPC que ofrecen modelos de licencia bajo demanda además de beneficios extremos de rendimiento al aprovechar las GPU.

“En Zenotech estamos desarrollando herramientas que les permitan a los diseñadores crear productos más eficientes y sostenibles con el medioambiente. Trabajamos con varios sectores. Nuestras herramientas proporcionan mayor información sobre rendimiento de los productos mediante el uso de la simulación a gran escala. El uso de instancias P4d de AWS nos permite llevar a cabo nuestras simulaciones 3,5 veces más rápido en comparación con la generación anterior de GPU. Este aumento de la velocidad disminuye el tiempo de resolución de forma significativa y les permite a nuestros clientes llevar sus diseños al mercado más rápido o hacer simulaciones de mayor fidelidad que lo que hubiera sido posible antes”.

 Jamil Appa, director y cofundador, Zenotech

Aon es una empresa de servicios profesionales líder en el mundo que ofrece una gran variedad de soluciones de riesgos, jubilación y salud. Aon PathWise es una solución de administración de riesgos de HPC basada en GPU y escalable que pueden utilizar las aseguradoras, las reaseguradoras, los bancos y los fondos de retiro para abordar los desafíos principales de la actualidad, como la prueba de estrategias de cobertura, el pronóstico regulatorio y económico, y la generación de presupuestos. 

“En PathWise Solutions Group LLC, nuestro producto les permite a las empresas aseguradoras, las reaseguradoras y los fondos de retiro acceder a tecnología de última generación para resolver rápidamente los principales desafíos de la actualidad en el sector de los seguros, como el machine learning, las pruebas de estrategias de cobertura, los informes regulatorios y económicos, los pronósticos de planificación comercial y económica, y el desarrollo y la asignación de precios de nuevos productos. “A través del uso de las instancias P4d de Amazon EC2, podemos ofrecer increíbles mejoras en velocidad para los cálculos de precisión individual y doble, en comparación con instancias GPU de generaciones anteriores para los cálculos más exigentes, lo que permite que los clientes hagan nuevos cálculos y pronósticos por primera vez. La velocidad es importante, y seguimos ofreciéndoles un valor significativo y la tecnología más reciente a nuestros clientes gracias a las nuevas instancias de AWS”.

Peter Phillips, presidente y CEO, Aon's PathWise Solutions Group

Compuesta por expertos en IA y radiología, Rad AI desarrolla productos que maximizan la productividad de los radiólogos, lo que, en última instancia, hace que la sanidad sea mucho más accesible y que mejoren los resultados de los pacientes.

“En Rad AI, nuestra misión es aumentar el acceso a la sanidad y la calidad para todos. Con un enfoque en el flujo de trabajo de las imágenes médicas, Rad AI les ahorra tiempo a los radiólogos, reduce el agotamiento y mejora la precisión. “Utilizamos IA para automatizar los flujos de trabajo de la radiología y ayudar a optimizar la generación de informes radiológicos. Con las nuevas instancias P4d de EC2, hemos notado una inferencia más veloz y la capacidad de entrenar modelos 2,4 veces más rápido, con una mayor precisión que en las instancias P3 de generaciones anteriores. Esto permite hacer diagnósticos más rápidos y precisos, y ayuda a nuestros clientes de EE. UU. a ofrecer un mayor acceso a servicios radiológicos de alta calidad“.

Doktor Gurson, cofundador, Rad AI

Lea el caso práctico para obtener más información »

Detalles del producto

Tamaño de la instancia vCPU Memoria de la instancia (GiB) GPU: A100 Memoria de GPU Ancho de banda de la red (Gbps) GPUDirect RDMA GPU de pares Almacenamiento de instancias (GB) Ancho de banda de EBS (Gbps) Precio de la instancia bajo demanda por hora Por hora real en una instancia reservada por 1 año* Por hora real en una instancia reservada por 3 años*
p4d.24xlarge 96 1152 8 320 GB
HBM2
400 ENA y EFA 600 GB/s NVSwitch 8 x 1000 SSD NVMe 19 32,77 USD 19,22 USD 11,57 USD
p4de.24xlarge (versión preliminar) 96 1152 8 640 GB
HBM2e
400 ENA y EFA 600 GB/s NVSwitch 8 x 1000 SSD NVMe 19 40,96 USD 24,01 USD 14,46 USD
* Los precios indicados corresponden a Linux/Unix en la región de AWS del Este de EE. UU. (Norte de Virginia) y se redondean al céntimo más cercano. Para ver los detalles completos de los precios, consulte Precios de Amazon EC2.

Las instancias P4d están disponibles en las regiones de Este de EE. UU. (Norte de Virginia y Ohio), Oeste de EE. UU. (Oregón), Asia-Pacífico (Seúl y Tokio) y Europa (Fráncfort e Irlanda). Las instancias P4de están disponibles en las regiones de AWS Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón).

Los clientes pueden adquirir instancias P4d y P4de como instancias bajo demanda, instancias reservadas, instancias de spot, hosts dedicados o como parte de Savings Plans.

Introducción a las instancias P4d para ML

Uso de Amazon SageMaker

Amazon SageMaker es un servicio completamente administrado que sirve para crear, entrenar e implementar modelos de ML. Cuando se usa con las instancias P4d, los clientes pueden escalar rápidamente decenas, cientos o miles de GPU para entrenar rápidamente un modelo a cualquier escala sin preocuparse por configurar clústeres ni canalizaciones de datos.

Uso de DLAMI o contenedores de aprendizaje profundo

Las DLAMI ofrecen a los investigadores y profesionales de ML la infraestructura y las herramientas necesarias para agilizar las tareas de aprendizaje profundo en la nube a cualquier escala. Los contenedores de aprendizaje profundo son imágenes de Docker preinstaladas con marcos de aprendizaje profundo que facilitan la implementación rápida de entornos de ML personalizados porque le permiten omitir el complejo proceso de crear y optimizar sus entornos desde cero.

Uso de Amazon EKS o Amazon ECS

Si prefiere gestionar sus propias cargas de trabajo en contenedores mediante servicios de orquestación de contenedores, puede implementar instancias P4d con Amazon EKS o Amazon ECS.

Introducción a las instancias P4d para HPC

Las instancias P4d son ideales para ejecutar simulaciones de ingeniería, finanza computacional, análisis sísmico, modelado molecular, genómica, representaciones y otras cargas de trabajo de HPC con GPU. Con frecuencia, las aplicaciones de HPC exigen un alto nivel de rendimiento de red, almacenamiento ágil, gran capacidad de memoria, capacidades informáticas altas o todas estas características juntas. Las instancias P4d son compatibles con EFA, que permite que las aplicaciones de HPC que utilizan Message Passing Interface (MPI) escalen a miles de GPU. AWS Batch y AWS ParallelCluster ayudan a los desarrolladores de HPC a crear y escalar rápidamente aplicaciones de HPC distribuidas.

Más información »

Artículos y publicaciones del blog

 
por Jeff Barr 
2 de noviembre de 2020
 
de Amr Ragab 
2 de noviembre de 2020

Recursos adicionales

UltraClusters de Amazon EC2 de instancias P4d (1:59)
Amazon EC2 P4d vs. P3: Procesamiento de lenguaje natural (0:34)
Amazon EC2 P4d vs. P3: Conversión de voz en texto (0:33)
Amazon EC2 P4d vs. P3: Clasificación de imágenes (0:37)

Introducción a AWS

Regístrese para obtener una cuenta de AWS

Regístrese para obtener una cuenta de AWS

Obtenga acceso instantáneo a la capa gratuita de AWS.

Aprenda con tutoriales sencillos

Aprenda con tutoriales de 10 minutos

Explore y aprenda con tutoriales sencillos.

Comience a crear con EC2 en la consola

Comience a crear en la consola

Comience a crear soluciones con las guías paso a paso, que lo ayudarán a lanzar un proyecto en AWS.