Saltar al contenido principal

Instancias P4 de Amazon EC2

Alto rendimiento en entrenamiento de ML y aplicaciones de HPC en la nube

¿Por qué elegir las Instancias P4 de Amazon EC2?

Las instancias P4d de Amazon Elastic Compute Cloud (Amazon EC2) ofrecen un alto rendimiento para el entrenamiento del machine learning (ML) y las aplicaciones de computación de alto rendimiento (HPC) en la nube. Las instancias P4d cuentan con la tecnología de las GPU A100 Tensor Core de NVIDIA y brindan un rendimiento líder del sector y redes de baja latencia. Estas instancias admiten redes de instancias de 400 Gbps. Las instancias P4d ofrecen un costo hasta un 60 % más bajo de entrenamiento de modelos de ML, además de un rendimiento 2,5 veces mejor en promedio para los modelos de aprendizaje profundo, en comparación con las instancias P3 y P3dn de las generaciones anteriores.

Las instancias P4d se implementan en clústeres denominados Amazon EC2 UltraClusters, que comprenden procesamiento, redes y almacenamiento de alto rendimiento en la nube. Cada UltraCluster de EC2 es una de las supercomputadoras más poderosas del mundo, que le ayuda a ejecutar su entrenamiento de ML de varios nodos y cargas de trabajo de HPC distribuidas más complejas. Puede escalar fácilmente de unos pocos a miles de GPU NVIDIA A100 en los UltraClusters EC2, según las necesidades de su proyecto de ML o HPC.

Tanto investigadores, como científicos de datos y desarrolladores pueden usar las instancias P4d para entrenar modelos de ML para casos de uso, como el procesamiento de lenguaje natural, la detección y clasificación de objetos, y los motores de recomendación. También pueden usarlas para ejecutar aplicaciones de HPC, como el descubrimiento farmacéutico, el análisis sísmico y la modelización financiera. A diferencia de los sistemas locales, puede acceder a una capacidad informática y de almacenamiento prácticamente ilimitada, escalar su infraestructura según las necesidades de su negocio y poner en marcha un entrenamiento de ML de varios nodos o una aplicación de HPC distribuida estrechamente asociada en minutos, sin costos de instalación ni de mantenimiento.

Presentación de las nuevas instancias P4d de Amazon EC2

Beneficios

    Con las GPU NVIDIA A100 Tensor Core de última generación, cada instancia P4d ofrece, en promedio, un rendimiento de aprendizaje profundo 2,5 veces mejor, en comparación con las instancias P3 de generaciones anteriores. Los UltraClusters de EC2 de instancias P4d ayudan a los desarrolladores, científicos de datos e investigadores a ejecutar sus cargas de trabajo de ML y HPC más complejas, y les permite acceder a un rendimiento de nivel de supercomputadora sin costos anticipados ni compromisos a largo plazo. El tiempo reducido de entrenamiento con las instancias P4d mejora la productividad, lo que ayuda a los desarrolladores a centrarse en su misión principal de incorporar inteligencia de ML en aplicaciones empresariales.

    Los desarrolladores pueden escalar fácilmente hasta miles de GPU con UltraClusters de EC2 de instancias P4d. Alto rendimiento, conexión de red de baja latencia con compatibilidad con conexión de red de instancias de 400 Gbps, Elastic Fabric Adapter (EFA) y tecnología GPUDirect RDMA ayudan a entrenar rápidamente los modelos de ML mediante técnicas escalables/distribuidas. EFA utiliza NVIDIA Collective Communications Library (NCCL) para escalar a miles de GPU, y la tecnología GPUDirect RDMA habilita GPU de baja latencia para la comunicación de GPU entre instancias P4d.

    Las instancias P4d ofrecen un costo hasta un 60 % menor para entrenar modelos de ML, en comparación con las instancias P3. Además, las instancias P4d están disponibles para comprar como instancias de spot. Las instancias de spot aprovechan la capacidad no utilizada de instancias de EC2 y pueden reducir significativamente los costos de EC2 con un descuento de hasta el 90 % sobre los precios bajo demanda. Con el costo más bajo de entrenamiento de ML con instancias P4d, usted puede reasignar los presupuestos para incorporar más inteligencia en aplicaciones empresariales.

    Las AMI de aprendizaje profundo de AWS (DLAMI) y los contenedores de aprendizaje profundo de Amazon facilitan la implementación de entornos de aprendizaje profundo de P4d en cuestión de minutos, ya que contienen las herramientas y bibliotecas de marcos de aprendizaje profundo necesarias. También puede agregar más fácilmente sus propias bibliotecas y herramientas a esas imágenes. Las instancias P4d son compatibles con marcos populares de ML, como TensorFlow, PyTorch y MXNet. Además, las instancias P4d son compatibles con importantes servicios de AWS para ML, administración y orquestación, como Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch y AWS ParallelCluster.

Características

    Las GPU NVIDIA A100 Tensor Core ofrecen una aceleración sin precedentes a escala para ML y HPC. Los Tensor Cores de tercera generación de NVIDIA A100 aceleran todas las cargas de trabajo de precisión, con lo que se agiliza el tiempo de obtención de información y el tiempo de comercialización. Cada GPU A100 ofrece más de 2,5 veces el rendimiento de computación en comparación con la GPU V100 de la generación anterior y viene con 40 GB HBM2 (en instancias P4d) u 80 GB HBM2e (en instancias P4de) de memoria de alto rendimiento para la GPU. Una mayor memoria de la GPU beneficia especialmente a las cargas de trabajo que se entrenan con grandes conjuntos de datos de alta resolución. Las GPU NVIDIA A100 usan el rendimiento de la interconexión de las GPU NVSwitch de modo que cada GPU se pueda comunicar con cualquier otra en la misma instancia, con el mismo rendimiento bidireccional de 600 GB/s y con latencia de un solo salto.

    Las instancias P4d ofrecen redes de 400 Gbps para ayudar a los clientes a escalar horizontalmente mejor sus cargas de trabajo distribuidas, como por ejemplo hacer un entrenamiento de varios nodos de manera más eficiente con redes de alto rendimiento entre instancias P4d, además de entre instancias P4d y servicios de almacenamiento, como Amazon Simple Storage Service (Amazon S3) y FSx para Lustre. EFA es una interfaz de red personalizada y diseñada por AWS para ayudar a escalar las aplicaciones de ML y HPC a miles de GPU. Para reducir aún más la latencia, EFA se combina con NVIDIA GPUDirect RDMA para permitir comunicación de GPU a GPU de baja latencia entre servidores con omisión de sistema operativo.

    Acceda a un almacenamiento a escala de petabytes, de alto rendimiento y baja latencia, con FSx para Lustre o a almacenamiento virtualmente ilimitado y rentable con Amazon S3 a velocidades de 400 Gbps. Para cargas de trabajo que necesitan acceso rápido a conjuntos de datos grandes, cada instancia P4d también incluye almacenamiento DDS basado en NVMe de 8 TB con rendimiento de lectura de 16 GB por segundo.

    Las instancias P4d se incorporan a AWS Nitro System, que es una amplia colección de bloques funcionales que descargan muchas de las funciones de virtualización tradicionales a hardware y software dedicados para ofrecer alto rendimiento, alta disponibilidad y alta seguridad, al tiempo que reduce la sobrecarga de la virtualización.

Testimonios de clientes

Estos son algunos ejemplos de cómo los clientes y socios lograron sus objetivos empresariales con las instancias P4 de Amazon EC2.

Toyota Research Institute (TRI)

 

Toyota Research Institute (TRI), fundado en 2015, trabaja para desarrollar la conducción automatizada, robótica y otras tecnologías de amplificación humana para Toyota. 
 
«En TRI, trabajamos para construir un futuro en el que todos tengan la libertad de moverse. Las instancias P3 de la generación anterior nos ayudaron a reducir el tiempo de entrenamiento de los modelos de aprendizaje automático de días a horas, y estamos deseando utilizar las instancias P4d, ya que la memoria GPU adicional y los formatos flotantes más eficientes permitirán a nuestro equipo de aprendizaje automático entrenar con modelos más complejos a una velocidad aún mayor. «
Mike Garrison, Technical Lead, Infrastructure Engineering, TRI
Missing alt text value

TRI-AD

 

«En TRI-AD, trabajamos para construir un futuro en el que todos tengan la libertad de moverse y explorar, centrándonos en reducir las lesiones y muertes relacionadas con los vehículos mediante la conducción adaptativa y la ciudad inteligente. Mediante el uso de instancias P4d de Amazon EC2, pudimos reducir nuestro tiempo de entrenamiento para el reconocimiento de objetos en un 40% en comparación con las instancias de GPU de la generación anterior sin modificar los códigos existentes. «
 
Junya Inada, Director de Automated Driving (Recognition), TRI-AD
Missing alt text value

TRI-AD

 

«Gracias al uso de las instancias P4d de Amazon EC2, pudimos reducir al instante nuestro coste de formación en comparación con las instancias de GPU de la generación anterior, lo que nos permitió aumentar el número de equipos que trabajan en la formación de modelos. Las mejoras de red en P4d nos permitieron escalar de manera eficiente a docenas de instancias, lo que nos brindó una agilidad significativa para optimizar, volver a entrenar e implementar modelos rápidamente en vehículos de prueba o entornos de simulación para realizar más pruebas. «
 
Jack Yan, Senior Director de Infrastructure Engineering, TRI-AD
Missing alt text value

GE Healthcare

 

GE Healthcare es un innovador líder a nivel mundial de tecnología médica y soluciones digitales. GE Healthcare les permite a los médicos tomar decisiones más rápidas e informadas gracias a dispositivos inteligentes, análisis de datos, aplicaciones y servicios, compatibles con Edison, su plataforma de inteligencia. 
 
«En GE Healthcare, proporcionamos a los médicos herramientas que les ayudan a agregar datos, aplicar la inteligencia artificial y el análisis a esos datos y descubrir información que mejora los resultados de los pacientes, impulsa la eficiencia y elimina los errores. “Nuestros servicios de imágenes médicas generan enormes cantidades de datos que deben procesar nuestros científicos de datos. Con clústeres GPU anteriores, nos tomaba días entrenar modelos de IA completos, como GAN progresivas, para hacer simulaciones y ver resultados. Al utilizar las nuevas instancias P4d, redujimos el tiempo de procesamiento de días a horas. Vimos una velocidad dos o tres veces mayor en el entrenamiento de modelos con diferentes tamaños de imagen, al tiempo que logramos un mejor rendimiento con un mayor tamaño de lote y una mayor productividad con un ciclo de desarrollo de modelos más rápido. «
 
Karley Yoder, VP & GM, Artificial Intelligence, GM Healthcare
Missing alt text value

HEAVY.AI

 

HEAVY.AI es pionera en los análisis acelerados. La plataforma HEAVY.AI se utiliza en las empresas y el gobierno para encontrar información sobre los datos más allá de los límites de las herramientas de análisis convencionales.
 
«En HEAVY.AI, trabajamos para construir un futuro en el que la ciencia y el análisis de datos converjan para romper y fusionar los silos de datos. Los clientes están aprovechando las enormes cantidades de datos, que pueden ser datos de localización y horarios, para generar un panorama completo, no solo de lo que está sucediendo, sino de cuándo y dónde, a través de la visualización pormenorizada de los datos espacio-temporal. Nuestra tecnología permite ver tanto el bosque como los árboles. “Al usar instancias P4d de Amazon EC2, pudimos reducir significativamente el costo de implementación de nuestra plataforma en comparación con las instancias GPU de generaciones anteriores, lo cual nos permite escalar conjuntos masivos de datos de manera rentable. Las mejoras de red del A100 han aumentado nuestra eficiencia a la hora de escalar a miles de millones de filas de datos y han permitido a nuestros clientes obtener información aún más rápido. «
 
Ray Falcione, VP de US Public Sector, HEAVY.AI
Missing alt text value

Zenotech Ltd.

 

Zenotech Ltd. redefine la ingeniería online mediante el uso de nubes de HPC que ofrecen modelos de licencia bajo demanda además de beneficios extremos de rendimiento al aprovechar las GPU. 
 
«En Zenotech, estamos desarrollando las herramientas que permiten a los diseñadores crear productos más eficientes y respetuosos con el medio ambiente. Trabajamos con varios sectores. Nuestras herramientas proporcionan mayor información sobre rendimiento de los productos mediante el uso de la simulación a gran escala. El uso de instancias P4d de AWS nos permite llevar a cabo nuestras simulaciones 3,5 veces más rápido en comparación con la generación anterior de GPU. Esta aceleración reduce significativamente nuestro tiempo de resolución, lo que permite a nuestros clientes lanzar sus diseños al mercado más rápido o realizar simulaciones de mayor fidelidad de lo que era posible anteriormente. «
 
Jamil Appa, director y cofundador de Zenotech
Missing alt text value

Aon

 

Aon es una empresa de servicios profesionales líder en el mundo que ofrece una gran variedad de soluciones de riesgos, jubilación y salud. Aon PathWise es una solución de administración de riesgos de HPC basada en GPU y escalable que pueden utilizar las aseguradoras, las reaseguradoras, los bancos y los fondos de retiro para abordar los desafíos principales de la actualidad, como la prueba de estrategias de cobertura, el pronóstico regulatorio y económico, y la generación de presupuestos. 
 
«En PathWise Solutions Group LLC, nuestro producto permite a las compañías de seguros, reaseguradoras y fondos de pensiones acceder a la tecnología de próxima generación para resolver rápidamente los desafíos clave de los seguros actuales, como el aprendizaje automático, las pruebas de estrategias de cobertura, los informes regulatorios y financieros, la planificación empresarial y la previsión económica, y el desarrollo y precios de nuevos productos. “A través del uso de las instancias P4d de Amazon EC2, podemos ofrecer increíbles mejoras en velocidad para los cálculos de precisión individual y doble, en comparación con instancias GPU de generaciones anteriores para los cálculos más exigentes, lo que permite que los clientes hagan nuevos cálculos y pronósticos por primera vez. La velocidad importa, y seguimos ofreciendo un valor significativo y la tecnología más avanzada a nuestros clientes gracias a las nuevas instancias de AWS. «
 
Van Beach, director global de Life Solutions, Aon Pathwise Strategy and Technology Group
Missing alt text value

Rad AI

 

Con expertos en radiología e inteligencia artificial, Rad AI crea productos que maximizan la productividad de los radiólogos y, en última instancia, hacen que la atención médica sea más accesible y mejoran los resultados de los pacientes.  Lea el estudio de caso para obtener más información
 
«En Rad AI, nuestra misión es aumentar el acceso y la calidad de la atención médica para todos. Con un enfoque en el flujo de trabajo de las imágenes médicas, Rad AI les ahorra tiempo a los radiólogos, reduce el agotamiento y mejora la precisión. “Utilizamos IA para automatizar los flujos de trabajo de la radiología y ayudar a optimizar la generación de informes radiológicos. Con las nuevas instancias P4d de EC2, hemos notado una inferencia más veloz y la capacidad de entrenar modelos 2,4 veces más rápido, con una mayor precisión que en las instancias P3 de generaciones anteriores. Esto permite un diagnóstico más rápido y preciso y un mayor acceso a los servicios de radiología de alta calidad que brindan nuestros clientes en los EE. UU. «
 
Doktor Gurson, cofundador de Rad AI
Missing alt text value

Detalles del producto

Instance Size
vCPUs
Instance Memory (GiB)
GPU – A100
GPU memory
Network Bandwidth (Gbps)
GPUDirect RDMA
GPU Peer to Peer
Instance Storage (GB)
EBS Bandwidth (Gbps)
p4d.24xlarge
96
1152
8
320 GB
HBM2
400 ENA y EFA
600 GB/s NVSwitch
8 x 1000 SSD NVMe
19
p4de.24xlarge
96
1152
8
640 GB
HBM2e
400 ENA y EFA
600 GB/s NVSwitch
8 x 1000 SSD NVMe
19

Introducción a las instancias P4d para ML

    Amazon SageMaker es un servicio totalmente administrado para crear, entrenar e implementar modelos de aprendizaje automático. Cuando se usa con las instancias P4d, los clientes pueden escalar rápidamente decenas, cientos o miles de GPU para entrenar rápidamente un modelo a cualquier escala sin preocuparse por configurar clústeres ni canalizaciones de datos.

    DLAMI proporciona a los profesionales e investigadores del aprendizaje automático la infraestructura y las herramientas para acelerar la aprendizaje automático en la nube, a cualquier escala. Los contenedores de aprendizaje profundo son imágenes de Docker preinstaladas con marcos de aprendizaje automático para facilitar la implementación rápida de entornos de aprendizaje automático personalizados, ya que le permiten omitir el complicado proceso de crear y optimizar sus entornos desde cero.

Introducción a las instancias P4d para HPC

Las instancias P4d son ideales para ejecutar simulaciones de ingeniería, finanza computacional, análisis sísmico, modelado molecular, genómica, representaciones y otras cargas de trabajo de HPC con GPU. Con frecuencia, las aplicaciones de HPC exigen un alto nivel de rendimiento de red, almacenamiento ágil, gran capacidad de memoria, capacidades informáticas altas o todas estas características juntas. Las instancias P4d son compatibles con EFA, que permite que las aplicaciones de HPC que utilizan Message Passing Interface (MPI) escalen a miles de GPU. AWS Batch y AWS ParallelCluster ayudan a los desarrolladores de HPC a crear y escalar rápidamente aplicaciones de HPC distribuidas.

Más información