UltraClusters de Amazon EC2

Ejecute aplicaciones de HPC y ML a escala

¿Por qué elegir UltraClusters de Amazon EC2?

Los UltraClusters de Amazon Elastic Compute Cloud (Amazon EC2) pueden ayudarlo a escalar a miles de GPU o aceleradores de ML personalizados, como AWS Trainium, para obtener acceso bajo demanda a una supercomputadora. Democratizan el acceso a un rendimiento de supercomputación para los desarrolladores de machine learning (ML), IA generativa y computación de alto rendimiento (HPC) mediante un modelo de uso simple de pago por uso sin costos de configuración o mantenimiento. Las instancias P5 de Amazon EC2, las instancias P4d de Amazon EC2 y las instancias Trn1 de Amazon EC2 se implementan en UltraClusters de Amazon EC2.

Los UltraClusters de EC2 constan de miles de instancias de EC2 aceleradas que se ubican en una zona de disponibilidad de AWS determinada y se interconectan mediante redes de Elastic Fabric Adapter (EFA) en una red sin bloqueos a escala de petabits. Los UltraClusters de EC2 también brindan acceso a Amazon FSx para Lustre, un almacenamiento compartido completamente administrado que se basa en el sistema de archivos paralelo de alto rendimiento más popular para procesar rápidamente conjuntos de datos masivos bajo demanda y a escala con latencias inferiores a los milisegundos. Los UltraClusters de EC2 brindan capacidades de escalado horizontal para el entrenamiento de ML distribuido y cargas de trabajo de HPC estrechamente acopladas.

Las instancias P5 y Trn1 de Amazon EC2 utilizan una arquitectura de UltraClusters de EC2 de segunda generación que proporciona una estructura de red que permite realizar menos saltos en el clúster, reducir la latencia y aumentar la escala.

Beneficios

Características

Redes de alto rendimiento

Las instancias de EC2 implementadas en UltraClusters de EC2 están interconectadas con las redes EFA para mejorar el rendimiento de las cargas de trabajo de entrenamiento distribuido y las cargas de trabajo de HPC estrechamente acopladas. Las instancias P5 ofrecen hasta 3200 Gbps; las instancias Trn1 ofrecen hasta 1600 Gbps; y las instancias P4d ofrecen hasta 400 Gbps de redes EFA. EFA también se combina con NVIDIA GPUDirect RDMA (P5, P4d) y NeuronLink (Trn1) para permitir la comunicación de acelerador a acelerador de baja latencia entre servidores con omisión de sistema operativo.

Almacenamiento de alto rendimiento

Los UltraClusters de EC2 utilizan FSx para Lustre, un almacenamiento compartido completamente administrado que se basa en el sistema de archivos en paralelo de alto rendimiento más popular. Con FSx para Lustre, puede procesar rápidamente conjuntos de datos masivos bajo demanda y a escala y ofrecer latencias inferiores a los milisegundos. Las características de baja latencia y alto rendimiento de FSx para Lustre están optimizadas para las cargas de trabajo de DL, IA generativa y HPC en los UltraClusters de EC2. FSx para Lustre mantiene las GPU y los aceleradores de ML de UltraClusters de EC2 alimentados con datos, lo que acelera las cargas de trabajo más exigentes. Estas cargas de trabajo incluyen el entrenamiento de modelos de lenguaje de gran tamaño (LLM), la inferencia de la IA generativa, la DL, la genómica y la modelización de riesgos financieros. También puede acceder a un almacenamiento rentable prácticamente ilimitado con Amazon Simple Storage Service (Amazon S3).

Instancia compatible