Amazon EC2 UltraClusters

Execute aplicações de HPC e ML em grande escala

Por que usar UltraClusters do Amazon EC2?

Os UltraClusters do Amazon Elastic Compute Cloud (Amazon EC2) podem ajudar você a escalar para milhares de GPUs ou aceleradores de ML de propósito específico, como o AWS Trainium, para obter acesso sob demanda a um supercomputador. Eles democratizam o acesso à performance de classe de supercomputação para desenvolvedores de machine learning (ML), IA generativa e computação de alta performance (HPC) por meio de um modelo de uso simples com pagamento conforme o uso, sem custos de configuração ou manutenção. As instâncias P5, P4d e Trn1 do Amazon EC2 são todas implantadas em UltraClusters do Amazon EC2.

Os UltraClusters do EC2 consistem em milhares de instâncias aceleradas do EC2 que estão localizadas em uma determinada zona de disponibilidade da AWS e interconectadas usando a rede Elastic Fabric Adapter (EFA) em uma rede sem bloqueio em escala de petabits. Eles também fornecem acesso ao Amazon FSx para Lustre, um armazenamento compartilhado e totalmente gerenciado com base no sistema de arquivos paralelo de alta performance mais popular, para processar rapidamente imensos conjuntos de dados sob demanda e em grande escala com latências inferiores a um milissegundo. Os UltraClusters do EC2 oferecem recursos de aumento de escala horizontal para treinamento distribuído de ML e workloads de HPC de forte acoplamento.

As instâncias P5 e Trn1 do Amazon EC2 usam uma arquitetura de UltraClusters do EC2 de segunda geração, que fornece uma malha de rede para possibilitar menos saltos em todo o cluster, menor latência e maior escala.

Benefícios

Recursos

Rede de alta performance

As instâncias do EC2 implantadas nos UltraClusters do EC2 são interconectadas à rede EFA para melhorar a performance das workloads de treinamento distribuídas e das workloads de HPC de acoplamento forte. As instâncias P5 fornecem até 3.200 Gbps; as instâncias Trn1 fornecem até 1.600 Gbps; e as instâncias P4d fornecem até 400 Gbps de rede EFA. O EFA também é acoplado ao NVIDIA GPUDirect RDMA (P5, P4d) e ao NeuronLink (Trn1) para permitir a comunicação de acelerador para acelerador com baixa latência entre servidores com desvio de sistema operacional.

Armazenamento de alta performance

Os UltraClusters do EC2 usam o FSx para Lustre, armazenamento compartilhado totalmente gerenciado baseado no sistema de arquivos paralelos de alta performance mais popular. Com o FSx para Lustre, você pode processar rapidamente grandes conjuntos de dados sob demanda e em grande escala, além de oferecer latências inferiores a um milissegundo. As características de baixa latência e alto throughput do FSx para Lustre são otimizadas para workloads de DL, IA generativa e HPC em UltraClusters do EC2. O FSx para Lustre mantém as GPUs e os aceleradores de ML nos UltraClusters do EC2 alimentados com dados, acelerando as workloads mais exigentes. Essas workloads incluem treinamento em grandes modelos de linguagem (LLM), inferência de IA generativa, DL, genômica e modelagem de riscos financeiros. Você também pode obter acesso a armazenamento econômico praticamente ilimitado com o Amazon Simple Storage Service (Amazon S3).

Instância com suporte