Pular para o conteúdo principal

UltraClusters do Amazon EC2

Execute aplicações de HPC e ML em grande escala

Por que usar UltraClusters do Amazon EC2?

Os Amazon Elastic Compute Cloud (Amazon EC2) UltraClusters podem ajudar você a escalar para milhares de GPUs ou chips de IA de ML especialmente concebidos, como o AWS Trainium, para obter acesso sob demanda a um supercomputador. Eles democratizam o acesso à performance de classe de supercomputação para desenvolvedores de machine learning (ML), IA generativa e computação de alta performance (HPC) por meio de um modelo de uso simples com pagamento conforme o uso, sem custos de configuração ou manutenção. As instâncias do Amazon EC2 implantadas no EC2 UltraClusters incluem instâncias P6e-GB200, P6-B200, P5en, P5e, P5, P4d, Trn2 e Trn1.

Os UltraClusters do EC2 consistem em milhares de instâncias aceleradas do EC2 que estão localizadas em uma determinada zona de disponibilidade da AWS e interconectadas usando a rede Elastic Fabric Adapter (EFA) em uma rede sem bloqueio em escala de petabits. Os UltraClusters do EC2 também fornecem acesso ao Amazon FSx for Lustre, um armazenamento compartilhado totalmente gerenciado baseado no sistema de arquivos paralelo de alto desempenho mais popular para processar rapidamente grandes conjuntos de dados sob demanda e em escala com latências inferiores a um milissegundo. Os UltraClusters do EC2 oferecem recursos de aumento de escala horizontal para treinamento distribuído de ML e workloads de HPC de forte acoplamento.

Benefícios

Os UltraClusters do EC2 ajudam a reduzir o tempo de treinamento e o tempo de solução de semanas para apenas alguns dias. Isso ajuda você a iterar em um ritmo mais rápido e a colocar suas aplicações de aprendizado profundo (DL), IA generativa e HPC no mercado com mais rapidez.
Os EC2 UltraClusters consistem em milhares de instâncias aceleradas do EC2 que estão localizadas em uma determinada zona de disponibilidade da AWS e interconectadas usando a rede Elastic Fabric Adapter (EFA) em uma rede sem bloqueio em escala de petabits. Eles permitem que você obtenha acesso sob demanda a vários exaflops de computação acelerada. 
Os UltraClusters do EC2 são compatíveis com uma lista cada vez maior de instâncias do EC2 e oferecem a flexibilidade de escolher a opção de computação certa para maximizar a performance e, ao mesmo tempo, manter os custos sob controle para a sua workload.

Recursos

Rede de alta performance

As instâncias do EC2 implantadas nos UltraClusters do EC2 são interconectadas à rede EFA para melhorar a performance das workloads de treinamento distribuídas e das workloads de HPC de acoplamento forte. Os UltraServers P6e-GB200 oferecem até 28,8 terabits por segundo de rede EFAv4 total. As instâncias P6-B200 fornecem até 3,2 terabits por segundo de rede EFAv4. Os Trn2 UltraServers têm 12,8 terabits por segundo de rede EFAv3. As instâncias P5en, P5e, P5 e Trn2 fornecem até 3.200 Gbps; as instâncias Trn1 fornecem até 1.600 Gbps, e as instâncias P4d fornecem até 400 Gbps de rede EFA. O EFA também é acoplado ao NVIDIA GPUDirect Remote Direct Memory Access (RDMA) (P6-B200, P5en, P5e, P5, P4d) e ao NeuronLink (Trn2, Trn1) para permitir a comunicação de acelerador para acelerador de baixa latência entre servidores com desvio do sistema operacional.

Armazenamento de alta performance

Os UltraClusters do EC2 usam o FSx para Lustre, armazenamento compartilhado totalmente gerenciado baseado no sistema de arquivos paralelos de alta performance mais popular. Com o FSx para Lustre, você pode processar rapidamente grandes conjuntos de dados sob demanda e em grande escala, além de oferecer latências inferiores a um milissegundo. As características de baixa latência e alto throughput do FSx para Lustre são otimizadas para workloads de DL, IA generativa e HPC em UltraClusters do EC2. O FSx para Lustre mantém as GPUs e os chips de IA nos EC2 UltraClusters alimentados com dados, acelerando as workloads mais exigentes. Essas workloads incluem treinamento em grandes modelos de linguagem (LLM), inferência de IA generativa, DL, genômica e modelagem de riscos financeiros. Você também pode obter acesso a armazenamento econômico praticamente ilimitado com o Amazon Simple Storage Service (Amazon S3).

Instâncias e UltraServers com suporte

UltraServers P6e-GB200

Aceleradas pela NVIDIA GB200 NVL72, as instâncias P6e-GB200 em uma configuração UltraServer oferecem a mais alta performance de treinamento e inferência de IA por GPU no Amazon EC2.

Saiba mais

Instâncias P6-B200

As instâncias do Amazon EC2 P6-B200, aceleradas pelas GPUs NVIDIA Blackwell, oferecem instâncias de alto desempenho para treinamento em IA, inferência e HPC.

Saiba mais

Instâncias Trn2 e UltraServers

Equipadas com chips de IA AWS Trainium2, as instâncias Trn2 oferecem um custo-benefício de 30 a 40% melhor do que instâncias comparáveis baseadas em GPU.

Saiba mais

Instâncias P5en, P5e e P5

Alimentadas pelas GPUs NVIDIA H200 Tensor Core, as instâncias P5en e P5e oferecem a mais alta performance no Amazon EC2 para treinamento de ML e aplicações de HPC. As instâncias P5 são alimentadas por GPUs NVIDIA H100 Tensor Core.

Saiba mais

Instâncias P4d

Equipadas com GPUs NVIDIA A100 Tensor Core, as instâncias P4d oferecem alta performance para treinamento de ML e aplicações de HPC.

Saiba mais

Instâncias Trn1

Alimentadas pelos chips de IA AWS Trainium, as instâncias Trn1 são criadas especificamente para treinamento de ML de alta performance. Elas oferecem até 50% de economia de custos de treinamento em relação a instâncias EC2 comparáveis.

Saiba mais