Pular para o conteúdo principal

Amazon EC2

UltraServers P6e e instâncias P6 do Amazon EC2

O mais alto desempenho de GPU para treinamento e inferência de IA

Por que usar os UltraServers P6e e as instâncias P6 do Amazon EC2?

Os UltraServers P6e do Amazon Elastic Compute Cloud (Amazon EC2), acelerados pela NVIDIA GB200 NVL72, oferecem o mais alto desempenho de GPU no Amazon EC2. O P6e-GB200 oferece mais de 20 vezes a capacidade de computação e mais de 11 vezes a memória com NVIDIA NVLinkTM em comparação com as instâncias P5en. Esses UltraServers são ideais para as workloads de IA que exigem mais computação e memória, como treinamento e implantação de modelos de ponta em escala de trilhões de parâmetros. Os UltraServers P6e-GB300, acelerados pela NVIDIA GB300 NVL72, oferecem 1,5 vez mais memória de GPU e 1,5 vez mais TFLOPS de GPU (FP4, sem dispersão) em comparação com as instâncias P6e-GB200. Com quase 20 TB de memória GPU por UltraServer, o P6e-GB300 é ideal para modelos de IA e casos de uso na escala de trilhões de parâmetros.

As instâncias P6 do Amazon EC2, aceleradas pelas GPUs NVIDIA Blackwell e Blackwell Ultra, são a opção ideal para aplicações de treinamento e inferência de média a grande escala. As instâncias P6-B200 oferecem até duas vezes mais desempenho em comparação com as instâncias P5en para treinamento e inferência de IA, enquanto as instâncias P6-B300 oferecem alto desempenho para treinamento e inferência de IA em grande escala. Essas instâncias são adequadas para modelos sofisticados, como mistura de especialistas (MoE) e modelos de raciocínio com trilhões de parâmetros.

Os UltraServers P6e e as instâncias P6 permitem um treinamento mais rápido para modelos de IA de última geração e melhoram o desempenho para inferência em tempo real na produção. Você pode usar os UltraServers P6e e as instâncias P6 para treinar modelos de base (FMs) de fronteira, como MoE e modelos de raciocínio, e implantá-los em aplicativos de IA generativa e agêntica, como geração de conteúdo, copilotos corporativos e agentes de pesquisa profunda.

Benefícios

UltraServers P6e

Com o P6e-GB300, os clientes podem aproveitar 1,5 vez mais memória de GPU e 1,5 vez mais TFLOPS de GPU (FP4, sem dispersão) em comparação com o P6e-GB200 para melhorar o desempenho das workloads de IA mais intensivas em computação e memória.

Com os UltraServers P6e-GB200, os clientes podem acessar até 72 GPUs Blackwell em um domínio NVLink para usar 360 petaflops de computação FP8 (sem dispersão) e 13,4 TB de memória total de alta largura de banda (HBM3e). Os UltraServers P6e-GB200 oferecem até 130 terabytes por segundo de conectividade NVLink de baixa latência entre GPUs e até 28,8 terabits por segundo de rede Elastic Fabric Adapter (EFAv4) total para treinamento e inferência de IA. A arquitetura UltraServer no P6e-GB200 permite que os clientes aproveitem uma melhoria radical em computação e memória, com até 20 vezes mais TFLOPS de GPU, 11 vezes mais memória de GPU e 15 vezes mais largura de banda de memória de GPU agregada em NVLink em comparação com o P5en.

Instâncias P6

As instâncias P6-B300 oferecem 8 GPUs NVIDIA Blackwell Ultra com 2,1 TB de memória GPU de alta largura de banda, rede EFA de 6,4 Tbps, throughput ENA dedicado de 300 Gbps e 4 TB de memória do sistema. As instâncias P6-B300 oferecem o dobro da largura de banda da rede, 1,5 vezes o tamanho da memória de GPU e 1,5 vezes os TFLOPS de GPU (em FP4, sem dispersão) em comparação com as instâncias P6-B200. Essas melhorias tornam as instâncias P6-B300 adequadas para treinamento e inferência de ML em grande escala.

As instâncias P6-B200 oferecem 8 GPUs NVIDIA Blackwell com 1.440 GB de memória de GPU de alta largura de banda, processadores escaláveis Intel Xeon de 5ª geração (Emerald Rapids), 2 TiB de memória de sistema, até 14,4 TBp/s de largura de banda NVLink bidirecional total e 30 TB de armazenamento NVMe local. Essas instâncias apresentam até 2,25x TFLOPs de GPU, 1,27x tamanho de memória de GPU e 1,6x largura de banda de memória de GPU em comparação com instâncias P5en.

 

Os UltraServers P6e e as instâncias P6 são alimentados pelo AWS Nitro System com hardware e firmware especializados projetados para impor restrições para que ninguém, incluindo ninguém na AWS, possa acessar suas workloads e dados confidenciais de IA. O Nitro System, que lida com redes, armazenamento e outras funções de E/S, pode implantar atualizações de firmware, correções de erros e otimizações enquanto permanece operacional. Isso aumenta a estabilidade e reduz o tempo de inatividade, o que é fundamental para cumprir os cronogramas de treinamento e executar aplicativos de IA na produção.

Para permitir um treinamento distribuído eficiente, os UltraServers P6e e as instâncias P6 usam a rede Elastic Fabric Adapter de quarta geração (EFav4). O EFav4 usa o protocolo Scalable Reliable Datagram (SRD) para rotear o tráfego de maneira inteligente em vários caminhos de rede a fim de manter uma operação suave mesmo durante congestionamentos ou falhas.

Os UltraServers P6e e as instâncias P6 são implantados nos Amazon EC2 UltraClusters, que permitem escalar até dezenas de milhares de GPUs em uma rede sem bloqueio em escala de petabits.

Recursos

Cada GPU NVIDIA Blackwell encontrada nas instâncias P6-B200 apresenta um Transformer Engine de segunda geração e permite novos formatos de precisão, como FP4. A GPU é compatível com NVLink de quinta geração, uma interconexão mais rápida e ampla que oferece até 1,8 TBp/s de largura de banda por GPU.

O Superchip Grace Blackwell, um componente essencial do P6e-GB200, conecta duas GPUs NVIDIA Blackwell de alto desempenho e uma CPU NVIDIA Grace usando a interconexão NVIDIA NVLink-C2C. Cada Superchip oferece 10 petaflops de computação FP8 (sem dispersão) e até 372 GB de HBM3e. Com a arquitetura do superchip, duas GPUs e uma CPU estão localizadas em um único módulo de computação, aumentando a largura de banda entre a GPU e a CPU em uma escala de magnitude em comparação com as instâncias P5en da geração atual.

As GPUs NVIDIA Blackwell Ultra que alimentam instâncias P6-B300 oferecem um aumento de duas vezes na largura de banda da rede, aumento de 1,5 vezes na memória de GPU e melhorias de computação em FP4 de até 1,5 vezes (sem dispersão) em TFLOPs efetivos em comparação com instâncias P6-B200.

O Superchip Grace Blackwell encontrado nos UltraServers P6e-GB300 conecta duas GPUs NVIDIA Blackwell Ultra com uma CPU NVIDIA Grace, oferecendo 1,5 vezes mais memória de GPU e até 1,5 vezes melhorias de computação FP4 (sem dispersão).

Os UltraServers P6e e as instâncias P6 oferecem 400 GB ps por GPU de rede EFAv4, totalizando 28,8 Tbps por UltraServer P6e-GB200 e 3,2 Tbps por instância P6-B200.

As instâncias P6-B300 oferecem largura de banda da rede de 6,4 Tbps, o dobro em comparação às instâncias P6-B200 devido ao PCle Gen6, e foram projetadas para treinamento de modelos de aprendizado profundo distribuídos em grande escala.

Os UltraServers P6e e as instâncias P6 oferecem suporte aos sistemas de arquivos Amazon FSx para Lustre, para que você possa acessar dados com centenas de GBp/s de throughput e milhões de IOPS necessários para treinamento e inferência de IA em grande escala. Os UltraServers P6e permitem até 405 TB de armazenamento SSD NVMe local, enquanto as instâncias P6 permitem até 30 TB de armazenamento SSD NVMe local para acesso rápido a grandes conjuntos de dados. Você também pode usar o armazenamento econômico virtualmente ilimitado com o Amazon Simple Storage Service (Amazon S3).

Detalhes do produto

Tipos de instância

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
Instance storage (TB)
Network bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
p6-b300.48xlarge

8 Ultra

2,144 HBM3e

192

4.096

8 x 3.84

6.4

100

Não

p6-b200.48xlarge

8

1.432 HBM3e

192

2.048

8 x 3.84

3.2

100

Não

p6e-gb200.36xlarge

4

740 HBM3e

144

960

3 x 7.5

3.2

60

Sim*

*As instâncias P6e-GB200 estão disponíveis somente em UltraServers

Tipos de UltraServer

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
UltraServer Storage (TB)
Aggregate EFA bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
u-p6e-gb200x72

72

13.320

2.592

17.280

405

28.800

1.080

Sim

u-p6e-gb200x36

36

6.660

1.296

8.640

202.5

14.400

540

Sim

Primeiros passos com casos de uso de ML

O Amazon SageMaker AI é um serviço totalmente gerenciado para criar, treinar e implantar modelos de ML. Com o Amazon SageMaker HyperPod, você pode escalar com mais facilidade para dezenas, centenas ou milhares de GPUs para treinar um modelo rapidamente em qualquer escala, sem se preocupar com a configuração e o gerenciamento de clusters de treinamento resilientes. (Suporte para P6e-GB200 em breve)

As AMIs de deep learning da AWS (DLAMI) disponibilizam para profissionais e pesquisadores de ML a infraestrutura e as ferramentas necessárias para acelerar o DL na nuvem em qualquer escala. Os contêineres de aprendizado profundo da AWS são imagens do Docker pré-instaladas com frameworks de DL para facilitar a implantação de ambientes personalizados de ML, evitando que você se preocupe com o processo complicado de criar e otimizar ambientes do zero.

Se preferir gerenciar suas próprias workloads em contêineres por meio de serviços de orquestração de contêineres, você pode implantar os UltraServers P6e-GB200 e as instâncias P6-B200 com o Amazon Elastic Kubernetes Service (Amazon EKS) ou o Amazon Elastic Container Service (Amazon ECS).

Os UltraServers P6e também estarão disponíveis por meio do NVIDIA NVIDA DGX Cloud, um ambiente totalmente gerenciado com a pilha completa de software de IA da NVIDIA. Com o NVIDIA DGX Cloud, você obtém as mais recentes otimizações, receitas de benchmarking e conhecimento técnico da NVIDIA.

Saiba mais

Você encontrou o que estava procurando hoje?

Informe-nos para que possamos melhorar a qualidade do conteúdo em nossas páginas