Instâncias P5 do Amazon EC2

Instâncias baseadas em GPU de maior performance para aplicações de aprendizado profundo e HPC

Por que usar as instâncias P5 do Amazon EC2?

As instâncias P5 do Amazon Elastic Compute Cloud (Amazon EC2), equipadas com GPUs NVIDIA H100 Tensor Core, e instâncias P5e e P5en com tecnologia de GPUs NVIDIA P5en Tensor Core oferecem a mais alta performance no Amazon H200 para aplicações de aprendizado profundo (DL) e computação de alta performance (HPC). Elas ajudam você a acelerar o tempo de solução em até quatro vezes em comparação às instâncias do EC2 baseadas em GPU da geração anterior, e a reduzir o custo de treinar modelos de machine learning em até 40%. Essas instâncias ajudam você a iterar suas soluções em um ritmo mais rápido e a chegar ao mercado com mais rapidez. Você pode usar instâncias P5, P5e e P5en treinar e implantar grandes modelos de linguagem (LLMs) e modelos de difusão cada vez mais complexos que alimentam as aplicações de inteligência artificial (IA) generativa mais exigentes. Essas aplicações incluem respostas a perguntas, geração de código, geração de vídeo e imagem e reconhecimento de fala. Você também pode usar essas instâncias para implantar aplicações de HPC exigentes em grande escala para descoberta farmacêutica, análise sísmica, previsão do tempo e modelagem financeira.

Para oferecer essas melhorias de desempenho e economia de custos, as instâncias P5 e P5e complementam as GPUs NVIDIA H100 e H200 Tensor Core com 2x mais peformance de CPU, 2x mais memória de sistema e 4x mais armazenamento local em comparação com instâncias baseadas em GPU da geração anterior. As instâncias P5en combinam GPUs NVIDIA H200 Tensor Core com CPU Intel Sapphire Rapids de alto desempenho, possibilitando PCIe de 5ª geração entre CPU e GPU. As instâncias P5en fornecem até o dobro da largura de banda entre CPU e GPU e menor latência de rede em comparação às instâncias P5e e P5, melhorando assim o desempenho do treinamento distribuído. O suporte a instâncias P5 e P5e fornece até 3.200 Gbps de rede usando o Elastic Fabric Adapter (EFA) de segunda geração. O P5en, com terceira geração do EFA usando o Nitro v5, mostra uma melhoria de até 35% na latência em comparação com o P5 que usa a geração anterior do EFA e do Nitro. Isso ajuda a melhorar o desempenho da comunicação coletiva para workloads de treinamento distribuídas, como aprendizado profundo, IA generativa, processamento de dados em tempo real e aplicações de computação de alto desempenho (HPC). Para oferecer computação em grande escala com baixa latência, essas instâncias são implantadas em Amazon EC2 UltraClusters, que permitem escalar até 20.000 GPUs H100 ou H200 interconectadas com uma rede sem bloqueio em escala de petabits. As instâncias P5, P5e e P5en nos EC2 UltraClusters podem oferecer até 20 exaflops de capacidade computacional agregada: uma performance equivalente ao de um supercomputador.

Instâncias P5 do Amazon EC2

Benefícios

As instâncias P5, P5e e P5en podem treinar modelos de IA generativa ultragrandes em grande escala e oferecer até 4 vezes a performance das instâncias EC2 baseadas em GPU da geração anterior.

As instâncias P5, P5e e P5en reduzem o tempo de treinamento e o tempo de solução de semanas para apenas alguns dias. Isso ajuda você a iterar em um ritmo mais rápido e chegar ao mercado com mais rapidez.

As instâncias P5, P5e e P5en oferecem até 40% de economia nos custos de treinamento de DL e infraestrutura de HPC em comparação com as instâncias EC2 baseadas em GPU da geração anterior.

As instâncias P5, P5e e P5en fornecem até 3.200 Gbps de rede de EFA. Essas instâncias são implantadas em EC2 UltraClusters e oferecem 20 exaflops de capacidade computacional agregada.

Recursos

As instâncias P5 fornecem até 8 GPUs NVIDIA H100, com um total de, no máximo, 640 GB de memória da GPU com o padrão HBM3 por instância. As instâncias P5e e P5en fornecem até 8 GPUs NVIDIA H200, com um total de, no máximo, 1128 GB de memória da GPU com o padrão HBM3e por instância. Ambas as instâncias suportam até 900 GB/s de interconexão de GPU por NVSwitch (totalizando 3,6 TB/s de largura de banda dividida em duas partes em cada instância). Isso possibilita que cada GPU se comunique com todas as outras GPUs em uma mesma instância com latência de salto único.

As GPUs NVIDIA H100 e H200 têm um novo mecanismo de transformador que gerencia de forma inteligente e escolhe dinamicamente entre cálculos de FP8 e 16 bits. Esse atributo ajuda a oferecer acelerações mais rápidas de treinamento de DL em LLMs em comparação às GPUs A100 da geração anterior. Para workloads de HPC, as GPUs NVIDIA H100 e H200 têm novas instruções DPX que aceleram ainda mais os algoritmos de programação dinâmica em comparação com as GPUs A100.

As instâncias P5, P5e e P5en oferecem até 3.200 Gbps de rede de EFA. Para reduzir ainda mais a latência, o EFA é acoplado ao NVIDIA GPUDirect RDMA para habilitar a comunicação de GPU para GPU de baixa latência entre servidores com desvio de sistema operacional.

As instâncias P5, P5e e P5en oferecem suporte aos sistemas de arquivos Amazon FSx para Lustre, para que você possa acessar dados com centenas de GB/s de throughput e milhões de IOPS necessários para workloads de DL e HPC em grande escala. Cada instância também oferece suporte para até 30 TB de armazenamento SSD NVMe local para acesso rápido a grandes conjuntos de dados. Você também pode usar o armazenamento econômico virtualmente ilimitado com o Amazon Simple Storage Service (Amazon S3).

Depoimentos de clientes

Aqui estão alguns exemplos de como clientes e parceiros alcançaram suas metas de negócios com as instâncias P4 do Amazon EC2.

  • Anthropic

    A Anthropic cria sistemas de IA confiáveis, interpretáveis e orientáveis que terão muitas oportunidades de criar valor comercialmente e para benefício público.

    Na Anthropic, estamos trabalhando para criar sistemas de IA confiáveis, interpretáveis e orientáveis. Embora os grandes sistemas gerais de IA de hoje possam ter benefícios significativos, eles também podem ser imprevisíveis, não confiáveis e opacos. Nosso objetivo é progredir nesses problemas e implantar sistemas que as pessoas considerem úteis. Nossa organização é uma das poucas no mundo que está criando modelos fundamentais na pesquisa de DL. Esses modelos são altamente complexos e, para desenvolver e treinar esses modelos de ponta, precisamos distribuí-los com eficiência em grandes clusters de GPUs. Atualmente, estamos usando extensivamente as instâncias P4 do Amazon EC2 e estamos entusiasmados com o lançamento das instâncias P5. Esperamos que eles ofereçam custo-benefício substancial em relação às instâncias P4d e que estejam disponíveis na grande escala necessária para criar LLMs de próxima geração e produtos relacionados.

    Tom Brown, cofundador da Anthropic
  • Cohere

    A Cohere, pioneira em IA de linguagem, capacita todos os desenvolvedores e empresas a criarem produtos incríveis com a tecnologia líder mundial de processamento de linguagem natural (PNL), mantendo seus dados privados e seguros

    A Cohere lidera a tarefa de ajudar todas as empresas a aproveitar o poder da IA de linguagem para explorar, gerar, pesquisar e agir com base nas informações de maneira natural e intuitiva, implantando-a em várias plataformas de nuvem no ambiente de dados que funciona melhor para cada cliente. As instâncias P5 do Amazon EC2 com tecnologia NVIDIA H100 liberarão a capacidade das empresas de criar, crescer e escalar mais rapidamente com seu poder de computação combinado com os recursos avançados de LLM e IA generativa da Cohere.

    Aidan Gomez, CEO da Cohere
  • Hugging Face

    A Hugging Face tem a missão de democratizar a boa ML.

    Como a comunidade de código aberto de crescimento mais rápido para ML, agora fornecemos mais de 150 mil modelos pré-treinados e 25 mil conjuntos de dados em nossa plataforma para PLN, visão computacional, biologia, aprendizado por reforço e muito mais. Com avanços significativos em LLMs e IA generativa, estamos trabalhando com a AWS para criar e contribuir com os modelos de código aberto do futuro. Estamos ansiosos para usar as instâncias P5 do Amazon EC2 via Amazon SageMaker em grande escala em UltraClusters com EFA para acelerar a entrega de novos modelos básicos de IA para todos.

    Julien Chaumond, CTO e cofundador da Hugging Face

Detalhes do produto

Tamanho da instância vCPUs Memória da instância (TiB) GPU   Memória de GPU Largura de banda de rede (Gbps) RDMA GPUDirect GPU ponto a ponto Armazenamento de instâncias (TB) Largura de banda do EBS (Gbps)
p5.48xlarge 192 2 8 H100 640 GB
HBM3
EFA de 3200 Gbps Sim NVSwitch de 900 GB/s 8 x 3.84 SSD NVMe 80
p5e.48xlarge 192 2 8 H200 1.128 GB
HBM3e
EFA de 3.200 Gbps Sim NVSwitch de 900 GB/s 8 x 3.84 SSD NVMe 80
p5en.48xlarge 192 2 8 H200 1128 GB HBM3e EFA de 3.200 Gbps Sim NVSwitch de 900 GB/s 8 x 3.84 SSD NVMe 100

Primeiros passos com casos de uso de ML

O SageMaker é um serviço totalmente gerenciado para criar, treinar e implantar modelos de ML. Com o SageMaker HyperPod, você pode escalar com mais facilidade para dezenas, centenas ou milhares de GPUs para treinar um modelo rapidamente em qualquer escala, sem se preocupar com a configuração e o gerenciamento de clusters de treinamento resilientes.

A DLAMI disponibiliza para profissionais e pesquisadores de ML a infraestrutura e as ferramentas necessárias para acelerar o DL na nuvem em qualquer escala. Os contêineres de aprendizado profundo são imagens do Docker pré-instaladas com frameworks de DL para facilitar a implantação de ambientes personalizados de ML, evitando que você se preocupe com o processo complicado de criar e otimizar ambientes do zero.

Se você preferir gerenciar suas próprias workloads em contêineres por meio dos serviços de orquestração de contêineres, poderá implantar as instâncias P5, P5e e P5en com o Amazon EKS ou o Amazon ECS.

Primeiros passos com casos de uso de HPC

As instâncias P5, P5e e P5en formam uma plataforma ideal para executar simulações de engenharia, finanças computacionais, análise sísmica, modelagem molecular, genômica, renderização e outras workloads de HPC baseadas em GPUs. Geralmente, os aplicativos de HPC exigem redes de alta performance, armazenamento rápido, grandes quantidades de memória, recursos elevados de computação ou todos esses itens. Todos os três tipos de instâncias oferecem suporte para EFA, possibilitando que aplicações de HPC usem a Message Passing Interface (MPI) para escalar milhares de GPUs. O AWS Batch e o AWS ParallelCluster ajudam desenvolvedores de HPC a desenvolver e escalar rapidamente aplicações de HPC distribuídas.

Saiba mais