Instâncias P5 do Amazon EC2

Instâncias baseadas em GPU de maior performance para aplicações de aprendizado profundo e HPC

As instâncias P5 do Amazon Elastic Compute Cloud (Amazon EC2), equipadas com as mais recentes GPUs NVIDIA H100 Tensor Core, oferecem a mais alta performance no Amazon EC2 para aplicações de aprendizado profundo (DL) e computação de alta performance (HPC). Elas ajudam você a acelerar o tempo de solução em até quatro vezes em comparação às instâncias do EC2 baseadas em GPU da geração anterior, e a reduzir o custo de treinar modelos de machine learning em até 40%. As instâncias P5 ajudam você a iterar suas soluções em um ritmo mais rápido e a chegar ao mercado com mais rapidez. Você pode usar as instâncias P5 para treinar e implantar grandes modelos de linguagem (LLMs) e modelos de difusão cada vez mais complexos que potencializam as aplicações de inteligência artificial (IA) generativa mais exigentes. Essas aplicações incluem respostas a perguntas, geração de código, geração de vídeo e imagem e reconhecimento de fala. Você também pode usar as instâncias P5 para implantar aplicações de HPC exigentes em grande escala para descoberta farmacêutica, análise sísmica, previsão do tempo e modelagem financeira.

Para oferecer essas melhorias de performance e economia de custos, as instâncias P5 complementam os GPUs NVIDIA H100 Tensor Core com performance da CPU 2 vezes melhor, 2 vezes mais memória de sistema e 4 vezes mais armazenamento local em comparação às instâncias baseadas em GPU da geração anterior. Elas fornecem recursos de aumento da escala horizontal líderes de mercado para treinamento distribuído e workloads de HPC altamente acopladas com até 3.200 Gbps de rede usando a tecnologia Elastic Fabric Adapter (EFAv2) de segunda geração. Para fornecer computação em grande escala com baixa latência, as instâncias P5 são implantadas nos UltraClusters do Amazon EC2 que permitem escalar até 20.000 GPUs H100. Eles estão interconectados com uma rede sem bloqueio em escala de petabytes. As instâncias P5 nos EC2 UltraClusters oferecem até 20 exaflops de capacidade de computação agregada — performance equivalente a um supercomputador.

Instâncias P5 do Amazon EC2 (1:24)

Reserve instâncias P5 agora para uso futuro

Com os blocos de capacidade do Amazon EC2 para ML, reserve facilmente instâncias P5 com até oito semanas de antecedência. Você pode reservar instâncias P5 por um período de 1 a 14 dias e em tamanhos de cluster de 1 a 64 instâncias (512 GPUs), oferecendo a flexibilidade de executar uma ampla variedade de workloads.

Benefícios

Treine mais de 100 bilhões de modelos de parâmetros em grande escala


As instâncias P5 podem treinar modelos de IA generativa ultragrandes em grande escala e oferecer até quatro vezes a performance das instâncias EC2 baseadas em GPU da geração anterior.

Reduza o tempo de solução e itere com mais rapidez


As instâncias P5 reduzem os tempos de treinamento e o tempo de solução de semanas para apenas alguns dias. Isso ajuda você a iterar em um ritmo mais rápido e chegar ao mercado com mais rapidez.

Reduza seus custos de infraestrutura de DL e HPC


As instâncias P5 oferecem até 40% de economia nos custos de treinamento de DL e infraestrutura de HPC em comparação às instâncias EC2 baseadas em GPU da geração anterior.

Execute treinamento distribuído e HPC com computação em exascale

As instâncias P5 fornecem até 3.200 Gbps de rede EFAv2. Essas instâncias são implantadas em EC2 UltraClusters e oferecem 20 exaflops de capacidade computacional agregada.

Atributos

GPUs NVIDIA H100 Tensor Core

As instâncias P5 fornecem até 8 GPUs NVIDIA H100 com um total de até 640 GB de memória de GPU HBM3 por instância. As instâncias P5 suportam até 900 GB/s de interconexão de GPU NVSwitch (total de 3,6 TB/s de largura de banda bi-seccional em cada instância), para que cada GPU possa se comunicar com todas as outras GPUs na mesma instância com latência de salto único.

Novo mecanismo de transformador e instruções DPX

As GPUs NVIDIA H100 têm um novo mecanismo de transformador que gerencia de forma inteligente e escolhe dinamicamente entre cálculos de FP8 e 16 bits. Esse atributo ajuda a oferecer acelerações mais rápidas de treinamento de DL em LLMs em comparação às GPUs A100 da geração anterior. Para workloads de HPC, as GPUs NVIDIA H100 têm novas instruções de DPX que aceleram ainda mais os algoritmos de programação dinâmica em comparação às GPUs A100.

Rede de alta performance

As instâncias P5 oferecem até 3.200 Gbps de rede EFAv2. O EFAv2 oferece uma melhoria de até 50% na performance das comunicações coletivas para workloads de treinamento distribuídas. Para reduzir ainda mais a latência, o EFAv2 é acoplado ao NVIDIA GPUDirect RDMA para habilitar a comunicação de GPU para GPU de baixa latência entre servidores com desvio de sistema operacional.

Armazenamento de alta performance

As instâncias P5 oferecem suporte aos sistemas de arquivos Amazon FSx para Lustre, para que você possa acessar dados com centenas de GB/s de throughput e milhões de IOPS necessários para workloads de DL e HPC em grande escala. Cada instância P5 também oferece suporte a até 30 TB de armazenamento SSD NVMe local para acesso rápido a grandes conjuntos de dados. Você também pode usar o armazenamento econômico virtualmente ilimitado com o Amazon Simple Storage Service (Amazon S3).

UltraClusters EC2 de segunda geração

As instâncias P5 são implantadas em UltraClusters EC2 de segunda geração, que fornecem uma estrutura de rede que permite maior escala, menos saltos de rede em todo o cluster e menor latência do que os UltraClusters da geração anterior. As instâncias P5 em UltraClusters podem escalar até 20.000 GPUs H100 interconectadas com uma rede em escala de petabytes e fornecer 20 exaflops de capacidade de computação agregada.

integração com outros serviços da AWS

As instâncias P5 podem ser implantadas usando as AMIs do AWS Deep Learning (DLAMI) e os contêineres do AWS Deep Learning. Elas estão disponíveis por meio de serviços gerenciados, como Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch e muito mais.

Histórias de clientes

A Anthropic cria sistemas de IA confiáveis, interpretáveis e orientáveis que terão muitas oportunidades de criar valor comercialmente e para benefício público.

“Na Anthropic, estamos trabalhando para criar sistemas de IA confiáveis, interpretáveis e orientáveis. Embora os grandes sistemas gerais de IA de hoje possam ter benefícios significativos, eles também podem ser imprevisíveis, não confiáveis e opacos. Nosso objetivo é progredir nesses problemas e implantar sistemas que as pessoas considerem úteis. Nossa organização é uma das poucas no mundo que está criando modelos fundamentais na pesquisa de DL. Esses modelos são altamente complexos e, para desenvolver e treinar esses modelos de ponta, precisamos distribuí-los com eficiência em grandes clusters de GPUs. Atualmente, estamos usando extensivamente as instâncias P4 do Amazon EC2 e estamos entusiasmados com o lançamento das instâncias P5. Esperamos que eles ofereçam custo-benefício substancial em relação às instâncias P4d e que estejam disponíveis na grande escala necessária para criar LLMs de próxima geração e produtos relacionados."

Tom Brown, cofundador da Anthropic

Cadastre-se para obter uma conta da AWS

A Cohere, pioneira em IA de linguagem, capacita todos os desenvolvedores e empresas a criarem produtos incríveis com a tecnologia líder mundial de processamento de linguagem natural (PNL), mantendo seus dados privados e seguros

“A Cohere lidera a tarefa de ajudar todas as empresas a aproveitar o poder da IA de linguagem para explorar, gerar, pesquisar e agir com base nas informações de maneira natural e intuitiva, implantando-a em várias plataformas de nuvem no ambiente de dados que funciona melhor para cada cliente. As instâncias Amazon EC2 P5 com tecnologia NVIDIA H100 liberarão a capacidade das empresas de criar, crescer e escalar mais rapidamente com seu poder de computação combinado com os recursos avançados de LLM e IA generativa da Cohere.”

Aidan Gomez, CEO da Cohere

Cadastre-se para obter uma conta da AWS

A Hugging Face tem a missão de democratizar a boa ML.

“Como a comunidade de código aberto de crescimento mais rápido para ML, agora fornecemos mais de 150.000 modelos pré-treinados e 25.000 conjuntos de dados em nossa plataforma para PNL, visão computacional, biologia, aprendizado por reforço e muito mais. Com avanços significativos em LLMs e IA generativa, estamos trabalhando com a AWS para criar e contribuir com os modelos de código aberto do futuro. Estamos ansiosos para usar as instâncias P5 do Amazon EC2 via Amazon SageMaker em grande escala em UltraClusters com EFA para acelerar a entrega de novos modelos básicos de IA para todos."

Julien Chaumond, CTO e cofundador da Hugging Face

Detalhes do produto

Tamanho de instância vCPU Memória da instância (TiB) GPU - H100 Memória de GPU Largura de banda da rede GPUDirectRDMA Ponto a ponto de GPUs Armazenamento de instâncias (TB) Largura de banda do EBS (Gbps)

p5.48xlarge

192

8

640 GB HBM3

3200 Gbps EFAv2

Sim

NVSwitch de 900 GB/s

8 x 3.84 SSD NVMe

80 

 

*Os preços apresentados são para Linux/Unix na região da AWS no Leste dos EUA (N. da Virgínia) e arredondados para o centavo mais próximo. Para obter detalhes de preços completos, consulte Preço do Amazon EC2.

Conceitos básicos das instâncias P5 para ML

Usar o SageMaker

O SageMaker é um serviço totalmente gerenciado para criar, treinar e implantar modelos de ML. Quando usado em conjunto com as instâncias P5, você pode escalar facilmente para dezenas, centenas ou milhares de GPUs a fim de treinar rapidamente um modelo em qualquer escala, sem se preocupar com a configuração de clusters e pipelines de dados.

Usar DLAMIs ou contêineres de aprendizado profundo

A DLAMI disponibiliza a profissionais e pesquisadores de ML a infraestrutura e as ferramentas necessárias para acelerar o DL na nuvem em qualquer escala. Os contêineres de aprendizado profundo são imagens do Docker pré-instaladas com frameworks de DL para facilitar a rápida implantação de ambientes personalizados de ML, evitando que você se preocupe com o processo complicado de criar e otimizar ambientes do zero.

Usar o Amazon EKS ou o Amazon ECS

Se você preferir gerenciar suas próprias workloads em contêineres por meio dos serviços de orquestração de contêineres, poderá implantar as instâncias P5 com o Amazon EKS ou o Amazon ECS.

Conceitos básicos das instâncias P5 para HPC

As instâncias P5 formam uma plataforma ideal para executar simulações de engenharia, finanças computacionais, análise sísmica, modelagem molecular, genômica, renderização e outras workloads de HPC baseadas em GPUs. Geralmente, as aplicações de HPC exigem redes de alta performance, armazenamento rápido, grandes quantidades de memória, recursos elevados de computação ou todos esses itens. As instâncias P5 oferecem suporte EFAv2, possibilitando que aplicações de HPC usem a Message Passing Interface (MPI) para escalar milhares de GPUs. O AWS Batch e o AWS ParallelCluster ajudam desenvolvedores de HPC a desenvolver e escalar rapidamente as aplicações de HPC distribuídas.

Saiba mais »

Conceitos básicos da AWS

Cadastre-se para obter uma conta da AWS

Cadastre-se para obter uma conta da AWS

Obtenha acesso instantâneo ao nível gratuito da AWS.

Aprenda com tutoriais simples

Aprenda com tutoriais de 10 minutos

Explore e aprenda com tutoriais simples.

Comece a criar com o EC2 no console

Comece a criar no console

Comece a criar com guias passo a passo que o ajudam a iniciar seu projeto da AWS.