Amazon SageMaker AI anuncia a disponibilidade de instâncias P5e e G6e para inferência
Temos o prazer de anunciar a disponibilidade geral de instâncias G6e otimizadas para inferência (com tecnologia de GPUs NVIDIA L40S Tensor Core) e P5e (com tecnologia de GPUs NVIDIA H200 Tensor Core) no Amazon SageMaker.
Com 1128 GB de memória de GPU de alta largura de banda em 8 GPUs NVIDIA H200, 30 TB de armazenamento SSD NVMe local, 192 vCPUs e 2 TiB de memória de sistema, as instâncias ml.p5e.48xlarge podem oferecer performance excepcional para workloads de inferência de IA com uso intensivo de computação, como grandes modelos de linguagem com mais de 100 bilhões de parâmetros, modelos de base multimodais, geração de dados sintéticos e aplicações complexas de IA generativa, incluindo resposta a perguntas, geração de código, vídeo e imagem.
Equipadas com 8 GPUs NVIDIA L40s Tensor Core com 48 GB de memória por GPU e processadores AMD EPYC de terceira geração, as instâncias ml.g6e podem oferecer performance até 2,5 vezes melhor em comparação às instâncias ml.g5. Os clientes podem usar as instâncias ml.g6e para executar inferência de IA para grandes modelos de linguagem (LLMs) com até 13 bilhões de parâmetros e modelos de difusão para gerar imagens, vídeo e áudio.
As instâncias ml.p5e e ml.g6e já estão disponíveis para uso no SageMaker nas regiões Leste dos EUA (Ohio) e Oeste dos EUA (Oregon). Para começar a usar, basta solicitar um aumento de limite usando o AWS Service Quotas. Para obter informações sobre os preços dessas instâncias, acesse a página de preços. Para obter mais informações sobre a implantação de modelos com o SageMaker, consulte a visão geral e a documentação. Para saber mais sobre essas instâncias em geral, acesse as páginas de produto das instâncias P5e e G6e.