Publicado: May 8, 2024

A partir de hoje, as instâncias Inf2 do Amazon Elastic Compute Cloud (Amazon EC2) estão disponíveis ao público em geral nas regiões Ásia-Pacífico (Sydney), Europa (Londres), Europa (Paris), Europa (Estocolmo), América do Sul (São Paulo). Essas instâncias oferecem alta performance com o menor custo no Amazon EC2 para modelos de IA generativa. 

Você pode usar as instâncias Inf2 para executar aplicações populares como resumos de textos, geração de código, geração de vídeo e imagem, reconhecimento de fala, personalização e muito mais. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a introduzir a inferência distribuída com ajuste de escala horizontal e suporte do NeuronLink, uma interconexão não bloqueadora de alta velocidade. As instâncias Inf2 oferecem até 2,3 petaflops e até 384 GB de memória total do acelerador com largura de banda de 9,8 TB/s. 

O SDK do AWS Neuron se integra de forma nativa às estruturas populares de machine learning, permitindo que você continue usando estruturas existentes para implantação na Inf2. Os desenvolvedores podem começar a usar instâncias Inf2 com as AMIs de deep learning da AWS, os contêineres de deep learning da AWS ou serviços gerenciados, como Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (Amazon EKS) e Amazon SageMaker.

As instâncias Inf2 estão disponíveis em quatro tamanhos: inf2.xlarge, inf2.8xlarge, inf2.24xlarge e inf2.48xlarge em 13 regiões da AWS como instâncias sob demanda, reservadas e spot, ou como parte de planos de economia.

Para saber mais sobre as instâncias Inf2, consulte a página de instâncias Inf2 do Amazon EC2 e a documentação do AWS Neuron.