Publicado: Aug 9, 2023

A partir de hoje, as instâncias Inf2 do Amazon Elastic Compute Cloud (Amazon EC2) estão disponíveis para o público geral na região Oeste dos EUA (Oregon). Essas instâncias oferecem alta performance com o menor custo no Amazon EC2 para modelos de IA generativa.

Você pode usar as instâncias Inf2 para executar aplicações populares como resumos de textos, geração de código, geração de vídeo e imagem, reconhecimento de fala, personalização e muito mais. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a introduzir a inferência distribuída com ajuste de escala horizontal e suporte do NeuronLink, uma interconexão não bloqueadora de alta velocidade. As instâncias Inf2 oferecem até 2,3 petaflops e até 384 GB de memória total do acelerador com largura de banda de 9,8 TB/s. Em relação a instâncias comparáveis do Amazon EC2, as instâncias Inf2 oferecem uma relação preço/performance até 40% superior. 

O SDK do AWS Neuron se integra de forma nativa às estruturas populares de machine learning, permitindo que você continue usando estruturas existentes para implantação na Inf2. Os desenvolvedores podem começar a usar instâncias Inf2 com as AMIs de deep learning da AWS, os contêineres de deep learning da AWS ou serviços gerenciados, como Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (Amazon EKS) e Amazon SageMaker.

As instâncias Inf2 estão disponíveis em quatro tamanhos (inf2.xlarge, inf2.8xlarge, inf2.24xlarge e inf2.48xlarge) como instâncias sob demanda, reservadas e spot ou como parte de um Savings Plan nas seguintes regiões da AWS: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon).

Para saber mais sobre as instâncias Inf2, consulte a página de instâncias Inf2 do Amazon EC2 e a documentação do AWS Neuron.