Publicado: Apr 13, 2023

Hoje, a AWS anuncia a disponibilidade geral das instâncias Inf2 do Amazon Elastic Compute Cloud (Amazon EC2). Essas instâncias oferecem alto desempenho com o menor custo no Amazon EC2 para modelos generativos de IA, incluindo grandes modelos de linguagem (LLMs) e transformadores de visão. As instâncias Inf2 são alimentadas por até 12 chips AWS Inferentia2, o mais recente acelerador de aprendizado profundo (DL) projetado pela AWS. Eles oferecem taxa de transferência até quatro vezes maior e latência até 10 vezes menor do que as instâncias Inf1 do Amazon EC2 de primeira geração.

Você pode usar as instâncias Inf2 para executar aplicações populares como resumos de textos, geração de código, geração de vídeo e imagem, reconhecimento de fala, personalização e muito mais. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a introduzir a inferência distribuída com ajuste de escala horizontal e suporte do NeuronLink, uma interconexão não bloqueadora de alta velocidade. Agora você pode implantar modelos com centenas de bilhões de parâmetros em vários aceleradores em instâncias Inf2. As instâncias Inf2 oferecem throughput até três vezes maior, latência até oito vezes menor e custo-benefício até 40% melhor do que outras instâncias comparáveis do Amazon EC2. Para ajudar você a atingir suas metas de sustentabilidade, as instâncias Inf2 oferecem desempenho até 50% melhor por watt em comparação com outras instâncias comparáveis do Amazon EC2.

As instâncias Inf2 oferecem até 2,3 petaflops de desempenho de DL e até 384 GB de memória total do acelerador com largura de banda de 9,8 TB/s. O AWS Neuron SDK se integra nativamente a frameworks de machine learning bem conhecidos, como PyTorch e TensorFlow. Assim, você pode continuar usando suas estruturas e códigos de aplicativos existentes para implantar no Inf2. Os desenvolvedores podem começar com instâncias Inf2 usando AMIs de deep learning da AWS, contêineres de deep learning da AWS ou serviços gerenciados, como Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (Amazon EKS), e Amazon SageMaker.

As instâncias Inf2 estão disponíveis em quatro tamanhos: inf2.xlarge, inf2.8xlarge, inf2.24xlarge, inf2.48xlarge nas seguintes regiões da AWS como instâncias sob demanda, instâncias reservadas e instâncias spot, ou como parte de um plano de economia: Leste dos EUA (Norte da Virgínia) e Leste dos EUA (Ohio). 

Para saber mais sobre as instâncias Inf2, consulte a página de instâncias Inf2 do Amazon EC2 e a documentação do AWS Neuron.