Instâncias Inf2 do Amazon EC2

Alta performance com o menor custo no Amazon EC2 para inferência de IA generativa

As instâncias Inf2 do Amazon Elastic Compute Cloud (Amazon EC2) foram criadas especificamente para inferência de aprendizado profundo (DL). Elas oferecem alta performance com o menor custo no Amazon EC2 para modelos de inteligência artificial (IA) generativa, incluindo grandes modelos de linguagem (LLMs) e transformadores de visão. Você pode usar as instâncias Inf2 para executar as aplicações de inferência para fazer resumos de textos, geração de código, geração de vídeo e imagem, reconhecimento de fala, personalização, detecção de fraudes e muito mais.

As instâncias Inf2 são alimentadas pelo AWS Inferentia2, o acelerador do AWS Inferentia de segunda geração. As instâncias Inf2 aumentam a performance da Inf1 oferecendo performance computacional três vezes melhor, memória total do acelerador quatro vezes maior, taxa de transferência até quatro vezes maior e latência até dez vezes menor. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a oferecer suporte à inferência distribuída do aumento horizontal da escala com conectividade de altíssima velocidade entre os aceleradores. Agora você pode implantar modelos de forma eficiente e econômica com centenas de bilhões de parâmetros em vários aceleradores nas instâncias Inf2.

O SDK do AWS Neuron ajuda os desenvolvedores a implantar modelos nos aceleradores do AWS Inferentia e a treiná-los nos aceleradores do AWS Trainium. Ele se integra nativamente às infraestruturas como PyTorch e TensorFlow para que você possa continuar usando os fluxos de trabalho e os códigos de aplicações existentes e executá-los nas instâncias Inf2.

Como funciona

  • Com usar o AWS DLAMI
  • Diagrama que mostra o fluxo de trabalho para implantar as instâncias Inf2 do Amazon EC2 usando as AMIs de deep learning da AWS (DLAMI).
  • Como usar o Amazon EKS
  • Diagrama que mostra o fluxo de trabalho para criar clusters do Kubernetes, implantar as instâncias Inf2 do Amazon EC2 nos clusters e executar as aplicações de inferência no Kubernetes.
  • Como usar o Amazon ECS
  • Diagrama que mostra o fluxo de trabalho para implantar as instâncias Inf2 do Amazon EC2 usando contêineres de aprendizado profundo da AWS com o Amazon ECS.
  • Como usar o Amazon SageMaker
  • Diagrama que mostra o fluxo de trabalho para usar artefatos de modelo armazenados em um bucket do Amazon S3 e uma imagem de contêiner do Amazon ECR com o Amazon SageMaker para implantar inferência nas instâncias Inf2.

Benefícios

Implemente modelos de IA generativa com mais de 100 bilhões de parâmetros em grande escala

As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a oferecer suporte à inferência distribuída em escala. Agora você pode implantar modelos de forma eficiente com centenas de bilhões de parâmetros em vários aceleradores em instâncias Inf2, usando a conectividade de altíssima velocidade entre os aceleradores.

Aumente a performance e reduza significativamente os custos de inferência

As instâncias Inf2 foram projetadas para oferecer alta performance com o menor custo no Amazon EC2 para suas implantações de DL. Eles oferecem throughput até quatro vezes maior e latência até dez vezes menor do que as instâncias Inf1 do Amazon EC2. As instâncias Inf2 oferecem uma relação preço-performance até 40% melhor do que outras instâncias comparáveis do Amazon EC2.

Use as estruturas e bibliotecas de ML atuais


Use o SDK do AWS Neuron para extrair a performance total das instâncias Inf2. Com o Neuron, você pode usar suas estruturas existentes, como PyTorch e TensorFlow, e otimizar a performance imediatamente para modelos em repositórios conhecidos, como o Hugging Face. O Neuron suporta integrações de runtime com ferramentas de serviço como TorchServe e TensorFlow Serving. Ele também ajuda a otimizar a performance com ferramentas integradas de perfil e depuração, como o Neuron-Top, e integra-se a ferramentas de visualização conhecidas, como o TensorBoard.

Alcance suas metas de sustentabilidade com uma solução de eficiência energética

As instâncias Inf2 oferecem até performance por watt até 50% melhor do que outras instâncias comparáveis do Amazon EC2. Essas instâncias e os aceleradores Inferentia2 subjacentes usam processos do chip avançados e otimizações de hardware e software para oferecer alta eficiência energética ao executar modelos DL em escala. Use as instâncias Inf2 para ajudar você a atingir suas metas de sustentabilidade ao implantar modelos ultragrandes.

Atributos

Até 2,3 petaflops com o AWS Inferentia2

As instâncias Inf2 são alimentadas por até 12 aceleradores do AWS Inferentia2 conectados ao NeuronLink de altíssima velocidade para comunicações coletivas simplificadas. Elas oferecem até 2,3 petaflops de computação e throughput até quatro vezes maior e latência dez vezes menor do que as instâncias Inf1.

Memória aceleradora de alta largura de banda de até 384 GB

Para acomodar grandes modelos de DL, as instâncias Inf2 oferecem até 384 GB de memória aceleradora compartilhada (32 GB HBM em cada acelerador da Inferentia2, quatro vezes maior que a Inferentia de primeira geração) com 9,8 TB/s de largura de banda total de memória (dez vezes mais rápida do que a Inferentia de primeira geração).

Para uma comunicação rápida entre aceleradores, as instâncias Inf2 suportam 192 GB/s do NeuronLink, uma interconexão de ultra-alta velocidade e sem bloqueio. A Inf2 é a única instância otimizada para inferência que oferece essa interconexão, um recurso que só está disponível em instâncias de treinamento mais caras. Para modelos ultragrandes que não cabem em um único acelerador, os dados fluem diretamente entre aceleradores com o NeuronLink, ignorando completamente a CPU. Com o NeuronLink, a Inf2 suporta inferência distribuída mais rápida e melhora a throughput e a latência.

Otimizada para novos tipos de dados com transmissão automática

A Inferentia2 suporta FP32, TF32, BF16, FP16, UINT8 e o novo tipo de dados configurável FP8 (cFP8). O AWS Neuron pode usar modelos FP32 e FP16 de alta precisão e os transmite automaticamente para tipos de dados de menor precisão, ao mesmo tempo em que otimiza a precisão e a performance. A transmissão automática reduz o tempo de comercialização, eliminando a necessidade de reciclagem de menor precisão e permitindo inferências de melhor performance com tipos de dados menores.

Otimizações de DL de última geração

Para suportar o ritmo acelerado da inovação de DL, as instâncias Inf2 têm várias inovações que as tornam flexíveis e extensíveis para implantar modelos de DL em constante evolução. As instâncias Inf2 têm otimizações de hardware e suporte de software para formas de entrada dinâmicas. Para permitir suporte a novos operadores no futuro, elas oferecem suporte a operadores personalizados criados em C++. Elas também oferecem suporte ao arredondamento estocástico, um método de arredondamento probabilístico para atingir alta performance e maior precisão em comparação com os modos de arredondamento herdados. 

Detalhes do produto

Tamanho de instância Aceleradores da Inferentia2 Acelerador
Memória
(GB)
vCPU Memória
(GiB)
Local
Armazenamento
Interacelerador
Interconexão
Rede
Largura de banda
(Gbps)
EBS
Largura de banda
(Gbps)
Preço sob demanda Instâncias reservadas de 1 ano Instâncias reservadas de 3 anos
inf2.xlarge 1 32 4 16 Somente EBS N/D Até 15 Até 10 USD 0,76 USD 0,45 USD 0,30
inf2.8xlarge 1 32 32 128 Somente EBS N/D Até 25 10 USD 1,97 USD 1,81 USD 0,79
inf2.24xlarge 6 192 96 384 Somente EBS Sim 50 30 USD 6,49 USD 3,89 USD 2,60
inf2.48xlarge 12 384 192 768 Somente EBS Sim 100 60 USD 12,98 USD 7,79 USD 5,19

Depoimentos de clientes

"Nossa equipe na Leonardo aproveita a IA generativa para permitir que profissionais criativos e entusiastas produzam recursos visuais com qualidade, velocidade e consistência de estilo incomparáveis. Quanto ao preço/desempenho do AWS Inf2, utilizando o AWS Inf2 conseguimos reduzir nossos custos em 80%, sem sacrificar o desempenho, alterando fundamentalmente o valor que podemos oferecer aos clientes, fazendo com que nossos atributos mais avançados ficassem com um preço mais acessível. Isso também alivia as preocupações com a disponibilidade de custo e capacidade para nossos serviços auxiliares de IA, que são cada vez mais importantes à medida que crescemos e escalamos. É uma tecnologia facilitadora fundamental para nós, à medida que continuamos a expandir os limites do que é possível com a IA generativa, permitindo uma nova era de criatividade e poder expressivo para nossos usuários."

Pete Werner, chefe de IA, Leonardo.ai
logotipo da Runway
"Na Runway, nosso pacote AI Magic Tools permite que os usuários gerem e editem conteúdo como nunca antes. Estamos constantemente ultrapassando os limites do que é possível com a criação de conteúdo baseada em IA e, à medida que nossos modelos de IA se tornam mais complexos, os custos de infraestrutura subjacentes para executar esses modelos em grande escala podem se tornar altos. Por meio da nossa colaboração com as instâncias Inf2 do Amazon EC2 desenvolvidas pelo AWS Inferentia, podemos executar alguns de nossos modelos com throughput até duas vezes maior do que instâncias comparáveis baseadas em GPU. Essa inferência de alta performance e baixo custo nos permite introduzir mais recursos, implantar modelos mais complexos e, por fim, oferecer uma experiência melhor para milhões de criadores que usam o Runway."

Cristóbal Valenzuela, cofundador e CEO da Runway
Qualtrics

A Qualtrics projeta e desenvolve software de gerenciamento de experiências.

“Na Qualtrics, nosso foco é criar tecnologia que preencha lacunas de experiência para clientes, funcionários, marcas e produtos. Para isso, estamos desenvolvendo modelos complexos de DL multimodal e multitarefa para lançar novos atributos, como classificação de texto, marcação de sequências, análise de discurso, extração de frases-chave, extração de tópicos, agrupamento e compreensão de conversas de ponta a ponta. À medida que utilizamos esses modelos mais complexos em mais aplicações, o volume de dados não estruturados aumenta e precisamos de mais soluções otimizadas para inferência de performance que possam atender a essas demandas, como as instâncias Inf2, para oferecer as melhores experiências aos nossos clientes. Estamos entusiasmados com as novas instâncias Inf2, pois elas não só nos permitirão alcançar maiores throughputs e reduzir drasticamente a latência, mas também introduzir recursos como inferência distribuída e suporte aprimorado ao formato de entrada dinâmico, o que nos ajudará a escalar para atender às necessidades de implantação à medida que avançamos para modelos grandes e mais complexos."

Aaron Colak, diretor de machine learning principal da Qualtrics
Finch Computing

A Finch Computing é uma empresa de tecnologia de linguagem natural que fornece aplicações de inteligência artificial para clientes governamentais, de serviços financeiros e integradores de dados.

“Para atender às necessidades de processamento de linguagem natural em tempo real dos nossos clientes, desenvolvemos modelos de DL de última geração que escalam para grandes workloads de produção. Precisamos fornecer transações de baixa latência e obter altas throughputs para processar feeds de dados globais. Já migramos muitas workloads de produção para instâncias Inf1 e obtivemos uma redução de 80% no custo em relação a GPUs. Agora, estamos desenvolvendo modelos maiores e mais complexos que promovem um significado mais profundo e esclarecedor do texto escrito. Muitos de nossos clientes precisam acessar esses insights em tempo real, e a performance das instâncias Inf2 nos ajudará a oferecer menor latência e maior throughput em relação às instâncias Inf1. Com as melhorias de performance e os novos atributos da Inf2, como suporte para tamanhos dinâmicos de entrada, estamos melhorando o custo-benefício, elevando a experiência do cliente em tempo real e ajudando nossos clientes a obter novos insights de seus dados.”

Franz Weckesser, arquiteto chefe da Finch Computing
Logotipo da Money Forward

A Money Forward, Inc. presta serviços a empresas e indivíduos com uma plataforma financeira aberta e justa. Como parte dessa plataforma, a HiTTO Inc., empresa do grupo Money Forward, oferece um serviço de chatbot de IA, que usa modelos de processamento de linguagem natural (PLN) personalizados para abordar diversas necessidades dos seus clientes corporativos.

“Lançamos um serviço de chatbot de IA em grande escala nas instâncias Inf1 do Amazon EC2 e reduzimos nossa latência de inferência em 97% em relação a instâncias comparáveis baseadas em GPU, além de reduzir os custos. Ficamos muito satisfeitos em ver mais melhorias na performance em nossos resultados de testes iniciais nas instâncias Inf2 do Amazon EC2. Usando o mesmo modelo personalizado de PLN, a Inf2 da AWS conseguiu reduzir em dez vezes a latência em relação à Inf1. À medida que adotamos modelos maiores de vários bilhões de parâmetros, a Inf2 nos dá a confiança de que podemos continuar oferecendo aos nossos clientes uma experiência de usuário de ponta a ponta superior."

Takuya Nakade, CTO da Money Forward, Inc.
Logotipo da Fileread.ai
“Na Fileread.ai, estamos criando soluções para tornar a interação com seus documentos tão fácil quanto fazer perguntas, permitindo que os usuários encontrem o que procuram em todos os documentos e obtenham as informações certas com mais rapidez. Desde a mudança para a nova instância Inf2 do EC2, observamos uma melhoria significativa em nossos recursos de inferência de PLN. Só a economia de custos já foi um divisor de águas para nós, permitindo alocar recursos com mais eficiência sem sacrificar a qualidade. Reduzimos nossa latência de inferência em 33% e aumentamos a throughput em 50%, oferecendo aos nossos clientes entregas mais rápidas. Nossa equipe ficou impressionada com a velocidade e a performance da Inf2 em comparação com as instâncias G5 mais antigas, e está claro que esse é o futuro da implantação de modelos de PLN."

Daniel Hu, CEO da Fileread
Logotipo da Yaraku
“Na Yaraku, nossa missão é construir a infraestrutura que ajude as pessoas a se comunicarem rompendo as barreiras linguísticas. Nosso principal produto, o YarakuZen, permite que qualquer pessoa, de tradutores profissionais a indivíduos monolíngues, traduza e edite textos e documentos com confiança. Para apoiar esse processo, oferecemos uma ampla variedade de ferramentas sofisticadas baseadas em modelos de DL, abrangendo tarefas como tradução, alinhamento de palavras em colunas, segmentação de frases, modelagem de linguagem e muitas outras. Usando as instâncias Inf1, conseguimos acelerar nossos serviços para atender à crescente demanda e, ao mesmo tempo, reduzir o custo de inferência em mais de 50% em comparação às instâncias baseadas em GPU. Agora estamos avançando para o desenvolvimento de modelos maiores de próxima geração que exigirão os recursos aprimorados das instâncias Inf2 para atender à demanda e, ao mesmo tempo, manter a baixa latência. Com a Inf2, poderemos aumentar a escala de nossos modelos em dez vezes, mantendo uma throughput semelhante, o que nos permite oferecer níveis ainda mais altos de qualidade aos nossos clientes."

Giovanni Giacomo, líder de PLN da Yaraku

Veja os depoimentos de parceiros da AWS

Logotipo da Hugging Face
“A missão da Hugging Face é democratizar a ML boa para ajudar os desenvolvedores de ML em todo o mundo a resolver problemas do mundo real. E a chave para isso é garantir que os melhores e mais recentes modelos funcionem da forma mais rápida e eficiente possível nos melhores aceleradores de ML na nuvem. Estamos muito entusiasmados com o potencial da Inferentia2 de se tornar a nova forma padrão de implantar modelos generativos de IA em grande escala. Com o Inf1, observamos um custo até 70% menor do que as instâncias tradicionais baseadas em GPU e, com a Inf2, observamos uma latência até oito vezes menor para transformadores do tipo BERT em comparação com a Inferentia1. Com a Inferentia2, nossa comunidade poderá escalar facilmente essa performance para LLMs na escala de mais de 100 bilhões de parâmetros e também para os modelos mais recentes de difusão e visão computacional.”  
Logotipo da PyTorch
“A PyTorch acelera o caminho da prototipagem de pesquisa para implantações de produção voltada aos desenvolvedores de ML. Colaboramos com a equipe da AWS para fornecer suporte nativo à PyTorch para as novas instâncias Inf2 do Amazon EC2 baseadas no AWS Inferentia2. À medida que mais membros da nossa comunidade buscam implantar grandes modelos generativos de IA, estamos entusiasmados com a parceria com a equipe da AWS para otimizar a inferência distribuída nas instâncias Inf2 com conectividade NeuronLink de alta velocidade entre aceleradores. Com a Inf2, os desenvolvedores que usam a PyTorch agora podem implantar facilmente LLMs ultragrandes e modelos de transformadores de visão. Além disso, as instâncias Inf2 trazem outros recursos inovadores para os desenvolvedores da PyTorch, incluindo tipos de dados eficientes, formas dinâmicas, operadores personalizados e arredondamento estocástico otimizado para hardware, tornando-as adequadas para ampla adoção pela comunidade PyTorch.” 
Logotipo da Weights & Biases
“Weights & Biases (W&B) fornece ferramentas de desenvolvimento para engenheiros de ML e cientistas de dados criarem modelos melhores com mais rapidez. A plataforma W&B fornece aos profissionais de ML uma ampla variedade de insights para melhorar a performance dos modelos, incluindo a utilização da infraestrutura computacional subjacente. Colaboramos com a equipe da AWS para adicionar o suporte ao Amazon Trainium e ao Inferentia2 ao nosso painel de métricas do sistema, fornecendo dados valiosos, muito necessários durante a experimentação e o treinamento do modelo. Isso permite que os profissionais de ML otimizem seus modelos para aproveitar ao máximo o hardware desenvolvido especificamente pela AWS para treinar seus modelos com mais rapidez e menor custo."

Phil Gurbacki, vice-presidente de produtos da Weights & Biases
Logotipo da OctoML
“A OctoML ajuda os desenvolvedores a reduzir custos e criar aplicações de IA escaláveis ao empacotar seus modelos de DL para serem executados em hardware de alta performance. Passamos os últimos anos desenvolvendo especialização nas melhores soluções de software e hardware e integrando-as em nossa plataforma. Nossas raízes como designers de chips e hackers de sistemas tornam o AWS Trainium e a Inferentia ainda mais empolgantes para nós. Vemos esses aceleradores como um fator determinante para o futuro da inovação de IA na nuvem. O lançamento das instâncias Inf2 no GA é especialmente oportuno, pois estamos vendo o surgimento do conhecido LLM como um componente essencial das aplicações de IA da próxima geração. Estamos entusiasmados em poder disponibilizar essas instâncias em nossa plataforma para ajudar os desenvolvedores a usar facilmente seus benefícios de alta performance e redução de custos."
 
Jared Roesch, CTO e cofundador da OctoML
Logotipo da OctoML
"O desafio histórico com LLMs e, mais amplamente, com aplicações de IA generativa em nível corporativo, são os custos associados ao treinamento e à execução de modelos de DL de alta performance. Junto com o AWS Trainium, o AWS Inferentia2 remove as concessões financeiras que nossos clientes fazem quando precisam de treinamento de alta performance. Agora, nossos clientes que buscam vantagens em treinamento e inferência podem obter melhores resultados com menor custo. O Trainium e o Inferentia aceleram a escala para atender até mesmo aos requisitos de DL mais exigentes das maiores empresas da atualidade. Muitos clientes da Nextira que executam grandes workloads de IA se beneficiarão diretamente com esses novos chipsets, aumentando a eficiência na redução de custos e na performance, além de levar a resultados mais rápidos em seus mercados."

Jason Cutrer, fundador e CEO da Nextira

Serviços da Amazon que usam as instâncias Inf2 do Amazon EC2

Logotipo da Amazon

O Amazon CodeWhisperer é um complemento de codificação de IA que gera recomendações de código de linha única ou de função completa em tempo real no seu ambiente de desenvolvimento integrado (IDE) para ajudar você a criar software rapidamente.

“Com o CodeWhisperer, estamos melhorando a produtividade dos desenvolvedores de software fornecendo recomendações de código usando modelos generativos de IA. Para desenvolver recomendações de código altamente eficazes, escalamos nossa rede de DL para bilhões de parâmetros. Nossos clientes precisam de recomendações de código em tempo real enquanto digitam, portanto, respostas de baixa latência são essenciais. Os modelos de IA generativos de grande porte exigem computação de alta performance para fornecer tempos de resposta em uma fração de segundo. Com a Inf2, estamos oferecendo a mesma latência da execução do CodeWhisperer no treinamento de instâncias de GPU otimizadas para grandes sequências de entrada e saída. Assim, as instâncias Inf2 estão nos ajudando a economizar custos e energia, ao mesmo tempo em que oferecem a melhor experiência possível para os desenvolvedores.”  

Doug Seven, gerente geral da Amazon CodeWhisperer

Logotipo da Amazon

O mecanismo de pesquisa de produtos da Amazon indexa bilhões de produtos, atende a bilhões de consultas de clientes diariamente e é um dos serviços mais usados no mundo.

“Estou muito empolgado com o lançamento da Inf2 GA. A performance superior da Inf2, juntamente com sua capacidade de lidar com modelos maiores com bilhões de parâmetros, a torna a escolha perfeita para nossos serviços e nos permite desbloquear novas possibilidades em termos de complexidade e precisão do modelo. Com a significativa aceleração e a eficiência de custos oferecidas pela Inf2, integrá-las à infraestrutura de atendimento do Amazon Search poderá nos ajudar a atender às crescentes demandas de nossos clientes. Planejamos potencializar nossas novas experiências de compra usando LLMs generativos usando a Inf2.” 

Trishul Chilimbi, vice-presidente de pesquisa da Amazon

Conceitos básicos

Como usar o Amazon SageMaker

Implemente modelos nas instâncias Inf2 com mais facilidade usando o Amazon SageMaker e reduza significativamente os custos de implantação de modelos de ML e aumente a performance sem necessidade de gerenciar a infraestrutura. O SageMaker é um serviço totalmente gerenciado e se integra às ferramentas MLOps. Portanto, você pode escalar a implantação do seu modelo, gerenciar modelos com mais eficiência na produção e reduzir a carga operacional.

Como usar as AMIs de deep learning da AWS

As AMIs de deep learning da AWS (DLAMI) disponibilizam a profissionais e pesquisadores de DL a infraestrutura e as ferramentas necessárias para acelerar o aprendizado profundo na nuvem em qualquer escala. Os drivers do AWS Neuron vêm pré-configurados no DLAMI para implantar seus modelos de DL de forma otimizada nas instâncias Inf2.

Como usar os contêineres de aprendizado profundo da AWS

Agora você pode implantar instâncias Inf2 no Amazon Elastic Kubernetes Service (Amazon EKS), um serviço Kubernetes totalmente gerenciado, e no Amazon Elastic Container Service (Amazon ECS), um serviço de orquestração de contêineres totalmente gerenciado. O Neuron também está disponível pré-instalado nos contêineres de aprendizado profundo da AWS. Para saber mais sobre como executar contêineres nas instâncias Inf2, consulte os tutoriais de contêineres do Neuron.

Cadastre-se para obter uma conta da AWS

Cadastre-se para obter uma conta da AWS

Obtenha acesso instantâneo ao nível gratuito da AWS.

Aprenda com tutoriais simples

Aprenda com tutoriais de 10 minutos

Explore e aprenda com tutoriais simples.

Comece a criar com o EC2 no console

Comece a criar no console

Comece a criar usando os guias detalhados que ajudam a iniciar seu projeto da AWS.