- Amazon EC2›
- Tipos de instância›
- Instâncias Inf2
Instâncias Inf2 do Amazon EC2
Alta performance com o menor custo no Amazon EC2 para inferência de IA generativa
Por que escolher instâncias Inf2 do Amazon EC2?
As instâncias Inf2 do Amazon Elastic Compute Cloud (Amazon EC2) foram criadas especificamente para inferência de aprendizado profundo (DL). Elas oferecem alta performance com o menor custo no Amazon EC2 para modelos de inteligência artificial (IA) generativa, incluindo grandes modelos de linguagem (LLMs) e transformadores de visão. Você pode usar as instâncias Inf2 para executar suas aplicações de inferência para fazer resumos de textos, geração de código, geração de vídeo e imagem, reconhecimento de fala, personalização, detecção de fraudes e muito mais.
As instâncias Inf2 são baseadas no AWS Inferentia2, o chip do AWS Inferentia de segunda geração. As instâncias Inf2 aumentam a performance de Inf1 oferecendo performance computacional três vezes melhor, memória total do acelerador quatro vezes maior, throughput até quatro vezes maior e latência até dez vezes menor. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a oferecer suporte à inferência distribuída do aumento da escala com conectividade de altíssima velocidade entre chips Inferentia. Agora você pode implantar modelos de forma eficiente e econômica com centenas de bilhões de parâmetros em vários chips nas instâncias Inf2.
O SDK do AWS Neuron ajuda os desenvolvedores a implantar modelos nos chips do AWS Inferentia (e a treiná-los nos chips do AWS Trainium). Ele se integra nativamente às infraestruturas como PyTorch e TensorFlow para que você possa continuar usando os fluxos de trabalho e os códigos de aplicações existentes e executá-los nas instâncias Inf2.
Benefícios
As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a oferecer suporte à inferência distribuída em escala. Agora você pode implantar modelos de forma eficiente com centenas de bilhões de parâmetros em vários chips Inferentia em instâncias Inf2, usando a conectividade de altíssima velocidade entre os chips.
As instâncias Inf2 foram projetadas para oferecer alta performance com o menor custo no Amazon EC2 para suas implantações de DL. Elas oferecem throughput até quatro vezes maior e latência até dez vezes menor do que as instâncias Inf1 do Amazon EC2. Em relação a instâncias comparáveis do Amazon EC2, as instâncias Inf2 oferecem uma relação preço/performance até 40% superior.
Use o SDK do AWS Neuron para extrair a performance total das instâncias Inf2. Com o Neuron, você pode usar suas estruturas existentes, como PyTorch e TensorFlow, e otimizar a performance imediatamente para modelos em repositórios conhecidos, como o Hugging Face. O Neuron suporta integrações de runtime com ferramentas de serviço como TorchServe e TensorFlow Serving. Ele também ajuda a otimizar a performance com ferramentas integradas de perfil e depuração, como o Neuron-Top, e integra-se a ferramentas de visualização conhecidas, como o TensorBoard.
As instâncias Inf2 oferecem uma performance/watt até 50% melhor do que outras instâncias comparáveis do Amazon EC2. Essas instâncias e os chips Inferentia2 subjacentes usam processos de silicone avançados e otimizações de hardware e software para oferecer alta eficiência energética ao executar modelos DL em escala. Use as instâncias Inf2 para ajudar você a atingir suas metas de sustentabilidade ao implantar modelos ultragrandes.
Recursos
As instâncias Inf2 são alimentadas por até 12 chips AWS Inferentia2 conectados ao NeuronLink de altíssima velocidade para comunicações coletivas simplificadas. Elas oferecem até 2,3 petaflops de computação e throughput até quatro vezes maior e latência dez vezes menor do que as instâncias Inf1.
Para acomodar grandes modelos de DL, instâncias Inf2 oferecem até 384 GB de memória aceleradora compartilhada (32 GB HBM em cada chip Inferentia2, quatro vezes maior que a Inferentia de primeira geração) com 9,8 TB/s de largura de banda total de memória (dez vezes mais rápida do que a Inferentia de primeira geração).
Para uma comunicação rápida entre chips Inferentia2, as instâncias Inf2 suportam 192 GB/s do NeuronLink, uma interconexão de ultra-alta velocidade e sem bloqueio. Inf2 é a única instância otimizada para inferência que oferece essa interconexão, um recurso que só está disponível em instâncias de treinamento mais caras. Para modelos ultragrandes que não cabem em um único chip, os dados fluem diretamente entre chips com o NeuronLink, ignorando completamente a CPU. Com o NeuronLink, Inf2 suporta inferência distribuída mais rápida e melhora o throughput e a latência.
A Inferentia2 suporta FP32, TF32, BF16, FP16, UINT8 e o novo tipo de dados configurável FP8 (cFP8). O AWS Neuron pode usar modelos FP32 e FP16 de alta precisão e os transmite automaticamente para tipos de dados de menor precisão, ao mesmo tempo em que otimiza a precisão e a performance. A transmissão automática reduz o tempo de comercialização, eliminando a necessidade de reciclagem de menor precisão e permitindo inferências de melhor performance com tipos de dados menores.
Para suportar o ritmo acelerado da inovação de DL, as instâncias Inf2 têm várias inovações que as tornam flexíveis e extensíveis para implantar modelos de DL em constante evolução. As instâncias Inf2 têm otimizações de hardware e suporte de software para formas de entrada dinâmicas. Para permitir suporte a novos operadores no futuro, elas oferecem suporte a operadores personalizados criados em C++. Elas também oferecem suporte ao arredondamento estocástico, um método de arredondamento probabilístico para atingir alta performance e maior precisão em comparação com os modos de arredondamento herdados.
Detalhes do produto
|
Instance Size
|
Inferentia2 Chips
|
Accelerator Memory (GB)
|
vCPU
|
Memory (GiB)
|
Local Storage
|
Inter-Chip Interconnect
|
Network Bandwidth (Gbps)
|
EBS Bandwidth (Gbps)
|
On-Demand Price
|
1-Year Reserved Instance
|
3-Year Reserved Instance
|
|---|---|---|---|---|---|---|---|---|---|---|---|
|
inf2.xlarge
|
1
|
32
|
4
|
16
|
Somente EBS
|
N/D
|
Até 15
|
Até 10
|
USD 0,76
|
USD 0,45
|
USD 0,30
|
|
inf2.8xlarge
|
1
|
32
|
32
|
128
|
Somente EBS
|
N/D
|
Até 25
|
10
|
USD 1,97
|
USD 1,81
|
USD 0,79
|
|
inf2.24xlarge
|
6
|
192
|
96
|
384
|
Somente EBS
|
Sim
|
50
|
30
|
USD 6,49
|
USD 3,89
|
USD 2,60
|
|
inf2.48xlarge
|
12
|
384
|
192
|
768
|
Somente EBS
|
Sim
|
100
|
60
|
USD 12,98
|
USD 7,79
|
USD 5,19
|
Depoimentos de clientes e parceiros
Aqui estão alguns exemplos de como clientes e parceiros alcançaram suas metas de negócios com as instâncias Inf2 do Amazon EC2.
Leonardo.ai
“Nossa equipe na Leonardo aproveita a IA generativa para permitir que profissionais criativos e entusiastas produzam ativos visuais com qualidade, velocidade e consistência de estilo incomparáveis. Quanto ao preço/desempenho do AWS Inf2, utilizando o AWS Inf2 conseguimos reduzir nossos custos em 80%, sem sacrificar o desempenho, alterando fundamentalmente o valor que podemos oferecer aos clientes, fazendo com que nossos atributos mais avançados ficassem com um preço mais acessível. Isso também alivia as preocupações com a disponibilidade de custo e capacidade para nossos serviços auxiliares de IA, que são cada vez mais importantes à medida que crescemos e escalamos. É uma tecnologia facilitadora fundamental para nós, à medida que continuamos a expandir os limites do que é possível com a IA generativa, permitindo uma nova era de criatividade e poder expressivo para nossos usuários. “
Pete Werner, chefe de IA, Leonardo.ai
Pista
“Na Runway, nosso conjunto de ferramentas mágicas de inteligência artificial permite que nossos usuários gerem e editem conteúdo como nunca antes. Estamos constantemente ultrapassando os limites do que é possível com a criação de conteúdo baseada em IA e, à medida que nossos modelos de IA se tornam mais complexos, os custos de infraestrutura subjacentes para executar esses modelos em grande escala podem se tornar altos. Por meio da nossa colaboração com as instâncias Inf2 do Amazon EC2 desenvolvidas pelo AWS Inferentia, podemos executar alguns de nossos modelos com throughput até duas vezes maior do que instâncias comparáveis baseadas em GPU. Essa inferência de alto desempenho e baixo custo nos permite introduzir mais recursos, implantar modelos mais complexos e, finalmente, oferecer uma experiência melhor para milhões de criadores que usam o Runway. “
Cristóbal Valenzuela, cofundador e CEO, Runway
Qualtrics
A Qualtrics projeta e desenvolve software de gerenciamento de experiências.
“Na Qualtrics, nosso foco é criar tecnologia que preencha as lacunas de experiência de clientes, funcionários, marcas e produtos. Para isso, estamos desenvolvendo modelos complexos de DL multimodal e multitarefa para lançar novos atributos, como classificação de texto, marcação de sequências, análise de discurso, extração de frases-chave, extração de tópicos, agrupamento e compreensão de conversas de ponta a ponta. À medida que utilizamos esses modelos mais complexos em mais aplicações, o volume de dados não estruturados aumenta e precisamos de mais soluções otimizadas para inferência de performance que possam atender a essas demandas, como as instâncias Inf2, para oferecer as melhores experiências aos nossos clientes. Estamos entusiasmados com as novas instâncias do Inf2 porque elas não só nos permitirão alcançar maiores taxas de transferência, ao mesmo tempo que reduzirão drasticamente a latência, mas também introduzirão recursos como inferência distribuída e suporte aprimorado à forma de entrada dinâmica, que nos ajudarão a escalar para atender às necessidades de implantação à medida que avançamos em direção a modelos grandes maiores e mais complexos. “
Aaron Colak, diretor de core machine learning, Qualtrics
Finch Computing
A Finch Computing é uma empresa de tecnologia de linguagem natural que fornece aplicações de inteligência artificial para clientes governamentais, de serviços financeiros e integradores de dados.
“Para atender às necessidades de processamento de linguagem natural em tempo real de nossos clientes, desenvolvemos modelos DL de última geração que se adaptam a grandes cargas de trabalho de produção. Precisamos fornecer transações de baixa latência e obter altas throughputs para processar feeds de dados globais. Já migramos muitas workloads de produção para instâncias Inf1 e obtivemos uma redução de 80% no custo em relação a GPUs. Agora, estamos desenvolvendo modelos maiores e mais complexos que promovem um significado mais profundo e esclarecedor do texto escrito. Muitos de nossos clientes precisam acessar esses insights em tempo real, e a performance das instâncias Inf2 nos ajudará a oferecer menor latência e maior throughput em relação às instâncias Inf1. Com as melhorias de desempenho do Inf2 e os novos recursos do Inf2, como suporte para tamanhos de entrada dinâmicos, estamos melhorando nossa eficiência de custos, elevando a experiência do cliente em tempo real e ajudando nossos clientes a obter novos insights de seus dados. “
Franz Weckesser, arquiteto chefe, Finch Computing
Money Forward Inc.
A Money Forward, Inc. presta serviços a empresas e indivíduos com uma plataforma financeira aberta e justa. Como parte dessa plataforma, a HiTTO Inc., empresa do grupo Money Forward, oferece um serviço de chatbot de IA, que usa modelos de processamento de linguagem natural (PLN) personalizados para abordar diversas necessidades dos seus clientes corporativos.
“Lançamos um serviço de chatbot de IA em grande escala nas instâncias Inf1 do Amazon EC2 e reduzimos nossa latência de inferência em 97% em relação a instâncias comparáveis baseadas em GPU, além de reduzir custos. Ficamos muito satisfeitos em ver mais melhorias na performance em nossos resultados de testes iniciais nas instâncias Inf2 do Amazon EC2. Usando o mesmo modelo personalizado de PLN, a Inf2 da AWS conseguiu reduzir em dez vezes a latência em relação à Inf1. À medida que avançamos para modelos maiores de vários bilhões de parâmetros, o Inf2 nos dá a confiança de que podemos continuar oferecendo aos nossos clientes uma experiência de usuário superior de ponta a ponta. “
Takuya Nakade, diretor de tecnologia, Money Forward Inc.
Arquivo lido
“Na Fileread.ai, estamos criando soluções para tornar a interação com seus documentos tão fácil quanto fazer perguntas, permitindo que os usuários encontrem o que procuram em todos os seus documentos e obtenham as informações certas com mais rapidez. Desde a mudança para a nova instância Inf2 do EC2, observamos uma melhoria significativa em nossos recursos de inferência de PLN. Só a economia de custos já foi um divisor de águas para nós, permitindo alocar recursos com mais eficiência sem sacrificar a qualidade. Reduzimos nossa latência de inferência em 33% e aumentamos a throughput em 50%, oferecendo aos nossos clientes entregas mais rápidas. Nossa equipe ficou impressionada com a velocidade e o desempenho do Inf2 em comparação com as instâncias G5 mais antigas, e está claro que esse é o futuro da implantação de modelos de PNL”
Daniel Hu, CEO, Fileread
Yaraku
“Em Yaraku, nossa missão é construir a infraestrutura que ajude as pessoas a se comunicarem através das barreiras linguísticas. Nosso principal produto, o YarakuZen, permite que qualquer pessoa, de tradutores profissionais a indivíduos monolíngues, traduza e edite textos e documentos com confiança. Para apoiar esse processo, oferecemos uma ampla variedade de ferramentas sofisticadas baseadas em modelos de DL, abrangendo tarefas como tradução, alinhamento de palavras em colunas, segmentação de frases, modelagem de linguagem e muitas outras. Usando as instâncias Inf1, conseguimos acelerar nossos serviços para atender à crescente demanda e, ao mesmo tempo, reduzir o custo de inferência em mais de 50% em comparação às instâncias baseadas em GPU. Agora estamos avançando para o desenvolvimento de modelos maiores de próxima geração que exigirão os recursos aprimorados das instâncias Inf2 para atender à demanda e, ao mesmo tempo, manter a baixa latência. Com o Inf2, poderemos ampliar nossos modelos em 10 vezes, mantendo uma produtividade semelhante, o que nos permite oferecer níveis ainda mais altos de qualidade aos nossos clientes. “
Giovanni Giacomo, líder de PLN, Yaraku
Hugging Face
“A missão da Hugging Face é democratizar o bom aprendizado de máquina para ajudar os desenvolvedores de aprendizado de máquina em todo o mundo a resolver problemas do mundo real. E a chave para isso é garantir que os melhores e mais recentes modelos funcionem da forma mais rápida e eficiente possível nos melhores chips de ML na nuvem. Estamos muito entusiasmados com o potencial da Inferentia2 de se tornar a nova forma padrão de implantar modelos de IA generativa em grande escala. Com o Inf1, observamos um custo até 70% menor do que as instâncias tradicionais baseadas em GPU e, com a Inf2, observamos uma latência até oito vezes menor para transformadores do tipo BERT em comparação com a Inferentia1. Com o Inferentia2, nossa comunidade poderá escalar facilmente esse desempenho para LLMs na escala de mais de 100 bilhões de parâmetros e também para os modelos mais recentes de difusão e visão computacional. “
PyTorch
“O PyTorch acelera o caminho da prototipagem de pesquisa às implantações de produção para desenvolvedores de ML. Colaboramos com a equipe da AWS para fornecer suporte nativo à PyTorch para as novas instâncias Inf2 do Amazon EC2 baseadas no AWS Inferentia2. À medida que mais membros da nossa comunidade buscam implantar grandes modelos de IA generativa, estamos entusiasmados com a parceria com a equipe da AWS para otimizar a inferência distribuída nas instâncias Inf2 com conectividade NeuronLink de alta velocidade entre chips. Com Inf2, os desenvolvedores que usam PyTorch agora podem implantar facilmente LLMs ultragrandes e modelos transformadores de visão. Além disso, as instâncias do Inf2 trazem outros recursos inovadores para os desenvolvedores do PyTorch, incluindo tipos de dados eficientes, formas dinâmicas, operadores personalizados e arredondamento estocástico otimizado por hardware, tornando-as adequadas para ampla adoção pela comunidade PyTorch. “
Nextira
“O desafio histórico dos LLMs e, mais amplamente, dos aplicativos de IA generativa de nível corporativo são os custos associados ao treinamento e à execução de modelos de DL de alto desempenho. Junto com o AWS Trainium, o AWS Inferentia2 remove as concessões financeiras que nossos clientes fazem quando precisam de treinamento de alta performance. Agora, nossos clientes que buscam vantagens em treinamento e inferência podem obter melhores resultados com menor custo. O Trainium e o Inferentia aceleram a escala para atender até mesmo aos requisitos de DL mais exigentes das maiores empresas da atualidade. Muitos clientes da Nextira que executam grandes cargas de trabalho de IA se beneficiarão diretamente com esses novos chipsets, aumentando a eficiência em economia de custos e desempenho e levando a resultados mais rápidos em seu mercado. “
Jason Cutrer, fundador e CEO, Nextira
Amazon CodeWhisperer
O Amazon CodeWhisperer é um complemento de codificação de IA que gera recomendações de código de linha única ou de função completa em tempo real no seu ambiente de desenvolvimento integrado (IDE) para ajudar você a criar software rapidamente.
“Com o CodeWhisperer, estamos melhorando a produtividade dos desenvolvedores de software fornecendo recomendações de código usando modelos generativos de IA. Para desenvolver recomendações de código altamente eficazes, escalamos nossa rede de DL para bilhões de parâmetros. Nossos clientes precisam de recomendações de código em tempo real enquanto digitam, portanto, respostas de baixa latência são essenciais. Os modelos de IA generativos de grande porte exigem computação de alta performance para fornecer tempos de resposta em uma fração de segundo. Com a Inf2, estamos oferecendo a mesma latência da execução do CodeWhisperer no treinamento de instâncias de GPU otimizadas para grandes sequências de entrada e saída. Assim, as instâncias do Inf2 estão nos ajudando a economizar custos e energia, ao mesmo tempo em que oferecem a melhor experiência possível para os desenvolvedores. “
Doug Seven, gerente geral, Amazon CodeWhisperer
Pesquisa na Amazon
O mecanismo de pesquisa de produtos da Amazon indexa bilhões de produtos, atende a bilhões de consultas de clientes diariamente e é um dos serviços mais usados no mundo.
“Estou muito empolgado com o lançamento do Inf2 GA. A performance superior da Inf2, juntamente com sua capacidade de lidar com modelos maiores com bilhões de parâmetros, a torna a escolha perfeita para nossos serviços e nos permite desbloquear novas possibilidades em termos de complexidade e precisão do modelo. Com a significativa aceleração e a eficiência de custos oferecidas pela Inf2, integrá-las à infraestrutura de atendimento do Amazon Search poderá nos ajudar a atender às crescentes demandas de nossos clientes. Estamos planejando potencializar nossas novas experiências de compra usando LLMs generativos usando o Inf2. “
Trishul Chilimbi, vice-presidente, Amazon Search
Conceitos básicos
Implemente modelos nas instâncias Inf2 mais facilmente usando o Amazon SageMaker e reduza significativamente os custos de implantação de modelos de ML e aumente a performance sem necessidade de gerenciar a infraestrutura. O SageMaker é um serviço totalmente gerenciado e se integra às ferramentas MLOps. Portanto, você pode escalar a implantação do seu modelo, gerenciar modelos com mais eficiência na produção e reduzir a carga operacional.
As AMIs de deep learning da AWS (DLAMI) disponibilizam para profissionais e pesquisadores de DL a infraestrutura e as ferramentas necessárias para acelerar o DL na nuvem em qualquer escala. Os drivers do AWS Neuron vêm pré-configurados na DLAMI para implantar seus modelos de DL de forma otimizada nas instâncias Inf2.
Agora você pode implantar instâncias Inf2 no Amazon Elastic Kubernetes Service (Amazon EKS), um serviço Kubernetes totalmente gerenciado, e no Amazon Elastic Container Service (Amazon ECS), um serviço de orquestração de contêineres totalmente gerenciado. O Neuron também está disponível pré-instalado nos contêineres de deep learning da AWS. Para saber mais sobre como executar contêineres nas instâncias Inf2, consulte os tutoriais de contêineres do Neuron.