AWS Inferentia

Obtenha alta performance com o menor custo no Amazon EC2 para inferência de aprendizado profundo e IA generativa

Por que o AWS Inferentia?

Os aceleradores AWS Inferentia são projetados pela AWS para oferecer alta performance com o menor custo no Amazon EC2 para suas aplicações de aprendizado profundo (DL) e inferência de IA generativa. 

O acelerador do AWS Inferentia de primeira geração impulsiona as instâncias Inf1 do Amazon Elastic Compute Cloud (Amazon EC2), que fornecem um throughput até 2,3 vezes maior e um custo por inferência até 70% menor em comparação com as instâncias do Amazon EC2. Muitos clientes, incluindo Airnb, Snap, Sprinklr, Money Forward e Amazon Alexa, adotaram as instâncias Inf1 e obtiveram seus benefícios de performance e custo.

O acelerador AWS Inferentia2 oferece throughput até 4 vezes maior e latência até 10 vezes menor em comparação com o Inferentia. As instâncias do Amazon EC2 Inf2 baseadas em Inferentia2 são otimizadas para implantar modelos cada vez mais complexos, como grandes modelos de linguagem (LLM) e modelos de difusão latente, em grande escala. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a oferecer suporte para inferência distribuída em escala horizontal com conectividade de velocidade ultra-alta entre os aceleradores. Muitos clientes, incluindo Leonardo.ai, Deutsche Telekom e Qualtrics, adotaram instâncias Inf2 para suas aplicações de DL e IA generativa. 

O SDK do AWS Neuron ajuda os desenvolvedores a implantar modelos nos aceleradores do AWS Inferentia e a treiná-los nos aceleradores do AWS Trainium. Ele se integra nativamente a frameworks bem conhecidos, como PyTorch e TensorFlow, de modo que você pode continuar a usar seus fluxos de trabalho e código existentes e executar aceleradores do Inferentia.

Benefícios do Inferentia

Cada acelerador de primeira geração do Inferentia tem quatro NeuronCores de primeira geração com até 16 aceleradores do Inferentia por instância Inf1 do EC2. Cada acelerador do Inferentia2 tem dois NeuronCores de segunda geração com até 12 aceleradores Inferentia2 por instância Inf2 do EC2. Cada acelerador do Inferentia2 comporta até 190 trilhões de operações flutuantes por segundo (TFLOPS) de performance FP16. O Inferentia da primeira geração tem 8 GB de memória DDR4 por acelerador e também apresenta uma grande quantidade de memória no chip. O Inferentia2 oferece 32 GB de memória de alta largura de banda (HBM) por acelerador, o que aumenta a memória total em quatro vezes e a largura de banda da memória em dez vezes em relação ao Inferentia.
O AWS Neuron SDK se integra nativamente a frameworks de ML bem conhecidos, como PyTorch e TensorFlow. Com o AWS Neuron, você pode usar essas estruturas para implantar de forma ideal modelos de DL nos aceleradores AWS Inferentia, e o Neuron foi projetado para minimizar as alterações de código e a integração com soluções específicas do fornecedor. O Neuron ajuda você a executar suas aplicações de inferência para compreensão/processamento de linguagem natural (PLN), tradução de idiomas, resumo de texto, geração de vídeo e imagem, reconhecimento de fala, personalização, detecção de fraudes e muito mais em aceleradores de inferência.
O Inferentia da primeira geração oferece suporte aos tipos de dados FP16, BF16 e INT8. O Inferentia2 acrescenta suporte para os tipos de dados FP32, TF32 e o novo FP8 configurável (cFP8) para oferecer aos desenvolvedores mais flexibilidade para otimizar a performance e a precisão. O AWS Neuron seleciona automaticamente os modelos FP32 de alta precisão para tipos de dados com precisão mais baixa, ao mesmo tempo que otimiza a precisão e a performance. A seleção automática reduz o tempo de entrada no mercado removendo a necessidade de retreinamento de precisão mais baixa.
O Inferentia2 acrescenta otimizações de hardware para tamanhos de entrada dinâmicos e operadores personalizados escritos em C++. Também comporta arredondamento estocástico, uma maneira de arredondar de forma probabilística que permite alta performance e precisão mais elevada em comparação com os modos de arredondamento herdados.
As instâncias Inf2 oferecem performance/watt até 50% melhor em comparação com as instâncias do Amazon EC2, pois elas e os aceleradores Inferentia2 subjacentes são criados especificamente para executar modelos de DL em grande escala. As instâncias Inf2 ajudam você a atingir suas metas de sustentabilidade ao implantar modelos muito grandes.

Vídeos

Veja os bastidores da infraestrutura de IA generativa na Amazon
Apresentando as instâncias Inf2 do Amazon EC2 com tecnologia AWS Inferentia2
Como quatro clientes da AWS reduziram os custos de ML e impulsionaram a inovação com o AWS Inferentia