AWS Inferentia
Os aceleradores do AWS Inferentia foram projetados pela AWS para gerar alta performance ao menor custo para suas aplicações de inferência de aprendizado profundo (DL).
O acelerador do AWS Inferentia da primeira geração impulsiona as instâncias Inf1 do Amazon Elastic Compute Cloud (Amazon EC2), que entregam um throughput até 2,3 vezes maior e um custo por inferência até 70% menor em comparação com instâncias do Amazon EC2. Muitos clientes, incluindo Airnb, Snap, Sprinklr, Money Forward e Amazon Alexa, adotaram as instâncias Inf1 e obtiveram seus benefícios de performance e custo.
O acelerador do AWS Inferentia2 gera um salto importante em performance e recursos em relação ao AWS Inferentia da primeira geração. O Inferentia2 oferece throughput até 4x maior e latência até 10x menor em comparação com o Inferentia. As instâncias Inf2 do Amazon EC2 baseadas em Inferentia2 são projetadas para oferecer alto desempenho com o menor custo no Amazon EC2 para sua inferência de DL e aplicações de inteligência artificial generativa. Elas são otimizadas para implantar modelos cada vez mais complexos, como grande modelo de linguagem (LLM) e transformadores de visão, em escala. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a oferecer suporte à inferência distribuída do aumento horizontal da escala com conectividade de altíssima velocidade entre os aceleradores. Agora você pode implantar modelos de forma eficiente e econômica com centenas de bilhões de parâmetros em vários aceleradores nas instâncias Inf2.
O AWS Neuron é o SDK que ajuda os desenvolvedores a implantar modelos nos dois aceleradores AWS Inferentia e executar suas aplicações de inferência para compreensão processamento de linguagem natural (PLN), tradução de idiomas, resumo de texto, geração de vídeo e imagem, reconhecimento de fala, personalização, detecção de fraudes e muito mais. Ele se integra nativamente a frameworks bem conhecidos de machine learning (ML), como PyTorch e TensorFlow, de modo que você pode continuar a usar seus fluxos de trabalho e código existentes e executar aceleradores do Inferentia.
Benefícios
High performance e throughput
Cada acelerador de primeira geração do Inferentia tem quatro NeuronCores de primeira geração com até 16 aceleradores do Inferentia por instância Inf1 do EC2. Cada acelerador do Inferentia2 tem dois NeuronCores de segunda geração com até 12 aceleradores Inferentia2 por instância Inf2 do EC2. O Inferentia2 oferece throughput até 4 vezes maior e performance de computação 3 vezes maior que o Inferentia. Cada acelerador do Inferentia2 comporta até 190 trilhões de operações flutuantes por segundo (TFLOPS) de performance FP16.
Baixa latência com memória de alta largura de banda
O Inferentia da primeira geração tem 8 GB de memória DDR4 por acelerador e também apresenta uma grande quantidade de memória no chip. O Inferentia2 oferece 32 GB de memória de alta largura de banda (HBM) por acelerador, o que aumenta a memória total em quatro vezes e a largura de banda da memória em dez vezes em relação ao Inferentia.
Suporte nativo para frameworks de ML
O AWS Neuron SDK se integra nativamente a frameworks de ML bem conhecidos, como PyTorch e TensorFlow. Com o AWS Neuron, é possível usar esses frameworks para implantar modelos de DL de maneira otimizada em aceleradores AWS Inferentia com alterações mínimas no código e sem vinculação a soluções específicas do fornecedor.
Ampla gama de tipos de dados com seleção automática
O Inferentia da primeira geração oferece suporte aos tipos de dados FP16, BF16 e INT8. O Inferentia2 acrescenta suporte para os tipos de dados FP32, TF32 e o novo FP8 configurável (cFP8) para oferecer aos desenvolvedores mais flexibilidade para otimizar a performance e a precisão. O AWS Neuron seleciona automaticamente os modelos FP32 de alta precisão para tipos de dados com precisão mais baixa, ao mesmo tempo que otimiza a precisão e a performance. A seleção automática reduz o tempo de entrada no mercado removendo a necessidade de retreinamento de precisão mais baixa.
Recursos de DL de última geração
O Inferentia2 acrescenta otimizações de hardware para tamanhos de entrada dinâmicos e operadores personalizados escritos em C++. Também comporta arredondamento estocástico, uma maneira de arredondar de forma probabilística que permite alta performance e precisão mais elevada em comparação com os modos de arredondamento herdados.
Criadas para sustentabilidade
As instâncias Inf2 oferecem performance/watt até 50% melhor em comparação com as instâncias do Amazon EC2, pois elas e os aceleradores Inferentia2 subjacentes são criados especificamente para executar modelos de DL em grande escala. As instâncias Inf2 ajudam você a atingir suas metas de sustentabilidade ao implantar modelos muito grandes.
SDK do AWS Neuron
O AWS Neuron é o SDK que ajuda os desenvolvedores a implantar modelos nos aceleradores do AWS Inferentia e treiná-los no acelerador do AWS Trainium. Ele se integra nativamente a frameworks bem conhecidos de ML, como PyTorch e TensorFlow, de modo que você pode continuar a usar seus fluxos de trabalho existentes e executar aceleradores do Inferentia com apenas algumas linhas de código.
AWS Trainium
O AWS Trainium é um acelerador de treinamento de DL projetado pela AWS que fornece treinamento de DL de alta performance e ótimo custo/benefício na AWS. As instâncias Trn1 do Amazon EC2, com a tecnologia AWS Trainium, oferecem a melhor performance no treinamento de DL de modelos muito usados de PLN na AWS. As instâncias Trn1 oferecem até 50% de redução do custo de treinamento em comparação com as instâncias do Amazon EC2.
Depoimentos de clientes

A Qualtrics projeta e desenvolve software de gerenciamento de experiências.
“Na Qualtrics, nosso foco é criar tecnologia que preencha lacunas de experiência para clientes, funcionários, marcas e produtos. Para isso, estamos desenvolvendo modelos complexos de DL multimodal e multitarefa para lançar novos atributos, como classificação de texto, marcação de sequências, análise de discurso, extração de frases-chave, extração de tópicos, agrupamento e compreensão de conversas de ponta a ponta. À medida que utilizamos esses modelos mais complexos em mais aplicações, o volume de dados não estruturados aumenta e precisamos de mais soluções otimizadas para inferência de performance que possam atender a essas demandas, como as instâncias Inf2, para oferecer as melhores experiências aos nossos clientes. Estamos entusiasmados com as novas instâncias Inf2, pois elas não só nos permitirão alcançar maiores throughputs, ao mesmo tempo que reduzirão drasticamente a latência, mas também introduzirão atributos como inferência distribuída e suporte aprimorado ao formato de entrada dinâmico, que nos ajudarão a escalar para atender às necessidades de implantação à medida que avançamos para modelos grandes e mais complexos.”
Aaron Colak, diretor de machine learning principal da Qualtrics

A Finch Computing é uma empresa de tecnologia de linguagem natural que fornece aplicações de inteligência artificial para clientes governamentais, de serviços financeiros e integradores de dados.
“Para atender às necessidades de PLN em tempo real dos nossos clientes, desenvolvemos modelos de DL de última geração que se adaptam a grandes workloads de produção. Precisamos fornecer transações de baixa latência e obter altas throughputs para processar feeds de dados globais. Já migramos muitas workloads de produção para instâncias Inf1 e obtivemos uma redução de 80% no custo em relação a GPUs. Agora, estamos desenvolvendo modelos maiores e mais complexos que promovem um significado mais profundo e esclarecedor do texto escrito. Muitos de nossos clientes precisam acessar esses insights em tempo real, e a performance das instâncias Inf2 nos ajudará a oferecer menor latência e maior throughput em relação às instâncias Inf1. Com as melhorias de performance e os novos atributos da Inf2, como suporte para tamanhos dinâmicos de entrada, estamos melhorando o custo-benefício, elevando a experiência do cliente em tempo real e ajudando nossos clientes a obter novos insights de seus dados.”
Franz Weckesser, arquiteto chefe da Finch Computing

“Alertamos sobre vários tipos de eventos em todo o mundo em vários idiomas, em diferentes formatos (imagens, vídeo, áudio, sensores de texto, combinações de todos esses tipos) de centenas de milhares de fontes. Otimizar a velocidade e o custo, considerando essa escala, é absolutamente essencial para nossos negócios. Com o AWS Inferentia, reduzimos a latência do modelo e alcançamos um throughput até nove vezes melhor por dólar. Isso nos permitiu aumentar a precisão do modelo e aumentar os recursos de nossa plataforma implantando modelos de DL mais sofisticados e processando 5 vezes mais volume de dados, mantendo nossos custos sob controle.”
Alex Jaimes, cientista-chefe e vice-presidente sênior de IA da Dataminr

Fundada em 2008, a Airbnb, com sede em São Francisco, é um mercado comunitário com mais de quatro milhões de hosts que já receberam mais de 900 milhões de visitantes em quase todos os países do mundo.
“A plataforma de suporte à comunidade da Airbnb permite experiências de serviço inteligentes, escaláveis e excepcionais para nossa comunidade de milhões de hóspedes e hosts em todo o mundo. Estamos constantemente procurando maneiras de melhorar a performance de nossos modelos de PLN que nossas aplicações de chatbot de suporte usam. Com as instâncias Inf1 do Amazon EC2 equipadas com o AWS Inferentia, notamos uma melhoria duas vezes maior no throughput disponível em relação às instâncias baseadas em GPU para nossos modelos BERT baseados em PyTorch. Esperamos utilizar as instâncias Inf1 para outros modelos e casos de uso no futuro.”
Bo Zeng, gerente de engenharia, Airbnb

“Incorporamos ML a vários aspectos do Snapchat, e explorar a inovação nesta área é uma prioridade importantíssima. Depois que conhecemos o Inferentia, começamos a colaborar com a AWS para adotar instâncias Inf1/Inferentia para nos ajudar com a implantação de ML, inclusive sobre performance e custo. Começamos com nossos modelos de recomendação e estamos ansiosos para adotar mais modelos com as instâncias Inf1 no futuro.”
Nima Khajehnouri, vice-presidente de engenharia da Snap Inc.

"A plataforma Unified Customer Experience Management orientada por IA da Sprinklr (Unified-CXM) permite que as empresas coletem e traduzam o feedback do cliente em tempo real por meio de vários canais em insights acionáveis. Isso resulta em resolução proativa de problemas, aperfeiçoamento do desenvolvimento de produtos, aprimoramento do marketing de conteúdo, melhor atendimento ao cliente e muito mais. Com a instância Inf1 do Amazon EC2, conseguimos melhorar significativamente a performance de um de nossos modelos de PLN e melhorar a performance de um de nossos modelos de visão computacional. Estamos ansiosos para continuar usando a instância Inf1 do Amazon EC2 para melhor atender nossos clientes globais.”
Vasant Srinivasan, VP sênior de engenharia de produto, Sprinklr

“O Autodesk está aprimorando a tecnologia cognitiva do nosso assistente virtual baseado em IA, o Autodesk Virtual Agent (AVA), com o uso do Inferentia. O AVA responde a mais de 100.000 perguntas de clientes por mês empregando técnicas de Natural Language Understanding (NLU – Compreensão da linguagem natural) e de DL para extrair o contexto, a finalidade e o significado das consultas. No projeto piloto do Inferentia, conseguimos alcançar throughputs 4,9 vezes superiores em relação ao G4dn para nossos modelos de NLU, e não vemos a hora de executar mais workloads nas instâncias Inf1 baseadas no Inferentia.”
Binghui Ouyang, Cientista de dados sênior, Autodesk
Serviços da Amazon que usam o AWS Inferentia

O Amazon Advertising ajuda negócios de todos os tamanhos a se conectarem com seus clientes em todos os estágios da jornada de compra. Milhões de anúncios, incluindo texto e imagens, são moderados, classificados e oferecidos para uma experiência ideal do cliente diariamente.
“Para nosso processamento de anúncios em texto, implantamos modelos BERT baseados em PyTorch globalmente no AWS Inferentia baseado em instâncias Inf1. Ao mover dos GPUs para o Inferentia conseguimos reduzir nosso custo em 69% com performance comparável. Levamos menos de três semanas para compilar e testar nossos modelos para o AWS Inferentia. Ao usar o Amazon SageMaker para implantar nossos modelos para instâncias Inf1 garantimos que nossa implantação fosse escalável e fácil de gerenciar. Quando analisei pela primeira vez os modelos compilados, a performance com o AWS Inferentia foi tão impressionante que não precisei de executar novamente as avaliações para assegurar que estavam corretos! Daqui para frente, planejamos migrar nossos modelos de processamento de anúncios em imagem para o Inferentia. Já avaliamos e observamos uma latência 30% menor e uma economia de custo de 71% em relação a instâncias comparáveis baseadas em GPU para esses modelos.”
Yashal Kanungo, cientista aplicada, Amazon Advertising
Leia o blog de notícias »

“A IA e a inteligência baseada em ML do Amazon Alexa, desenvolvidas com a tecnologia AWS, estão disponíveis hoje em mais de 100 milhões de dispositivos, e nossa promessa para os clientes é que a Alexa ficará cada vez mais inteligente, mais conversacional, mais proativa e até mesmo mais prazerosa. O cumprimento dessa promessa requer aperfeiçoamentos contínuos nos tempos de resposta e nos custos de infraestrutura de ML, que é a razão pela qual estamos muito satisfeitos com o uso de instâncias Inf1 do Amazon EC2 para reduzir a latência de inferência e o custo por inferência no recurso de conversão de texto em fala da Alexa. Com as instâncias Inf1 do Amazon EC2, poderemos melhorar o serviço ainda mais para as dezenas de milhões de clientes que usam a Alexa todos os meses.”
Tom Taylor, vice-presidente sênior, Amazon Alexa
“Estamos inovando constantemente para aperfeiçoar nossa experiência do cliente e reduzir nossos custos de infraestrutura. Mudar nossas workloads de perguntas e respostas baseadas na Web (WBQA) de instâncias P3 baseadas em GPU para instâncias Inf1 baseadas no AWS Inferentia não só nos ajudou a reduzir custos de inferência em 60%, como também melhorou a latência ponta a ponta em mais de 40%, ajudando a melhorar a experiência de perguntas e respostas do cliente com a Alexa. Usar o Amazon SageMaker para nosso modelo baseado em TensorFlow tornou o processo de troca para instâncias Inf1 simples e fácil de gerenciar. Agora estamos usando instâncias Inf1 globalmente para executar essas workloads de WBQA, além de otimizar a performance dessas instâncias no AWS Inferentia para reduzir ainda mais o custo e a latência.”
Eric Lind, engenheiro de desenvolvimento de software, Alexa AI

“O Amazon Prime Video usa modelos de ML de visão computacional para analisar a qualidade dos vídeos de eventos ao vivo, a fim de garantir uma ótima experiência aos expectadores membros do Prime Video. Implantamos nossos modelos de ML para a classificação de imagens nas instâncias Inf1 do EC2 e a performance melhorou 4 vezes mais, além de observarmos uma redução de até 40% dos custos. Estamos tentando usar essas economias para inovar e criar modelos avançados, que possam detectar defeitos mais complexos, como intervalos de sincronização entre arquivos de áudio e vídeo para promover uma experiência de visualização aprimorada para os membros do Prime Video.”
Victor Antonino, Arquiteto de soluções da Amazon Prime Video

"O Amazon Rekognition é uma aplicação descomplicada de análise de vídeo e imagem que ajuda os clientes a identificar objetos, pessoas, texto e atividades. O Amazon Rekognition precisa de uma infraestrutura de DL de alta performance que seja capaz de analisar bilhões de imagens e vídeos diariamente para os nossos clientes. Com as instâncias Inf1 baseadas no AWS Inferentia, executar modelos do Amazon Rekognition, como classificação de objetos, resultou em latência oito vezes menor e throughput duas vezes maior em comparação com a execução desses modelos em GPUs. Com base nesses resultados, estamos migrando o Amazon Rekognition para Inf1, permitindo que nossos clientes recebam resultados precisos com mais rapidez.”
Rajneesh Singh, diretor de engenharia de software do Amazon Rekognition e Video
Blogs e artigos
Patrick Moorhead, 13 de maio de 2020
James Hamilton, 28 de novembro de 2018
Vídeos

Obtenha acesso instantâneo ao nível gratuito da AWS.