Instâncias Inf1 do Amazon EC2

A inferência de machine learning de alta performance com o menor custo na nuvem

As empresas de um conjunto diversificado de setores estão recorrendo ao machine learning para lidar com casos de uso como fornecer recomendações personalizadas de compras, melhorar a moderação de conteúdo online e melhorar o engajamento do cliente com chatbots que reconhecem contexto. Todavia, à medida que os modelos de machine learning se tornam mais capazes, eles também se tornam mais complexos. Isso aumenta a necessidade de computação, o que leva a um aumento de custos. Em muitos casos, até 90% dos gastos com infraestrutura para desenvolver e executar uma aplicação de ML são com a inferência, tornando crítica a necessidade de uma infraestrutura de inferência de ML de alta performance e econômica.

As instâncias Inf1 do Amazon EC2 oferecem taxa de transferência até 30% mais alta e custo por inferência até 45% menor do que as instâncias G4 do Amazon EC2, que já eram a instância de menor custo para inferência de machine learning na nuvem. As instâncias Inf1 são criadas do zero para dar suporte a aplicações de inferência de machine learning. Essas instâncias contam com até 16 chips AWS Inferentia, chips de inferência de machine learning de alta performance projetados e desenvolvidos pela AWS. Além disso, as instâncias Inf1 incluem os mais recentes processadores Intel® Xeon® Scalable da segunda geração e redes de até 100 Gbps para habilitar inferência com alta taxa de transferência. Usando instâncias Inf1, os clientes podem executar aplicações de inferência de machine learning em grande escala, como recomendação de pesquisa, visão computacional, reconhecimento de fala, processamento de linguagem natural, personalização e detecção de fraude pelo menor custo na nuvem.

Os desenvolvedores podem implantar seus modelos de machine learning em instâncias Inf1 usando o SDK do AWS Neuron, que é integrado a estruturas de trabalho de machine learning como TensorFlow, PyTorch e MXNet. Ele consiste em um compilador, um ambiente de execução e ferramentas de criação de perfis para otimizar a performance de inferência no AWS Inferentia. A maneira mais rápida e fácil de começar a usar instâncias Inf1 é pelo Amazon SageMaker, um serviço totalmente gerenciado que permite que os desenvolvedores criem, treinem e implantem modelos de machine learning com rapidez. Os desenvolvedores que preferem gerenciar suas próprias plataformas de desenvolvimento de aplicações de machine learning podem começar executando instâncias Inf1 com AMIs do AWS Deep Learning, que incluem o SDK Neuron, ou usar instâncias Inf1 pelo Amazon Elastic Kubernetes Service (EKS) ou pelo Amazon Elastic Container Service (ECS) para aplicações de ML em contêineres.

SiteMerch-EC2-Instances_accelerated-trial_2up

Avaliação gratuita: até 10.000 USD em créditos da AWS para instâncias aceleradas por hardware do EC2, ideais para ML, HPC e aplicações gráficas.

Clique aqui para se inscrever 
Instâncias Inf1 do Amazon EC2 baseadas no AWS Inferentia (2:51)

Benefícios

Custo até 45% menor por inferência

A alta taxa de transferência de instâncias Inf1 permite o menor custo por inferência na nuvem, até 45% menor por inferência do que as instâncias G4 do Amazon EC2, que já eram as instâncias de menor custo para inferência de machine learning na nuvem. Com a inferência de machine learning representando até 90% dos custos operacionais gerais para a execução de cargas de trabalho de machine learning, isso resulta em uma economia significativa de custos.

Taxa de transferência até 30% maior

As instâncias Inf1 oferecem alta taxa de transferência para aplicações de inferência em lotes, taxa de transferência até 30% maior do que as instâncias G4 do Amazon EC2. As aplicações de inferência em lotes, como marcação de fotos, são sensíveis à taxa de transferência de inferência ou a quantas inferências podem ser processadas por segundo. As instâncias Inf1 são otimizadas para oferecer alta performance em lotes pequenos, o que é fundamental para aplicações que têm requisitos estritos de tempo de resposta. Com 1 a 16 chips AWS Inferentia por instância, as instâncias Inf1 podem ter uma performance de até 2.000 teraoperações por segundo (TOPS).

Latência extremamente baixa

As instâncias Inf1 oferecem latência baixa para aplicações em tempo real. Aplicações de inferência em tempo real, como geração de fala e pesquisa, precisam fazer inferências rapidamente em resposta à entrada de um usuário e são sensíveis à latência da inferência. A grande memória integrada contida nos chips AWS Inferentia usados nas instâncias Inf1 permite o armazenamento em cache dos modelos de machine learning diretamente no chip. Isso elimina a necessidade de acessar recursos de memória externa durante a inferência, permitindo baixa latência sem afetar a largura de banda.

Inferência de machine learning para uma grande variedade de casos de uso

Os desenvolvedores podem aproveitar a alta performance, a baixa latência e a inferência de baixo custo com instâncias Inf1 em uma ampla gama de aplicações de machine learning em diversos verticais de negócios, incluindo análise de imagem e vídeo, agentes conversacionais, detecção de fraude, previsão financeira, automação de assistência médica, mecanismos de recomendação, análise de texto e transcrição.

Facilidade de uso e portabilidade de código

Como o SDK Neuron é integrado a estruturas de trabalho de machine learning comuns como TensorFlow e PyTorch, os desenvolvedores podem implantar seus modelos existentes em instâncias Inf1 do EC2 com alterações mínimas no código. Isso lhes dá a liberdade de continuar a usar a estrutura de trabalho de ML de sua preferência, escolher a plataforma de computação que melhor atenda aos seus requisitos de relação preço-performance e aproveitar as tecnologias mais recentes sem ficar vinculado a bibliotecas de software específicas de algum fornecedor.

Suporte para diferentes modelos de machine learning e tipos de dados

Usando o AWS Neuron, as instâncias Inf1 oferecem suporte a muitos modelos de machine learning comumente usados, como o detector de disparo único (SSD) e o ResNet para reconhecimento/classificação de imagens, bem como Transformer e BERT para processamento e tradução de linguagem natural. Também há suporte para vários tipos de dados, incluindo INT8, BF16 e FP16 com precisão mista para uma ampla variedade de modelos e necessidades de performance.

Recursos

Desenvolvido pelo AWS Inferentia

O AWS Inferentia é um chip de machine learning projetado pela AWS para fornecer alta performance com economia. Cada chip AWS Inferentia fornece uma performance de até 128 TOPS (trilhões de operações por segundo) e suporte para os tipos de dados FP16, BF16 e INT8. Os chips AWS Inferentia apresentam uma grande memória interna que pode ser usada para armazenar grandes modelos em cache, o que é especialmente vantajoso para modelos que exigem acesso frequente à memória.

O kit de desenvolvimento de software (SDK) AWS Neuron consiste em um compilador, ambiente de execução e ferramentas de criação de perfil. Ele permite que modelos complexos de redes neurais, criados e treinados em estruturas de trabalho populares, como TensorFlow, PyTorch e MXNet, sejam executados usando instâncias Inf1. O AWS Neuron também oferece suporte à capacidade de dividir modelos grandes para execução em vários chips Inferentia usando uma interconexão entre chips físicos de alta velocidade, entregando um alta taxa de transferência de inferência e custos de inferência mais baixos.

Redes e armazenamento de alta performance

As instâncias Inf1 oferecem até 100 Gbps de taxa de transferência de rede para aplicações que requerem acesso a rede de alta velocidade. A tecnologia de última geração do Elastic Network Adapter (ENA) e do NVM Express (NVMe) proporciona instâncias Inf1 com alta taxa de transferência e interfaces de baixa latência para redes e para o Amazon Elastic Block Store (Amazon EBS).

Baseadas no AWS Nitro System

O AWS Nitro System é uma coleção sofisticada de blocos de criação que transferem muitas das funções tradicionais de virtualização para hardware e software dedicados para entregar altos níveis de performance, disponibilidade e segurança, além de reduzir a sobrecarga da virtualização.

Como funciona

Como usar Inf1 e o AWS Inferentia

Depoimentos de clientes

SkyWatch
"Incorporamos machine learning (ML) a vários aspectos do Snapchat, e explorar a inovação nesta área é uma prioridade importantíssima. Depois que conhecemos o Inferentia, começamos a colaborar com a AWS para adotar instâncias Inf1/Inferentia para nos ajudar com a implantação de ML, inclusive sobre performance e custo. Começamos com nossos modelos de recomendação e estamos ansiosos para adotar mais modelos com as instâncias Inf1 no futuro."

Nima Khajehnouri, vice-presidente de engenharia da Snap Inc.

Anthem
A Anthem é uma das empresas de prestação de serviços de saúde líderes do mercado, que atende às necessidades de mais de 40 milhões de associados do setor de saúde em vários estados americanos. “O mercado de plataformas de saúde digital está crescendo a um ritmo notável. A coleta de inteligência neste mercado é um desafio, devido ao grande volume de dados de opiniões dos clientes e à sua natureza não estruturada. A nossa aplicação automatiza a geração de insights práticos obtidos pelas opiniões dos clientes, por meio de modelos de linguagem natural de aprendizado profundo (Transformers). A aplicação tem um forte componente computacional e precisa ser implantada com alta performance. Implantamos facilmente nossa carga de trabalho de inferência do aprendizado profundo nas instâncias Inf1 do Amazon EC2, com a tecnologia do processador AWS Inferentia. As novas instâncias Inf1 oferecem uma taxa de transferência duas vezes maior para as instâncias baseadas em GPU, e nos permitem agilizar as cargas de trabalho da inferência.”

Numan Laanait, PhD, diretor e cientista de dados/IA, Miro Mihaylov, PhD, diretor e cientista de dados/IA

Anthem
"O Autodesk está aprimorando a tecnologia cognitiva do nosso assistente virtual com IA, o Autodesk Virtual Agent (AVA), com o uso do Inferentia. O AVA responde a mais de 100.000 perguntas de clientes por mês empregando técnicas de Natural Language Understanding (NLU – Compreensão da linguagem natural) e de aprendizado profundo para extrair o contexto, a finalidade e o significado das consultas. No projeto piloto do Inferentia, conseguimos alcançar transferências 4,9 vezes superiores em relação ao G4dn para nossos modelos de NLU, e não vemos a hora de executar mais cargas de trabalho nas instâncias Inf1 baseadas no Inferentia."

Binghui Ouyang, cientista de dados sênior da Autodesk

Condé Nast
“O portfólio global da Condé Nast abrange mais de 20 marcas líderes de mídia, incluindo Wired, Vogue e Vanity Fair. Em poucas semanas, nossa equipe conseguiu integrar nosso mecanismo de recomendação com os chips do AWS Inferentia. Essa união permite várias otimizações de tempo de execução para modelos de linguagem natural de última geração nas instâncias Inf1 do SageMaker. Como resultado, observamos uma redução de 72% no custo em relação às instâncias de GPU implantadas anteriormente.”

Paul Fryzel, engenheiro-chefe de infraestrutura de IA

Asahi Shimbun
“O Asahi Shimbun é um dos jornais diários mais populares do Japão. O Media Lab, um dos departamentos da nossa empresa, tem a missão de pesquisar as tecnologias mais recentes, especialmente de IA e conectar as tecnologias de ponta para novos negócios. Com o lançamento das instâncias do Amazon EC2 Inf1 baseadas no AWS Inferentia em Tóquio, testamos nossa aplicação de resumo de texto com base em PyTorch nessas instâncias. Essa aplicação processa uma grande quantidade de texto e gera manchetes e frases resumidas treinadas em artigos dos últimos 30 anos. Usando o Inferentia, reduzimos os custos em uma ordem de magnitude em relação às instâncias baseadas em CPU. Essa redução significativa nos custos nos permitirá implantar nossos modelos mais complexos em escala, que antes acreditávamos não ser economicamente viável.”

Hideaki Tamori, PhD, Administrador Sênior, Media Lab, The Asahi Shimbun Company

CS Disco
“A CS Disco está reinventando a tecnologia jurídica como fornecedora líder de soluções de IA para descoberta eletrônica, desenvolvidas por advogados para advogados. O Disco AI acelera a tarefa ingrata de vasculhar terabytes de dados, acelerando os tempos de revisão e melhorando a precisão da revisão ao alavancar modelos complexos de processamento de linguagem natural, que são computacionalmente caros e de custo proibitivo. A Disco descobriu que as instâncias Inf1 baseadas no AWS Inferentia reduzem o custo de inferência no Disco AI em pelo menos 35% em comparação com as instâncias da GPU de hoje. Com base nesta experiência positiva com as instâncias Inf1, a CS Disco explorará oportunidades de migração para o Inferentia.”

Alan Lockett, diretor sênior de pesquisa na CS Disco

Talroo
“Na Talroo, oferecemos aos nossos clientes uma plataforma baseada em dados que lhes permite atrair candidatos únicos, para que possam fazer contratações. Estamos constantemente explorando novas tecnologias para garantir que a empresa possa oferecer os melhores produtos e serviços aos seus clientes. Usando o Inferentia, extraímos percepções de um corpo de dados de texto para aprimorar nossa tecnologia de busca e correspondência baseada em IA. A Talroo aproveita as instâncias do Amazon EC2 Inf1 para criar modelos de compreensão de linguagem natural de alto rendimento com o SageMaker. O teste inicial do Talroo mostra que as instâncias do Amazon EC2 Inf1 oferecem latência de inferência 40% menor e taxa de transferência 2X maior em comparação às instâncias baseadas em GPU G4dn. Com base nesses resultados, a Talroo espera usar instâncias do Amazon EC2 Inf1 como parte de sua infraestrutura da AWS.”

Janet Hu, Engenheiro de software, Talroo

Digital Media Professionals (DMP)
A Digital Media Professionals (DMP) visualiza o futuro com uma plataforma ZIA baseada em inteligência artificial (IA). As tecnologias de classificação eficientes para a visão computacional da DMP são usadas para criar insights sobre os grandes volumes de dados de imagem em tempo real, como observação de condições, prevenção de crimes e de acidentes. “Estamos avaliando ativamente as instâncias Inf1 em relação às opções alternativas, pois acreditamos que a Inferentia nos concederá a performance e a estrutura de custos que precisamos para implantar as aplicações de IA em escala.” 

Hiroyuki Umeda - Diretor e gerente geral, Grupo de marketing e vendas, Digital Media Professionals

Hotpot.ai
A Hotpot.ai capacita profissionais fora da área de design para criar gráficos atraentes, e ajuda os designers profissionais a automatizar as tarefas mecânicas. “Como o machine learning é o centro da nossa estratégia, estamos muito interessados em experimentar as instâncias Inf1 baseadas no AWS Inferentia. Consideramos as instâncias Inf1 fáceis de integrar à nossa pipeline de pesquisa e desenvolvimento. O mais importante é que observamos ganhos de performance impressionantes, comparado às instâncias baseadas no G4dn GPU. Com o nosso primeiro modelo, as instâncias Inf1 renderam aproximadamente 45% a mais de taxa de transferência e reduziram em quase 50% os custos por inferência. Pretendemos trabalhar junto à equipe da AWS para implementar outros modelos e transferir a maioria da nossa infraestrutura de inferências de ML para o AWS Inferentia.”

Clarence Hu, fundador da Hotpot.ai

INGA
“A missão da INGA é criar soluções avançadas de resumo de texto baseadas em tecnologias de inteligência artificial e aprendizado profundo que podem ser facilmente integradas nos pipelines de negócios atuais. Acreditamos que o resumo de texto será crítico para ajudar as empresas a derivar insights significativos dos dados. Rapidamente intensificamos o uso de instâncias Inf1 do Amazon EC2 baseadas no AWS Inferentia e as integramos em nosso pipeline de desenvolvimento. O impacto foi imediato e significativo. As instâncias Inf1 oferecem alta performance, o que nos permite aumentar a eficiência e a eficácia de nossos pipelines de modelo de inferência. De forma imediata, experimentamos uma taxa de transferência 4 vezes maior e custos gerais de pipeline 30% menores em comparação com nosso pipeline baseado em GPU anterior."

Yaroslav Shakula, Diretor de Desenvolvimento de Negócios, INGA Technologies

SkyWatch
"A SkyWatch processa centenas de trilhões de pixels de dados de observação da Terra, capturados no espaço todos os dias. A adoção das novas instâncias Inf1 baseadas no AWS Inferentia com o uso do Amazon SageMaker para classificação de qualidade de imagem e detecção na nuvem em tempo real foi rápida e fácil. Foi tudo uma questão de trocar o tipo de instância em nossa configuração de implantação. Trocando os tipos de instância para Inf1 baseada no Inferentia, melhoramos a performance em 40% e reduzimos os custos gerais em 23%. Este foi um grande ganho. Ele nos permitiu reduzir nossos custos operacionais gerais, continuando ao mesmo tempo a oferecer aos nossos clientes uma geração de imagens por satélite de alta qualidade com o mínimo de sobrecarga de engenharia. Esperamos fazer a transição de todos os nossos endpoints de inferência e processos de ML em lotes para o uso de instâncias Inf1, a fim de aprimorar ainda mais a confiabilidade dos nossos dados e a experiência do cliente."

Adler Santos, gerente de engenharia, SkyWatch

Serviços da Amazon Instâncias que usam instâncias Inf1 do Amazon EC2

Amazon Alexa

Mais de 100 milhões de dispositivos Alexa foram vendidos em todo o mundo, e os clientes também fizeram mais de 400.000 análises com 5 estrelas para dispositivos Echo na Amazon. “A IA e a inteligência baseada em ML do Amazon Alexa, desenvolvidos com a tecnologia Amazon Web Services, estão disponíveis hoje em mais de 100 milhões de dispositivos – e nossa promessa para os clientes é que o Alexa está sempre ficando cada vez mais inteligente, mais conversacional, mais proativo e até mesmo mais prazeroso”, afirmou Tom Taylor, Vice-presidente Sênior, Amazon Alexa. “O cumprimento dessa promessa requer aperfeiçoamentos contínuos nos tempos de resposta e nos custos de infraestrutura de machine learning, que é a razão pela qual estamos muito satisfeitos com o uso de instâncias Inf1 do Amazon EC2 para reduzir a latência de inferência e o custo por inferência no recurso de conversão de texto em áudio do Alexa. Com as instâncias Inf1 do Amazon EC2, poderemos melhorar o serviço ainda mais para as dezenas de milhões de clientes que usam o Alexa a cada mês.”

Amazon Alexa
"O Amazon Rekognition é uma aplicação descomplicada de análise de vídeo e imagem que ajuda o cliente a identificar objetos, pessoas, texto e atividades. O Amazon Rekognition precisa de uma infraestrutura de aprendizado profundo de alta performance que seja capaz de analisar bilhões de imagens e vídeos diariamente para os nossos clientes. Com as instâncias Inf1 baseadas no AWS Inferentia, executar modelos do Rekognition, como classificação de objetos, resultou em latência oito vezes menor e taxa de transferência duas vezes maior em comparação com a execução desses modelos em GPUs. Com base nesses resultados, estamos migrando o Rekognition para Inf1, permitindo que nossos clientes recebam resultados precisos com mais rapidez."
 
Rajneesh Singh, diretor de engenharia de software do Rekognition e Video

Definição de preço

*Os preços mostrados são para a região Leste dos EUA (Norte da Virgínia) da AWS. Os preços das instâncias reservadas para 1 e 3 anos são para as opções de pagamento “pagamento adiantado parcial” ou para as opções de pagamento "sem pagamento adiantado" de instâncias que não têm a opção “adiantado parcial”.

As instâncias Inf1 do Amazon EC2 estão disponíveis nas regiões da AWS Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon) como instâncias sob demanda, reservadas ou spot.

Conceitos básicos

Usando o Amazon SageMaker

O Amazon SageMaker facilita a compilação e implantação de seu modelo de machine learning treinado na produção em instâncias Inf1 da Amazon para que você possa começar a gerar previsões em tempo real com baixa latência. O AWS Neuron, o compilador do AWS Inferentia, é integrado ao Amazon SageMaker Neo, permitindo que você compile seus modelos de machine learning treinados para serem executados em instâncias Inf1 de maneira ideal. Com o Amazon SageMaker, você pode executar com facilidade seus modelos em clusters de escalabilidade automática de instâncias Inf1, distribuídos em várias zonas de disponibilidade, para entregar inferência em tempo real de alta performance e alta disponibilidade. Saiba como implantar no Inf1 usando o Amazon SageMaker com exemplos do no Github.

Usando a AMI do AWS Deep Learning

As AMIs do AWS Deep Learning (DLAMI) disponibilizam a profissionais e pesquisadores de machine learning a infraestrutura e as ferramentas necessárias para acelerar o aprendizado profundo na nuvem em qualquer escala. O SDK AWS Neuron vem pré-instalado nas AMIs do AWS Deep Learning para compilar e executar seus modelos de machine learning de forma ideal nas instâncias Inf1. Para obter orientações sobre como começar a usar, acesse oguia de seleção de AMIs e mais recursos de aprendizado profundo. Consulte o guia de Conceitos Básicos da DLAMI da AWS para aprender a usar a DLAMI com o Neuron.

Contêineres do AWS Deep Learning

Os desenvolvedores agora podem implantar instâncias Inf1 no Amazon Elastic Kubernetes Service (EKS), que é um serviço Kubernetes totalmente gerenciado, bem como no Amazon Elastic Container Service (ECS), que é um serviço de orquestração de contêineres totalmente gerenciado da Amazon. Saiba mais neste blog sobre como começar a usar as instâncias Inf1 no Amazon EKS. Mais detalhes sobre a execução de contêineres em instâncias Inf1 estão disponíveis na página do tutorial de ferramentas de contêiner do Neuron. O suporte a instâncias Inf1 no AWS DL Containers estará disponível em breve.