Instâncias Inf1 do Amazon EC2

A inferência de machine learning de alta performance com o menor custo na nuvem

As instâncias Inf1 do Amazon EC2 oferecem alta performance e a menor inferência de machine learning na nuvem. As instâncias Inf1 são criadas do zero para dar suporte a aplicativos de inferência de machine learning. As instâncias contam com até 16 chips AWS Inferentia, chips de machine learning de alta performance projetados e desenvolvidos pela AWS. Além disso, combinamos os chips Inferentia com os mais recentes processadores Intel® Xeon® Scalable de segunda geração personalizados e redes de até 100 Gbps para habilitar inferência com alto throughput. Essa configuração poderosa permite que as instâncias Inf1 ofereçam throughput até três vezes mais alto e custo por inferência até 40% menor do que as instâncias G4 do Amazon EC2, que já eram a instância de menor custo para inferência de machine learning disponível na nuvem. Usando instâncias Inf1, os clientes podem executar aplicativos de inferência de machine learning em grande escala, como reconhecimento de imagem, reconhecimento de fala, processamento de linguagem natural, personalização e detecção de fraude pelo menor custo na nuvem.

Os clientes de um conjunto diversificado de setores estão recorrendo ao machine learning para lidar com casos de uso comuns de aplicativos, como fornecer recomendações personalizadas de compras, aumentar a segurança por meio da moderação de conteúdo online e melhorar o engajamento do cliente com chatbots. Os clientes querem mais performance para seus aplicativos de machine learning para oferecer a melhor experiência possível ao usuário final.

Para começar a usar a inferência de machine learning com as instâncias Inf1, é possível compilar seu modelo de machine learning treinado para que ele execute no chip AWS Inferentia usando o AWS Neuron. O AWS Neuron é um kit de desenvolvimento de software (SDK) que consiste em um compilador, ferramentas de tempo de execução e criação de perfil que otimizam a performance de inferência de machine learning dos chips Inferentia. Ele é integrado com estruturas populares de machine learning, como TensorFlow, PyTorch e MXNet, e vem pré-instalado nas AMIs do AWS Deep Learning, além de poder ser instalado no ambiente personalizado sem estrutura. A maneira mais rápida e fácil de começar a usar instâncias Inf1 é pelo Amazon SageMaker, um serviço totalmente gerenciado que permite que os desenvolvedores criem, treinem e implantem modelos de machine learning com rapidez. O Amazon SageMaker oferece suporte a instâncias Inf1 e ao AWS Neuron para permitir a implantação de modelos de machine learning em instâncias Inf1 de Auto Scaling com um único clique em várias zonas de disponibilidade para alta redundância.

SiteMerch-EC2-Instances_accelerated-trial_2up

Avaliação gratuita: até 10.000 USD em créditos da AWS para instâncias aceleradas por hardware do EC2, ideais para ML, HPC e aplicativos gráficos.

Clique aqui para se inscrever 
Instâncias Inf1 do Amazon EC2 baseadas no AWS Inferentia (2:51)

Benefícios

Custo até 40% menor por inferência

O alto throughput de instâncias Inf1 permite o menor custo por inferência na nuvem, até 40% menor por inferência do que as instâncias G4 do Amazon EC2, que já eram a instância de menor custo para inferência de machine learning disponível na nuvem. Com a inferência de machine learning representando até 90% dos custos operacionais gerais para a execução de cargas de trabalho de machine learning, isso resulta em uma economia significativa de custos.

Throughput até três vezes mais alto

As instâncias Inf1 oferecem alto throughput para aplicativos de inferência em lotes, throughput até três vezes maior do que as instâncias G4 do Amazon EC2. Os aplicativos de inferência em lotes, como marcação de fotos, são sensíveis ao throughput de inferência ou a quantas inferências podem ser processadas por segundo. Com 1 a 16 chips AWS Inferentia por instância, as instâncias Inf1 podem ter performance de até 2.000 teraoperações por segundo (TOPS).

Latência extremamente baixa

As instâncias Inf1 oferecem latência extremamente baixa para aplicativos em tempo real. Aplicativos de inferência em tempo real, como reconhecimento de fala, precisam fazer inferências rapidamente em resposta à entrada de um usuário e são sensíveis à latência da inferência. A grande memória integrada contida nos chips AWS Inferentia usados nas instâncias Inf1 permite o armazenamento em cache dos modelos de machine learning diretamente no chip. Isso elimina a necessidade de acessar recursos de memória externa durante a inferência, permitindo baixa latência sem afetar a largura de banda.

Facilidade de uso

As instâncias Inf1 são fáceis de usar, exigem pouca ou nenhuma alteração no código para dar suporte a modelos de implantação treinados usando as estruturas de machine learning mais populares, incluindo TensorFlow, PyTorch e MXNet. A maneira mais rápida e fácil de começar a usar instâncias Inf1 é pelo Amazon SageMaker, um serviço totalmente gerenciado que permite que os desenvolvedores criem, treinem e implantem modelos de machine learning com rapidez.

Flexibilidade para diferentes modelos de machine learning

Usando o AWS Neuron, as instâncias Inf1 oferecem suporte a muitos modelos de machine learning comumente usados, como o detector de disparo único (SSD) e o ResNet para reconhecimento/classificação de imagens, bem como Transformer e BERT para processamento e tradução de idiomas naturais.

Suporte a vários tipos de dados

As instâncias Inf1 são compatíveis com vários tipos de dados, incluindo INT8, BF16 e FP16 com precisão mista, para dar suporte a uma ampla variedade de modelos e necessidades de performance.

Amazon SageMaker

O Amazon SageMaker facilita a compilação e implantação de seu modelo de machine learning treinado na produção em instâncias Inf1 da Amazon para que você possa começar a gerar previsões em tempo real com baixa latência. O Amazon SageMaker é um serviço totalmente gerenciado que fornece aos desenvolvedores e cientistas de dados a capacidade de criar, treinar e implantar modelos de machine learning rapidamente. O Amazon SageMaker remove o trabalho pesado de cada etapa do processo de machine learning para facilitar o desenvolvimento de modelos de alta qualidade, ajustá-los para otimizar a performance e implantá-los na produção mais depressa. O AWS Neuron, o compilador do AWS Inferentia, é integrado ao Amazon SageMaker Neo, permitindo que você compile seus modelos de machine learning treinados para serem executados em instâncias Inf1 de maneira ideal. Com o Amazon SageMaker, você pode optar com facilidade por executar seus modelos em clusters de Auto Scaling de instâncias Inf1, distribuídos em várias zonas de disponibilidade, para entregar inferência em tempo real de alta performance e alta disponibilidade.

Saiba mais »

Como funciona

Como usar Inf1 e o AWS Inferentia

Chips AWS Inferentia

O AWS Inferentia é um chip de inferência de machine learning projetado e produzido pela AWS para fornecer alta performance com economia. Cada chip AWS Inferentia tem quatro núcleos Neuron e é compatível com os tipos de dados FP16, BF16 e INT8. Os chips AWS Inferentia apresentam uma grande memória interna que pode ser usada para armazenar grandes modelos em cache, o que é especialmente vantajoso para modelos que exigem acesso frequente à memória. O AWS Inferentia vem com o kit de desenvolvimento de software (SDK) da AWS Neuron, que consiste em um compilador, tempo de execução e ferramentas de criação de perfil. Permite que modelos complexos de redes neurais, criados e treinados em estruturas populares, como Tensorflow, PyTorch e MXNet, sejam executados usando instâncias Inf1 do Amazon EC2 baseadas no AWS Inferentia. O AWS Neuron também oferece suporte à capacidade de dividir grandes modelos para execução em vários chips Inferentia usando uma interconexão entre chips físicos de alta velocidade, entregando um alto throughput de inferência e custos de inferência mais baixos.

Saiba mais >>

Casos de uso

Recomendações

O Machine Learning vem sendo cada vez mais usado para melhorar o envolvimento do cliente por meio de recomendações personalizadas de produtos e conteúdos, resultados de pesquisa personalizados e promoções de marketing direcionadas.

Previsão

As empresas de hoje em dia usam desde simples planilhas até um software complexo de planejamento financeiro para tentar prever com precisão os resultados futuros do negócio, como demanda de produtos, necessidades de recursos ou desempenho financeiro. Essas ferramentas criam previsões observando uma série histórica de dados, chamada de dados de séries temporais. As empresas estão usando cada vez mais o machine learning para combinar dados de séries temporais com variáveis adicionais a fim de criar previsões.

Análise de imagem e vídeo

Hoje, o machine learning está sendo usado para identificar objetos, pessoas, textos, cenas e atividades, além de detectar qualquer conteúdo inapropriado contido em imagens ou vídeos. Além disso, a análise facial e o reconhecimento facial em imagens e vídeos podem detectar, analisar e comparar rostos para uma ampla variedade de casos de uso de verificação de usuários, contagem de pessoas e segurança pública.

Análises avançadas de texto

O machine learning é útil especialmente para identificar itens de interesse específicos em uma ampla gama de textos (como encontrar nomes de empresas em relatórios de análise) com precisão e pode aprender o sentimento por trás da linguagem (identificar avaliações negativas ou interações positivas do cliente com agentes de atendimento ao cliente), em praticamente qualquer escala.

Análise de documentos

O machine learning pode ser usado para "ler" instantaneamente quase todos os tipos de documento e extrair com precisão textos e dados, sem necessidade de esforço manual ou código personalizado. Você pode automatizar rapidamente fluxos de trabalho de documentos, o que permite processar milhões de páginas de documentos em algumas horas.

Voz

As empresas podem usar o machine learning para transformar texto em falas realistas, permitindo que você crie aplicativos que falam e desenvolva categorias totalmente inéditas de produtos compatíveis com fala. O serviço de conversão de texto em fala (TTS) pode usar tecnologias avançadas de aprendizagem profunda para sintetizar falas que soam como a voz humana.

Agentes de conversação

A IA está desempenhando um papel na melhoria da experiência do cliente em centrais de atendimento para incluir o engajamento por meio de chatbots - assistentes virtuais inteligentes e em linguagem natural. Esses chatbots são capazes de reconhecer a fala humana e entender a intenção do chamador sem exigir que ele fale em frases específicas. Os chamadores podem realizar tarefas como alterar senhas, solicitar o saldo da conta ou agendar um compromisso sem a necessidade de falar com um agente.

Tradução

As empresas podem usar a tradução baseada em machine learning para fornecer uma tradução mais precisa e mais natural do que os algoritmos de tradução tradicionais baseados em regras e estatísticas. As empresas podem localizar conteúdo, como sites e aplicativos, para usuários internacionais e traduzir com facilidade e eficiência grandes volumes de texto.

Transcrição

A transcrição por machine learning pode ser usada para muitas aplicações comuns, incluindo a transcrição de chamadas de atendimento ao cliente e a geração de legendas em conteúdo de áudio e vídeo. Os serviços de transcrição podem colocar carimbos de data e hora para cada palavra, para que você possa localizar facilmente o áudio na fonte original pesquisando o texto.

Detecção de fraudes

A detecção de fraude, usando o machine learning, detecta atividades potencialmente fraudulentas e sinaliza essa atividade para revisão. A detecção de fraude é normalmente usada no setor de serviços financeiros para classificar transações como legítimas ou fraudulentas, usando um modelo que classifica uma transação com base na quantidade, localização, comerciante ou tempo.

Saúde

Na área de saúde, o machine learning permite que os médicos tratem os pacientes mais rapidamente, não apenas cortando custos, mas também melhorando os resultados. Os hospitais estão aprimorando as tecnologias tradicionais de imagem de raios-x, como ultrassons e tomografias, incorporando uma variedade de conjuntos de dados (dados relatados pelo paciente, dados de sensores e várias outras fontes) no processo de digitalização e os algoritmos de machine learning são capazes de reconhecer a diferença entre resultados normais e anormais.

Definição de preço

Conceitos básicos

Para compilar e implantar um modelo de machine learning treinado no Inf1, você pode usar o Amazon SageMaker ou o SDK do AWS Neuron.

• Comece a usar o AWS Neuron no Github
• Obtenha suporte no fórum do desenvolvedor do AWS Neuron
• Saiba como implantar no Inf1 usando o Amazon SageMaker com exemplos do Amazon SageMaker no Github