O Amazon Elastic Inference permite que você atribua apenas a quantidade correta de aceleração de inferência baseada em GPU a qualquer tipo de instância do Amazon EC2 ou Amazon SageMaker. Isso significa que agora é possível escolher o tipo de instância mais adequado para a computação geral, memória e armazenamento necessários para seu aplicativo, e, em seguida, configurar separadamente a quantidade de aceleração de inferência que você precisa. 

Integrado ao Amazon SageMaker e ao Amazon EC2

Há duas formas de executar cargas de trabalho de inferência na AWS: implantar seu modelo no Amazon SageMaker para uma experiência totalmente gerenciada ou executá-las nas instâncias do Amazon EC2 e gerenciá-las você mesmo. O Amazon Elastic Inference está integrado ao Amazon SageMaker e ao Amazon EC2, permitindo que adicione aceleração de inferência nos dois cenários. Com o Amazon SageMaker, você pode especificar a quantia desejada de aceleração de inferência ao criar o endpoint HTTPS do seu modelo, e com o Amazon EC2, ao executar sua instância.

Suporte para o TensorFlow e Apache MXNet

O Amazon Elastic Inference foi projetado para ser usado com as versões aprimoradas da AWS do TensorFlow Serving e do Apache MXNet. Esses aprimoramentos ativam as estruturas para automaticamente detectar a presença de aceleradores de inferência, distribuir idealmente as operações do modelo entre a GPU do acelerador e a CPU da instância, e controlar com segurança o acesso aos seus aceleradores usando as políticas do AWS Identity and Access Management (IAM). As bibliotecas do TensorFlow Serving e do MXNet aprimoradas são fornecidas automaticamente no Amazon SageMaker e nas AMIs do AWS Deep Learning, para que você não tenha que alterar nenhum código para implantar seus modelos na produção. É possível fazer o download delas separadamente seguindo as instruções aqui.

Suporte para o formato Open Neural Network Exchange (ONNX)

O ONNX é um formato aberto que torna possível treinar um modelo em uma estrutura de aprendizado profundo e, em seguida, transferi-lo para outra estrutura para inferência. Isso permite que você aproveite as forças relativas de estruturas diferentes. Por exemplo, com o ONNX você pode se beneficiar da flexibilidade do PyTorch para criar e treinar seu modelo e então transferi-lo para o Apache MXNet para que ele possa executar eficientemente a inferência em escala maciça. O ONNX está integrado ao PyTorch, MXNet, Chainer, Caffe2 e Microsoft Cognitive Toolkit, e há conectores para muitas outras estruturas incluindo o TensorFlow. Para usar os modelos ONNX com o Amazon Elastic Inference, seus modelos treinados precisam ser transferidos para a versão otimizada da AWS do Apache MXNet para implantação de produção.

Escolha de operações de precisão simples ou mista

Os aceleradores do Amazon Elastic Inference têm suporte para operações de precisão simples (ponto flutuante de 32 bits) ou mista (ponto flutuante de 16 bits). A precisão única fornece uma faixa numérica extremamente grande para representar os parâmetros usados pelo seu modelo. No entanto, a maioria dos modelos não precisam realmente de tanta precisão e cálculo de números que resultam em perda desnecessária de performance. Para evitar esse problema, operações de precisão mista permitem a redução da faixa numérica pela metade para aumentar o desempenho de inferência em 8x.

Disponível em várias quantidades de aceleração

O Amazon Elastic Inference está disponível em vários tamanhos de taxas de transferência de 1 a 32 trilhões de operações de ponto flutuante por segundo (TFLOPS) por acelerador, tornando eficiente acelerar uma ampla variedade de modelos de inferência, incluindo visão computacional, processamento de linguagem natural e reconhecimento de fala. Comparado com as instâncias P3 do Amazon EC2 independentes que começam a 125 TFLOPS (a menor instância P3 disponível), o Amazon Elastic Inference começa em uma TFLOPS simples por acelerador. Isso permite aumentar a escala da aceleração de inferência nos incrementos mais adequados. É possível também selecionar tamanhos maiores de aceleradores, até 32 TFLOPS por acelerador, para modelos mais complexos.

Escalabilidade automática

O Amazon Elastic Inference pode ser parte do mesmo grupo de Auto Scaling do Amazon EC2 usado para aumentar a escala das instâncias do Amazon EC2 e do Amazon SageMaker. Quando o EC2 Auto Scaling adiciona mais instâncias EC2 para atender as demandas do seu aplicativo, ele também aumenta a escala do acelerador atribuído a cada instância. Da mesma forma, quando a Auto Scaling reduz suas instâncias EC2 conforme a demanda diminui, ela também diminui o acelerador atribuído a cada instância. Isso facilita escalar sua aceleração de inferência com a capacidade de computação do aplicativo para atender as demandas do seu aplicativo.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Saiba mais sobre a definição de preço de produtos

Analise a definição de preço do Amazon Elastic Inference

Saiba mais 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastrar-se 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Comece a criar no console

Comece a usar o Amazon Elastic Inference no Amazon SageMaker ou no Amazon EC2.

Faça login