Recursos do Amazon Elastic Inference

Atualização importante

Agradecemos seu interesse no Amazon Elastic Inference. O Amazon Elastic Inference não está mais disponível para novos clientes. É possível obter melhor performance a um custo menor para suas workloads de inferência de machine learning usando outras opções de aceleração de hardware, como o AWS Inferentia. Se você usa o Amazon Elastic Inference atualmente, considere migrar sua workload para essas alternativas. Para saber mais, acesse a página Infraestrutura do AWS Machine Learning.

O Amazon Elastic Inference permite que você atribua apenas a quantidade correta de aceleração de inferência baseada em GPU a qualquer instância do Amazon EC2, instância do Amazon SageMaker ou tarefa do ECS. Isso significa que agora é possível escolher a instância de CPU mais adequada para a computação geral, a memória e o armazenamento necessários para seu aplicativo, e, em seguida, configurar separadamente a quantidade de aceleração de inferência com tecnologia de GPU que você precisa.

Integrado ao Amazon SageMaker, Amazon EC2 e Amazon ECS

Há várias formas de executar cargas de trabalho de inferência na AWS: implantar seu modelo no Amazon SageMaker para uma experiência totalmente gerenciada, executá-lo nas instâncias do Amazon EC2 ou Amazon ECS e gerenciá-lo você mesmo. O Amazon Elastic Inference está integrado ao Amazon SageMaker, ao Amazon EC2 e ao Amazon ECS, permitindo adicionar aceleração de inferência em todos os cenários. É possível especificar a quantidade desejada de aceleração de inferência ao criar o endpoint HTTPS do seu modelo no Amazon SageMaker, ao executar sua instância do Amazon EC2 e ao definir sua tarefa do Amazon ECS.

Suporte ao TensorFlow, Apache MXNet e PyTorch

O Amazon Elastic Inference foi projetado para ser usado com as versões aprimoradas da AWS do TensorFlow Serving, Apache MXNet e PyTorch. Esses aprimoramentos ativam as estruturas para detectar automaticamente a presença de aceleradores de inferência, distribuir as operações do modelo de maneira ideal entre a GPU do acelerador e a CPU da instância, e controlar com segurança o acesso aos seus aceleradores usando as políticas do AWS Identity and Access Management (IAM). As bibliotecas do TensorFlow Serving, MXNet e PyTorch aprimoradas são fornecidas automaticamente no Amazon SageMaker, nas AMIs do AWS Deep Learning e no AWS Deep Learning Containers, para que você não tenha que alterar nenhum código para implantar seus modelos na produção. É possível fazer o download delas separadamente seguindo as instruções aqui.

Suporte para o formato Open Neural Network Exchange (ONNX)

O ONNX é um formato aberto que torna possível treinar um modelo em uma estrutura de aprendizado profundo e, em seguida, transferi-lo para outra estrutura para inferência. Isso permite que você aproveite as forças relativas de estruturas diferentes. O ONNX está integrado ao PyTorch, MXNet, Chainer, Caffe2 e Microsoft Cognitive Toolkit, e há conectores para muitas outras estruturas incluindo o TensorFlow. Para usar os modelos ONNX com o Amazon Elastic Inference, seus modelos treinados precisam ser transferidos para a versão otimizada da AWS do Apache MXNet para implantação de produção.

Escolha de operações de precisão simples ou mista

Os aceleradores do Amazon Elastic Inference têm suporte para operações de precisão simples (ponto flutuante de 32 bits) ou mista (ponto flutuante de 16 bits). A precisão única fornece uma faixa numérica extremamente grande para representar os parâmetros usados pelo seu modelo. No entanto, a maioria dos modelos não precisam realmente de tanta precisão e cálculo de números que resultam em perda desnecessária de performance. Para evitar esse problema, operações de precisão mista permitem a redução da faixa numérica pela metade para aumentar o desempenho de inferência em 8x.

Disponível em várias quantidades de aceleração

O Amazon Elastic Inference está disponível em vários tamanhos de taxas de transferência de 1 a 32 trilhões de operações de ponto flutuante por segundo (TFLOPS) por acelerador, tornando eficiente acelerar uma ampla variedade de modelos de inferência, incluindo visão computacional, processamento de linguagem natural e reconhecimento de fala. Comparado com as instâncias P3 do Amazon EC2 independentes que começam a 125 TFLOPS (a menor instância P3 disponível), o Amazon Elastic Inference começa em uma TFLOPS simples por acelerador. Isso permite aumentar a escala da aceleração de inferência nos incrementos mais adequados. É possível também selecionar tamanhos maiores de aceleradores, até 32 TFLOPS por acelerador, para modelos mais complexos.

Escalabilidade automática

O Amazon Elastic Inference pode ser parte do mesmo grupo de Auto Scaling do Amazon EC2 usado para modificar a escala das instâncias do Amazon SageMaker, Amazon EC2 e do Amazon ECS. Quando o EC2 Auto Scaling adiciona mais instâncias EC2 para atender as demandas do seu aplicativo, ele também aumenta a escala do acelerador atribuído a cada instância. Da mesma forma, quando a Auto Scaling reduz suas instâncias EC2 conforme a demanda diminui, ela também diminui o acelerador atribuído a cada instância. Isso facilita escalar sua aceleração de inferência com a capacidade de computação do aplicativo para atender as demandas do seu aplicativo.

Saiba mais sobre a definição de preço de produtos

Analise a definição de preço do Amazon Elastic Inference

Saiba mais

Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS.

Cadastrar-se

Comece a criar no console

Comece a usar o Amazon Elastic Inference no Amazon SageMaker ou no Amazon EC2.

Faça login