Amazon Elastic Inference

Reduza os custos com inferência de machine learning em até 75%

O Amazon Elastic Inference permite que você associe aceleração de baixo custo baseada em GPU às instâncias do Amazon EC2 e do SageMaker ou tarefas do Amazon ECS a fim de reduzir os custos de execução de inferências de aprendizado profundo em até 75%. O Amazon Elastic Inference oferece suporte aos modelos do TensorFlow, Apache MXNet, PyTorch e ONNX.

Inferência é o processo de fazer previsões usando um modelo treinado. Em aplicativos de aprendizagem profunda, a inferência contabiliza até 90% dos custos operacionais totais por dois motivos. Em primeiro lugar, as instâncias de GPU autônomas normalmente são criadas para treinamento de modelos, não para inferência. Enquanto os trabalhos de treinamento processam em lote centenas de amostras de dados em paralelo, os trabalhos de inferência normalmente processam uma única entrada em tempo real, e assim consomem uma pequena quantidade de computação de GPU. Isso torna a inferência de GPU autônoma ineficiente em termos de custo. Por outro lado, as instâncias de CPU autônomas não são especializadas para operações de matrizes e, assim, muitas vezes são muito lentas para inferência de aprendizagem profunda. Em segundo lugar, diferentes modelos têm diferentes requisitos de CPU, GPU e memória. A otimização de um recurso pode levar à subutilização de outros recursos e a custos mais elevados.

O Amazon Elastic Inference soluciona esses problemas permitindo que você associe apenas a quantidade adequada de aceleração de inferência baseada em GPU a qualquer tipo de instância do EC2 ou do SageMaker ou tarefa do ECS, sem precisar de alterações de código. Com o Amazon Elastic Inference, você pode escolher qualquer instância de CPU na AWS que se adeque melhor às necessidades gerais de computação e memória da sua aplicação e, em seguida, configurar separadamente a quantidade certa de aceleração de inferência baseada em GPU. Isso permite que você utilize recursos com eficiência e reduza custos.

Introdução ao Amazon Elastic Inference

Benefícios

Reduza os custos de inferência em até 75%

O Amazon Elastic Inference permite escolher o tipo de instância que melhor se adapta às necessidades gerais de computação e memória do seu aplicativo. Assim, é possível especificar separadamente a quantidade de aceleração de inferência que você precisa. Isso reduz os custos de inferência em até 75%, porque você não precisa mais provisionar computação de GPU para a inferência.

Obtenha exatamente o que você precisa

O Amazon Elastic Inference pode fornecer tão pouco quanto uma TFLOPS de precisão única (trilhões de operações de ponto flutuante por segundo) de aceleração da inferência ou até 32 TFLOPS de precisão mista. Trata-se de uma faixa de computação de inferência muito mais apropriada do que a faixa de até 1.000 TFLOPS fornecida por uma instância independente P3 do Amazon EC2. Por exemplo, um modelo simples de processamento de linguagem pode exigir apenas um TFLOPS para executar bem a inferência, enquanto um sofisticado modelo de visão computacional pode precisar de até 32 TFLOPS.

Responda a mudanças na demanda

É possível escalar facilmente a quantidade de aceleração da inferência usando grupos de Auto Scaling do Amazon EC2 para atender às demandas do seu aplicativo sem capacidade de provisionamento excessivo. Quando o Auto Scaling do EC2 aumenta suas instâncias do EC2 para atender à crescente demanda, ele também aumenta automaticamente o acelerador associado a cada instância. Da mesma forma, quando o Auto Scaling reduz suas instâncias do EC2 conforme a demanda diminui, ele também diminui automaticamente o acelerador associado a cada instância. Isso ajuda você a pagar apenas pelo que precisa, quando precisa.

Oferece suporte às estruturas conhecidas

O Amazon Elastic Inference oferece suporte aos modelos TensorFlow e Apache MXNet, estruturas adicionais em breve.

Blog: Amazon Elastic Inference – GPU-Powered Inference Acceleration
28 de novembro de 2018
 
Confira os recursos do produto

Saiba mais sobre os recursos do Amazon Elastic Inference.

Saiba mais 
Cadastrar-se para ter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastrar-se 
Comece a criar no console

Comece a usar o Amazon Elastic Inference no Amazon SageMaker ou no Amazon EC2.

Faça login