Amazon Elastic Inference

Agregue aceleração de GPU a qualquer instância do Amazon EC2 para obter inferência mais rápida com um custo muito mais baixo (até 75% de economia)

O Amazon Elastic Inference permite associar a aceleração de baixo custo ativada por GPU às instâncias do Amazon EC2 e do Amazon SageMaker, a fim de reduzir o custo da execução de inferências de deep learning em até 75%. O Amazon Elastic Inference oferece suporte aos modelos TensorFlow, Apache MXNet e ONNX, com mais estruturas em breve.

Na maioria dos aplicativos de deep learning, fazer previsões usando um modelo treinado – um processo chamado inferência – pode gerar até 90% dos custos de computação do aplicativo em virtude de dois fatores. Em primeiro lugar, as instâncias de GPU independentes são projetadas para o treinamento do modelo e normalmente são superdimensionadas em relação à inferência. Enquanto as tarefas de treinamento processam em lote centenas de amostras de dados em paralelo, a maior parte da inferência acontece em uma única entrada em tempo real que consome apenas uma pequena quantidade de computação da GPU. Mesmo no pico de carga, a capacidade computacional de uma GPU pode não ser totalmente utilizada, o que é um desperdício, além de dispendioso. Em segundo lugar, modelos diferentes precisam de quantidades diferentes de recursos de GPU, CPU e memória. Geralmente, selecionar um tipo de instância de GPU grande o suficiente para satisfazer os requisitos do recurso menos utilizado resulta na subutilização de outros recursos e em custos elevados.

O Amazon Elastic Inference resolve estes problemas ao permitir que se associe apenas a quantidade correta de aceleração de inferência baseada em GPU a qualquer tipo de instância do EC2 ou SageMaker, sem precisar de alterações no código. Com o Amazon Elastic Inference, agora é possível escolher o tipo de instância mais adequado em função da memória e CPU geral necessários para o seu aplicativo, em seguida, configurar separadamente a quantidade de aceleração de inferência que você precisa para utilizar os recursos de forma eficaz e reduzir os custos de execução da inferência.

Apresentação do Amazon Elastic Inference

Benefícios

Reduza os custos de inferência em até 75%

O Amazon Elastic Inference permite escolher o tipo de instância que melhor se adapta às necessidades gerais de computação e memória do seu aplicativo. Assim, é possível especificar separadamente a quantidade de aceleração de inferência que você precisa. Isso reduz os custos de inferência em até 75%, porque você não precisa mais provisionar computação de GPU para a inferência.

Obtenha exatamente o que você precisa

O Amazon Elastic Inference pode fornecer tão pouco quanto uma TFLOPS de precisão única (trilhões de operações de ponto flutuante por segundo) de aceleração da inferência ou até 32 TFLOPS de precisão mista. Trata-se de uma faixa de computação de inferência muito mais apropriada do que a faixa de até 1.000 TFLOPS fornecida por uma instância independente P3 do Amazon EC2. Por exemplo, um modelo simples de processamento de linguagem pode exigir apenas um TFLOPS para executar bem a inferência, enquanto um sofisticado modelo de visão computacional pode precisar de até 32 TFLOPS.

Responda a mudanças na demanda

É possível escalar facilmente a quantidade de aceleração da inferência usando grupos de Auto Scaling do Amazon EC2 para atender às demandas do seu aplicativo sem capacidade de provisionamento excessivo. Quando o Auto Scaling do EC2 aumenta suas instâncias do EC2 para atender à crescente demanda, ele também aumenta automaticamente o acelerador associado a cada instância. Da mesma forma, quando o Auto Scaling reduz suas instâncias do EC2 conforme a demanda diminui, ele também diminui automaticamente o acelerador associado a cada instância. Isso ajuda você a pagar apenas pelo que precisa, quando precisa.

Oferece suporte às estruturas conhecidas

O Amazon Elastic Inference oferece suporte aos modelos TensorFlow e Apache MXNet, estruturas adicionais em breve.

tensorflow_logo_200px
mxnet_150x50
Blog: Amazon Elastic Inference – GPU-Powered Inference Acceleration
28 de novembro de 2018
 
Product-Page_Standard-Icons_01_Product-Features_SqInk
Confira os recursos do produto

Saiba mais sobre os recursos do Amazon Elastic Inference.

Saiba mais 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastrar-se 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Comece a criar no console

Comece a usar o Amazon Elastic Inference no Amazon SageMaker ou no Amazon EC2.

Faça login