Amazon Elastic Inference

Reduza os custos de inferência de machine learning em até 75%

 Atualização importante

Agradecemos pelo seu interesse no Amazon Elastic Inference. O Amazon Elastic Inference não está mais disponível para novos clientes. É possível obter melhor performance a um custo menor para suas workloads de inferência de machine learning usando outras opções de aceleração de hardware, como o AWS Inferentia. Se você usa o Amazon Elastic Inference atualmente, considere migrar sua workload para essas alternativas. Para saber mais, acesse a página Infraestrutura do AWS Machine Learning.

Com o Amazon Elastic Inference, você pode associar aceleração de baixo custo baseada em GPU às instâncias do Amazon EC2 e do SageMaker ou às tarefas do Amazon ECS para reduzir em até 75% os custos de execução de inferências de aprendizado profundo. O Amazon Elastic Inference oferece suporte aos modelos do TensorFlow, Apache MXNet, PyTorch e ONNX.

Inferência é o processo de fazer previsões usando um modelo treinado. Em aplicativos de aprendizagem profunda, a inferência contabiliza até 90% dos custos operacionais totais por dois motivos. Em primeiro lugar, as instâncias de GPU autônomas normalmente são criadas para treinamento de modelos, não para inferência. Enquanto os trabalhos de treinamento processam em lote centenas de amostras de dados em paralelo, os trabalhos de inferência normalmente processam uma única entrada em tempo real, e assim consomem uma pequena quantidade de computação de GPU. Isso torna a inferência de GPU autônoma ineficiente em termos de custo. Por outro lado, as instâncias de CPU autônomas não são especializadas para operações de matrizes e, assim, muitas vezes são muito lentas para inferência de aprendizagem profunda. Em segundo lugar, diferentes modelos têm diferentes requisitos de CPU, GPU e memória. A otimização de um recurso pode levar à subutilização de outros recursos e a custos mais elevados.

O Amazon Elastic Inference soluciona esses problemas permitindo que você associe apenas a quantidade adequada de aceleração de inferência baseada em GPU a qualquer tipo de instância do EC2 ou do SageMaker ou tarefa do ECS, sem precisar de alterações de código. Com o Amazon Elastic Inference, você pode escolher qualquer instância de CPU na AWS que se adeque melhor às necessidades gerais de computação e memória de sua aplicação e configurar separadamente a quantidade certa de aceleração de inferência baseada em GPU. Isso permite utilizar recursos com eficiência e reduzir custos.

Benefícios

Reduza os custos de inferência em até 75%

O Amazon Elastic Inference permite escolher o tipo de instância que melhor se adapta às necessidades gerais de computação e memória do seu aplicativo. Assim, é possível especificar separadamente a quantidade de aceleração de inferência que você precisa. Isso reduz os custos de inferência em até 75%, porque você não precisa mais provisionar computação de GPU para a inferência.

Obtenha exatamente o que você precisa

O Amazon Elastic Inference pode fornecer tão pouco quanto uma TFLOPS de precisão única (trilhões de operações de ponto flutuante por segundo) de aceleração da inferência ou até 32 TFLOPS de precisão mista. Trata-se de uma faixa de computação de inferência muito mais apropriada do que a faixa de até 1.000 TFLOPS fornecida por uma instância independente P3 do Amazon EC2. Por exemplo, um modelo simples de processamento de linguagem pode exigir apenas um TFLOPS para executar bem a inferência, enquanto um sofisticado modelo de visão computacional pode precisar de até 32 TFLOPS.

Responda a mudanças na demanda

É possível escalar facilmente a quantidade de aceleração da inferência usando grupos de Auto Scaling do Amazon EC2 para atender às demandas do seu aplicativo sem capacidade de provisionamento excessivo. Quando o Auto Scaling do EC2 aumenta suas instâncias do EC2 para atender à crescente demanda, ele também aumenta automaticamente o acelerador associado a cada instância. Da mesma forma, quando o Auto Scaling reduz suas instâncias do EC2 conforme a demanda diminui, ele também diminui automaticamente o acelerador associado a cada instância. Essa prática permite que você pague somente pelo que necessita, no momento em que precisa.

Suporte para estruturas conhecidas

O Amazon Elastic Inference oferece suporte aos modelos TensorFlow e Apache MXNet, com estruturas adicionais que estarão disponíveis em breve.

Blog: Amazon Elastic Inference – GPU-Powered Inference Acceleration
28 de novembro de 2018