Publicado: Dec 12, 2019
Agora você pode acoplar múltiplos aceleradores do Amazon Elastic Inference em uma única instância do Amazon EC2. Com esse recurso, você pode usar uma única instância do EC2 em um grupo de escalabilidade automática quando estiver rodando inferências de modelos múltiplos. Ao acoplar aceleradores múltiplos em uma instância única, você consegue evitar implantar grupos de instâncias múltiplas de CPU ou GPU de escalabilidade automática para a sua inferência e menores custos de operação.
O Amazon Elastic Inference permite associar apenas a quantidade certa de aceleração ativada por GPU a qualquer instância do Amazon EC2 para reduzir o custo da execução de inferências de aprendizado profunda em até 75%. Uma vez que seus modelos possam exigir quantidades diferentes de memória de GPU e capacidade de computação, você pode escolher diferentes tamanhos de aceleradores de Elastic Inference para acoplar a sua instância de CPU. Para tempos de resposta mais rápidos, você pode carregar seus modelos a um acelerador uma vez e continuar fazendo chamados de inferência sem descarregar os modelos.
Adicionar aceleradores múltiplos a uma instância do EC2 é suportado em todas as regiões onde o Amazon Elastic Inference está disponível. Para ter maiores informações sobre acoplar aceleradores múltiplos a uma instância única, consulte Usando os modelos de TensorFlow com Elastic Inference e Usando os modelos de MXNet com Elastic Inference.