Perguntas frequentes sobre o Amazon Elastic Inference

Geral

P: Por que a Amazon está incentivando os clientes a transferir workloads do Amazon Elastic Inference (EI) para opções de aceleração de hardware mais recentes, como o AWS Inferentia?

Os clientes obtêm melhor performance a um preço muito melhor do que o Amazon EI com novas opções de aceleradores de hardware, como o AWS Inferentia, para suas workloads de inferência. O AWS Inferentia foi projetado para fornecer alta performance de inferência na nuvem, reduzir o custo total da inferência e facilitar a integração de machine learning para desenvolvedores em suas aplicações empresariais. Para permitir que os clientes se beneficiem desses aceleradores de hardware de última geração, não incorporaremos novos clientes ao Amazon EI depois de 15 de abril de 2023.

P: Quais serviços da AWS são afetados pela decisão de parar de integrar novos clientes ao Amazon Elastic Inference (EI)?

Esse anúncio afetará os aceleradores do Amazon EI conectados a qualquer instância do Amazon EC2 e do Amazon SageMaker ou tarefas do Amazon Elastic Container Service (ECS). No Amazon SageMaker, isso se aplica tanto aos endpoints quanto aos kernels de caderno que usam aceleradores do Amazon EI.

P: Serei capaz de criar um novo acelerador do Amazon Elastic Inference (EI) depois de 15 de abril de 2023

Não. Se você for um novo cliente e não tiver usado o Amazon EI nos últimos 30 dias, não poderá criar uma nova instância do Amazon EI em sua conta da AWS depois de 15 de abril de 2023. No entanto, se você tiver usado um acelerador do Amazon EI pelo menos uma vez nos últimos 30 dias, você poderá conectar um novo acelerador do Amazon EI à sua instância.

P: No momento, usamos aceleradores do Amazon Elastic Inference (EI). Poderemos continuar a usá-los depois de 15 de abril de 2023?

Sim, você poderá usar os aceleradores do Amazon EI. Recomendamos que você migre suas workloads atuais de inferência de ML executadas no Amazon EI para outras opções de acelerador de hardware assim que possível.

P: Como faço para avaliar as opções de instância alternativas para meus endpoints de inferência atuais do Amazon SageMaker?

O Amazon SageMaker Inference Recommender pode ajudar você a identificar implantações econômicas para migrar workloads existentes do Amazon Elastic Inference (EI) para uma instância de ML apropriada compatível com o SageMaker.

P: Como altero o tipo de instância do meu endpoint existente no Amazon SageMaker?

Primeiro, crie um novo EndpointConfig que use o novo tipo de instância. Se você tiver uma política de dimensionamento automático, exclua a política de dimensionamento automático existente.
Chame UpdateEndpoint enquanto especifica seu EndpointConfig recém-criado.
Aguarde até que seu endpoint mude o status para InService. Isso levará aproximadamente 10 a 15 minutos.
Por fim, se você precisar de dimensionamento automático para seu novo endpoint, crie uma nova política de dimensionamento automático para esse novo endpoint e ProductionVariant.

P: Como altero o tipo da minha instância de caderno do Amazon SageMaker existente usando o Amazon Elastic Inference (EI)?

Clique em “Instâncias de caderno” no console e depois clique na instância de caderno que você deseja atualizar. Certifique-se de que a instância de caderno tenha o status “Interrompida”. Por fim, clique em “Editar” e altere o tipo da instância. Ao iniciar sua instância de caderno, certifique-se de selecionar o kernel certo para sua nova instância.

P: Existe um tipo de instância específico que seja uma boa alternativa ao Amazon Elastic Inference (EI)?

Cada workload de machine learning é exclusiva. Recomendamos o uso do Amazon SageMaker Inference Recommender para ajudar na identificação do tipo de instância certo para sua workload de ML, requisitos de performance e orçamento. O AWS Inferentia, especificamente o inf1.xlarge, é a melhor alternativa de alta performance e baixo custo para os clientes do Amazon EI. Na tabela abaixo, comparamos a performance e o preço por hora de diferentes opções de acelerador do Amazon EI no SageMaker com Inferentia. O Inferentia oferece o melhor preço e a melhor performance e é mais barato por hora do que todas as instâncias do Amazon EI, supondo uma instância host c5.xlarge (veja a tabela abaixo). Observe que os modelos devem primeiro ser compilados antes de serem implantados no AWS Inferentia. Os clientes do SageMaker podem usar a configuração “ml_inf” do SageMaker Neo como o TargetDevice para compilar seus modelos. Se você não estiver usando o SageMaker, use o compilador AWS Neuron diretamente.

Os preços abaixo consideram a região us-east-2

Tipo de instância + Elastic Inference	Preço por hora do EI	Custo total do EI por hora	Premium em comparação com o AWS Inferentia	Economia de custos do Inferentia em comparação com o EI	Performance (FP16 TFLOP)	Impr. de performance com o Inferentia
ml.c5.xlarge + ml.eia2.medium	USD 0,17	USD 0,37	USD 0,07	19%	8	8x
ml.c5.xlarge + ml.eia1.medium	USD 0,18	USD 0,39	USD 0,09	23%	8	8x
ml.c5.xlarge + ml.eia2.large	USD 0,34	USD 0,54	USD 0,24	44%	16	4x
ml.c5.xlarge + ml.eia1.large	USD 0,36	USD 0,57	USD 0,27	47%	16	4x
ml.c5.xlarge + ml.eia2.xlarge	USD 0,48	USD 0,68	USD 0,38	56%	32	2x
ml.c5.xlarge + ml.eia1.xlarge	USD 0,73	USD 0,93	USD 0,63	68%	32	2x

P: O que é o Amazon Elastic Inference?

R: O Amazon Elastic Inference (Amazon EI) é um serviço de processamento acelerado que permite que você atribua apenas a quantidade correta de aceleração de inferência baseada em GPU a qualquer tipo de instância do Amazon EC2 ou Amazon SageMaker ou tarefa do Amazon ECS. Isso significa que agora é possível escolher o tipo de instância mais adequado para a computação geral, memória e armazenamento necessários para seu aplicativo, e, em seguida, configurar separadamente a quantidade de aceleração de inferência que você precisa.

P: O que são os aceleradores do Amazon Elastic Inference?

R: Os aceleradores do Amazon Elastic Inference são dispositivos de hardware com GPU desenvolvidos para funcionar com qualquer instância do EC2, instância do SageMaker ou tarefa do ECS para acelerar as cargas de trabalho de inferência de aprendizagem profunda por um custo baixo. Quando você executa uma instância do EC2 ou uma tarefa do ECS com o Amazon Elastic Inference, um acelerador é provisionado e anexado à instância na rede. As estruturas e ferramentas de aprendizagem profunda como TensorFlow Serving, Apache MXNet e PyTorch, ativadas para o Amazon Elastic Inference, podem detectar e descarregar um modelo de computação no acelerador anexado.

P: Qual a diferença entre os tipos de famílias de aceleradores do Amazon Elastic Inference?

R: Os aceleradores EIA2 têm o dobro de memória de GPU dos aceleradores EIA1 equivalentes. É possível determinar as necessidades de memória de GPU com base em seu modelo e os tamanhos de entrada do tensor e escolher a família e o tipo de aceleradores certos para suas necessidades.

Configuração

P: Como provisionar os aceleradores do Amazon Elastic Inference ?

R: É possível configurar endpoints do Amazon SageMaker, instâncias Amazon EC2 ou tarefas do Amazon ECS com aceleradores do Amazon Elastic Inference usando o Console de Gerenciamento da AWS, a interface da linha de comando da AWS (CLI) ou o AWS SDK. Há dois requisitos para a execução das instâncias do EC2 com aceleradores. Primeiramente, é preciso provisionar um VPC Endpoint do AWS PrivateLink para as sub-redes em que você pretende executar aceleradores. Em seguida, conforme executa uma instância, você deve proporcionar uma função de instância com uma política que permite aos usuários acessar a instância para conectar aos aceleradores. Quando você configura uma instância para executar com o Amazon EI, um acelerador é provisionado na mesma zona de disponibilidade atrás do VPC endpoint.

P: Para quais formatos de modelo o Amazon Elastic Inference oferece suporte?

R: O Amazon Elastic Inference oferece suporte aos modelos treinados usando TensorFlow, Apache MXNet, PyTorch e ONNX.

P: Posso implantar modelos no Amazon Elastic Inference usando as estruturas TensorFlow, Apache MXNet ou PyTorch?

R: Sim, você pode usar as bibliotecas TensorFlow Serving, Apache MXNet e PyTorch aprimoradas para AWS para implantar modelos e fazer chamadas de inferência.

P: Como faço para obter acesso a estruturas otimizadas para AWS?

R: AMIs do AWS Deep Learning incluem os lançamentos mais recentes do TensorFlow Serving, do Apache MXNet e do PyTorch otimizados para o uso com aceleradores do Amazon Elastic Inference. Também é possível obter as bibliotecas por meio do Amazon S3 para desenvolver suas próprias imagens de contêiner ou AMIs. Consulte nossa documentação (https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/elastic-inference.html) para obter mais informações.

P: Posso usar CUDA com os aceleradores do Amazon Elastic Inference?

R: Não. É possível usar somente as bibliotecas TensorFlow Serving, Apache MXNet ou PyTorch aprimoradas para AWS como interface nos aceleradores do Amazon Elastic Inference.

Definição de preço e faturamento

P: Como sou cobrado pelo uso do Amazon Elastic Inference?

R: Você paga somente pelas horas usadas do acelerador do Amazon Elastic Inference. Para ver mais detalhes, consulte a página de definição de preço.

P: Haverá cobrança para VPC Endpoints do AWS PrivateLink do serviço do Amazon Elastic Inference?

R: Não. Não haverá cobrança adicional pelos VPC endpoints para o serviço do Amazon Elastic Inference desde que você tenha pelo menos uma instância configurada com um acelerador executado em uma zona de disponibilidade onde há um VPC endpoint provisionado.