Publicado: Aug 20, 2021

Estamos apresentando o Amazon SageMaker Asynchronous Inference, uma nova opção de inferência do Amazon SageMaker que coloca as solicitações recebidas em uma fila e as processa de forma assíncrona. Esta opção é ideal para inferências com cargas úteis grandes (até 1 GB) e/ou tempos de processamento longos (até 15 minutos) que precisam ser processadas à medida que as solicitações chegam. A inferência assíncrona ajuda a economizar custos diminuindo automaticamente o número de instâncias para zero quando não há instâncias para processar. Assim, você pagará somente quando seu endpoint estiver processando solicitações.

Com a introdução da inferência assíncrona, o Amazon SageMaker oferece três opções para a implantação modelos de machine learning treinados para a geração de inferências de novos dados. A inferência em tempo real é adequada para workloads em que os tamanhos das cargas úteis não excedem 6 MB e precisam ser processadas com requisitos de baixa latência da ordem de milissegundos ou segundos. A transformação em lote é ideal para previsões offline em grandes lotes de dados que estão disponíveis antecipadamente. A nova opção de inferência assíncrona é ideal para workloads em que os tamanhos de solicitação são grandes (até 1 GB) e os tempos de processamento da inferência são da ordem de minutos (até 15 minutos). Exemplos de workloads para inferência assíncrona incluem executar previsões em imagens de alta resolução geradas por um dispositivo móvel em intervalos diferentes durante o dia e fornecer respostas apenas alguns minutos após o recebimento da solicitação. Para casos de uso capazes de tolerar uma penalidade de cold start de alguns minutos, você poderá optar por reduzir a escala da contagem de instâncias de endpoints para zero quando não houver solicitações pendentes e voltar a aumentar a escala à medida que novas solicitações chegarem. Assim, você só pagará pelo tempo em que os endpoints estão de fato processando solicitações ativamente.

Criar um endpoint de inferência assíncrona é semelhante a criar um endpoint de tempo real. Você pode usar seus modelos do Amazon SageMaker existentes e especificar apenas os parâmetros de configuração adicionais específicos da inferência assíncrona ao criar a configuração do endpoint. Para invocar o endpoint, você deverá colocar a carga útil da solicitação no Amazon S3 e fornecer um ponteiro para a carga útil como parte da solicitação de invocação. Mediante a invocação, o Amazon SageMaker remove a solicitação da pilha para colocá-la em processamento e retorna um local de saída como resposta. Durante o processamento, o Amazon SageMaker coloca a resposta da inferência no local do Amazon S3 previamente retornado. Opcionalmente, você pode optar por receber notificações de êxito ou erro via Simple Notification Service (SNS).

Para obter uma descrição detalhada de como criar, invocar e monitorar endpoints de inferência assíncrona, leia nossa documentação, a qual também contém um caderno de exemplos para ajudar você a começar. Para obter informações sobre preços, consulte a página de preços do Amazon SageMaker. O Amazon SageMaker Asynchronous Inference está disponível em todas as regiões comerciais da AWS em que o Amazon SageMaker está disponível, exceto Ásia-Pacífico (Osaka), Europa (Milão) e África (Cidade do Cabo).