Amazon SageMaker AI já oferece inferência com reconhecimento de capacidade e fallback automático de instâncias

Publicado: 1 de mai de 2026

Agora, os endpoints de inferência de Amazon SageMaker AI oferecem o provisionamento flexível com base em uma lista priorizada de tipos de instâncias. Quando não há capacidade suficiente para um tipo de instância preferido, o SageMaker AI provisiona automaticamente a próxima opção disponível na lista, mantendo o funcionamento ininterrupto da criação de endpoints e do ajuste de escala automático, sem intervenção manual. Dessa forma, as equipes que implantam modelos de IA/ML na produção contam com resiliência para lidar com as restrições de capacidade de forma organizada, garantindo a criação confiável e a escalabilidade sob demanda dos endpoints.

Com o suporte ao grupo de instâncias, você define uma lista priorizada de tipos de instâncias e o SageMaker AI provisiona automaticamente a capacidade na ordem da sua lista. Isso se aplica à criação, às atualizações e ao ajuste de escala dos endpoints. Ao reduzir a escala, o SageMaker AI remove primeiro as instâncias de menor prioridade, preservando a infraestrutura preferida conforme a frota se contrai. Esse recurso funciona para endpoints de modelo único, baseados em InferenceComponent e de inferência assíncrona, incluindo aqueles que escalam até zero para que o SageMaker AI provisione com base no grupo disponível de maior prioridade quando a escala volta a crescer.

Como os tipos de instância de fallback diferem na memória de GPU e na capacidade de computação, você pode especificar um modelo otimizado diferente para cada tipo de instância na lista de prioridades. Você mesmo pode preparar esses artefatos ou usar as recomendações de inferência do SageMaker AI, que geram automaticamente configurações otimizadas para hardware específico por tipo de instância. Além disso, as métricas do CloudWatch por tipo de instância oferecem visibilidade sobre latência, throughput, utilização de GPU e número de instâncias por tipo de hardware em um único endpoint.


Esse recurso está disponível nas seguintes regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Canadá (Central), América do Sul (São Paulo), Europa (Irlanda), Europa (Londres), Europa (Frankfurt), Europa (Estocolmo), Europa (Zurique), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Mumbai) e Ásia-Pacífico (Jacarta). Para saber mais, consulte a documentação do Amazon SageMaker AI.