Amazon SageMaker lança ajuste automático de escala mais rápido para modelos de IA generativa

Publicado: 25 de jul de 2024

Temos o prazer de anunciar um novo recurso no Amazon SageMaker Inference que ajuda os clientes a reduzir o tempo necessário para ajustar automaticamente a escala de modelos de IA generativa. Agora, eles podem usar métricas de menos de um minuto e reduzir significativamente a latência geral da escalabilidade de modelos de IA. Usando esse aprimoramento, os clientes podem melhorar a capacidade de resposta de aplicações de IA generativa para acompanhar flutuações de demanda.

Com esse recurso, os clientes recebem duas novas métricas de alta resolução do CloudWatch, ConcurrentRequestsPerModel e ConcurrentRequestsPerModelCopy, que aceleram os ajustes automáticos de escala. Essas métricas são emitidas em um intervalo de 10 segundos e oferecem uma representação mais precisa da carga no endpoint, rastreando a simultaneidade real ou o número de solicitações de inferência sendo processadas pelo modelo. Os clientes podem criar políticas de ajuste automático de escala usando essas métricas de alta resolução para escalar os modelos implantados nos endpoints do SageMaker. Quando os limites definidos nessas políticas de escalonamento automático são atingidos, o Amazon SageMaker começa a adicionar novas instâncias ou cópias de modelos em menos de um minuto. Isso permite que os clientes otimizem a performance e a economia de workloads de inferência no SageMaker.

Esse novo recurso pode ser acessado em famílias de instâncias aceleradoras (g4dn, g5, g6, p2, p3, p4d, p4de, p5, inf1, inf2, trn1n e trn1) em todas as regiões da AWS onde o Amazon SageMaker Inference está disponível, exceto nas regiões China e AWS GovCloud (EUA). Para saber mais, consulte o blog de ML da AWS e acesse a documentação.