Amazon SageMaker HyperPod anuncia novo recurso de observabilidade

Publicado: 10 de jul de 2025

O novo recurso de observabilidade do Amazon SageMaker HyperPod permite que os clientes acelerem o desenvolvimento de modelos de IA generativa, oferecendo visibilidade abrangente dos recursos computacionais e das tarefas de desenvolvimento de modelos. Isso elimina o trabalho manual de coletar centenas de métricas de toda a pilha, visualizar as correlações entre elas e restaurar a performance da tarefa de desenvolvimento de modelos de IA generativa. A observabilidade do HyperPod rastreia as métricas de performance das tarefas em tempo real, alerta os clientes quando alguma delas se deteriora e corrige automaticamente a causa raiz com políticas definidas pelo cliente.

A observabilidade do SageMaker HyperPod transforma a forma como os clientes monitoram e otimizam as tarefas de desenvolvimento de modelos de IA generativa. Usando um painel unificado pré-configurado no Amazon Managed Grafana com os dados de monitoramento publicados automaticamente em um espaço de trabalho do Amazon Managed Prometheus, os clientes já podem ver métricas de desempenho de tarefas de IA generativa, utilização de recursos e integridade de clusters em uma única visualização. Isso permite que as equipes identifiquem rapidamente os gargalos, evitem atrasos dispendiosos e otimizem os recursos de computação. Os clientes podem definir alertas automatizados, derivar métricas de tarefas específicas do caso de uso e publicá-las no painel unificado com apenas alguns cliques. Ao reduzir o tempo de solução de problemas de dias para minutos, esse recurso ajuda os clientes a acelerar o caminho para a produção e maximizar o retorno sobre os investimentos em IA.

A observabilidade do SageMaker HyperPod está disponível em todas as regiões da AWS com suporte para o SageMaker HyperPod, exceto Oeste dos EUA (N. da Califórnia) e Ásia-Pacífico (Melbourne). Para saber mais e começar a usar, acesse o blog, a documentação e a página do SageMaker HyperPod.

Amazon SageMaker HyperPod anuncia novo recurso de observabilidade

Aprenda

Recursos

Desenvolvedores

Ajuda