Container Insights anuncia a observabilidade da integridade de nós do SageMaker HyperPod no EKS
Agora, o Amazon CloudWatch Container Insights descobre automaticamente o status de integridade de nós do SageMaker HyperPod em execução no EKS e os exibe em painéis selecionados para ajudar você a monitorar a disponibilidade dos nós para obter excelência operacional. Usando painéis prontos para uso, você pode identificar facilmente nós com problemas de integridade e agilizar a solução desses problemas para obter durações de treinamento eficientes.
O Container Insights trabalha com o SageMaker para coletar resultados detalhados de testes de verificação de integridade de nós do HyperPod e exibi-los em painéis predefinidos para ajudar você a entender a integridade e a performance dos nós e identificar se eles estão prontos para serem agendados. O Container Insights ajuda você a otimizar a duração do treinamento classificando os nós com falha como “reinicialização pendente” e “substituição pendente”. Além disso, orienta você na manutenção da integridade dos nós caso a substituição automática seja desativada. Se a recuperação automática estiver ativada, você poderá obter visibilidade das mutações dos nós e dos atrasos nos trabalhos de treinamento para entender como as tarefas são retomadas a partir do último ponto de verificação.
É fácil começar a usar o Container Insights. Você pode fazer a integração instalando o complemento CloudWatch Observability EKS ou o agente do CloudWatch mais recente nos clusters ou atualizando os charts do Helm com a versão mais recente do agente do CloudWatch. Após a configuração, você pode navegar até o console do Container Insights e visualizar o status de integridade dos nós do SageMaker HyperPod.
A observabilidade da integridade dos nós do SageMaker HyperPod já está disponível no Container Insights para EKS em todas as regiões comerciais em que o SageMaker HyperPod está presente. As métricas de integridade de nós do HyperPod seguem preços baseados em observação. Consulte a página de preços do Container Insights para obter detalhes. Para obter mais informações, consulte o guia do usuário do Container Insights.