Amazon SageMaker HyperPod já oferece observabilidade abrangente para grupos de instâncias restritas
Agora, o Amazon SageMaker HyperPod oferece observabilidade abrangente para grupos de instâncias restritas (RIG), permitindo que as equipes treinem modelos básicos com o Nova Forge para obter visibilidade profunda de recursos computacionais e workloads de treinamento. Esse novo recurso elimina o esforço manual de coletar e correlacionar métricas em toda a pilha de infraestrutura, oferecendo uma visão unificada do desempenho da GPU, da integridade do sistema, do throughput da rede e do estado de clusters do Kubernetes em um painel pré-configurado do Amazon Managed Grafana, apoiado pelo Amazon Managed Service for Prometheus.
Agora, você pode monitorar a utilização da GPU, a largura de banda do NVLink, a pressão da CPU, o uso do FSx para Lustre e o ciclo de vida do pod em um único painel do Grafana, com métricas coletadas em quatro exportadores que abrangem desempenho da GPU, integridade do sistema no nível de host, malha de rede e estado de objeto do Kubernetes. Além disso, os logs selecionados são disponibilizados automaticamente nesses painéis, abrangendo o progresso da época, logs de treinamento no nível de etapa, erros de pipeline e rastreamentos do Python para que você possa diagnosticar rapidamente lacunas de treinamento. A observabilidade do HyperPod para grupos de instâncias restritas (RIG) é ativada automaticamente quando você cria um cluster usando RIGs, ou pode ser ativada para clusters existentes com apenas alguns cliques no console de gerenciamento de clusters do HyperPod.
A observabilidade de RIG do Amazon SageMaker HyperPod está disponível em todas as regiões da AWS que oferecem o RIG do SageMaker HyperPod. Para saber mais, consulte a documentação.