Amazon SageMaker HyperPod agora permite a realização de ações de nó no console
O Amazon SageMaker HyperPod agora permite gerenciar nós de cluster individuais diretamente no Console da AWS. Os operadores de clusters do HyperPod que gerenciam workloads de IA/ML em grande escala muitas vezes precisam se conectar aos nós para solucionar problemas, reinicializar instâncias que pararam de responder ou substituir nós degradados. Antes, a conexão com um nó exigia a construção manual das strings de conexão do SSM, enquanto ações de recuperação de nós, como reiniciar e substituir um nó, dependiam de comandos da CLI. Agora, o console reúne todas essas ações do nó em uma única interface.
Com as ações de nó no console, agora você pode se conectar a qualquer nó por meio do AWS Systems Manager (SSM). O console fornece comandos da CLI do SSM pré-preenchidos com suporte para cópia para área de transferência, além de permitir iniciar sessões do SSM pelo console. Embora os clusters do SageMaker HyperPod já ofereçam suporte à substituição e reinicialização automáticas de instâncias com problemas, há cenários como sobrecarga de memória ou degradação indetectável do hardware em que a intervenção manual pode ser necessária. Agora, as ações de nó no console oferecem uma abordagem consistente para reiniciar manualmente nós e se recuperar de problemas transitórios, excluir nós com problemas e substituí-los. As operações em lote permitem executar várias ações de nó simultaneamente, o que ajuda você a resolver problemas em poucos minutos. Esse recurso é especialmente valioso ao executar workloads urgentes de inferência e treinamento de IA, nas quais é essencial minimizar o tempo de inatividade.
Esse atributo está disponível em todas as regiões da AWS nas quais o Amazon SageMaker HyperPod é oferecido. Você pode realizar todas essas ações de nó na página de gerenciamento do cluster do HyperPod no console. Clique nos respectivos links para saber mais sobre substituir/reiniciar e conectar-se a um nó.