Amazon SageMaker HyperPod agora oferece habilidades de solução de problemas para assistentes de codificação com IA

Publicado: 1 de jun de 2026

O Amazon SageMaker HyperPod agora oferece habilidades de solução de problemas que levam diagnósticos de clusters de IA/ML em nível de especialista diretamente para assistentes de codificação com IA, como Claude Code, Cursor e Kiro. O SageMaker HyperPod é uma infraestrutura criada especificamente para desenvolver, treinar e implantar modelos de base em grande escala. Ele oferece um ambiente resiliente e de alta performance, com tolerância a falhas integrada e recuperação automatizada de clusters, o que reduz o trabalho pesado indiferenciado de gerenciar uma infraestrutura de IA/ML em grande escala. As habilidades do HyperPod permitem diagnosticar e resolver problemas de cluster por meio de linguagem natural, para reduzir o tempo e o nível de especialização necessários para solucionar infraestrutura de treinamento e inferência distribuídos.

Depurar falhas de hardware de GPU, diagnosticar falhas de comunicação NCCL e identificar gargalos de performance em grandes clusters distribuídos continua sendo um processo complexo e demorado. Com frequência, operadores precisam acessar manualmente os nós via SSM, analisar logs em dezenas de instâncias e consultar a documentação. As novas habilidades de solução de problemas do HyperPod aceleram o tempo de resolução, com recursos que abrangem validação de integridade do cluster, diagnósticos de hardware e comunicação, detecção de variação de versões de software e geração automatizada de relatórios de diagnóstico. Cada habilidade codifica as práticas recomendadas da AWS em fluxos de trabalho de diagnóstico estruturados que orientam sistematicamente os agentes de IA a coletar evidências dos nós do seu cluster por meio do AWS Systems Manager, analisar padrões e fornecer recomendações acionáveis. As habilidades funcionam com sua infraestrutura HyperPod existente — nenhuma modificação é necessária.

As habilidades de solução de problemas do HyperPod são de código aberto e estão disponíveis atualmente para clusters do HyperPod orquestrados pelo Slurm e pelo Amazon EKS por meio do plug-in de habilidades do SageMaker AI. Para começar a usá-las, acesse o repositório github do AWSLabs para instalar o plug-in sagemaker-ai no seu assistente de codificação preferido.