Amazon SageMaker HyperPod ahora ofrece habilidades de resolución de problemas para los asistentes de codificación de IA

Publicado en: 1 de jun de 2026

Amazon SageMaker HyperPod ahora proporciona habilidades de solución de problemas que permiten llevar el diagnóstico de clústeres de IA y ML de nivel experto directamente a los asistentes de codificación de IA, como Claude Code, Cursor y Kiro. SageMaker HyperPod es una infraestructura diseñada específicamente para desarrollar, entrenar e implementar modelos básicos a escala. Proporciona un entorno resiliente y de alto rendimiento con tolerancia a errores integrada, recuperación automatizada de clústeres, lo que reduce la pesada carga indiferenciada de administrar una infraestructura de IA y ML a gran escala. Las habilidades de HyperPod le permiten diagnosticar y resolver problemas de clústeres mediante un lenguaje natural, lo que reduce el tiempo y la experiencia necesarios para solucionar problemas de la infraestructura distribuida de inferencia y entrenamiento.

Depurar las fallas de hardware de la GPU, diagnosticar las fallas de comunicación de NCCL e identificar los cuellos de botella en el rendimiento en grandes clústeres distribuidos sigue siendo complejo y lleva mucho tiempo. Los operadores suelen necesitar conectarse manualmente a los nodos mediante SSM, analizar los registros de docenas de instancias y hacer referencias cruzadas de la documentación. Las nuevas habilidades de solución de problemas de HyperPod ayudan a acelerar la resolución, con capacidades que abarcan la validación del estado del clúster, el diagnóstico de hardware y comunicación, las variaciones en las versiones de software y los informes de diagnóstico automatizados. Cada habilidad codifica las mejores prácticas de AWS en flujos de trabajo de diagnóstico estructurados que guían sistemáticamente a los agentes de IA para recopilar información de diagnóstico de los nodos de su clúster a través de AWS Systems Manager, analizar patrones y proporcionar recomendaciones prácticas. Las habilidades funcionan con su infraestructura HyperPod existente, sin necesidad de modificaciones.

Las habilidades de solución de problemas de HyperPod son de código abierto y están disponibles hoy para los clústeres de HyperPod orquestados por Slurm y Amazon EKS a través del complemento de habilidades SageMaker AI. Para empezar, visite el repositorio github de AWSLabs para instalar el complemento sagemaker-ai en su asistente de codificación preferido.