Amazon SageMaker HyperPod ahora ofrece habilidades de resolución de problemas para los asistentes de codificación de IA
Amazon SageMaker HyperPod ahora proporciona habilidades de solución de problemas que permiten llevar el diagnóstico de clústeres de IA y ML de nivel experto directamente a los asistentes de codificación de IA, como Claude Code, Cursor y Kiro. SageMaker HyperPod es una infraestructura diseñada específicamente para desarrollar, entrenar e implementar modelos básicos a escala. Proporciona un entorno resiliente y de alto rendimiento con tolerancia a errores integrada, recuperación automatizada de clústeres, lo que reduce la pesada carga indiferenciada de administrar una infraestructura de IA y ML a gran escala. Las habilidades de HyperPod le permiten diagnosticar y resolver problemas de clústeres mediante un lenguaje natural, lo que reduce el tiempo y la experiencia necesarios para solucionar problemas de la infraestructura distribuida de inferencia y entrenamiento.
Depurar las fallas de hardware de la GPU, diagnosticar las fallas de comunicación de NCCL e identificar los cuellos de botella en el rendimiento en grandes clústeres distribuidos sigue siendo complejo y lleva mucho tiempo. Los operadores suelen necesitar conectarse manualmente a los nodos mediante SSM, analizar los registros de docenas de instancias y hacer referencias cruzadas de la documentación. Las nuevas habilidades de solución de problemas de HyperPod ayudan a acelerar la resolución, con capacidades que abarcan la validación del estado del clúster, el diagnóstico de hardware y comunicación, las variaciones en las versiones de software y los informes de diagnóstico automatizados. Cada habilidad codifica las mejores prácticas de AWS en flujos de trabajo de diagnóstico estructurados que guían sistemáticamente a los agentes de IA para recopilar información de diagnóstico de los nodos de su clúster a través de AWS Systems Manager, analizar patrones y proporcionar recomendaciones prácticas. Las habilidades funcionan con su infraestructura HyperPod existente, sin necesidad de modificaciones.
Las habilidades de solución de problemas de HyperPod son de código abierto y están disponibles hoy para los clústeres de HyperPod orquestados por Slurm y Amazon EKS a través del complemento de habilidades SageMaker AI. Para empezar, visite el repositorio github de AWSLabs para instalar el complemento sagemaker-ai en su asistente de codificación preferido.