Presentamos el operador de entrenamiento de Amazon SageMaker HyperPod

Publicado en: 30 de jun de 2025

Hoy anunciamos la disponibilidad general del operador de entrenamiento de Amazon SageMaker HyperPod, una extensión de Kubernetes diseñada específicamente para el entrenamiento de modelos fundacionales resilientes en HyperPod.

Amazon SageMaker HyperPod permite a los clientes acelerar el desarrollo de modelos de IA en cientos o miles de GPU con resiliencia integrada. De este modo, se reduce el tiempo de entrenamiento de modelos hasta en un 40 %. A medida que los clústeres de entrenamiento se expanden, la recuperación de las interrupciones del entrenamiento se vuelve cada vez más disruptiva. Tradicionalmente, la recuperación ante errores requiere un reinicio completo del trabajo en todos los nodos cuando hay un error incluso en un solo proceso de entrenamiento. Esto genera un tiempo de inactividad adicional y un aumento de los costos. Además, identificar y resolver problemas críticos de capacitación, como las GPU estancadas, el bajo rendimiento del entrenamiento y las inestabilidades numéricas, generalmente requiere un código de monitoreo personalizado complejo, lo que amplía aún más los plazos de desarrollo y retrasa el tiempo de comercialización.

Con el operador de entrenamiento de HyperPod, los clientes pueden mejorar aún más la resiliencia del entrenamiento para las cargas de trabajo de Kubernetes. En lugar de reiniciar el trabajo por completo cuando se producen errores, el operador de entrenamiento del HyperPod realiza la recuperación puntual y reinicia únicamente los recursos de entrenamiento afectados para una recuperación más rápida ante errores. También presenta una capacidad personalizable de monitoreo de trabajos pendientes para ayudar a superar situaciones de entrenamiento problemáticas, como el estancamiento de los lotes de entrenamiento, los valores de pérdida no numéricos y la degradación del rendimiento mediante configuraciones sencillas de YAML. Empezar es sencillo: cree un clúster de HyperPod, instale el complemento de operador de entrenamiento, defina de forma opcional políticas de recuperación personalizadas para los trabajos pendientes e inicie el entrenamiento.

Esta versión está disponible de forma general en todas las regiones de AWS en las que SageMaker HyperPod es compatible actualmente.

Consulte la documentación para leer más información.