Anunciamos los puntos de control administrados por niveles para Amazon SageMaker HyperPod

Publicado en: 8 de sep de 2025

Hoy, Amazon Web Service (AWS) anuncia la disponibilidad general de los puntos de control administrados por niveles para Amazon SageMaker HyperPod, una nueva capacidad diseñada para reducir el tiempo de recuperación de los modelos y evitar que se pierda progreso del entrenamiento. A medida que se amplía el entrenamiento de IA, aumenta la probabilidad de que se produzcan errores en la infraestructura, por lo que es fundamental contar con puntos de control eficientes. Los métodos tradicionales de puntos de control pueden ser lentos y consumir muchos recursos, especialmente para modelos de gran tamaño. Los puntos de control administrados por niveles de SageMaker HyperPod solucionan este problema mediante el uso de la memoria de la CPU para almacenar los puntos de control frecuentes para una recuperación rápida y, al mismo tiempo, conservar los datos de forma periódica en Amazon S3 para tener una mayor durabilidad a largo plazo. Este enfoque híbrido minimiza la pérdida de entrenamiento y reduce significativamente el tiempo necesario para reanudar después de un error.

Con puntos de control administrados por niveles, las organizaciones pueden entrenarse de forma fiable y con un alto rendimiento en clústeres a gran escala. La solución permite a los clientes configurar políticas de retención y frecuencia de puntos de control en los niveles de almacenamiento persistente y en memoria. Al almacenar con frecuencia en la memoria, los clientes pueden recuperarse rápidamente y, al mismo tiempo, minimizar los costos de almacenamiento. Al integrarse con el punto de control distribuido (DCP) de PyTorch, los clientes pueden implementar fácilmente los puntos de control con solo unas pocas líneas de código y, al mismo tiempo, obtener los beneficios de rendimiento del almacenamiento en memoria.

Esta característica está disponible actualmente para los clústeres de HyperPod de SageMaker que utilizan el orquestador EKS. Los clientes pueden habilitar los puntos de control administrados por niveles especificando un parámetro de API al crear o actualizar un clúster de HyperPod mediante la API CreateCluster o UpdateCluster. Luego, los clientes pueden usar la biblioteca de python sagemaker-checkpoint para implementar puntos de control administrados por niveles con cambios mínimos en el código de sus scripts de entrenamiento.

Los puntos de control administrados por niveles están disponibles en todas las regiones en las que SageMaker HyperPod está disponible actualmente. Para obtener más información, consulte la entrada del blog y la documentación.