Amazon SageMaker HyperPod ahora admite el entrenamiento sin puntos de control

Publicado en: 3 de dic de 2025

Amazon SageMaker HyperPod ahora admite el entrenamiento sin puntos de control, un nuevo modelo básico de capacidad de entrenamiento que mitiga la necesidad de reiniciar el nivel de trabajo basado en puntos de control para la recuperación de errores. El entrenamiento sin control mantiene el impulso del entrenamiento a pesar de los fracasos, lo que reduce el tiempo de recuperación de horas a minutos. Esto representa un cambio fundamental con respecto a la recuperación tradicional basada en puntos de control, en la que las fallas requieren pausar todo el clúster de entrenamiento, diagnosticar los problemas manualmente y restaurar desde los puntos de control guardados, un proceso que puede dejar inactivos durante horas a los costosos aceleradores de IA, lo que supone un desperdicio de computación para la organización.

El entrenamiento sin control transforma este paradigma al preservar el estado de entrenamiento del modelo en todo el clúster distribuido, intercambiar automáticamente los nodos de entrenamiento defectuosos sobre la marcha y utilizar la transferencia de estados de igual a igual desde aceleradores en buen estado para la recuperación de errores. Al mitigar las dependencias de los puntos de control durante la recuperación, el entrenamiento sin puntos de control puede ayudar a su organización a ahorrar en los costes de los aceleradores de IA inactivos y a acelerar el tiempo. Incluso a escalas más grandes, el entrenamiento sin puntos de control en Amazon SageMaker HyperPod permite hasta un 95 % de entrenamiento adecuado en tamaños de clústeres con miles de aceleradores de IA.

El entrenamiento sin puntos de control sobre SageMaker HyperPod está disponible en todas las regiones de AWS en las que Amazon SageMaker HyperPod se ofrece actualmente. Puede habilitar el entrenamiento sin puntos de control sin cambios de código mediante recetas de HyperPod para modelos populares disponibles al público, como Llama y GPT OSS. En el caso de arquitecturas de modelos personalizados, puede integrar componentes de entrenamiento sin puntos de control con modificaciones mínimas para los flujos de trabajo basados en PyTorch, de modo que sus equipos puedan acceder a ellos independientemente de su experiencia en entrenamiento distribuido.

Para empezar, visite la página del producto Amazon SageMaker HyperPod y consulte la página de GitHub de entrenamiento sin puntos de control para obtener orientación sobre la implementación.