Presentamos el entrenamiento elástico en Amazon SageMaker HyperPod

Publicado en: 3 de dic de 2025

Amazon SageMaker HyperPod ahora admite el entrenamiento elástico, lo que permite a las organizaciones acelerar el entrenamiento del modelo básico al escalar automáticamente las cargas de trabajo de entrenamiento en función de la disponibilidad de recursos y las prioridades de la carga de trabajo. Esto representa un cambio fundamental respecto de la formación con un conjunto fijo de recursos, ya que ahorra horas de tiempo de ingeniería dedicadas a reconfigurar los trabajos de entrenamiento en función de la disponibilidad informática.

Antes, cualquier cambio en la disponibilidad informática requería detener manualmente el entrenamiento, reconfigurar los parámetros de entrenamiento y reiniciar los trabajos, un proceso que requiere experiencia en entrenamiento distribuido y deja inactivos a los costosos aceleradores de IA durante la reconfiguración de los trabajos de entrenamiento. El entrenamiento elástico amplía automáticamente los trabajos de entrenamiento para absorber los aceleradores de IA inactivos y contraerse sin problemas cuando las cargas de trabajo de mayor prioridad necesitan recursos, todo ello sin detener por completo el entrenamiento.

Al eliminar la sobrecarga de reconfiguración manual y garantizar la utilización continua de la computación disponible, el entrenamiento elástico puede ayudar a ahorrar el tiempo que antes se dedicaba a la administración de la infraestructura, reducir los costes al maximizar la utilización de los clústeres y acelerar el tiempo de comercialización. El entrenamiento puede comenzar de inmediato con recursos mínimos y crecer de manera oportunista a medida que haya capacidad disponible.

SageMaker HyperPod está disponible en todas las regiones en las que Amazon SageMaker HyperPod se ofrece actualmente. Las organizaciones pueden habilitar el entrenamiento elástico sin cambios de código mediante recetas de HyperPod para modelos disponibles al público, como Llama y GPT OSS. En el caso de arquitecturas de modelos personalizados, los clientes pueden integrar capacidades de entrenamiento elástico mediante actualizaciones de configuración ligeras y modificaciones mínimas de código, lo que hace que los equipos puedan acceder a ellas sin necesidad de experiencia en sistemas distribuidos.

Para empezar, visite la página del producto Amazon SageMaker HyperPod y consulte la documentación de entrenamiento elástico para obtener orientación sobre la implementación.