Publicado en: Sep 30, 2022
Nos complace anunciar que el entrenamiento de modelos de Amazon SageMaker ahora es compatible con los grupos en caliente administrados del entrenamiento de SageMaker. Los usuarios ahora pueden optar por mantener activas sus instancias de hardware de entrenamiento de modelos de machine learning (ML) durante un período de tiempo específico después de que se complete el trabajo. Con esta característica, los clientes pueden realizar experimentos iterativos o ejecutar trabajos consecutivos a escala para el entrenamiento de modelos en las mismas instancias en caliente, con una reducción de hasta 8 veces en la latencia de inicio del trabajo.
El modelo de entrenamiento de Amazon SageMaker es una capacidad completamente administrada que activa instancias para cada trabajo, entrena un modelo y luego desactiva las instancias después del trabajo. A los clientes se les factura solo por la duración del trabajo. Esta capacidad completamente administrada da a los clientes la libertad de concentrarse en su algoritmo de ML y no preocuparse por la administración de la infraestructura mientras entrenan sus modelos. Sin embargo, debido a que se aprovisionan instancias de hardware para cada trabajo de entrenamiento, este comportamiento introduce latencia de inicio para cargas de trabajo de entrenamiento repetitivas. Dado que el proceso de entrenamiento del modelo requiere una experimentación iterativa sustancial, esta latencia de inicio para cada trabajo individual es una sobrecarga adicional para los clientes. Además, los clientes a los que les gusta entrenar grandes volúmenes de modelos a escala, a menudo usan las mismas configuraciones de instancias para trabajos de entrenamiento consecutivos y consideran que esta latencia de inicio para cada trabajo es onerosa.
Con los grupos en caliente administrados de entrenamiento de SageMaker, los clientes pueden mantener activas sus instancias de hardware para entrenamiento de modelos después de cada trabajo durante un período específico. Esto les permite comenzar a entrenar utilizando una instancia que ya está en funcionamiento, para realizar experimentos iterativos o entrenar grandes volúmenes de modelos de forma consecutiva. Con los grupos en caliente administrados de entrenamiento de SageMaker, los clientes pueden reducir hasta 8 veces la latencia de inicio para un trabajo de entrenamiento de modelos. También pueden habilitar grupos en caliente administrados de entrenamiento de SageMaker al especificar un período de actividad en la API de entrenamiento. Si optan por utilizar los grupos en caliente, se les facturan las instancias y los volúmenes de EBS durante el período de mantenimiento.
Los grupos en caliente administrados de entrenamiento de SageMaker están disponibles en todas las regiones públicas de AWS donde está disponible el entrenamiento de modelos de Amazon SageMaker. Para comenzar, consulte Entrenamiento con los grupos en caliente administrados de SageMaker en la Guía para desarrolladores de Amazon SageMaker.