Publicado en: Jul 8, 2022
El entrenamiento de modelos deAmazon SageMaker ahora admite clústeres heterogéneos, que permiten el lanzamiento de tareas de entrenamiento que utilizan varios tipos de instancias en una sola tarea. Esta nueva capacidad puede mejorar el costo del entrenamiento al ejecutar diferentes partes del entrenamiento de modelos en el tipo de instancia más adecuado. Por ejemplo, recientemente, entrenamos un modelo de visión artificial ResNet-50 en un clúster heterogéneo con instancias ml.g5.xl y ml.c5n.2xl. El costo de esta tarea de entrenamiento fue un 13 % más bajo que el entrenamiento del mismo modelo en un clúster con solo instancias ml.g5.xl con la misma precisión.
Ciertas cargas de trabajo de aprendizaje automático combinan tareas que se benefician del uso de diferentes tipos de instancias para cada tarea. Por ejemplo, el entrenamiento de modelos de visión artificial suele incluir la combinación de la tarea de entrenamiento de modelos de red neuronal, que requiere un uso intensivo de la GPU, con la tarea de procesamiento y aumento de datos, que requiere un uso intensivo de la CPU. La ejecución de ambas tareas en un solo tipo de instancia puede dar lugar a una baja utilización de la GPU y, por ende, a un desperdicio de recursos.
La capacidad de los clústeres heterogéneos permite ejecutar las tareas de entrenamiento de SageMaker en varios tipos de instancia: las tareas que requieren un uso intensivo de la GPU se ejecutan en tipos de instancia como ml.p4d.24xl, y las tareas que requieren un uso intensivo de la CPU se ejecutan en tipos de instancia como ml.c5n.18xl. Esta flexibilidad puede aumentar la utilización de la GPU y, por lo tanto, mejorar la rentabilidad general. Los clústeres heterogéneos se pueden utilizar sin cargo adicional.
Para obtener más información, visite la documentación de clústeres heterogéneos. Para comenzar, inicie sesión en la consola de Amazon SageMaker.