Publicado en: Nov 2, 2022
Los experimentos de piloto automático de Amazon SageMaker que utilizan el entrenamiento de hiperparámetros son hasta 2 veces más rápidos para generar modelos ML en conjuntos de datos de más de 100 MB que ejecutan 100 o más pruebas. El piloto automático de Amazon SageMaker crea, entrena y ajusta automáticamente los mejores modelos de ML en función de sus datos, a la vez que le permite mantener el control y la visibilidad completos.
El piloto automático de Amazon SageMaker ofrece dos modos de entrenamiento: Hyperparameter optimization (Optimización de hiperparámetros o HPO) y Ensemble (Agrupar). En el modo HPO, el piloto automático de SageMaker selecciona los algoritmos que son más relevantes para su conjunto de datos y selecciona el mejor rango de hiperparámetros para ajustar sus modelos mediante la optimización bayesiana. Sin embargo, para conjuntos de datos más grandes (> 100 MB), el tiempo de ajuste con la optimización bayesiana puede ser mayor. A partir de hoy, el piloto automático de SageMaker utilizará una nueva estrategia de optimización de hiperparámetros (HPO) de fidelidad múltiple que emplea el algoritmo de ajuste de hiperbanda de última generación en conjuntos de datos de más de 100 MB con 100 o más pruebas mientras continúa aprovechando la estrategia de optimización bayesiana para conjuntos de datos de menos de 100 MB. Con la estrategia de optimización de fidelidad múltiple, las pruebas que tienen un rendimiento deficiente en comparación con una métrica objetiva seleccionada se detienen antes de tiempo. De esta forma, se liberan recursos para las pruebas con un buen rendimiento. Esto, a su vez, reduce el tiempo de ajuste para los experimentos del piloto automático de SageMaker en el modo de entrenamiento HPO en grandes conjuntos de datos.
Con esta versión, el tiempo de entrenamiento y el ajuste del modelo es hasta 2 veces más rápido que antes, lo que permite a los clientes entregar en menos tiempo un modelo de ML con un rendimiento óptimo. Para evaluar las mejoras de desempeño, utilizamos varios conjuntos de datos de referencia OpenML con tamaños que varían entre 100 MB a 10 GB. Según nuestros resultados, los conjuntos de datos moderadamente grandes (100 MB - 1 GB) experimentaron un 41 % (de un promedio de 345 a 203 minutos) y los conjuntos de datos muy grandes (> 1 GB) experimentaron una mejora del 48 % (de un promedio de 2010 a 1053 minutos) en el tiempo de ejecución, respectivamente. Con esta mejora, puede ejecutar más rápido sus experimentos con el piloto automático de SageMaker sin hacer ningún cambio en las configuraciones de trabajo que ya existen.
Para obtener más información, consulte la documentación y para obtener más información sobre el piloto automático de SageMaker, visite la página del producto.