Publié le: Sep 21, 2022
Aujourd'hui, nous sommes heureux d'annoncer l'ajout dans Amazon SageMaker Autopilot d'un nouveau mode d'entraînement qui prend en charge l'assemblage de modèles basé sur AutoGluon. Pour les jeux de données modérément volumineux (< 100 Mo), le mode d'entraînement Ensemble construit rapidement des modèles de machine learning (ML) avec une grande précision, jusqu'à 8 fois plus rapidement que le mode d'entraînement d'optimisation des hyperparamètres (HPO) actuel avec 250 essais. Amazon SageMaker Autopilot crée, entraîne et ajuste automatiquement les meilleurs modèles de machine learning en fonction de vos données, tout en vous permettant de conserver un contrôle et une visibilité totale. Le mode HPO actuel utilise une combinaison de valeurs des hyperparamètres pour optimiser la précision d'un seul modèle. Toutefois, lorsqu'un seul modèle n'est pas en mesure de capturer les caractéristiques complexes des données, la combinaison (ou l'assemblage) des prédictions provenant de plusieurs modèles peut améliorer de manière significative la précision globale du modèle.
Le mode d'entraînement Ensemble dans Amazon SageMaker Autopilot utilise AutoGluon pour entraîner plusieurs modèles de base et combine leurs prédictions via l'empilage de modèles. Il prend en charge une grande variété d'algorithmes, notamment LightGBM, CatBoost, XGBoost, Random Forest, Extra Trees, Linear Models et Neural Networks basés sur PyTorch et FastAI. Pour évaluer les améliorations de performances du mode Ensemble par rapport au mode HPO, nous avons utilisé plusieurs jeux de données de référence OpenML de tailles allant jusqu'à 100 Mo. Selon les résultats, les tâches d'entraînement Ensemble sur des jeux de données plus petits (moins de 1 Mo) ont connu une amélioration globale de la durée d'exécution de la tâche SageMaker Autopilot allant jusqu'à 8 fois par rapport au mode HPO avec 250 essais (allant d'une moyenne de 120 minutes à 15 minutes) et une amélioration de 5,8 fois par rapport au mode HPO avec 100 essais. Les jeux de données moyens (1-10 Mo) et volumineux (10-100 Mo) ont connu des améliorations de la durée d'exécution de 5 fois et de 2,5 fois par rapport à HPO avec 250 essais et une précision environ 1,9 % plus élevée.
Pour commencer, créez une expérience SageMaker Autopilot dans la console SageMaker Studio et sélectionnez le mode d'entraînement « Ensembling » ou laissez SageMaker Autopilot choisir le mode d'entraînement automatiquement en fonction de la taille du jeu de données. Vous pouvez consulter le guide de référence sur l'API createAutoMLJob pour obtenir les mises à jour de l'API et mettez à niveau vers la dernière version de SageMaker Studio pour utiliser le nouveau mode d'entraînement Ensemble. Pour plus d'informations sur cette fonctionnalité, consultez le guide du développeur et pour en apprendre plus sur SageMaker Autopilot, visitez la page produit.