Publié le: Nov 2, 2022
Les expériences Amazon SageMaker Autopilot utilisant l'apprentissage par hyperparamètres se révèlent jusqu'à deux fois plus rapides pour générer des modèles machine learning sur les jeux de données de plus de 100 Mo qui exécutent 100 essais ou plus. Amazon SageMaker Autopilot crée, entraîne et ajuste automatiquement les meilleurs modèles de machine learning en fonction de vos données, tout en vous permettant de conserver un contrôle et une visibilité absolus.
SageMaker Autopilot propose deux modes d'apprentissage : l'optimisation des hyperparamètres et Ensemble. En mode d'optimisation des hyperparamètres, SageMaker Autopilot sélectionne les algorithmes les plus pertinents pour votre jeu de données et choisit la meilleure gamme d'hyperparamètres pour ajuster vos modèles à l'aide de l'optimisation bayésienne. Pour les jeux de données volumineux (supérieurs à 100 Mo) cependant, le temps d'ajustement peut se révéler plus long avec l'optimisation bayésienne. À compter d'aujourd'hui, SageMaker Autopilot utilise une nouvelle stratégie d'optimisation des hyperparamètres multifidélité. Cette stratégie emploie l'algorithme d'ajustement hyperbande de pointe sur les jeux de données de plus de 100 Mo avec 100 essais ou plus, tout en continuant d'exploiter la stratégie d'optimisation bayésienne pour les jeux de données de moins de 100 Mo. Avec la stratégie d'optimisation multifidélité, les essais dont les résultats sont médiocres par rapport à une métrique objective sélectionnée sont arrêtés rapidement, libérant ainsi des ressources pour les essais plus performants. Cela permet de réduire le temps d'ajustement des expériences SageMaker Autopilot en mode d'apprentissage par optimisation des hyperparamètres sur les grands jeux de données.
Avec cette version, l'apprentissage et l'ajustement des modèles se révèlent jusqu'à deux fois plus rapide qu'auparavant. Nos clients peuvent ainsi produire plus vite le modèle machine learning le plus performant. Pour évaluer les améliorations des performances, nous avons utilisé plusieurs jeux de données de référence OpenML de tailles variables allant de 100 Mo à 10 Go. D'après nos résultats, les jeux de données de taille moyenne (comprise entre 100 Mo et 1 Go) ont vu leur temps d'exécution s'améliorer de 41 % (de 345 à 203 minutes en moyenne), contre 48 % (de 2 010 à 1 053 minutes en moyenne) pour les jeux de données très volumineux (supérieurs à 1 Go). Ces améliorations vous permettent d'exécuter des expérimentations SageMaker Autopilot sans apporter le moindre changement à la configuration actuelle de vos tâches.
Pour plus d'informations, consultez la documentation. Pour en savoir plus sur SageMaker Autopilot, visitez la page du produit.