Présentation d'Elastic Training sur Amazon SageMaker HyperPod
Amazon SageMaker HyperPod prend désormais en charge la formation élastique, ce qui permet aux entreprises d'accélérer la formation sur le modèle d'entraînement en adaptant automatiquement les charges de travail d'entraînement en fonction de la disponibilité des ressources et des priorités en matière de charge de travail. Cela représente un changement fondamental par rapport à la formation avec un ensemble fixe de ressources, car cela permet d'économiser des heures de temps d'ingénierie consacrées à la reconfiguration des tâches d'entraînement en fonction de la disponibilité du calcul.
Toute modification de la disponibilité des ressources informatiques nécessitait auparavant l'arrêt manuel de l'entraînement, la reconfiguration des paramètres d'entraînement et le redémarrage des tâches, un processus qui nécessite une expertise en matière de formation distribuée et laisse les coûteux accélérateurs d'IA inactifs pendant la reconfiguration des tâches d'entraînement. Elastic Training étend automatiquement les tâches d'entraînement pour absorber les accélérateurs d'IA inactifs et se contracter de manière fluide lorsque les charges de travail les plus prioritaires nécessitent des ressources, le tout sans interrompre complètement la formation.
En éliminant les frais de reconfiguration manuelle et en garantissant une utilisation continue du calcul disponible, Elastic Training permet de gagner du temps auparavant consacré à la gestion de l'infrastructure, de réduire les coûts en maximisant l'utilisation du cluster et d'accélérer les délais de mise sur le marché. La formation peut commencer immédiatement avec un minimum de ressources et se développer de manière opportuniste au fur et à mesure que les capacités deviennent disponibles.
SageMaker HyperPod est disponible dans toutes les régions où Amazon SageMaker HyperPod est actuellement disponible. Les entreprises peuvent activer la formation élastique sans aucune modification de code à l'aide de recettes HyperPod pour des modèles accessibles au public, notamment Llama et GPT OSS. Pour les architectures de modèles personnalisés, les clients peuvent intégrer des fonctionnalités d'entraînement élastiques grâce à des mises à jour de configuration légères et à des modifications de code minimes, le rendant ainsi accessible aux équipes sans nécessiter d'expertise en systèmes distribués.
Pour commencer, rendez-vous sur la page produit d'Amazon SageMaker HyperPod, et consultez la documentation relative à Elastic Training pour obtenir des conseils de mise en œuvre.