Amazon SageMaker HyperPod prend désormais en charge la formation sans point de contrôle
Amazon SageMaker HyperPod prend désormais en charge l'entraînement sans point de contrôle, une nouvelle fonctionnalité d'entraînement de base qui réduit la nécessité d'un redémarrage au niveau de la tâche basé sur un point de contrôle pour la résolution des problèmes. L'entraînement sans point de contrôle maintient la dynamique de l'entraînement vers l'avant malgré les échecs, réduisant ainsi le temps de récupération de quelques heures à quelques minutes. Cela représente un changement fondamental par rapport à la restauration traditionnelle basée sur les points de contrôle, où les défaillances nécessitent la suspension de l'ensemble du cluster d'entraînement, le diagnostic manuel des problèmes et la restauration à partir de points de contrôle enregistrés, un processus qui peut laisser les coûteux accélérateurs d'IA inactifs pendant des heures, ce qui entraîne un gaspillage de calcul pour votre entreprise.
L'entraînement sans point de contrôle transforme ce paradigme en préservant l'état d'entraînement du modèle sur l'ensemble du cluster distribué, en remplaçant automatiquement les nœuds d'entraînement défectueux à la volée et en utilisant le transfert d'état pair à pair à partir d'accélérateurs sains pour la reprise en cas de panne. En atténuant les dépendances aux points de contrôle lors de la restauration, la formation sans point de contrôle peut aider votre organisation à réduire les coûts liés aux accélérateurs d'IA inactifs et à accélérer les délais. Même à plus grande échelle, la formation sans point de contrôle sur Amazon SageMaker HyperPod permet d'obtenir jusqu'à 95 % d'informations sur la taille des clusters grâce à des milliers d'accélérateurs d'IA.
La formation Checkpointless sur SageMaker HyperPod est disponible dans toutes les régions AWS où Amazon SageMaker HyperPod est actuellement disponible. Vous pouvez activer l'entraînement sans point de contrôle sans aucune modification de code à l'aide des recettes HyperPod pour les modèles populaires disponibles au public tels que Llama et GPT OSS. Pour les architectures de modèles personnalisés, vous pouvez intégrer des composants de formation sans point de contrôle avec un minimum de modifications pour les flux de travail basés sur PyTorch, afin de les rendre accessibles à vos équipes, quelle que soit leur expertise en matière de formation distribuée.
Pour commencer, rendez-vous sur la page produit Amazon SageMaker HyperPod et consultez la page GitHub consacrée à la formation sans point de contrôle pour obtenir des conseils de mise en œuvre.