Annonce de la vérification progressive des points de contrôle gérés pour Amazon SageMaker HyperPod
Amazon Web Service (AWS) annonce aujourd'hui la disponibilité générale de la vérification progressive des points de contrôle gérés pour Amazon SageMaker HyperPod, une nouvelle fonctionnalité conçue pour réduire le temps de restauration des modèles et minimiser les pertes liées à la progression de l’entraînement. À mesure que la formation à l'IA est mise à l’échelle, la probabilité de défaillances de l'infrastructure augmente, ce qui rend essentielle la vérification efficace des points de contrôle. Les méthodes de vérification des points de contrôle traditionnelles peuvent être lentes et gourmandes en ressources, en particulier pour les grands modèles. La vérification progressive des points de contrôle gérés de SageMaker HyperPod résout ce problème en utilisant la mémoire du processeur pour stocker les points de contrôle fréquents pour une restauration rapide, tout en conservant périodiquement les données sur Amazon S3 pour une durabilité à long terme. Cette approche hybride minimise les pertes d'entraînement et réduit considérablement le temps nécessaire pour reprendre l'entraînement après un échec.
Grâce à la vérification progressive des points de contrôle gérés, les organisations peuvent s'entraîner de manière fiable, avec un débit élevé sur des clusters à grande échelle. Cette solution permet aux clients de configurer la fréquence des points de contrôle et les politiques de rétention sur les niveaux de stockage en mémoire et persistant. En stockant fréquemment des données en mémoire, les clients peuvent effectuer une restauration rapide tout en minimisant les coûts de stockage. Intégré au point de contrôle distribué (DCP) de PyTorch, les clients peuvent facilement implémenter la vérification des points de contrôle avec seulement quelques lignes de code, tout en bénéficiant des avantages en termes de performances du stockage en mémoire.
Cette fonctionnalité est actuellement disponible pour les clusters SageMaker HyperPod utilisant l'orchestrateur EKS. Les clients peuvent activer la vérification progressive des points de contrôle gérés en spécifiant un paramètre d'API lors de la création ou de la mise à jour d'un cluster HyperPod via l'API CreateCluster ou UpdateCluster. Les clients peuvent ensuite utiliser la bibliothèque python sagemaker-checkpointing pour implémenter la vérification progressive des points de contrôle gérés en modifiant le moins possible le code de leurs scripts de formation.
La vérification progressive des points de contrôle gérés est disponible dans toutes les régions où SageMaker HyperPod est actuellement disponible. Pour en savoir plus, consultez l’article de blog et la documentation.