Annonce de l'opérateur d’entraînement Amazon SageMaker HyperPod

Publié le: 30 juin 2025

Aujourd'hui, nous annonçons la disponibilité générale de l'opérateur de formation Amazon SageMaker HyperPod, une extension Kubernetes spécialement conçue pour l’entraînement des modèles de base résilient sur HyperPod.

Amazon SageMaker HyperPod permet aux clients d'accélérer le développement de modèles d'IA sur des centaines ou des milliers de GPU grâce à la résilience intégrée, ce qui permet de réduire la durée d’entraînement des modèles jusqu'à 40 %. À mesure que les clusters de formation se développent, la reprise après une interruption d'entraînement devient de plus en plus perturbatrice. La reprise après panne nécessite généralement un redémarrage complet des tâches sur tous les nœuds lorsqu'un seul processus d’entraînement échoue, ce qui implique des durées d’indisponibilité supplémentaires et une augmentation des coûts. En outre, l'identification et la résolution des problèmes d’entraînement critiques tels que les GPU bloqués, le faible débit d'entraînement et les instabilités numériques nécessitent généralement un code de surveillance personnalisé complexe, ce qui allonge encore les délais de développement et retarde les délais de mise sur le marché.

Grâce à l'opérateur d’entraînement HyperPod, les clients peuvent encore améliorer la résilience de l’entraînement pour les charges de travail Kubernetes. Au lieu de redémarrer complètement la tâche en cas de panne, l'opérateur d’entraînement HyperPod procède à une reprise chirurgicale, en redémarrant de manière sélective uniquement les ressources d'entraînement concernées pour une reprise plus rapide en cas de panne. Il introduit également une fonction personnalisable de surveillance des tâches en suspens pour aider à surmonter les scénarios d’entraînement problématiques, notamment les lots d'entraînement bloqués, les valeurs de perte non numériques et la dégradation des performances grâce à de simples configurations YAML. La mise en route est simple : créez un cluster HyperPod, installez le module complémentaire d’opérateur d’entraînement, définissez éventuellement des politiques de récupération personnalisées pour les tâches en suspens et lancez l’entraînement.

Cette version est généralement disponible dans toutes les régions AWS où SageMaker HyperPod est actuellement pris en charge.

Lisez la documentation pour en savoir plus.