Prise en charge d'Amazon EKS dans Amazon SageMaker HyperPod pour mettre à l’échelle le développement des modèles de fondation

Publié le: 10 sept. 2024

Nous sommes ravis d'annoncer la disponibilité générale de la prise en charge d’Amazon EKS dans SageMaker HyperPod, qui permet aux clients d'exécuter et de gérer leurs charges de travail Kubernetes sur SageMaker HyperPod, une infrastructure spécialement conçue pour le développement de modèles de fondation (FM) qui réduit le temps nécessaire à la formation des modèles jusqu'à 40 %.

De nombreux clients utilisent Kubernetes pour orchestrer leurs flux de travail de machine learning en raison de sa portabilité, de sa capacité de mise l’échelle et de son riche écosystème d'outils. Ces clients souhaitent continuer à utiliser l'interface familière de Kubernetes, mais souhaitent tout de même disposer d'un moyen automatisé de gérer les pannes matérielles. La prise en charge d'EKS dans HyperPod associe les avantages de SageMaker HyperPod, qui propose des clusters performants à régénération automatique, aux fonctionnalités de conteneurisation d'Amazon EKS, un service Kubernetes géré. Grâce à ce lancement, les clients peuvent effectuer la surveillance de l’état approfondie lors de la création du cluster afin de réduire les défaillances pendant la formation. De plus, HyperPod remplace automatiquement les nœuds défectueux et reprend l'entraînement depuis votre dernier point de contrôle sur AWS Trainium et sur les GPU Nvidia à l'échelle de plus d'un millier d'accélérateurs. Les clients peuvent utiliser la nouvelle interface de ligne de commande d’HyperPod ou leurs outils préférés pour soumettre, gérer et surveiller les charges de travail. L'environnement de cluster persistant offre un accès SSM et la possibilité de personnaliser le cluster. Les clusters HyperPod orchestrés par EKS s'intègrent également à CloudWatch Container Insights pour fournir une observabilité prête à l'emploi, en découvrant automatiquement l'état des nœuds HyperPod et en les visualisant dans des tableaux de bord organisés.

Cette version est généralement disponible dans les régions AWS où SageMaker HyperPod est disponible, à l'exception de la région Europe (Londres).

Pour en savoir plus, consultez les ressources suivantes : page web, blog AWS News, documentation et référentiel Github.