Fonctionnalités d'Amazon SageMaker HyperPod
Mettez à l’échelle et accélérez le développement de modèles d’IA générative à l’aide de milliers d’accélérateurs d’IA
Gouvernance des tâches
Amazon SageMaker HyperPod offre une visibilité et un contrôle complets sur l’allocation des ressources de calcul entre les tâches de développement de modèles d’IA générative, telles que l’entraînement et l’inférence. SageMaker HyperPod gère automatiquement les files de tâches, ce qui garantit que les tâches les plus stratégiques sont priorisées, tout en utilisant plus efficacement les ressources de calcul pour réduire les coûts de développement des modèles. En quelques brèves étapes, les administrateurs peuvent définir les priorités des différentes tâches et définir des limites quant au nombre de ressources de calcul que chaque équipe ou projet peut utiliser. Les scientifiques des données et les développeurs créent ensuite des tâches (par exemple, une séance d’entraînement, l’optimisation d’un modèle particulier ou la réalisation de prévisions sur un modèle entraîné) que SageMaker HyperPod exécute automatiquement, conformément aux limites de ressources de calcul et aux priorités définies par l’administrateur. Lorsqu’une tâche hautement prioritaire doit être exécutée immédiatement, mais que toutes les ressources de calcul sont utilisées, SageMaker HyperPod libère automatiquement les ressources de calcul destinées aux tâches moins prioritaires. En outre, SageMaker HyperPod utilise automatiquement les ressources de calcul inactives pour accélérer les tâches en attente. SageMaker HyperPod propose un tableau de bord dans lequel les administrateurs peuvent surveiller et auditer les tâches en cours d’exécution ou en attente de ressources de calcul.
Plans de formation flexibles
Pour respecter vos délais et vos budgets de formation, SageMaker HyperPod vous aide à créer les plans d’entraînement les plus rentables qui utilisent les ressources de calcul provenant de plusieurs blocs de capacité de calcul. Une fois que vous avez approuvé les plans d’entraînement, SageMaker HyperPod alloue automatiquement l’infrastructure et exécute les tâches d’entraînement sur ces ressources de calcul sans aucune intervention manuelle. Vous économisez des semaines de gestion du processus d’entraînement afin d’aligner les tâches sur la disponibilité du calcul.
Recettes optimisées
Les recettes SageMaker HyperPod aident les scientifiques des données et les développeurs de tous niveaux bénéficient de performances de pointe tout en commençant rapidement à entraîner et à optimiser des modèles d’IA générative accessibles au public, notamment Llama 3.1 405B, Mixtral 8x22B et Mistral 7B. Chaque recette contient une pile de formation qui a été testée par AWS, éliminant ainsi des semaines de travail fastidieux à tester différentes configurations de modèles. Vous pouvez basculer entre les instances basées sur GPU et les instances basées sur AWS Trainium en modifiant la recette en une seule ligne, activer le point de contrôle automatique des modèles pour améliorer la résilience de l’entraînement et exécuter des charges de travail en production sur SageMaker HyperPod.
Entraînement distribué à hautes performances
SageMaker HyperPod accélère l’exécution d’entraînements distribués en répartissant automatiquement vos modèles et vos jeux de données d’entraînement entre les accélérateurs AWS. Il vous aide à optimiser votre tâche d’entraînement pour l’infrastructure réseau AWS et la topologie de cluster, mais aussi à rationaliser le point de contrôle des modèles en optimisant la fréquence d’enregistrement des points de contrôle, pour ainsi minimiser les frais au cours de l’entraînement.
Outils avancés d’expérimentation et d’observabilité
Vous pouvez utiliser les outils d’IA intégrés à SageMaker HyperPod pour améliorer les performances du modèle. Par exemple, la le TensorBoard géré dans SageMaker vous permet de gagner du temps de développement en visualisant l’architecture du modèle afin d’identifier et de résoudre les problèmes de convergence. L’intégration à Amazon CloudWatch Container Insights fournit des données analytiques plus détaillées sur les performances, l’état et l’utilisation des clusters. MLflow géré dans SageMaker vous permet de gérer efficacement les expériences à grande échelle.
Planification et orchestration des charges de travail
L’interface utilisateur de SageMaker HyperPod est hautement personnalisable à l’aide de Slurm ou d’Amazon Elastic Kubernetes Service (Amazon EKS). Vous pouvez sélectionner et installer tous les cadres ou outils nécessaires. Tous les clusters sont provisionnés avec le type et le nombre d'instances que vous choisissez, et ils sont conservés pour votre utilisation sur toutes les charges de travail. Grâce à la prise en charge d’Amazon EKS dans SageMaker HyperPod, vous pouvez gérer et exploiter des clusters avec une expérience d’administrateur cohérente basée sur Kubernetes. Gérez et adaptez efficacement les charges de travail, de l’entraînement à l’inférence en passant par le réglage. Vous pouvez également partager la capacité de calcul et passer de Slurm à Amazon EKS pour différents types de charges de travail.
Surveillance de l'état et réparation du cluster automatiques
Si des instances deviennent défectueuses pendant une charge de travail de développement d’un modèle, SageMaker HyperPod détecte et résout automatiquement les problèmes d’infrastructure. Pour détecter le matériel défectueux, SageMaker HyperPod effectue régulièrement une série de surveillances de l’état de l’accélérateur et du réseau.