Passer au contenu principal

Amazon SageMaker HyperPod

Fonctionnalités Amazon SageMaker HyperPod

Mettez à l’échelle et accélérez le développement de modèles d’IA générative à l’aide de milliers d’accélérateurs d’IA

Entraînement sans point de contrôle

L’entraînement sans point de contrôle sur Amazon SageMaker HyperPod permet une reprise automatique en cas de défaillance d’infrastructure, en quelques minutes seulement et sans intervention manuelle. Il évite le redémarrage des tâches basé sur des points de contrôle souvent nécessaire pour assurer la reprise en cas de défaillance. Ce type de redémarrage fastidieux nécessite de mettre en pause l’ensemble du cluster, de résoudre les problèmes, puis de reprendre à partir d’un point de contrôle enregistré. L’entraînement sans point de contrôle maintient la progression de l’entraînement malgré les défaillances. SageMaker HyperPod remplace automatiquement les composants défectueux et reprend l’entraînement en utilisant un transfert peer-to-peer des états du modèle et de l’optimiseur depuis des accélérateurs d’IA sains. La solution permet d’atteindre plus de 95 % de rendement effectif de l’entraînement sur des clusters de milliers d’accélérateurs d’IA. Grâce à l’entraînement sans point de contrôle, vous pouvez économiser des millions en coûts de calcul, mettre à l’échelle l’entraînement sur des milliers d’accélérateurs d’IA et déployer vos modèles en production plus rapidement.

En savoir plus

Entraînement élastique

L’entraînement élastique sur Amazon SageMaker HyperPod met automatiquement à l’échelle les tâches d’entraînement en fonction des ressources de calcul disponibles. Il vous fait gagner plusieurs heures d’ingénierie chaque semaine, auparavant consacrées à la reconfiguration manuelle de ces tâches. La demande en accélérateurs d’IA fluctue constamment. Elle suit le trafic des charges de travail d’inférence, la libération de ressources après les expériences terminées, et l’arrivée de nouvelles tâches d’entraînement qui modifient les priorités en matière de charge de travail. SageMaker HyperPod étend de manière dynamique les tâches d’entraînement en cours pour exploiter les accélérateurs d’IA inactifs et maximiser l’utilisation de l’infrastructure. Lorsque des charges de travail hautement prioritaires, comme l’inférence ou l’évaluation, ont besoin de ressources, l’entraînement est réduit verticalement pour continuer avec moins de ressources, sans jamais s’arrêter complètement. Cela permet de libérer la capacité nécessaire selon les priorités définies par les politiques de gouvernance des tâches. Grâce à l’entraînement élastique, vous pouvez accélérer le développement de vos modèles d’IA tout en minimisant les coûts liés aux ressources de calcul sous-utilisées.

En savoir plus

Gouvernance des tâches

Amazon SageMaker HyperPod offre une visibilité et un contrôle complets sur l’allocation des ressources de calcul entre les tâches de développement de modèles d’IA générative, telles que l’entraînement et l’inférence. SageMaker HyperPod gère automatiquement les files de tâches, ce qui garantit que les tâches les plus stratégiques sont priorisées, tout en utilisant plus efficacement les ressources de calcul pour réduire les coûts de développement des modèles. En quelques brèves étapes, les administrateurs peuvent définir les priorités des différentes tâches et définir des limites quant au nombre de ressources de calcul que chaque équipe ou projet peut utiliser. Les scientifiques des données et les développeurs créent ensuite des tâches (par exemple, une séance d’entraînement, le peaufinage d’un modèle particulier ou la réalisation de prévisions sur un modèle entraîné) que SageMaker HyperPod exécute automatiquement, conformément aux limites de ressources de calcul et aux priorités définies par l’administrateur. Lorsqu’une tâche hautement prioritaire doit être exécutée immédiatement, mais que toutes les ressources de calcul sont utilisées, SageMaker HyperPod libère automatiquement les ressources de calcul destinées aux tâches moins prioritaires. En outre, SageMaker HyperPod utilise automatiquement les ressources de calcul inactives pour accélérer les tâches en attente. SageMaker HyperPod propose un tableau de bord dans lequel les administrateurs peuvent surveiller et auditer les tâches en cours d’exécution ou en attente de ressources de calcul.

Plans d’entraînement flexibles

Pour respecter vos délais et vos budgets d’entraînement, SageMaker HyperPod vous aide à créer les plans d’entraînement les plus rentables qui utilisent les ressources de calcul provenant de plusieurs blocs de capacité de calcul. Une fois que vous avez approuvé les plans d’entraînement, SageMaker HyperPod provisionne automatiquement l’infrastructure et exécute les tâches d’entraînement sur ces ressources de calcul, sans aucune intervention manuelle. Vous économisez ainsi des semaines de gestion du processus d’entraînement pour aligner les tâches sur la disponibilité du calcul.

Instances Spot Amazon SageMaker HyperPod

Les instances Spot sur SageMaker HyperPod vous permettent d’accéder à une capacité de calcul à des coûts considérablement réduits. Les instances Spot sont idéales pour les charges de travail tolérantes aux pannes, telles que les tâches d’inférence par lots. Les prix varient selon la région et le type d’instance, offrant généralement une réduction pouvant aller jusqu’à 90 % par rapport à la tarification à la demande de SageMaker HyperPod. La tarification relative aux instances Spot est définie par Amazon EC2 et ajustée graduellement en fonction des tendances à long terme en matière d’offre et de demande de capacité d’instance Spot. Vous payez le tarif Spot en vigueur pendant la période d’exécution de vos instances, sans engagement préalable requis. Pour en savoir plus sur les prix estimés des instances Spot et leur disponibilité, consultez la page de tarification des instances Spot EC2. Notez que seules les instances également prises en charge sur HyperPod sont disponibles pour une utilisation Spot sur HyperPod.

Recettes optimisées pour personnaliser des modèles

Grâce aux recettes SageMaker HyperPod, les scientifiques des données et les développeurs, quel que soit leur niveau de compétences, bénéficient de performances de pointe et peuvent démarrer en quelques minutes l’entraînement et le peaufinage de modèles de fondation disponibles publiquement, y compris les modèles Llama, Mixtral, Mistral et DeepSeek. En outre, vous pouvez personnaliser les modèles Amazon Nova, notamment Nova Micro, Nova Lite et Nova Pro, en utilisant un ensemble de techniques, telles que le peaufinage supervisé (SFT), la distillation des connaissances, l’optimisation directe des préférences (DPO), l’optimisation proximale de politique et l’entraînement préalable continu. Vous bénéficiez également de la prise en charge des options d’entraînement efficaces en paramètres et portant sur l’ensemble du modèle, pour le SFT, la distillation et la DPO. Chaque recette contient une pile d’entraînement testée par AWS, éliminant ainsi des semaines de travail fastidieux à tester différentes configurations de modèles. Vous pouvez basculer entre les instances basées sur GPU et les instances basées sur AWS Trainium en modifiant la recette en une seule ligne, activer la création de points de contrôle automatique des modèles pour améliorer la résilience de l’entraînement et exécuter des charges de travail en production sur SageMaker HyperPod.

Amazon Nova Forge est un programme unique en son genre qui offre aux entreprises le moyen le plus simple et le plus rentable de créer leurs propres modèles de pointe à l’aide de Nova. Accédez aux points de contrôle intermédiaires des modèles Nova et reprenez l’entraînement à partir de ces points. Combinez les jeux de données sélectionnés par Amazon avec des données exclusives pendant l’entraînement et utilisez les recettes SageMaker HyperPod pour entraîner vos propres modèles. Avec Nova Forge, vous pouvez utiliser vos propres données pour bénéficier d’une intelligence spécifique à vos cas d’utilisation ainsi que des améliorations de performance et de coût pour vos tâches.

En savoir plus

Entraînement distribué haute performance

SageMaker HyperPod accélère l’exécution d’entraînements distribués en répartissant automatiquement vos modèles et vos jeux de données d’entraînement entre les accélérateurs AWS. La solution vous aide à optimiser votre tâche d’entraînement pour l’infrastructure réseau AWS et la topologie de cluster. Elle vous permet également de rationaliser la gestion des points de contrôle pour les modèles en optimisant la fréquence d’enregistrement de ces points, minimisant ainsi les frais d’entraînement.

Outils avancés d’observabilité et d’expérimentation

L’observabilité de SageMaker HyperPod fournit un tableau de bord unifié et préconfiguré dans Amazon Managed Grafana, les données de surveillance étant automatiquement publiées dans un espace de travail Amazon Managed Prometheus. Vous pouvez consulter les métriques de performance en temps réel, l’utilisation des ressources et l’état du cluster dans une vue unique, ce qui permet aux équipes de détecter rapidement les goulots d’étranglement, d’éviter des retards coûteux et d’optimiser les ressources de calcul. SageMaker HyperPod est également intégré à Amazon CloudWatch Container Insights, ce qui fournit des données analytiques plus détaillées sur les performances, l’état et l’utilisation des clusters. Le TensorBoard géré dans SageMaker vous permet de gagner du temps sur le développement en visualisant l’architecture du modèle afin d’identifier et de résoudre les problèmes de convergence. MLflow géré dans SageMaker vous permet de gérer efficacement les expériences à grande échelle.

Screenshot of a GPU cluster dashboard displaying metrics and performance data for HyperPod, including GPU temperature, power usage, memory usage, NVLink bandwidth, and cluster alerts.

Planification et orchestration des charges de travail

L’interface utilisateur de SageMaker HyperPod est hautement personnalisable à l’aide de Slurm ou d’Amazon Elastic Kubernetes Service (Amazon EKS). Vous pouvez sélectionner et installer tous les cadres ou outils nécessaires. Tous les clusters sont provisionnés avec le type et le nombre d’instances que vous choisissez, et ils sont conservés pour votre utilisation sur toutes les charges de travail. Grâce à la prise en charge d’Amazon EKS dans SageMaker HyperPod, vous pouvez gérer et exploiter des clusters avec une expérience d’administrateur cohérente basée sur Kubernetes. Gérez et mettez à l’échelle efficacement les charges de travail, de l’entraînement à l’inférence en passant par le peaufinage. Vous pouvez également partager la capacité de calcul et passer de Slurm à Amazon EKS pour différents types de charges de travail.

Surveillance de l’état et réparation du cluster automatiques

Si des instances deviennent défectueuses pendant une charge de travail de développement d’un modèle, SageMaker HyperPod détecte et résout automatiquement les problèmes d’infrastructure. Pour détecter le matériel défectueux, SageMaker HyperPod exécute régulièrement une surveillance de l’état des accélérateurs et du réseau.

Accélérez les déploiements de modèles à poids ouvert à partir de SageMaker Jumpstart

SageMaker HyperPod rationalise automatiquement le déploiement des modèles de fondation à poids ouvert issus de SageMaker JumpStart et des modèles peaufinés issus d’Amazon S3 et d’Amazon FSx. SageMaker HyperPod provisionne l’infrastructure requise et configure les points de terminaison automatiquement, éliminant ainsi le provisionnement manuel. Grâce à la gouvernance des tâches SageMaker HyperPod, le trafic des points de terminaison est surveillé en permanence et ajuste de manière dynamique les ressources de calcul, tout en publiant simultanément des métriques de performance complètes sur le tableau de bord d’observabilité pour une surveillance et une optimisation en temps réel.

Screenshot of the deployment settings for deploying a model endpoint using SageMaker HyperPod in SageMaker Studio. The interface shows fields for deployment name, HyperPod cluster selection, instance type, namespace, auto-scaling options, and the model being deployed. Used for large-scale inference with pre-provisioned compute.

Gestion hiérarchisée des points de contrôle

La gestion hiérarchisée des points de contrôle de SageMaker HyperPod utilise la mémoire CPU pour stocker les points de contrôle fréquents afin d’assurer une reprise rapide, tout en enregistrant périodiquement les données sur Amazon Simple Storage Service (Amazon S3) pour une durabilité à long terme. Cette approche hybride minimise les pertes d’entraînement et réduit considérablement le temps nécessaire pour reprendre l’entraînement après une défaillance. Les clients peuvent configurer la fréquence des points de contrôle et les politiques de conservation sur les niveaux de stockage en mémoire et persistant. En stockant fréquemment des données en mémoire, les clients peuvent effectuer une reprise rapide tout en minimisant les coûts de stockage. Avec l’intégration au point de contrôle distribué (DCP) de PyTorch, les clients peuvent facilement implémenter la gestion des points de contrôle avec seulement quelques lignes de code, tout en bénéficiant des avantages en termes de performances du stockage en mémoire.

En savoir plus

Maximisez l’utilisation des ressources avec le partitionnement de GPU

SageMaker HyperPod permet aux administrateurs de partitionner les ressources GPU en unités de calcul plus petites et isolées afin de maximiser l’utilisation du GPU. Vous pouvez exécuter diverses tâches d’IA générative sur un seul GPU au lieu de dédier des GPU entiers à des tâches qui n’utilisent qu’une fraction des ressources. Avec des métriques de performance en temps réel et le suivi de l’utilisation des ressources à travers les partitions GPU, vous obtenez une visibilité complète sur la manière dont les tâches utilisent les ressources de calcul. Cette allocation optimisée et cette configuration simplifiée accélèrent le développement de l’IA générative, améliorent l’utilisation des GPU et permettent une utilisation efficace des ressources GPU pour l’ensemble des tâches et à grande échelle.

Avez-vous trouvé les informations que vous recherchiez ?

Faites-nous part de vos commentaires afin que nous puissions améliorer le contenu de nos pages