- Machine Learning›
- Amazon SageMaker AI›
- Amazon SageMaker HyperPod
Amazon SageMaker HyperPod
Mettez à l’échelle et accélérez le développement de modèles d’IA générative à l’aide de milliers d’accélérateurs d’IA
Qu’est-ce qu’Amazon SageMaker HyperPod ?
Amazon SageMaker HyperPod permet d’éliminer les tâches fastidieuses liées à la création de modèles d’IA générative. Il permet de rapidement mettre à l’échelle les tâches de développement de modèles telles que l’entraînement, le peaufinage ou l’inférence sur un cluster de centaines ou de milliers d’accélérateurs d’IA. SageMaker HyperPod permet une gouvernance centralisée de toutes vos tâches de développement de modèles, vous offrant ainsi une visibilité et un contrôle complets sur la priorisation des différentes tâches et sur la manière dont les ressources de calcul sont allouées à chaque tâche, ce qui vous permet d’optimiser l’utilisation du GPU et d’AWS Trainium de votre cluster, mais aussi d’accélérer l’innovation.
Spécialement conçu pour l’entraînement distribué à grande échelle
Avec SageMaker HyperPod, vous pouvez répartir et paralléliser efficacement votre charge de travail d’entraînement sur tous les accélérateurs. SageMaker HyperPod applique automatiquement les meilleures configurations d’entraînement pour les modèles les plus courants disponibles au public afin de vous aider à atteindre rapidement des performances optimales. Il surveille également en permanence votre cluster pour détecter tout défaut d’infrastructure, répare automatiquement le problème et restaure vos charges de travail sans intervention humaine, ce qui vous permet d’économiser jusqu’à 40 % du temps d’entraînement.
Avantages de SageMaker HyperPod
SageMaker HyperPod fournit un environnement résilient pour le développement de modèles en détectant, en diagnostiquant et en corrigeant automatiquement les défaillances d’infrastructure, ce qui vous permet d’exécuter des charges de travail de développement de modèles en continu pendant des mois sans interruption. L’entraînement sans point de contrôle sur SageMaker HyperPod réduit la nécessité d’un redémarrage au niveau des tâches sur la base des points de contrôle et permet de progresser dans l’entraînement malgré les échecs, ce qui permet de réduire les coûts de calcul inactifs pendant la reprise et d’accélérer les délais de mise sur le marché de plusieurs semaines.
L’innovation de SageMaker HyperPod en matière de gouvernance des tâches vous offre une visibilité et un contrôle complets sur l’allocation des ressources de calcul pour l’ensemble des tâches de développement de modèles, notamment l’entraînement, le peaufinage, l’expérimentation et l’inférence. SageMaker HyperPod gère automatiquement les files de tâches, ce qui garantit que les tâches les plus stratégiques sont traitées en priorité et achevées dans les délais et dans les limites budgétaires, tout en utilisant plus efficacement les ressources de calcul pour réduire les coûts de développement des modèles jusqu’à 40 %. De plus, SageMaker HyperPod fournit une observabilité avancée grâce à une visibilité unifiée sur les tâches de développement de modèles d’IA et sur les ressources de calcul.
Grâce aux recettes SageMaker HyperPod, les scientifiques des données et les développeurs, quel que soit leur niveau de compétences, bénéficient de performances de pointe et peuvent démarrer en quelques minutes l’entraînement et le peaufinage de modèles de fondation disponibles publiquement. Vous pouvez également personnaliser les modèles Amazon Nova, notamment Nova Micro, Nova Lite et Nova Pro, pour vos cas d’utilisation spécifiques en utilisant les recettes. Cela vous permet d’améliorer la précision de vos applications d’IA générative, tout en maintenant un rapport coût/performance de premier plan et une faible latence. Amazon Nova Forge est un programme unique en son genre qui offre aux entreprises le moyen le plus simple et le plus rentable de créer leurs propres modèles de pointe à l’aide de Nova.
Avec SageMaker HyperPod, vous pouvez répartir automatiquement vos modèles et vos jeux de données d’entraînement sur des instances de cluster AWS afin de mettre à l'échelle vos charges de travail d’entraînement de manière efficace. Cela vous aide à optimiser votre tâche d’entraînement pour l’infrastructure réseau AWS et la topologie du cluster. Cela simplifie également la gestion des points de contrôle via des recettes, en optimisant leur fréquence d’enregistrement afin de limiter au maximum le surcoût durant l’entraînement.
SageMaker HyperPod contribue à accélérer le déploiement de modèles à poids ouvert provenant de SageMaker JumpStart ainsi que de modèles peaufinés issus d’Amazon Simple Storage Service (Amazon S3) et d’Amazon FSx. Vous pouvez rationaliser les tâches de déploiement des modèles grâce au provisionnement automatique, à la gestion des ressources informatiques via la gouvernance des tâches, à la surveillance des performances en temps réel et à une observabilité accrue.
Présentation de l’entraînement continu sans point de contrôle dans Amazon SageMaker HyperPod
Reprise automatique en quelques minutes suite aux défaillances d’infrastructure, même sur des milliers d’accélérateurs d’IA.