Amazon SageMaker HyperPod

Réduisez jusqu’à 40 % le temps nécessaire à l’entraînement des modèles de fondation et mettez à l’échelle efficacement sur plus d’un millier d’accélérateurs d’IA

Qu’est-ce qu’Amazon SageMaker HyperPod ?

Amazon SageMaker HyperPod permet d’éliminer les tâches fastidieuses liées à la création et à l’optimisation d’une infrastructure de machine learning (ML). Le service est préconfiguré avec les bibliothèques d’entraînement distribué de SageMaker. Ainsi, vous pouvez répartir automatiquement les charges de travail d’entraînement sur plus d’un millier d’accélérateurs d’IA de manière à traiter les charges de travail en parallèle, ce qui permet d’améliorer les performances du modèle. SageMaker HyperPod garantit la continuité de votre entraînement FM en enregistrant régulièrement des points de contrôle. Il détecte les défaillances matérielles, répare ou remplace l’instance défectueuse et reprend automatiquement l’entraînement au dernier point de contrôle enregistré, vous évitant ainsi d’avoir à gérer manuellement ce processus. L’environnement résilient vous permet d’entraîner des modèles pendant des semaines ou des mois sans interruption dans un système distribué, et de réduire jusqu’à 40 % le temps nécessaire à l’entraînement. SageMaker HyperPod est également hautement personnalisable, ce qui vous permet d’exécuter et de mettre à l’échelle efficacement les charges de travail de modèle de fondation, et de partager facilement la capacité de calcul entre les différentes charges de travail, de l’entraînement à grande échelle jusqu’à l’inférence.

Avantages de SageMaker HyperPod

Amazon SageMaker HyperPod est préconfiguré avec les bibliothèques d'entraînement distribuées Amazon SageMaker, ce qui vous permet de répartir automatiquement vos modèles et jeux de données d'entraînement entre les instances de cluster AWS afin de vous aider à mettre à l'échelle efficacement les charges de travail de formation.
SageMaker HyperPod prend en charge les systèmes courants de gestion de clusters et de planification des tâches tels que Slurm et Amazon Elastic Kubernetes Service (EKS). Il vous offre une expérience de développeur supérieure, la possibilité de gérer des applications conteneurisées, une mise à l'échelle dynamique des clusters et une intégration cloud native au fur et à mesure que vous adaptez vos charges de travail de formation et d'inférence FM. En outre, vous pouvez partager facilement les ressources entre la formation et l'inférence afin d'optimiser davantage l'utilisation des ressources.
SageMaker HyperPod crée un environnement d'entraînement plus résilient en détectant, diagnostiquant et corrigeant automatiquement les défaillances, ce qui vous permet d'entraîner des FM en continu pendant des mois sans interruption.