Publié le: Nov 29, 2023
AWS annonce aujourd'hui la disponibilité générale d'Amazon SageMaker HyperPod, qui réduit le temps nécessaire à la formation des modèles de fondation (FM) jusqu'à 40 % en fournissant une infrastructure spécialement conçue pour la formation distribuée à grande échelle.
De nombreuses entreprises souhaitent former leurs propres FM à l'aide d'instances basées sur des unités de traitement graphique (GPU) et des instances basées sur Trainium à faible coût. Cependant, le volume de données, la taille des modèles et le temps nécessaire à la formation des FM ont augmenté de façon exponentielle la complexité de l'entraînement d'un modèle. Les clients ont souvent besoin de répartir leur formation FM sur des centaines, voire des milliers d'accélérateurs. Ils exécutent ensuite des milliards de calculs de données en parallèle pendant des semaines ou des mois, ce qui prend du temps et nécessite une expertise spécialisée en machine learning. Le nombre d'accélérateurs et le temps d'entraînement augmentent considérablement par rapport aux modèles spécifiques aux tâches d'entraînement, de sorte que la probabilité de petites erreurs rares, comme la défaillance d'un seul accélérateur, augmente.
SageMaker HyperPod élimine les tâches fastidieuses liées à la création et à l'optimisation d'une infrastructure de machine learning pour la formation des FM. SageMaker HyperPod est préconfiguré avec les bibliothèques de formation distribuées de SageMaker qui permettent aux clients de répartir automatiquement les charges de travail de formation entre des milliers d'accélérateurs, afin que les charges de travail puissent être traitées en parallèle pour améliorer les performances du modèle. SageMaker HyperPod permet également aux clients de poursuivre leur formation FM sans interruption en enregistrant périodiquement les points de contrôle. Lorsqu'une panne matérielle survient pendant la formation, SageMaker HyperPod détecte automatiquement la panne, répare ou remplace l'instance défectueuse et reprend la formation à partir du dernier point de contrôle enregistré, évitant ainsi aux clients de gérer manuellement ce processus et les aidant à s'entraîner pendant des semaines ou des mois dans un environnement distribué sans interruption.
SageMaker HyperPod est généralement disponible, et il est possible de l’utiliser dans les régions AWS USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Séoul), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Europe (Francfort), Europe (Irlande) et Europe (Stockholm).
Pour en savoir plus, consultez la liste de ressources suivante :