SageMaker HyperPod prend désormais en charge le partage des ressources inactives pour une utilisation dynamique des clusters

Publié le: 16 mars 2026

La gouvernance des tâches Amazon SageMaker HyperPod prend désormais en charge le partage dynamique des ressources, ce qui permet aux équipes d’emprunter de la capacité de calcul non allouée dans des clusters HyperPod au-delà de leurs quotas garantis. Les administrateurs peuvent également configurer des limites d’emprunt pour des types de ressources spécifiques, tels que les accélérateurs, les processeurs virtuels ou la mémoire, afin de garantir une répartition équitable entre les équipes.

Les administrateurs qui gèrent des clusters de calcul partagés pour des charges de travail d’IA générative sont souvent confrontés à des problèmes de sous-utilisation. Lorsque les scientifiques des données n’utilisent pas la totalité des quotas qui leur sont alloués, les instances de calcul coûteuses restent inactives. Le partage des ressources inactives permet de résoudre ce problème en identifiant automatiquement la capacité de cluster non allouée et en la mettant à la disposition des équipes pour qu’elles puissent l’emprunter au mieux. La gouvernance des tâches HyperPod surveille l’état de votre cluster et recalcule automatiquement les ressources en mesure d’être empruntées lorsque les instances et les stratégies de quotas de calcul changent, éliminant ainsi la configuration manuelle. Les instances éligibles qui sont prêtes et planifiables, y compris les instances dotées de configurations GPU partitionnées, contribuent au pool en mesure d’être emprunté de capacité de calcul non allouée. Les administrateurs peuvent également définir des limites d’emprunt absolues en plus des limites d’emprunt basées sur des pourcentages de calcul inactif. Cela permet aux administrateurs de maximiser l’utilisation du calcul et de maintenir un contrôle précis sur la répartition de la capacité inactive entre les équipes, tout en garantissant une isolation des quotas de calcul pour chaque équipe.

Cette fonctionnalité est actuellement disponible pour les clusters Amazon SageMaker HyperPod utilisant l’orchestrateur EKS dans les régions AWS USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Californie du Nord), USA Ouest (Oregon), Amérique du Sud (São Paulo), Asie-Pacifique (Jakarta), Asie-Pacifique (Mumbai), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Europe (Espagne), Europe (Francfort), Europe (Irlande), Europe (Londres) et Europe (Stockholm).

Pour en savoir plus, consultez la page Web de SageMaker HyperPod et la documentation relative à la gouvernance des tâches HyperPod.