Amazon SageMaker HyperPod prend désormais en charge la configuration Slurm pilotée par API
Amazon SageMaker HyperPod prend désormais en charge la configuration Slurm pilotée par API, ce qui vous permet de définir la topologie Slurm et les configurations de systèmes de fichiers partagés directement dans les API de création et de mise à jour de cluster ou via la console AWS. SageMaker HyperPod vous aide à mettre en place des clusters résilients pour exécuter des charges de travail de machine learning (ML) et développer des modèles de pointe tels que des grands modèles de langage (LLM), des modèles de diffusion et des modèles de fondation (FM).
Grâce à cette nouvelle configuration pilotée par API, vous pouvez désormais spécifier des types de nœuds Slurm, notamment Controller, Login et Compute pour les groupes d'instances de cluster, les mappages entre groupes d'instances et partitions, et FSx pour Lustre et FSx pour les montages de systèmes de fichiers OpenZFS par groupe d'instances, directement dans la définition de l'API du cluster ou via la section de configuration avancée de la console AWS. Lorsque vous modifiez les mappages de nœuds de partition directement dans les fichiers de configuration natifs de Slurm pour affiner les affectations de ressources de cluster, les configurations de nœuds de partition de Slurm peuvent dériver de la vue d'HyperPod. Une nouvelle stratégie SlurmConfigStrategy au niveau du cluster vous aide à gérer la dérive grâce à trois options : Managed, Overwrite et Merge. La stratégie gérée vous permet de gérer entièrement les mappages entre groupes d'instances et partitions via l'API ou la console, et détecte automatiquement les dérives dans les mappages partition-nœud lors des opérations de mise à l'échelle ou de réduction. Lorsqu'une dérive est détectée, les mises à jour du cluster sont suspendues jusqu'à ce que vous la résolviez en passant à la stratégie Overwrite pour forcer les mappages définis par l'API, à la stratégie Merge pour préserver les personnalisations manuelles, ou en mettant directement à jour les configurations Slurm pour les aligner sur HyperPod.
La configuration Slurm pilotée par API est disponible dans toutes les régions AWS où SageMaker HyperPod est disponible. Pour commencer, vous pouvez utiliser la console de gestion AWS, l'interface de ligne de commande AWS, AWS CloudFormation ou les kits SDK AWS. Pour en savoir plus, consultez la documentation relative à Amazon SageMaker HyperPod sur la création de clusters à l'aide de la console ou de la CLI, ainsi que la référence d'API pour CreateCluster et UpdateCluster.