Amazon SageMaker HyperPod 現已支援 API 驅動的 Slurm 組態

張貼日期: 2026年2月26日

Amazon SageMaker HyperPod 現已支援 API 驅動的 Slurm 組態,可讓您直接在叢集建立和更新 API 中或透過 AWS Console 定義 Slurm 拓樸和共用檔案系統組態。SageMaker HyperPod 可協助您佈建彈性叢集,以便執行機器學習 (ML) 工作負載並開發最先進的模型,例如大型語言模型 (LLM)、擴散模型和基礎模型 (FM)。

透過這項新的 API 驅動組態,您現在可以直接在叢集 API 定義中或透過 AWS Console 的進階組態區段,為叢集執行個體群組指定 Slurm 節點類型 (包含 Controller、Login 和 Compute);執行個體群組到分區對應;以及每個執行個體群組的 FSx for Lustre 和 FSx for OpenZFS 檔案系統掛載。當您直接在 Slurm 的原生組態檔案中修改分區節點對應,以微調叢集資源指派時,Slurm 的分區節點組態可能會從 HyperPod 的檢視漂移。新的叢集層級 SlurmConfigStrategy 可協助您透過三個選項管理漂移:Managed、Overwrite 和 Merge。Managed 策略可讓您透過 API 或 Console 完全管理執行個體群組到分區對應,並在縱向擴展或縮減規模作業期間自動偵測分區到節點對應中的漂移。偵測到漂移時,叢集更新會暫停,直到您透過切換到 Overwrite 策略以強制使用 API 定義的對應、切換到 Merge 策略以保留手動自訂設定,或直接更新 Slurm 組態以與 HyperPod 保持一致,以解決漂移問題。

API 驅動的 Slurm 組態已在所有提供 SageMaker HyperPod 的 AWS 區域推出。若要開始使用,您可以使用 AWS 管理主控台、AWS CLI、AWS CloudFormation 或 AWS SDK。如需詳細資訊,請參閱 Amazon SageMaker HyperPod 文件,了解如何使用 ConsoleCLI 建立叢集,以及 CreateClusterUpdateCluster 的 API 參考。