Amazon SageMaker HyperPod で API 主導型 Slurm 設定のサポートを開始
Amazon SageMaker HyperPod で、API 主導型 Slurm 設定のサポートが開始されました。これにより、クラスターの作成と更新を行う API のリクエストで直接、または AWS コンソールを介して Slurm トポロジと共有ファイルシステムの設定を定義できるようになりました。SageMaker HyperPod は、機械学習 (ML) ワークロードを実行したり、大規模言語モデル (LLM)、拡散モデル、基盤モデル (FM) などの最先端モデルを開発したりするための耐障害性の高いクラスターをプロビジョニングするのに役立ちます。
この新しい API 主導型設定により、Slurm ノードタイプ (クラスターインスタンスグループのコントローラー、ログイン、コンピュートなど)、インスタンスグループからパーティションへのマッピング、インスタンスグループごとの FSx for Lustre および FSx for OpenZFS ファイルシステムのマウントを、クラスター API の定義で直接指定するか、AWS コンソールの詳細設定セクションで指定できるようになりました。Slurm のネイティブ設定ファイルでパーティションとノードのマッピングを直接変更して、クラスターリソースの割り当てをファインチューニングすると、Slurm のパーティションとノードの設定が HyperPod の認識とずれる (ドリフト) ことがあります。新しいクラスターレベルの SlurmConfigStrategy では、「Managed」、「Overwrite」、「Merge」の 3 つのオプションを使用してドリフトを管理できます。Managed 戦略では、インスタンスグループからパーティションへのマッピングを API またはコンソールを介して完全に管理でき、スケールアップまたはスケールダウン操作中にパーティションからノードへのマッピングのドリフトを自動的に検出できます。ドリフトが検出されると、ドリフトが解消されるまでクラスターの更新は一時停止されます。解消するには、Overwrite 戦略に切り替えて API 定義のマッピングを強制するか、Merge 戦略に切り替えて手動のカスタマイズを保持するか、Slurm 設定を HyperPod に合わせて直接更新します。
API 主導型の Slurm 設定は、SageMaker HyperPod が利用できるすべての AWS リージョンでご利用いただけます。開始するには、AWS マネジメントコンソール、AWS CLI、AWS CloudFormation、または AWS SDK をご利用ください。詳細については、コンソールまたは CLI を使用したクラスターの作成に関する Amazon SageMaker HyperPod のドキュメントと、CreateCluster および UpdateCluster の API リファレンスをご覧ください。