AWS Parallel Computing Service が Slurm 25.11 をサポート

投稿日: 2026年4月23日

AWS Parallel Computing Service (AWS PCS) は、Prometheus 互換の OpenMetrics エンドポイントをサポートする Slurm バージョン 25.11 をサポートするようになりました。また、スケジューラ監査ログを含む新しいログタイプも導入されました。

Slurm 25.11 のこのリリースでは、迅速な再キューが導入されました。これにより、ノードの問題の影響を受けたジョブを最も優先的に自動的に再スケジュールして、ワークロードの回復を早めることができます。既存の監視ツールを使用して、新しい OpenMetrics エンドポイントを有効にして、ジョブ、ノード、スケジュールをリアルタイムで可視化できます。AWS PCS では、Slurm データベースデーモン (slurmdbd) と REST API デーモン (slurmrestd) のログも Amazon CloudWatch Logs、Amazon S3、または Amazon Data Firehose に送信できるようになりました。これにより、アカウンティングの問題の診断と API 統合のデバッグが楽になります。以前は運用ログに含まれていたスケジューラの監査ログが専用のログタイプとして配信されるようになり、取り込みコストとストレージコストを個別に制御できるようになりました。

AWS PCS は、Slurm を使用して AWS でハイパフォーマンスコンピューティング (HPC) ワークロードを実行およびスケールし、科学モデルやエンジニアリングモデルをより容易に構築できるようにするマネージドサービスです。AWS PCS を使用して、コンピューティング、ストレージ、ネットワーキング、および視覚化ツールを統合する、完全で伸縮自在な環境を構築することができます。AWS PCS は、管理された更新と組み込みのオブザーバビリティ機能でクラスター運用を簡素化するため、メンテナンス負担の解消に役立ちます。使い慣れた環境で作業することで、インフラストラクチャについて心配する代わりに、研究やイノベーションに集中できます。

これらの機能は、AWS PCS が利用できるすべての AWS リージョンで利用可能です。ログの配信先には標準料金が適用されます。AWS PCS の詳細については、サービスドキュメントをご覧ください。