AWS Parallel Computing Service (PCS) で Slurm によるノード再起動のサポートを開始

投稿日: 2025年10月2日

AWS Parallel Computing Service (PCS) で、インスタンスの置換をトリガーせずに Slurm コマンドを使用してコンピューティングノードを再起動できるようになりました。この機能を使用すると、完全なノード置換が必要になる前に、トラブルシューティング、リソースのクリーンアップ、劣化状態からのリカバリなどの運用上の理由でノードを再起動できるため、低コストでクラスターの状態を効率的に維持できます。

この機能は、PCS を利用できるすべての AWS リージョンでご利用いただけます。「scontrol reboot」コマンドをオプション付きで使用すると、即時再起動または遅延再起動をスケジュールできます。他の方法で再起動すると、引き続きインスタンスの置換がトリガーされます。詳細については、AWS PCS での Slurm を使用したコンピューティングノードの再起動を参照してください。

PCS は、Slurm を使用して AWS でのハイパフォーマンスコンピューティング (HPC) ワークロードの実行とスケーリングを簡素化するマネージドサービスです。PCS の詳細については、サービスドキュメントをご覧ください。