AWS Parallel Computing Service (PCS) で Slurm によるノード再起動のサポートを開始
投稿日:
2025年10月2日
AWS Parallel Computing Service (PCS) で、インスタンスの置換をトリガーせずに Slurm コマンドを使用してコンピューティングノードを再起動できるようになりました。この機能を使用すると、完全なノード置換が必要になる前に、トラブルシューティング、リソースのクリーンアップ、劣化状態からのリカバリなどの運用上の理由でノードを再起動できるため、低コストでクラスターの状態を効率的に維持できます。
この機能は、PCS を利用できるすべての AWS リージョンでご利用いただけます。「scontrol reboot」コマンドをオプション付きで使用すると、即時再起動または遅延再起動をスケジュールできます。他の方法で再起動すると、引き続きインスタンスの置換がトリガーされます。詳細については、AWS PCS での Slurm を使用したコンピューティングノードの再起動を参照してください。
PCS は、Slurm を使用して AWS でのハイパフォーマンスコンピューティング (HPC) ワークロードの実行とスケーリングを簡素化するマネージドサービスです。PCS の詳細については、サービスドキュメントをご覧ください。