AWS Parallel Computing Service(AWS PCS), Slurm을 통한 노드 재부팅 지원
게시된 날짜:
2025년 10월 2일
AWS Parallel Computing Service(AWS PCS)를 사용하면 인스턴스 교체를 트리거하지 않고도 Slurm 명령을 사용해 컴퓨팅 노드를 재부팅할 수 있습니다. 이 기능을 통해 노드 전체 교체가 필요하기 전에 문제 해결, 리소스 정리, 저하된 상태에서 복구 등 운영상의 이유로 노드를 재부팅할 수 있어 클러스터 상태를 더 낮은 비용으로 효율적으로 유지할 수 있습니다.
이 기능은 PCS가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 'control reboot' 명령을 즉시 재부팅 예약 또는 지연된 재부팅 예약 옵션과 함께 사용할 수 있으며, 다른 방법을 통한 재부팅은 계속해서 인스턴스 교체를 트리거합니다. 자세한 내용은 AWS PCS에서 Slurm을 사용한 컴퓨팅 노드 재부팅을 참조하세요.
PCS는 Slurm을 사용해 AWS에서 고성능 컴퓨팅(HPC) 워크로드의 실행 및 확장을 간소화하는 관리형 서비스입니다. PCS에 대한 자세한 내용은 서비스 설명서에서 확인하세요.