AWS Parallel Computing Service, 이제 Slurm 25.11 지원
이제 AWS Parallel Computing Service(AWS PCS)에서는 Prometheus 호환 OpenMetrics 엔드포인트를 지원하는 Slurm 버전 25.11을 지원하며, 스케줄러 감사 로그를 비롯한 새로운 로그 유형을 도입합니다.
이번 Slurm 25.11 릴리스에는 신속한 대기열 재조정이 도입되었으므로, 노드 문제의 영향을 받는 작업을 가장 높은 우선 순위로 자동 재예약하여 워크로드를 더 빠르게 복구할 수 있습니다. 새로운 OpenMetrics 엔드포인트를 활성화하면 기존 모니터링 도구를 사용하여 작업, 노드, 스케줄링을 실시간으로 확인할 수 있습니다. 또한 AWS PCS는 이제 Slurm 데이터베이스 대몬(slurmdbd) 및 REST API 대몬(slurmrestd) 로그를 Amazon CloudWatch Logs, Amazon S3 또는 Amazon Data Firehose로 전송하여 계정 문제를 진단하고 API 통합을 디버그할 수 있습니다. 이전에는 운영 로그에 포함되었던 스케줄러 감사 로그가 이제는 전용 로그 유형으로 제공되기 때문에 수집 및 저장 비용을 독립적으로 제어할 수 있습니다.
AWS PCS는 관리형 서비스로, Slurm을 사용하여 AWS에서 고성능 컴퓨팅(HPC) 워크로드를 실행 및 규모 조정하고 과학 및 엔지니어링 모델을 구축하는 작업을 쉽게 수행할 수 있도록 해줍니다. AWS PCS를 사용하여 컴퓨팅, 스토리지, 네트워킹, 시각화 도구를 통합하는 완벽하고 탄력적인 환경을 구축할 수 있습니다. AWS PCS는 관리형 업데이트와 내장된 관찰성 기능을 통해 클러스터 운영을 간소화하여 유지 관리 부담을 없애줍니다. 인프라에 대해 걱정하지 않고 연구와 혁신에 집중하면서 친숙한 환경에서 작업할 수 있습니다.
이러한 기능은 AWS PCS가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 로그 전송 대상에는 표준 요금이 적용됩니다. AWS PCS에 대한 자세한 내용은 서비스 설명서에서 확인하세요.