Amazon SageMaker HyperPod, 이제 온디맨드 심층 상태 확인 지원

게시된 날짜: 2026년 4월 17일

Amazon SageMaker HyperPod에서 Amazon EKS, Slurm으로 오케스트레이션된 클러스터에 대한 온디맨드 심층 상태 확인을 지원합니다. 이제 실행 중인 인스턴스의 GPU 액셀러레이터 상태를 언제든 사전에 확인할 수 있습니다. HyperPod Slurm으로 오케스트레이션된 클러스터는 이제 클러스터 생성 시 노드 프로비저닝 중에 심층 상태 확인도 지원합니다. 이 기능 덕분에 단 하나의 노드라도 비정상일 경우 몇 시간의 컴퓨팅 시간이 낭비되고 중요한 워크로드가 지연될 수 있는 심각한 고충이 해소됩니다.

온디맨드 심층 상태 확인을 통해 컴퓨팅 리소스를 작업에 커밋하기 전에 전체 인스턴스 그룹 또는 특정 인스턴스를 대상으로 포괄적인 하드웨어 스트레스 테스트와 연결 테스트를 실행할 수 있습니다. SageMaker 콘솔과 API를 통해 인스턴스 그룹과 인스턴스 수준 모두에서 진행 상황과 결과를 볼 수 있어 GPU 상태, 네트워크 연결, 다중 노드 통신 성능에 대한 완전한 가시성을 얻게 됩니다. 확인 중인 인스턴스는 워크로드 예약에서 자동으로 격리되고 통과 시 서비스로 돌아갑니다. HyperPod의 자동 노드 복구 기능과 함께 사용하면 장애가 발생한 인스턴스가 자동으로 재부팅되거나 교체되어 클러스터 상태가 유지됩니다.

이 새로운 기능은 Amazon SageMaker HyperPod가 제공되는 모든 리전에서 사용할 수 있습니다. 온디맨드 상태 확인에 대해 자세히 알아보려면 설명서를 참조하세요.