Amazon SageMaker HyperPod, 이제 온디맨드 심층 상태 확인 지원
Amazon SageMaker HyperPod에서 Amazon EKS, Slurm으로 오케스트레이션된 클러스터에 대한 온디맨드 심층 상태 확인을 지원합니다. 이제 실행 중인 인스턴스의 GPU 액셀러레이터 상태를 언제든 사전에 확인할 수 있습니다. HyperPod Slurm으로 오케스트레이션된 클러스터는 이제 클러스터 생성 시 노드 프로비저닝 중에 심층 상태 확인도 지원합니다. 이 기능 덕분에 단 하나의 노드라도 비정상일 경우 몇 시간의 컴퓨팅 시간이 낭비되고 중요한 워크로드가 지연될 수 있는 심각한 고충이 해소됩니다.
온디맨드 심층 상태 확인을 통해 컴퓨팅 리소스를 작업에 커밋하기 전에 전체 인스턴스 그룹 또는 특정 인스턴스를 대상으로 포괄적인 하드웨어 스트레스 테스트와 연결 테스트를 실행할 수 있습니다. SageMaker 콘솔과 API를 통해 인스턴스 그룹과 인스턴스 수준 모두에서 진행 상황과 결과를 볼 수 있어 GPU 상태, 네트워크 연결, 다중 노드 통신 성능에 대한 완전한 가시성을 얻게 됩니다. 확인 중인 인스턴스는 워크로드 예약에서 자동으로 격리되고 통과 시 서비스로 돌아갑니다. HyperPod의 자동 노드 복구 기능과 함께 사용하면 장애가 발생한 인스턴스가 자동으로 재부팅되거나 교체되어 클러스터 상태가 유지됩니다.
이 새로운 기능은 Amazon SageMaker HyperPod가 제공되는 모든 리전에서 사용할 수 있습니다. 온디맨드 상태 확인에 대해 자세히 알아보려면 설명서를 참조하세요.