Amazon SageMaker HyperPod, 이제 콘솔에서 노드 작업 지원

게시된 날짜: 2026년 2월 10일

이제 Amazon SageMaker HyperPod를 사용하여 AWS Console에서 직접 개별 클러스터 노드를 관리할 수 있습니다. 대규모 AI/ML 워크로드를 관리하는 HyperPod 클러스터 운영자는 문제 해결을 위해 노드에 연결하거나, 응답하지 않는 인스턴스를 재부팅하거나, 성능이 저하된 노드를 교체해야 하는 경우가 많습니다. 이전에는 노드에 연결하려면 SSM 연결 문자열을 수동으로 구성해야 했고, 재부팅 및 필수 CLI 명령문 교체와 같은 노드 복구 작업이 필요했습니다. 이제 콘솔에 모든 노드 작업을 위한 단일 인터페이스가 제공됩니다.

콘솔의 노드 작업을 활용하면 AWS Systems Manager(SSM)를 통해 원하는 노드에 연결할 수 있습니다. 콘솔은 클립보드로 복사하기를 지원하는 미리 채워진 SSM CLI 명령, 콘솔에서 직접 SSM 세션을 시작할 수 있는 기능을 제공합니다. SageMaker HyperPod 클러스터는 이미 비정상 인스턴스의 자동 교체와 재부팅을 지원하지만, 메모리 오버런이나 감지할 수 없는 하드웨어 성능 저하 등의 시나리오가 있어 수동 개입이 필요할 수 있습니다. 이제 콘솔의 노드 작업은 노드를 수동으로 재부팅하여 일시적인 문제를 복구하고, 비정상 노드를 삭제하고, 노드를 교체하는 일관된 접근 방식을 제공합니다. 여러 노드 작업을 동시에 지원하는 배치 작업을 통해 몇 분 만에 노드 문제를 해결할 수 있습니다. 이 기능은 가동 중지 시간을 최소화하는 것이 필수적인, 시간에 민감한 AI 훈련 및 추론 워크로드를 실행할 때 특히 유용합니다.

이 기능은 Amazon SageMaker HyperPod가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 콘솔의 HyperPod 클러스터 관리 페이지에서 이 모든 노드 작업을 수행할 수 있습니다. 교체/재부팅노드 연결에 대해 자세히 알아보려면 해당 링크를 클릭하세요.