Amazon ECS 관리형 인스턴스에 GPU 상태 모니터링 및 자동 복구 도입

게시된 날짜: 2026년 4월 22일

Amazon Elastic Container Service(Amazon ECS)에서 이제 Amazon ECS 관리형 인스턴스에 NVIDIA GPU 상태 모니터링 및 자동 복구 기능을 제공합니다. 이 새로운 기능은 중요한 NVIDIA GPU 하드웨어 장애를 자동으로 감지하고 손상된 인스턴스를 교체하여 고객이 GPU 가속 컨테이너식 워크로드의 가용성과 신뢰성을 개선할 수 있도록 지원합니다.

GenAI 추론과 같은 GPU 가속 워크로드를 실행하려면 장애를 완화하고 중단을 최소화하기 위한 특수 하드웨어 관리가 필요합니다. 이제 Amazon ECS 관리형 인스턴스는 NVIDIA Data Center GPU Manager(DCGM)를 사용하여 GPU 상태를 지속적으로 모니터링하고 심각한 장애가 발생할 경우 손상된 용량을 사전에 교체합니다. DescribeContainerInstances API를 통해 GPU 상태를 모니터링하고 인스턴스가 손상되면 Amazon EventBridge를 통해 알림을 받을 수 있습니다. 인스턴스 수명 주기의 수동 관리를 선호하는 워크로드의 경우, 용량 공급자 수준에서 자동 복구를 거부하고 자체 수정 로직으로 GPU 오류 이벤트를 처리할 수 있습니다.

지원되는 NVIDIA GPU 인스턴스 유형으로 실행 중인 모든 Amazon ECS 관리형 인스턴스에는 GPU 상태 자동 복구 기능이 기본적으로 활성화되어 있으며 추가 비용이 발생하지 않습니다. 이 기능은 모든 AWS 상용 리전에서 사용할 수 있습니다. 자세한 내용은 Amazon ECS 개발자 안내서를 참조하세요.