게시된 날짜: Mar 11, 2024

이제 EKS를 위한 향상된 관찰성을 갖춘 Amazon CloudWatch Container Insights는 NVIDIA GPU에서 중요한 상태 및 성능 지표를 자동으로 검색하여 자동 대시보드로 제공하므로, AI/ML 워크로드의 문제 격리 및 문제 해결을 더 빠르게 수행할 수 있습니다. 향상된 관찰성을 갖춘 Container Insights는 인프라 상태에 대한 추세와 패턴을 즉시 제공하고 수동 대시보드 및 경보 설정에 따른 오버헤드를 제거하여 시간과 노력을 절약해 줍니다.

Container Insights에서 향상된 관찰성을 사용하면 가속화된 인스턴스의 GPU와 메모리 상태가 정상인지 손쉽게 파악하고 훈련 작업의 성능을 유지할 수 있습니다. 오류를 쉽게 찾아내고 신속하게 드릴다운하여 근본 원인을 파악하는 동시에 훈련 작업의 장기 중단을 최소화할 수 있습니다. 향상된 Container Insights는 큐레이션된 시각화를 통해 가속화된 컴퓨팅 관찰성을 제공하며, 분산 훈련 모델이 리소스를 얼마나 효율적으로 사용하는지 쉽게 모니터링하고 그에 따라 할당을 최적화할 수 있도록 합니다.

가속화된 컴퓨팅 관찰성을 시작하는 방법은 간단합니다. CloudWatch Observability 추가 기능을 클러스터에 설치하거나 CloudWatch Agent를 수동으로 설치하여 관찰성을 개선함으로써 Enhanced Container Insights를 온보딩할 수 있습니다. 구성이 완료되면 Container Insights 콘솔로 이동하여 NVIDIA GPU 텔레메트리를 즉시 확인할 수 있습니다.

이제 AWS GovCloud(미국) 및 중국 리전을 비롯한 모든 퍼블릭 AWS 리전에서 EKS에 대한 향상된 관찰성을 갖춘 Container Insights를 통해 NVIDIA GPU 지표를 사용할 수 있습니다. NVIDIA GPU 지표는 관찰 기반 요금제를 따릅니다. 자세한 내용은 Container Insights 요금 페이지에서 확인하세요. 추가 정보는 Container Insights 사용 설명서를 참조하세요.

4월 22일 - 수동 시작 환경에 대한 지침을 제공하도록 게시물이 업데이트되었습니다.