내 Amazon SageMaker 엔드포인트의 Amazon CloudWatch CPU 또는 GPU 사용률 지표가 100%를 초과합니다.
해결 방법
CloudWatch CPUUtilization 및 GPUUtilization 지표는 컨테이너에서 사용 중인 CPU 또는 GPU 단위의 백분율을 표시합니다. 값에 CPU 또는 GPU 수이 곱해져서 값이 100%를 초과하는 것입니다.
다음은 몇 가지 예입니다.
- ml.m4.xlarge 등의 비 GPU 인스턴스는 vCPU가 4개이므로 CPUUtilization 범위가 0 ~ 400%일 수 있습니다.
- ml.p3.8xlarge 등의 GPU 인스턴스는 CPUUtilization 범위가 0 ~ 3200%일 수 있습니다. GPUUtilization 범위는 0 ~ 400%일 수 있습니다. 인스턴스의 vCPU가 32개이고 GPU가 4개이기 때문입니다.
- 인스턴스가 여러 개인 경우 모든 인스턴스의 평균 CPU 또는 GPU 사용률이 CloudWatch의 기본 보기에 표시됩니다. 예를 들어 ml.m4.xlarge 인스턴스가 5개인 경우 인스턴스마다 4개의 vCPU가 있으므로 CPUUtilization 범위가 0~400%일 수 있습니다.
CPUUtilization 및 GPUUtilization 지표에 대한 자세한 내용은 Amazon CloudWatch로 Amazon SageMaker 모니터링을 참조하세요. 각 인스턴스 유형의 vCPU 또는 GPU 수 목록은 Amazon SageMaker 요금을 참조하세요.