게시된 날짜: Dec 8, 2020
시스템 리소스를 실시간으로 모니터링하여 효율적으로 사용할 수 있게 해주는 Amazon SageMaker Debugger의 새로운 기능을 발표하게 되어 기쁩니다. 이러한 새로운 기능 덕분에, 이제 자동 권장 사항을 통해 훈련 작업에 대한 리소스를 다시 할당할 수 있으므로, 훈련을 더 효과적으로 하고 시간과 비용을 줄일 수 있습니다.
Amazon SageMaker Debugger는 학습 기울기와 가중치 등 실시간 메트릭을 캡처하여 ML 모델을 더 빠르고 더 쉽게 훈련시키고 훈련 프로세스에 투명성을 제공하는 Amazon SageMaker의 기능입니다. 따라서 손실, 과적합, 과잉 훈련 등의 이상을 바로잡을 수 있습니다. SageMaker Debugger는 훈련 작업의 성공에 매우 중요한 텐서를 포함하여 내보낸 데이터를 쉽게 분석하는 규칙이라는 내장된 기술(예: ML 모델이 90% 이상의 정확도로 훈련되었지만 오른쪽 트래픽 신호를 왼쪽으로 예측하는 이유를 식별)을 제공합니다.
새로운 프로파일링 기능을 갖춰, SageMaker Debugger는 이제 CPU, GPU, 네트워크, I/O, 메모리 등의 시스템 리소스를 자동으로 모니터링하여 훈련 작업에 대한 완전한 리소스 사용률 보기를 제공합니다. 또한 전체 훈련 작업 또는 그 일부를 프로파일링하여 훈련 작업의 여러 단계 중에 자세한 프레임워크 메트릭을 내보낼 수 있습니다. 프레임워크 메트릭은 CPU 및 GPU에서 단계 기간, 데이터 로드, 사전 처리, 연산자 실행 시간 등 훈련 스크립트 내에서 캡처된 메트릭입니다. SageMaker Debugger는 GPU 사용률이 0으로 떨어지는 것 같은 문제에 대한 가능성 있는 근본 원인을 식별하는 데 도움이 되는 시스템 및 프레임워크 메트릭을 상호 연결하므로, 훈련 스크립트를 검사하고 적절하게 문제를 해결할 수 있습니다. 프로파일링 보고서의 권장 사항을 기반으로 리소스를 재할당하여, 훈련 시간을 개선하고 비용을 절감할 수 있습니다. 메트릭과 인사이트는 SageMaker Python SDK를 사용하여 프로그래밍 방식으로 캡처 및 모니터링되거나 Amazon SageMaker Studio를 통해 시각적으로 캡처 및 모니터링됩니다.