Amazon SageMaker Debugger

훈련 지표 및 시스템 리소스의 실시간 모니터링으로 ML 모델 최적화

훈련 지표를 실시간으로 캡처하고 이상 탐지 시 알림을 전송하여 ML 모델을 최적화

원하는 정확도에 도달하면 훈련 프로세스를 자동으로 중지하여 기계 학습 모델의 훈련 시간과 비용을 절감
시스템 리소스 사용률을 자동으로 프로파일링 및 모니터링하고 리소스 병목 현상이 식별되면 알림을 전송하여 리소스 사용률을 지속적으로 개선

자동 감지, 분석 및 알림

Amazon SageMaker Debugger는 기울기 값이 너무 커지거나 너무 작아지는 등의 일반적인 훈련 오류를 자동으로 감지하여 바로잡도록 알림을 보냄으로써 훈련 중의 문제 해결 시간을 며칠에서 몇 분으로 줄일 수 있습니다. 알림은 Amazon SageMaker Studio에서 보거나 Amazon CloudWatch를 통해 구성할 수 있습니다. 또한 SageMaker Debugger SDK를 사용하면 데이터 샘플링, 하이퍼파라미터 값, 경계를 벗어난 값 등의 새로운 모델별 오류 클래스를 자동으로 감지할 수 있습니다.

모니터링 및 프로파일링

Amazon SageMaker Debugger는 GPU, CPU, 네트워크, 메모리 등의 시스템 리소스의 사용률을 자동으로 모니터링하고 훈련 작업을 프로파일링하여 상세한 ML 프레임워크 지표를 수집합니다. 사용자는 SageMaker Studio를 통해 모든 리소스 지표를 시각적으로 검사할 수 있습니다. 리소스 사용률의 이상은 과사용된 CPU 등의 병목 현상을 식별하기 위해 특정 작업과 상호 연관되므로, 사용자는 신속하게 수정 조치를 취할 수 있습니다. 또한 오프라인 분석을 위해 상세 보고서를 다운로드할 수 있습니다. 훈련 실행은 훈련 작업을 시작할 때 또는 훈련이 진행 중인 어느 시점에서나 프로파일링할 수 있습니다.

기본 제공 분석

Amazon SageMaker Debugger에는 입력, 출력, 텐서로 알려진 변환 등 훈련 중에 내보낸 데이터를 자동으로 분석하는 기본 제공 분석 기능이 탑재되어 있습니다. 그 결과, 사용자는 모델이 과적합이거나 과잉 훈련되는지, 기울기가 너무 커지거나 너무 작아지는지, GPU 리소스가 충분히 사용되지 않았는지, 훈련 중에 다른 병목 현상이 있는지 등을 감지할 수 있습니다. SageMaker Debugger를 사용하면 훈련 작업 중 특정 동작을 테스트하기 위한 사용자 고유의 사용자 지정 조건을 생성할 수도 있습니다. 이러한 조건은 훈련 작업 중지 및 SMS 또는 이메일 전송 등의 작업을 호출할 수 있습니다. 훈련 작업을 조기에 중단하면 차선의 모델에 대한 훈련 비용을 줄이고 더 우수한 프로토타입을 더 빨리 개발하는 데 도움이 됩니다.

ML 알고리즘 및 DL 프레임워크 전반의 광범위한 지원

Amazon SageMaker Debugger는 TensorFlow, PyTorch, Apache MXNet, Keras, XGBoost 등의 ML 프레임워크를 지원합니다. 이러한 프레임워크를 위한 SageMaker의 기본 제공 컨테이너는 SageMaker Debugger와 함께 사전 설치되어, 훈련 스크립트를 쉽게 모니터링, 프로파일링 및 디버그할 수 있게 해줍니다. 기본적으로, SageMaker Debugger는 각 리소스를 개별적으로 모니터링하기 위한 추가 코드를 작성하지 않고도 훈련 중에 시스템 하드웨어 사용률과 손실을 모니터링합니다.

AWS Lambda와 통합

Amazon SageMaker Debugger는 AWS Lambda와 통합되어 있으므로 사용자는 알림의 결과에 따라 조치를 취할 수 있습니다. 예를 들어, AWS Lambda 함수는 시간이 지나면서 감소하는 것이 아니라 지속적으로 증가하는 손실 등의 수렴되지 않는 작업이 감지되면 자동으로 훈련 작업을 중지할 수 있습니다. AWS Lambda가 훈련 작업을 중지하라는 알림을 제공하므로, 사용자는 ML 개발 및 훈련의 초기 단계에서 비용을 줄이고 원하는 결과를 얻을 수 있습니다.

고객

mobileye

Mobileye는 운전자 지원 및 자율 주행 차량 기술 분야의 글로벌 리더로서, Mobileye 기술이 적용된 차량은 6천만 대가 넘습니다.

“Mobileye(공식적으로 Mobileye, an Intel Company라고 함)에서 개발한 많은 보조 운전 및 자율 주행 차량 기술은 차량, 보행자, 과속방지턱, 도로 표지판 등 다양한 도로 인공물을 감지하기 위해 심층 신경망 모델 훈련에 의지합니다. 흔히 이러한 모델은 매우 큰 데이터 세트, 여러 기계에서 최대 며칠의 기간 동안 훈련합니다. Mobileye를 위해 우리는 네트워크, CPU 및 GPU 리소스 전반의 데이터 흐름을 분석하고 성능 문제를 정밀 탐지하기 위한 고급 성능 프로파일링 기능의 도구 키트를 보유하고 있어야 합니다. Amazon SageMaker Debugger의 프로파일링 기능은 이 요건을 충족하여, 많은 전문가 영역에서 성능 프로파일링을 수행하고, 알고리즘 개발자의 역량을 강화해 훈련 리소스 사용률을 최대화하도록 해주고, 모델 수렴을 가속화하고 비용을 절감해 줍니다.”

Chaim Rand, Mobileye, an Intel company의 ML 알고리즘 개발자

Autodesk

Autodesk는 3D 설계, 엔지니어링 및 엔터테인먼트 소프트웨어 분야의 글로벌 리더입니다. Autodesk는 사용자가 창의력을 발휘하여 설계 과제를 해결하고 아이디어를 실현하도록 도와줍니다.

“Autodesk에서는 고객이 보다 자유롭게 창의적인 작업을 할 수 있도록 기계 학습을 활용하여 설계와 제조 솔루션을 개선합니다. 우리는 기계 학습을 사용해, 유사한 시각적 특성을 가진 결과들을 식별하고 그룹화하여 최상의 옵션을 더 쉽게 찾을 수 있는 새로운 필터를 개발했습니다. Amazon SageMaker Debugger를 사용하면 피드백 루프를 닫고 귀중한 데이터 사이언티스트의 시간을 절약하고 훈련 시간을 75% 이상 단축하여, 이 모델을 훨씬 더 효율적으로 반복할 수 있습니다.”

Alexander Carlson, Autodesk의 ML 엔지니어

Change Healthcare

업계를 선도하는 독립 의료 기술 회사인 Change Healthcare는 미국 의료 시스템에서 임상, 재무 및 환자 참여 결과를 개선하는 데이터 및 분석 기반 솔루션을 제공합니다.

“Change Healthcare에서는 의료 서비스 제공업체와 지속적으로 협력하여 의료 보험금 처리에서의 비효율성을 제거하고 있습니다. 우리는 의료 서비스 제공업체로부터 읽을 수 없는 레이블이 있는 청구 양식을 받는 경우가 많은데, 이러한 양식을 수작업으로 수정하면 보험금 지금 프로세스의 시간과 비용이 늘어나게 됩니다. 그래서 이 프로세스에 도움이 되도록 레이블을 중첩하는 다중 레이어 딥 러닝 모델을 개발했습니다. Amazon SageMaker Debugger는 빠른 반복으로 모델의 정확도를 향상하도록 도와줍니다. SageMaker Debugger를 사용하면 텐서에 대한 더 깊은 인사이트를 얻고, 탄력적인 모델 훈련이 가능하고, 실시간으로 불일치를 감지하는 데 도움이 되며, 더 높은 정확도를 위해 모델 파라미터를 조정할 수 있습니다.”

Jayant Thomas, Change Healthcare의 AI 엔지니어링 담당 수석 이사

리소스

동영상

Amazon SageMaker Debugger를 사용하여 향상된 인사이트로 기계 학습 모델 훈련(30:22)