게시된 날짜: Aug 24, 2023

대규모 딥 러닝 워크로드를 위한 고급 관측성 도구인 Amazon SageMaker Profiler의 평가판을 선보입니다. 이 새로운 기능을 통해 모델 훈련 성능을 최적화하기 위한 세분화된 컴퓨팅 하드웨어 관련 프로파일링 인사이트를 얻을 수 있습니다.

컴퓨터 비전, NLP 또는 기초 모델 사용 사례를 위한 대규모 딥 러닝 모델을 개발하는 고객의 경우 필요한 컴퓨팅 인스턴스의 수와 관련 비용이 상당합니다. 이러한 고객은 활성 커널 시간, 시작 지연 시간 또는 GPU/CPU 프로세스와 관련된 기타 타임라인을 파악해야 합니다. SageMaker Profiler를 사용하면 GPU 및 CPU 사용률 지표, 고해상도 GPU/CPU 트레이스 플롯, 사용자 지정 주석 및 혼합 정밀도 활용을 보다 효과적으로 파악할 수 있어 최적화 기회를 식별할 수 있습니다. 이를 통해 사용자는 균등하지 않은 리소스 사용률로 인한 병목 현상을 식별할 수 있습니다. 또한 훈련 중 오버헤드를 줄이는 데 더 효율적이며, 프로파일링 기간을 늘리고 워크로드당 프로파일링되는 훈련 인스턴스 수를 더 크게 늘릴 수 있도록 확장 가능합니다. 이를 통해 대규모 분산형 훈련 워크로드의 하드웨어 성능을 최적화하는 동시에 데이터 사이언티스트에게 보다 신뢰할 수 있는 인사이트를 제공할 수 있습니다.

Amazon SageMaker Profiler는 미국 동부(오하이오), 미국 동부(버지니아 북부), 미국 서부(오레곤), 유럽(프랑크푸르트) 및 유럽(아일랜드) 리전에서 기본 컴퓨팅 인스턴스 지원을 통해 사용 가능합니다. 이 평가판 기간 동안 지원되는 리전의 고객은 SageMaker Profiler를 무료로 사용할 수 있습니다. 

자세히 알아보려면 ML 블로그 및 설명서 페이지를 참조하세요.