게시된 날짜: Jul 8, 2022
이제 Amazon SageMaker 모델 훈련 시 이기종 클러스터를 지원함에 따라 단일 작업에서 여러 인스턴스 유형을 사용하는 훈련 작업을 시작할 수 있게 되었습니다. 이 새 기능을 활용하면 가장 적합한 인스턴스 유형에서 모델 훈련의 다양한 부분을 실행하여 훈련 비용을 절감할 수 있습니다. 예를 들어 AWS는 최근 ml.g5.xl 및 ml.c5n.2xl 인스턴스가 포함된 이기종 클러스터에서 ResNet-50 컴퓨터 비전 모델을 훈련했습니다. 이 훈련 작업에서는 ml.g5.xl 인스턴스만 포함된 클러스터에서 동일한 모델을 동일한 정확도로 훈련하는 것보다 비용이 13% 절감되었습니다.
특정 기계 학습 워크로드에는 작업별로 다양한 인스턴스 유형을 사용함에 따라 이점을 얻는 작업이 결합되어 있습니다. 예를 들어 컴퓨터 비전 모델을 훈련하는 과정에서는 신경망 모델 훈련의 GPU 집약적인 작업과 데이터 처리 및 보강의 CPU 집약적인 작업이 결합되어 있는 경우가 많습니다. 두 작업을 모두 단일 인스턴스 유형에서 실행하면 GPU 사용률이 낮아져 낭비되는 리소스를 줄일 수 있습니다.
이기종 클러스터 기능을 활용하면 SageMaker 훈련 작업을 여러 인스턴스 유형에서 실행할 수 있는데, 이때 GPU 집약적인 작업은 ml.p4d.24xl 같은 인스턴스 유형에서, CPU 집약적인 작업은 ml.c5n.18xl 같은 인스턴스 유형에서 실행됩니다. 이러한 유연성 덕분에 GPU 사용률이 증가하여 전반적인 비용 효율성이 개선될 수 있습니다. 이기종 클러스터는 추가 비용 없이 사용할 수 있습니다.
자세히 알아보려면 이기종 클러스터에 대한 설명서를 확인하세요. 시작하려면 Amazon SageMaker 콘솔에 로그인하세요.