게시된 날짜: Sep 21, 2022
Amazon SageMaker Autopilot에 새로운 훈련 모드가 추가되었습니다. 이 모드는 AutoGluon에서 제공하는 모델 앙상블 기능을 지원합니다. 비교적 큰 데이터 세트(100MB 미만)의 경우 앙상블 훈련 모드는 높은 정확도로 기계 학습(ML) 모델을 빠르게 구축합니다. 평가를 250회 수행한 결과, 현재 하이퍼파라미터 최적화(HPO) 훈련 모드에 비해 속도가 최대 8배 더 빨라진 것으로 확인되었습니다. Amazon SageMaker Autopilot은 데이터에 기반해 최상의 기계 학습 모델을 자동으로 구축, 훈련 및 튜닝하는 동시에 완전한 제어와 가시성을 유지 관리할 수 있도록 합니다. 현재 HPO 모드는 단일 모델의 정확도를 최대한 높이기 위해 하이퍼파라미터 값 조합을 사용합니다. 하지만 단일 모델이 데이터의 복잡한 특성을 캡처할 수 없는 경우 여러 모델의 예측 결과를 결합(‘앙상블’)하면 전반적인 모델 정확도를 대폭 높일 수 있습니다.
Amazon SageMaker Autopilot 내의 앙상블 훈련 모드는 AutoGluon을 사용해 여러 기본 모델을 훈련시키며 모델 스택 생성 방식을 사용하여 모델의 예측 결과를 결합합니다. 이 모드는 LightGBM, CatBoost, XGBoost, Random Forest, 추가 트리, 선형 모델, PyTorch/FastAI 기반 신경망 등의 광범위한 알고리즘을 지원합니다. HPO 모드에 비해 개선된 앙상블 모드의 성능을 평가하기 위해 최대 100MB 크기의 여러 OpenML 벤치마크 데이터 세트를 사용했습니다. 평가 결과에 따르면 소형 데이터 세트(1MB 미만)에 대한 앙상블 훈련 작업을 250회 평가한 결과 전체 SageMaker Autopilot 작업 런타임이 HPO 모드에 비해 최대 8배 빨라졌으며(평균 런타임 120분에서 15분으로 단축), 평가 100회 수행 시에는 HPO 모드에 비해 런타임이 5.8배 단축되었습니다. 중형(1-10MB) 및 대형(10-100MB) 데이터 세트의 경우에는 250회 평가 시 HPO 모드에 비해 런타임이 각각 5배/2.5배 빨라졌으며 정확도는 약 1.9% 높아졌습니다.
앙상블 모드 사용을 시작하려면 SageMaker Studio 콘솔에서 SageMaker Autopilot 실험을 생성한 후 ‘앙상블’ 훈련 모드를 선택하거나, SageMaker Autopilot에서 데이터 세트 크기를 기준으로 훈련 모드를 자동으로 추론하도록 합니다. createAutoMLJob API 참조 안내서에서 API 업데이트를 확인할 수 있으며, 최신 버전 SageMaker Studio로 업그레이드하여 새로운 앙상블 훈련 모드를 사용할 수 있습니다. 이 기능에 대한 자세한 내용은 개발자 안내서를 참조하세요. SageMaker Autopilot에 대해 자세히 알아보려면 제품 페이지를 참조하세요.