게시된 날짜: Nov 2, 2022
이제 하이퍼파라미터 훈련을 사용하는 Amazon SageMaker Autopilot 실험(100회 이상 시험 실행)에서 크기가 100MB보다 큰 데이터 세트를 사용할 때 이전에 비해 최대 2배 더 빠르게 ML 모델을 생성할 수 있습니다. Amazon SageMaker Autopilot은 데이터에 기반해 최상의 기계 학습 모델을 자동으로 구축, 훈련 및 튜닝하는 동시에 완전한 제어와 가시성을 유지 관리할 수 있도록 합니다.
SageMaker Autopilot에서는 하이퍼파라미터 최적화(HOP)와 앙상블의 두 가지 훈련 모드를 제공합니다. HPO 모드에서 SageMaker Autopilot은 데이터 세트와 가장 관련성이 높은 알고리즘을 선택하며, 최적의 하이퍼파라미터 범위를 선택해 베이지안 최적화를 사용하여 모델을 튜닝합니다. 그러나 데이터 세트 크기가 100MB를 초과하는 경우에는 베이지안 최적화를 사용하는 튜닝에 시간이 오래 걸릴 수 있습니다. 오늘부터 SageMaker Autopilot은 완벽한 충실도를 보장하는 새로운 하이퍼파라미터 최적화(HPO) 전략을 사용합니다. 이 전략은 크기가 100MB를 초과하는 데이터 세트에서 첨단 Hyperband 튜닝 알고리즘을 사용하여 실험을 100회 이상 시도합니다. 그리고 크기가 100MB 미만인 데이터 세트에는 베이지안 최적화 전략을 계속 활용합니다. 완벽한 충실도를 보장하는 최적화 전략 사용 시에는 선택한 목표 지표를 기준으로 할 때 성능 수준이 낮은 실험 시도가 조기 중지되므로 성능이 우수한 실험 시도에 사용 가능하도록 리소스가 확보됩니다. 그러면 큰 데이터 세트에서 실행하는 HPO 훈련 모드 SageMaker Autopilot 실험의 튜닝 시간이 단축됩니다.
고객이 최고 성능의 ML 모델을 더욱 빨리 제공하는 기능이 제공되기 전과 비교할 때 이번 릴리스에서는 모델 훈련 및 튜닝 속도가 최대 2배까지 빨라졌습니다. 성능 개선을 평가하기 위해 100MB에서 10GB에 이르는 다양한 크기의 여러 OpenML 벤치마크 데이터 세트를 사용했습니다. 이 평가 결과에 따르면 비교적 큰 데이터 세트(100MB~1GB)의 런타임은 41%(평균 345분에서 203분으로 단축), 그리고 매우 큰 데이터 세트(1GB 초과)의 런타임은 48%(평균 2010분에서 1053분으로 단축) 단축되었습니다. 이처럼 향상된 기능을 통해 기존 작업 구성을 변경하지 않고도 SageMaker Autopilot 실험을 더 빠르게 실행할 수 있습니다.