게시된 날짜: Sep 30, 2022
이제 Amazon SageMaker 모델 훈련에서 SageMaker Training 관리형 웜 풀이 지원됩니다. 사용자는 이제 작업 완료 후 지정된 기간 동안 기계 학습(ML) 모델 훈련 하드웨어 인스턴스를 웜 상태로 유지해 주는 기능 사용을 옵트인할 수 있습니다. 이 기능을 사용하는 고객은 동일한 웜 인스턴스에서 수행하는 모델 훈련을 위한 반복 실험을 수행하거나 대규모로 연속 작업을 실행할 수 있습니다. 그러면 작업 시작 지연 시간을 8배까지 단축할 수 있습니다.
완전관리형 기능인 Amazon SageMaker 모델 훈련에서는 모든 작업을 위한 인스턴스를 스핀업하고 모델을 훈련시킨 후에 작업이 완료되면 인스턴스를 스핀다운합니다. 고객에게는 작업 실행 시간에 해당하는 요금만 청구됩니다. 이 완전관리형 기능을 사용하는 고객은 모델 훈련 중에 인프라 관리에는 신경쓰지 않고 ML 알고리즘만 중점적으로 개발할 수 있습니다. 그런데 모든 훈련 작업에서는 하드웨어 인스턴스가 프로비저닝됩니다. 따라서 이 동작으로 인해 훈련을 반복 수행하는 워크로드에서는 시작 지연 시간이 발생합니다. 모델 훈련 프로세스에서는 반복 실험을 매우 많이 수행해야 하므로 이처럼 모든 작업에서 시작 시간이 지연되면 고객의 오버헤드가 추가로 발생합니다. 또한 대량의 모델을 대규모로 훈련시키려는 고객은 연속 훈련 작업에 동일한 인스턴스 구성을 사용하는 경우가 많습니다. 그러므로 모든 작업에서 이처럼 시작 시간이 지연되면 부담이 가중됩니다.
SageMaker Training 관리형 웜 풀을 사용하는 고객은 각 작업이 끝난 후 모델 훈련 하드웨어 인스턴스를 지정된 기간 동안 웜 상태로 유지할 수 있습니다. 그러면 이미 시작되어 실행 중인 인스턴스를 사용하여 훈련을 시작해 반복 실험을 수행하거나 대량의 모델을 연속하여 훈련시킬 수 있습니다. SageMaker Training 관리형 웜 풀을 사용하는 고객은 모델 훈련 작업의 시작 지연 시간을 8배까지 줄일 수 있습니다. 고객은 훈련 API에서 연결 유지 기간을 지정하여 SageMaker Training 관리형 웜 풀을 활성화할 수 있습니다. 웜 풀 사용을 옵트인하는 고객에게는 연결 유지 기간 동안의 인스턴스 및 EBS 볼륨 사용량에 해당하는 요금이 청구됩니다.
Amazon SageMaker 모델 훈련 기능이 제공되는 모든 퍼블릭 AWS 리전에서 SageMaker Training 관리형 웜 풀을 사용할 수 있습니다. SageMaker Training 관리형 웜 풀 사용을 시작하려면 Amazon SageMaker 개발자 안내서에서 SageMaker Training 관리형 웜 풀을 사용하여 훈련 진행을 참조하세요.