AWS Batch, SageMaker 훈련 작업에 대한 할당량 관리 및 선점 기능 지원
AWS Batch는 SageMaker 훈련 작업에 대해 작업 선점과 함께 할당량 관리 기능을 지원합니다. 따라서 팀과 프로젝트 전반에서 컴퓨팅 리소스를 좀 더 효율적으로 할당하고 공유할 수 있습니다. SageMaker 훈련 작업에서 GPU 용량을 사용하는 경우, 이제 지능적으로 컴퓨팅 리소스를 배분하고, 비즈니스에 중요한 훈련 작업의 우선순위를 높게 설정할 수 있으며, 긴급 실험이 실행되면 우선순위가 낮은 워크로드를 자동으로 선점할 수 있습니다.
할당량 관리 기능을 통해 작업 대기열당 최대 20개의 할당량 공유를 생성할 수 있으며, 이는 전용 용량 한도와 구성 가능한 리소스 공유 전략을 갖춘 가상 대기열처럼 작동합니다. 이 서비스는 원래 소유자가 작업을 제출할 경우 빌려 사용하던 용량을 복원하기 위해 공유 간 선점을 자동으로 수행하며, 동일한 할당량 공유 내에서도 높은 우선순위 작업이 낮은 우선순위 작업을 선점할 수 있도록 공유 내 선점도 지원하니다. 대기열, 할당량 공유, 작업 단위의 세분화된 수준에서 용량 사용률을 모니터링할 수 있으며, 작업 제출 후에도 우선순위를 변경해 선점 결정에 영향을 줄 수 있고, 선점 재시도 제한을 구성해 동작을 제어할 수 있습니다. 이 기능은 aws_batch 모듈을 통해 SageMaker Python SDK와 직접 통합됩니다.
SageMaker 훈련 작업에 대한 작업 선점과 할당량 관리 기능은 현재 AWS Batch가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 자세한 내용은 GitHub의 Quota Management example notebook과 AWS Batch 사용 설명서를 참조하세요.