AWS Batch 现已支持 SageMaker 训练作业的配额管理和抢占
发布于:
2026年3月25日
AWS Batch 现在支持 SageMaker 训练作业的配额管理与作业抢占,使您能够在团队和项目之间高效地分配和共享计算资源。如果您在 SageMaker 训练作业中使用 GPU 容量,现在可以智能地分配计算资源,优先处理业务关键型训练作业,并在紧急实验作业到达时自动抢占低优先级的工作负载。
通过配额管理,您可以在每个作业队列中创建多达 20 个配额份额,这些配额份额充当具有专用容量限制和可配置资源共享策略的虚拟队列。该服务自动使用跨共享抢占,以便在原始所有者提交作业时恢复借出的容量;同时支持份额内抢占,允许同一配额份额内的高优先级作业抢占低优先级作业。您可以以队列、配额份额和作业级别的粒度监控容量利用率,在提交后更新作业优先级以影响抢占决策,并配置抢占重试限制以控制行为。该功能通过 aws_batch 模块直接与 SageMaker Python SDK 集成。
针对 SageMaker 训练作业的配额管理与作业抢占功能现已在所有提供 AWS Batch 的 AWS 区域推出。有关更多信息,请参阅 GitHub 上的配额管理示例笔记本和 AWS Batch 用户指南。