SageMaker HyperPod 现在支持空闲资源共享,以实现动态集群利用
Amazon SageMaker HyperPod 任务治理现在支持动态资源共享,允许团队在保证配额之外借用 HyperPod 集群中未分配的计算容量。管理员还可以为特定资源类型(例如加速器、vCPU 或内存)配置借用限额,以确保在团队之间公平分配。
针对生成式 AI 工作负载运行共享计算集群的管理员经常面临利用率不足的挑战。当数据科学家没有完全使用分配的配额时,昂贵的计算实例会保持空闲状态。空闲资源共享功能通过自动识别未分配的集群容量并将其提供给团队尽力借用来解决这个问题。HyperPod 任务治理会监控您的集群状态,并在实例和计算配额策略发生变化时自动重新计算可借用资源,无需手动配置。处于就绪和可调度状态的合格实例(包括具有分区 GPU 配置的实例)构成了可借用的未分配计算容量池。除了基于百分比的空闲计算借用限额外,管理员还可以定义绝对借用限额。这可以帮助管理员最大限度地提高计算利用率,并精细地控制空闲容量在团队之间的分配方式,同时确保每个团队的计算配额隔离得到保证。
此功能目前适用于使用 EKS 编排工具的 Amazon SageMaker HyperPod 集群,并且已在以下 AWS 区域推出:美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、亚太地区(孟买)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、亚太地区(雅加达)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(斯德哥尔摩)、欧洲(西班牙)和南美洲(圣保罗)。
要了解更多信息,请访问 SageMaker HyperPod 网页和 HyperPod 任务治理文档。