AWS Neuron 宣布支持 Amazon EKS 的动态资源分配
AWS 宣布推出适用于 Amazon Elastic Kubernetes Service(EKS)的 Neuron 动态资源分配(DRA)驱动程序,为基于 AWS Trainium 的实例带来 Kubernetes 原生的硬件感知调度能力。Neuron DRA 驱动程序将各种设备属性直接发布给 Kubernetes 调度器,这使得无需自定义调度器扩展即可实现拓扑感知的放置决策。
在 Kubernetes 上部署人工智能工作负载时,机器学习工程师需要做出与模型开发无直接关联的基础设施决策,例如确定设备数量、了解硬件和网络拓扑,以及编写特定于加速器的清单。这会产生阻碍、减慢迭代速度,并使工作负载与底层基础设施紧密耦合。随着使用案例扩展至分布式训练、长上下文推理和解耦式架构,这种复杂性便会成为扩展瓶颈。
Neuron DRA 驱动程序可将基础设施相关问题与机器学习工作流分离,从而消除这一负担。基础设施团队定义了可重复使用的 ResourceClaimTemplates 来捕获设备拓扑、分配和联网策略。机器学习工程师只需在其清单中引用这些模板即可,而无需思考硬件细节。这使得能够跨各种工作负载进行一致部署,并支持按工作负载进行配置,从而让多个工作负载能够高效地共享相同节点。
Neuron DRA 驱动程序支持所有 AWS Trainium 实例类型,并且已在所有提供 AWS Trainium 的 AWS 区域推出。
有关文档、示例模板和实施指南,请访问 Neuron DRA 文档。
了解详情: