宣布为 Elastic Fabric Adapter 提供 Kubernetes 动态资源分配功能
Amazon Elastic Kubernetes Service(Amazon EKS)现在支持 Elastic Fabric Adapter(EFA)使用动态资源分配(DRA)功能,从而简化了人工智能、机器学习和高性能计算(HPC)工作负载的高性能节点间通信及远程直接内存访问(RDMA)。EFA DRA 驱动程序基于上游 DRANET 项目构建,可为在 Kubernetes 上运行的工作负载提供 EFA 接口共享和拓扑感知分配功能。
借助 EFA DRA 驱动程序,您可以分配共享同一 PCIe 根设备或设备组的 EFA 接口和加速器设备,确保节点间流量通过距离节点上每个 NVIDIA GPU、AWS Trainium 或 AWS Inferentia 设备最近的网络接口进行传输。EFA DRA 驱动程序还支持在同一节点上的不同工作负载之间共享 EFA 接口,以最大限度地提高 EFA 接口的利用率。
对于在运行 Kubernetes 1.34 或更高版本的 Amazon EKS 集群上进行的新部署,无论使用的是 EKS 托管节点组还是自主管理节点,均建议使用 EFA DRA 驱动程序。EFA DRA 驱动程序现已在所有提供 Amazon EKS 的 AWS 区域推出。EFA 设备插件仍受支持,建议与 Karpenter 和 Amazon EKS 自动模式配合使用。
如需了解更多信息,请参阅“Amazon EKS 用户指南”中的在 Amazon EKS 上管理 EFA 设备。