宣布推出 Elastic Fabric Adapter 的 Kubernetes 動態資源分配
Amazon Elastic Kubernetes Service (Amazon EKS) 現在支援 Elastic Fabric Adapter (EFA) 的動態資源分配 (DRA),藉此簡化人工智慧、機器學習和高效能運算 (HPC) 工作負載的高效能節點間通訊和 RDMA (遠端直接記憶體存取)。EFA DRA 驅動程式是以上游 DRANET 專案為基礎,為在 Kubernetes 上執行的工作負載提供 EFA 介面共用和具拓樸感知能力的分配功能。
使用 EFA DRA 驅動程式,您可以分配共用相同 PCIe 根或裝置群組的 EFA 介面和加速器裝置,確保節點間流量會流經距離該節點上每個 NVIDIA GPU、AWS Trainium 或 AWS Inferentia 裝置最近的網路介面。EFA DRA 驅動程式還支援相同節點上各個工作負載之間共用的 EFA 介面,以最大化 EFA 介面使用率。
對於執行 Kubernetes 版本 1.34 或更高版本,且使用 EKS 受管節點群組或自主管理節點的 Amazon EKS 叢集,建議使用 EFA DRA 驅動程式進行新部署。EFA DRA 驅動程式已在提供 Amazon EKS 的所有 AWS 區域推出。EFA 裝置外掛程式仍受支援,建議與 Karpenter 和 Amazon EKS 自動模式搭配使用。
若要進一步了解,請參閱 Amazon EKS 使用者指南中的在 Amazon EKS 上管理 EFA 裝置。