AWS Neuron 宣佈支援對 Amazon EKS 的動態資源分配

張貼日期: 2026年3月20日

AWS 宣佈針對 Amazon Elastic Kubernetes Service (EKS) 的 Neuron 動態資源分配 (DRA) 驅動程式,將 Kubernetes 原生硬體感知排程導入 AWS Trainium 型執行個體。Neuron DRA 驅動程式會將豐富的裝置屬性直接發佈至 Kubernetes 排程器,使您無需自訂排程器擴充功能,即可做出具拓樸感知的位置決策。

在 Kubernetes 上部署 AI 工作負載需要 ML 工程師做出與模型開發不直接相關的基礎架構決策,例如確定裝置數、了解硬體和網路拓樸,以及編寫加速器特定的資訊清單。這會產生障礙、減慢迭代速度,並緊密地將工作負載與基礎基礎架構聯繫起來。在使用案例擴展至分散式訓練、長前後關聯推論和解耦式架構後,這種複雜性會成為擴展瓶頸。

Neuron DRA 驅動程式透過將基礎架構問題與 ML 工作流程分離來消除這種負擔。基礎架構團隊會定義可重複使用的 ResourceClaimTemplates,以擷取裝置拓樸、配置和網路政策。ML 工程師可以簡單地在其資訊清單中參考這些範本,而無需考量硬體詳細資料。這可實現跨工作負載類型的一致部署,同時允許針對每個工作負載設定組態,讓多個工作負載可以有效地共用相同的節點。

Neuron DRA 驅動程式支援所有 AWS Trainium 執行個體類型,並且適用於提供 AWS Trainium 的所有 AWS 區域。

如需文件、範例範本和實作指南,請瀏覽 Neuron DRA 文件

進一步了解: