AWS 宣布 EFA 更新以提升 AI/ML 應用的可擴展性

張貼日期: 2024年10月24日

AWS 宣布推出新的介面類型,可將 Elastic Fabric Adapter (EFA) 與彈性網路介面卡 (ENA) 解耦。EFA 提供高頻寬、低延遲的網路,對擴展 AI/ML 工作負載至關重要。新介面「僅限於 EFA」允許您在次要介面上建立獨立的 EFA 設備。這讓您能夠擴展運算叢集,以執行 AI/ML 應用程式,而避免耗盡您的私有 IPv4 位址空間,或面臨與 Linux 相關的 IP 路由問題。

以前,每個 EFA 介面都與 ENA 設備結合,這樣會消耗一個 IP 位址。這可能會限制 AI/ML 模型訓練工作的擴展能力。在使用多個具備私有 IP 的介面時,Linux 也可能引入路由問題,例如因來源 IP 不匹配而導致的封包遺失和主機名稱映射問題。僅限於 EFA 介面解決了這些挑戰,因為 EFA 設備不會指派 IP 位址,而是使用 Scalable Reliable Datagram (SRD) 通訊協定,該協定透過 MAC 位址運作。僅限於 EFA 介面只能設定為次要介面,而主要介面必須是 EFA 與 ENA 的組合,或是僅 ENA,因為 TCP/IP VPC 路由需要 ENA。

僅限於 EFA 適用於所有 AWS 區域的所有支援 EFA 的執行個體,包括 AWS GovCloud (美國) 區域和 AWS 中國區域。您無需額外費用即可啟用 EFA 來大規模執行您的 AI/ML 工作負載。若要進一步了解,請參閱 EFA 文件