新的 EFA 指標能夠改善 AWS 網路的可觀測性
張貼日期:
2025年9月12日
AWS 今日推出了五種全新 Elastic Fabric Adapter (EFA) 指標,能夠用於增強 AI/ML 和高效能運算 (HPC) 工作負載的網路可觀測性。這些新指標能夠追蹤重新傳送的封包和位元組,並重新傳輸逾時事件、遠端連線受干擾事件及無回應的遠端接收器事件,進而協助診斷效能問題。
有了這些新指標,您就能監控網路擁堵或執行個體組態問題,進而及時採取行動以維持應用程式效能。這些指標會以每個 EFA 裝置層級的計數器形式實作,並累積自執行個體啟動或最近驅動程式重設以來的資料。這些指標計數器會儲存在 sys 檔案系統中,能夠透過執行個體命令行存取。如需增強型監控和警示功能,您可將這些指標整合至 Prometheus 指令碼中,以便匯出至 Grafana 等第三方工具,以建立儀表板和警示設定。新指標適用於 Nitro v4 (及更新版本) 執行個體,並且需要 EFA 安裝程式 1.43.0 或更高版本。如需指標的完整清單,並進一步了解如何加以使用,請造訪監控 EFA 使用者指南。如需在不同 Nitro System 版本上建立之執行個體的完整清單,請參閱 AWS Nitro System 文件。
這些新指標適用於所有商業 AWS 區域、AWS GovCloud (美國) 區域和中國區域。若要進一步了解 EFA,請造訪 EFA 文件。