用于提高 AWS 网络可观测性的新 EFA 指标

发布于: 2025年9月12日

今天,AWS 推出了五个新的 Elastic Fabric Adapter (EFA) 指标,以增强 AI/ML 和高性能计算 (HPC) 工作负载的网络可观测性。这些新指标通过跟踪重新传输的数据包和字节、重新传输超时事件、远程连接受损事件和远程接收器无响应事件,帮助诊断性能问题。

利用这些新指标,您可以监控网络拥塞或实例配置问题,从而及时采取行动来保持应用程序性能。这些指标在每个 EFA 设备级别以计数器形式实现,累积自实例启动或最近一次驱动程序重置以来的数据。这些指标计数器存储在 sys 文件系统中,可通过实例命令行访问。为了增强监控和警报功能,您可以将这些指标集成到 Prometheus 脚本,从而便于导出到 Grafana 等第三方工具,用于控制面板创建和警报设置。这些新指标适用于 Nitro v4(及更高版本)实例,需要 EFA 安装程序版本 1.43.0 或更高版本。有关指标的完整列表以及如何使用这些指标的更多信息,请阅读监控 EFA 用户指南。有关基于不同 Nitro 系统版本构建的实例的完整列表,请参阅 AWS Nitro System 文档

在所有商业 AWS 区域、AWS GovCloud(美国)区域和中国区域,均支持这些新指标。要了解有关 EFA 的更多信息,请参阅 EFA 文档。