Neue EFA-Metriken für eine verbesserte Beobachtbarkeit von AWS-Netzwerken
Heute hat AWS fünf neue Elastic Fabric Adapter (EFA)-Metriken eingeführt, um die Netzwerkbeobachtbarkeit für KI/ML- und High Performance Computing (HPC)-Workloads zu verbessern. Diese neuen Metriken helfen bei der Diagnose von Leistungsproblemen, indem sie erneut übertragene Pakete und Bytes, Timeout-Ereignisse bei der erneuten Übertragung, beeinträchtigte Fernverbindungsereignisse und Ereignisse, die nicht reagieren, verfolgen.
Mit diesen neuen Metriken können Sie Netzwerküberlastungen oder Probleme mit der Instance-Konfiguration überwachen und so zeitnah Maßnahmen ergreifen, um die Anwendungsleistung aufrechtzuerhalten. Die Metriken werden als Zähler auf Geräteebene pro EFA implementiert und sammeln Daten seit dem Start der Instance oder dem letzten Treiberreset an. Diese im sys-Dateisystem gespeicherten Metrikzähler sind über die Instance-Befehlszeile zugänglich. Für erweiterte Überwachungs- und Warnfunktionen können Sie diese Metriken in Prometheus-Skripte integrieren und so den Export in Tools von Drittanbietern wie Grafana zur Dashboard-Erstellung und Alarmeinstellung erleichtern. Die neuen Metriken sind auf Nitro v4-Instances (und höher) verfügbar und erfordern die EFA-Installationsversion 1.43.0 oder höher. Eine vollständige Liste der Metriken und weitere Informationen zu deren Verwendung finden Sie im Benutzerhandbuch Monitor an EFA. Eine umfassende Liste der Instances, die auf verschiedenen Nitro-Systemversionen basieren, finden Sie in der Dokumentation zu AWS Nitro Systems.
Diese neuen Metriken werden in allen kommerziellen AWS-Regionen, den AWS-GovCloud-Regionen (USA) und den Regionen China unterstützt. Mehr über EFA erfahren Sie in der EFA-Dokumentation.