AWS ネットワークのオブザーバビリティを向上させる新しい EFA メトリクス

投稿日: 2025年9月12日

本日、AWS は AI/機械学習およびハイパフォーマンスコンピューティング (HPC) ワークロードのネットワークオブザーバビリティを強化するために、5 つの新しい Elastic Fabric Adapter (EFA) メトリクスを導入しました。これらの新しいメトリクスは、再送信されたパケット数とバイト数、再送信タイムアウトイベント、リモート接続障害イベント、および応答のないリモート受信イベントを追跡することにより、パフォーマンスの問題を診断するのに役立ちます。

これらの新しいメトリクスを使用することで、ネットワークの混雑やインスタンス構成の問題をモニタリングできるため、アプリケーションのパフォーマンスを維持するためのアクションを適切なタイミングで実行できます。メトリクスは EFA デバイスごとにカウンターとして実装され、インスタンスの起動時または直近のドライバーリセット時点からのデータを蓄積します。これらのメトリクスカウンターは sys ファイルシステムに保存され、インスタンスのコマンドラインからアクセスできます。これらのメトリクスを Prometheus スクリプトに統合することで、Grafana などのサードパーティツールにエクスポートしてダッシュボードを作成したりアラームを設定したりすることが容易になり、モニタリング機能とアラート機能を強化できます。新しいメトリクスは Nitro v4 以降のインスタンスで利用でき、EFA インストーラのバージョン 1.43.0 以降が必要です。メトリクスの全リストとその使用方法の詳細については、ユーザーガイドの Amazon EC2 で Elastic Fabric Adapter をモニタリングするをご覧ください。Nitro System のさまざまなバージョンで構築されたインスタンスの包括的なリストについては、AWS Nitro Systems のドキュメントをご覧ください。

これらの新しいメトリクスは、すべての商用 AWS リージョン、AWS GovCloud (米国) リージョン、中国リージョンでサポートされています。EFA の詳細については、EFA のドキュメントをご覧ください。