Новые метрики EFA для улучшения наблюдаемости за сетью AWS

Проведено: 12 сент. 2025 г.

Сегодня AWS внедряет пять новых метрик Интерфейса эластичной матрицы (EFA) для повышения наблюдаемости рабочих нагрузок искусственного интеллекта, машинного обучения и высокопроизводительных вычислений (HPC) в сети. Эти новые метрики помогают диагностировать проблемы с производительностью, отслеживая повторно передаваемые пакеты и байты, события превышений времени ожидания повторной передачи, нарушений удаленного соединения и отсутствия ответов от удаленного приемника.

С помощью этих новых метрик можно отслеживать перегрузку сети или проблемы с конфигурацией инстансов, что позволяет своевременно принимать меры для поддержания производительности приложений. Метрики реализованы в виде счетчиков на уровне отдельных устройств EFA, и они собирают данные с момента запуска инстанса или последней перезагрузки драйверов. Эти счетчики метрик хранятся в файловой системе sys и доступны через командную строку инстанса. Для расширения возможностей мониторинга и оповещения вы можете интегрировать эти метрики в скрипты Prometheus, чтобы упростить их экспорт в сторонние инструменты, такие как Grafana, где можно создавать информационные панели и настраивать уведомления. Новые метрики доступны на инстансах Nitro v4 (и более поздних версий) и требуют использования установщика EFA как минимум версии 1.43.0. Полный список метрик и дополнительные сведения об их использовании см. в руководстве пользователя по мониторингу EFA. Исчерпывающий список инстансов, созданных на основе различных версий системы Nitro, представлен в документации по системам AWS Nitro System.

Эти новые метрики поддерживаются во всех коммерческих регионах AWS, регионах AWS GovCloud (США) и регионах Китая. Подробнее о EFA см. в соответствующей документации