Поддержка сетевых интерфейсов на базе только EFA в Amazon SageMaker HyperPod

Проведено: 1 июня 2026 г.

Amazon SageMaker HyperPod теперь поддерживает сетевые интерфейсы, работающие исключительно на основе интерфейса эластичной матрицы (EFA), для групп инстансов кластера, что позволяет настраивать выделенные EFA-устройства без традиционного использования эластичного сетевого адаптера (ENA) для IP-сетей. SageMaker HyperPod – это специализированная инфраструктура для разработки моделей искусственного интеллекта (ИИ) и машинного обучения, которая предоставляет надежную высокопроизводительную среду со встроенными функциями обеспечения отказоустойчивости и автоматического восстановления кластеров. Использование исключительно EFA теперь позволяет масштабировать кластеры ИИ и машинного обучения до еще больших размеров без риска исчерпания IP-адресов в виртуальном частном облаке.

При выполнении крупномасштабных рабочих нагрузок распределенного обучения ключевое значение для его эффективности имеет пропускная способность взаимодействия между узлами. Инстансы кластера SageMaker HyperPod позволяют использовать множество сетевых интерфейсов с поддержкой EFA, однако при настройке для них EFA-интерфейса стандартного типа к каждому интерфейсу подключается как устройство EFA, так и устройство ENA (для IP-сетей), даже если IP-сеть необходима лишь для ограниченного набора интерфейсов в узле. Интерфейс типа EFA неизбежно задействует IP-адреса в подсети для каждого подключенного ENA-устройства, что может привести к исчерпанию IP-адресов и ограничению количества узлов, которые можно развернуть в одной подсети. С запуском новых функций появилась возможность при настройке сетевых интерфейсов для групп инстансов кластера HyperPod назначать эти интерфейсы как использующие исключительно EFA. Данная опция выделяет сетевой интерфейс исключительно для трафика EFA без подключения устройства ENA, что позволяет максимально увеличить количество доступных интерфейсов EFA, обеспечивающих взаимодействие между узлами с низкой задержкой и высокой пропускной способностью. Поскольку интерфейсы, предназначенные только для EFA, не требуют IP-адресов, можно масштабировать кластеры до более крупного размера в рамках той же подсети без исчерпания IP-адресов. Такая конфигурация особенно удобна для крупномасштабных распределенных задач обучения, в которых пропускная способность межузловой связи имеет решающее значение, а выделенная IP-сеть на каждом интерфейсе не требуется.

Чтобы активировать эксклюзивное использование EFA, укажите efa-only в конфигурации ClusterNetworkInterface при создании или обновлении кластера HyperPod с помощью API-интерфейса CreateCluster/UpdateCluster. Использование исключительно EFA доступно во всех регионах AWS, где поддерживается Amazon SageMaker HyperPod. См. дополнительные сведения о ClusterNetworkInterface в Справочнике по API для Amazon SageMaker.