Amazon SageMaker HyperPod ahora admite interfaces de red solo EFA
Amazon SageMaker HyperPod ahora admite interfaces de red solo EFA para grupos de instancias de clústeres. Esto le permite configurar dispositivos exclusivamente Elastic Fabric Adapter (EFA) sin el tradicional Elastic Network Adapter (ENA) para redes IP. SageMaker HyperPod es una infraestructura diseñada específicamente para el desarrollo de modelos de inteligencia artificial (IA) y machine learning (ML) que proporciona un entorno resiliente y de alto rendimiento con tolerancia a errores integrada y recuperación de clústeres automatizada. Ahora, con las interfaces solo EFA, puede escalar aún más los clústeres de IA/ML sin correr el riesgo de agotar las direcciones IP de su VPC.
Cuando se ejecutan cargas de trabajo de entrenamiento distribuidas a gran escala, el ancho de banda de comunicación entre nodos es fundamental para el rendimiento del entrenamiento. Las instancias de clúster de SageMaker HyperPod admiten varias interfaces de red compatibles con EFA, pero configurarlas con el tipo de interfaz EFA estándar conecta un dispositivo EFA y un dispositivo ENA (para redes IP) a cada interfaz, incluso cuando la red IP solo es necesaria en un subconjunto de interfaces dentro de un nodo. El tipo de interfaz EFA consume inevitablemente las direcciones IP de la subred para cada dispositivo ENA conectado, lo que puede provocar el agotamiento de las direcciones IP y limitar la cantidad de nodos que puede implementar en una sola subred. Con este lanzamiento, ahora puede configurar la interfaz solo EFA al configurar las interfaces de red para los grupos de instancias del clúster de HyperPod. Esta opción asigna la interfaz de red exclusivamente para el tráfico EFA sin conectar un dispositivo ENA, lo que le permite maximizar la cantidad de interfaces EFA dedicadas a la comunicación entre nodos de baja latencia y alto rendimiento. Como las interfaces solo EFA no requieren direcciones IP, puede escalar a clústeres más grandes dentro de las mismas subredes sin agotar las IP. Esta configuración es particularmente beneficiosa para trabajos de entrenamiento distribuidos a gran escala en los que el ancho de banda de comunicación entre nodos es fundamental y no se requieren redes IP dedicadas en cada interfaz.
Para habilitar la interfaz solo EFA, especifique “efa-only” en la configuración de ClusterNetworkInterface al crear o actualizar el clúster de HyperPod mediante la API CreateCluster/UpdateCluster. La interfaz solo EFA está disponible en todas las regiones de AWS en las que Amazon SageMaker HyperPod está disponible. Para obtener más información, consulte ClusterNetworkInterface en la referencia de la API de Amazon SageMaker.