Publicado en: May 10, 2021
Amazon SageMaker ahora es compatible con Elastic Fabric Adapter (EFA) para el entrenamiento de modelos de machine learning. EFA es una interfaz de red para las instancias de Amazon EC2 que permite a los clientes ejecutar aplicaciones que requieren altos niveles de comunicación entre nodos a escala en AWS. EFA puede acelerar notablemente el entrenamiento distribuido en SageMaker sin costo adicional. A modo de ejemplo, entrenamos el modelo de procesamiento de lenguaje natural BERT con la biblioteca paralela de datos distribuidos de SageMaker en 32 instancias ml.p4d.24xlarge. El entrenamiento resultó ser hasta un 130 % más rápido con EFA en comparación con Elastic Network Adapter (ENA).
El entrenamiento distribuido permite a los desarrolladores y científicos de datos entrenar modelos más rápido y mejorar la calidad de estos. Los clientes utilizan las bibliotecas de entrenamiento distribuido de SageMaker porque ofrecen los métodos más rápidos y fáciles para el entrenamiento de grandes modelos y conjuntos de datos de aprendizaje profundo. El mecanismo único de redes de derivación de sistema operativo de EFA mejora el rendimiento de las comunicaciones entre instancias, lo que se traduce un entrenamiento distribuido aún más rápido en SageMaker.
No hay costos adicionales por utilizar EFA en SageMaker. EFA en SageMaker es compatible en estos momentos con instancias ml.p3dn.24xlarge, ml.p4d.24xlarge y ml.c5n.18xlarge. Los trabajos de entrenamiento distribuido de SageMaker que utilizan los contenedores de aprendizaje profundo de TensorFlow y PyTorch sacan partido de manera automática de EFA sin que los clientes tengan que realizar ninguna acción. Se puede habilitar EFA para trabajos de entrenamiento que utilizan VPC o una imagen de Docker personalizada con cambios de configuración mínimos.
Para obtener más información sobre la compatibilidad con EFA en Amazon SageMaker, consulte la documentación de la biblioteca de entrenamiento distribuido de SageMaker o cómo ejecutar entrenamientos con EFA en su contenedor. Para comenzar, inicie sesión en la consola de Amazon SageMaker.