Publié le: May 10, 2021

Amazon SageMaker prend désormais en charge Elastic Fabric Adapter (EFA) pour l'entraînement des modèles de machine learning. EFA est une interface réseau pour les instances Amazon EC2 qui permet aux clients d'exécuter des applications nécessitant de hauts niveaux de communications entre les nœuds à grande échelle sur AWS. EFA peut accélérer considérablement l'entraînement distribué sur SageMaker, sans coût supplémentaire. Par exemple, nous avons entraîné le modèle de traitement du langage naturel BERT avec la bibliothèque parallèle de données distribuées de SageMaker sur 32 instances ml.p4d.24xlarge. L'entraînement était jusqu'à 130 % plus rapide avec EFA par rapport à Elastic Network Adapter (ENA).

L'entraînement distribué permet aux développeurs et aux scientifiques des données d'entraîner les modèles plus rapidement et d'améliorer leur qualité. Les clients utilisent les bibliothèques d'entraînement distribué SageMaker car elles offrent des méthodes rapides et faciles pour l'entraînement de grands modèles et ensembles de données de deep learning. Le mécanisme unique de mise en réseau par contournement du système d'exploitation d'EFA améliore les performances des communications entre les instances, ce qui permet un entraînement distribué encore plus rapide sur SageMaker.  

L'utilisation d'EFA sur SageMaker n'entraîne aucun coût supplémentaire. L'EFA dans SageMaker est actuellement prise en charge sur les instances ml.p3dn.24xlarge, ml.p4d.24xlarge et ml.c5n.18xlarge. Les tâches de l'entraînement distribué SageMaker qui utilisent les conteneurs Deep Learning de TensorFlow et PyTorch profitent automatiquement d'EFA sans aucune action de la part des clients. EFA peut être activé pour les tâches d'entraînement qui utilisent un VPC ou une image Docker personnalisée avec des changements de configuration minimes.  

Pour en savoir plus sur la prise en charge d'EFA dans Amazon SageMaker, veuillez consulter la documentation sur la bibliothèque d'entraînement distribué SageMaker ou sur la façon d'exécuter un entraînement avec EFA dans votre conteneur. Pour démarrer, connectez-vous à la console Amazon SageMaker.