Publié le: Jul 8, 2022
L'entraînement de modèle Amazon SageMaker prend désormais en charge des clusters hétérogènes, ce qui permet de lancer des tâches d'entraînement utilisant plusieurs types d'instances en une seule tâche. Cette nouvelle capacité peut améliorer votre coût d'entraînement en exécutant différentes parties de l'entraînement de modèle sur le type d'instance le plus adapté. Par exemple, nous avons récemment entraîné un modèle de vision par ordinateur ResNet-50 sur un cluster hétérogène avec des instances ml.g5.xl et ml.c5n.2xl. Cette tâche d'entraînement a généré des coûts 13 % plus bas que l'entraînement du même modèle sur un cluster avec uniquement des instances ml.g5.xl avec la même précision.
Certaines charges de travail de machine learning combinent des tâches qui tirent profit de l'utilisation de différents types d'instances pour chaque tâche. Par exemple, l'entraînement de modèles de vision par ordinateurs implique de combiner la tâche gourmande en GPU d'entraînement de modèle de réseau neuronal et la tâche gourmande en CPU de traitement et d'augmentation des données. L'exécution de ces deux tâches sur un seul type d'instance peut mener à une baisse de l'utilisation du GPU et, par conséquent, à un gaspillage des ressources.
La capacité des clusters hétérogènes permet d'exécuter des tâches d'entraînement SageMaker sur plusieurs types d'instances. Les tâches gourmandes en GPU sont alors exécutées sur des types d'instances tels que ml.p4d.24xl, tandis que les tâches gourmandes en CPU sont exécutées sur des types d'instances tels que ml.c5n.18xl. Cette flexibilité peut accroître l'utilisation du GPU et, par conséquent, améliorer le rapport coût-efficacité. Les clusters hétérogènes peuvent être utilisés sans coût supplémentaire.
Pour en savoir plus, consultez la documentation portant sur les clusters hétérogènes. Pour commencer, connectez-vous à la console Amazon SageMaker.