Le connecteur Amazon S3 pour PyTorch prend désormais en charge le point de contrôle distribué
Amazon S3 Connector pour PyTorch prend désormais en charge le point de contrôle distribué (DCP), ce qui réduit le temps d'écriture des points de contrôle dans Amazon S3. DCP est une fonctionnalité PyTorch qui permet d'enregistrer et de charger des modèles de machine learning (ML) à partir de plusieurs processus de formation en parallèle. PyTorch est un framework ML open source utilisé pour créer et entraîner des modèles de ML.
Les tâches d’entraînement distribuées durent souvent plusieurs heures, voire plusieurs jours, et des points de contrôle sont écrits fréquemment pour améliorer la tolérance aux pannes. Par exemple, les tâches d’entraînement de grands modèles de fondation durent souvent plusieurs jours et génèrent des points de contrôle de plusieurs centaines de gigaoctets. L'utilisation de DCP avec Amazon S3 Connector pour PyTorch vous permet de réduire le temps nécessaire à l'écriture de ces points de contrôle importants dans Amazon S3, tout en maintenant vos ressources de calcul utilisées, ce qui se traduit par une baisse des coûts de calcul.
Le connecteur Amazon S3 pour PyTorch est un projet open source. Pour commencer, consultez la page Github.