Publié le: Dec 8, 2020
Nous avons le plaisir d'annoncer Amazon SageMaker Pipelines, une nouvelle fonctionnalité d'Amazon SageMaker qui permet de créer, gérer, automatiser et mettre à l'échelle de bout en bout les flux de travail de machine learning. SageMaker Pipelines ajoute l'automatisation et l'orchestration aux flux de travail de ML, vous permettant d'accélérer les projets de machine learning et de mettre à l'échelle des milliers de modèles en production.
Le machine learning est un processus itératif qui nécessite la collaboration des différentes parties prenantes, telles que les ingénieurs des données, les scientifiques des données, les ingénieurs ML et les ingénieurs DevOps. Il est difficile de concevoir un processus évolutif permettant de créer des modèles, car le nombre d'étapes entre la préparation, l'ingénierie de fonctionnalités, l'entraînement et l'évaluation du modèle des données peut rapidement augmenter, ce que complexifie la gestion des dépendances des données. Au fur et à mesure que le nombre de modèles augmente, la gestion des versions des modèles et leur déploiement en production nécessitent une automatisation simple et évolutive. Enfin, le suivi de la lignée sur l'ensemble du pipeline exige des outils personnalisés afin de suivre les données, les artefacts de modèles et les actions.
Amazon SageMaker Pipeline permet aux équipes de science des données et d'ingénieurs de collaborer en toute transparence sur les projets de ML et de rationaliser de bout en bout la création, l'automatisation et la mise à l'échelle des flux de travail de ML. Le kit SDK Amazon SageMaker facilite la construction de pipelines de conception de modèles en définissant les paramètres et les étapes pouvant inclure Amazon SageMaker Data Wrangler, le traitement, l'entraînement, la transformation par lots, l'évaluation conditionnelle et l'enregistrement des modèles dans le registre central de modèles. Une fois la construction des pipelines terminée, Amazon SageMaker prend en charge l'exécution des pipelines et vous pouvez afficher ces exécutions ainsi que les journaux et les métriques en temps réel de chaque étape dans Amazon SageMaker Studio. Les modèles sont enregistrés dans le nouveau registre de modèles Amazon SageMaker, qui surveille automatique les nouveaux modèles générés depuis les pipelines et offre des flux de travail d'approbation intégrés pour sélectionner les modèles à déployer en production.
Amazon SageMaker Pipelines offre de bonnes pratiques DevOps d'intégration et de livraison continues (CI/CD) appliquées au machine learning (connues sous le nom de MLOps) pour automatiser et mettre à l'échelle des pipelines de construction et de déploiement des modèles ML. Amazon SageMaker Pipelines fournit des modèles MLOps intégrés pour que vous puissiez démarrer avec l'intégration et la livraison continues des projets ML, et permet également d'utiliser des modèles MLOps personnalisés. Par conséquent, vous pouvez rapidement et facilement mettre à l'échelle vos pipelines ML sans dépendre des processus manuels et garantir une meilleure cohérence, une meilleure intégration et de meilleurs tests du code, ainsi que des mises à jour fiables des modèles en production. Enfin, Amazon SageMaker Pipelines suit automatiquement la lignée de chaque étape de votre pipeline ML, ce qui peut répondre à toutes les exigences de gouvernance d'audit sans avoir besoin de créer des outils personnalisés.
Amazon SageMaker Pipelines est désormais disponible dans toutes les régions commerciales AWS où Amazon SageMaker est disponible. Les fonctionnalités MLOps d'Amazon SageMaker Pipelines sont disponibles uniquement dans les régions AWS où AWS CodePipeline est également disponible. Consultez la documentation pour en savoir plus et voir des exemples de bloc-notes. Pour apprendre à utiliser cette fonctionnalité, lisez notre article de blog.