Publié le: Jan 21, 2022
Amazon SageMaker Pipelines est un service entièrement géré qui permet aux clients de définir et d’orchestrer les étapes de création de leurs modèles comme des flux. Aujourd’hui, nous sommes heureux de présenter un nouveau type d’étape qui permet aux ingénieurs en Machine Learning d’exécuter des applications de traitement de données à l’aide de cadres open source comme Apache Spark, Presto et Hive sur des clusters Amazon EMR.
SageMaker Pipelines fournit déjà une variété d’étapes (par ex. le traitement, l’entraînement, le modèle d’enregistrement, le rappel, etc.). Ces étapes offrent aux clients la flexibilité nécessaire pour définir le flux de création de leurs modèles. Souvent, les clients souhaitent utiliser des cadres open source comme Spark, Hive et Presto s’exécutant sur EMR pour réaliser des tâches de traitement de données (ingénierie des fonctionnalités) sur le cluster EMR dans le processus de création de modèles. Grâce à l’étape EMR de SageMaker Pipelines récemment lancée, les clients peuvent soumettre ces tâches en tant que tâches EMR sur un cluster EMR. L’étape EMR de SageMaker Pipeline exige que les clients fournissent l’identifiant du cluster EMR et la propriété d’exécution de la tâche EMR qui doivent être exécutés sur le cluster. Les pipelines Sagemaker sont chargés d’établir une connexion sécurisée, de soumettre les flux EMR et de les suivre activement jusqu’à leur achèvement. Une fois créée, l’étape EMR de SageMaker Pipelines peut être intégrée dans le flux de création de modèles ML avec d’autres étapes de SageMaker Pipelines.
Cette fonction est disponible dans toutes les régions AWS dans lesquelles Amazon SageMaker est proposé. Pour commencer, créez un nouveau SageMaker Pipeline à partir de SageMaker Studio ou de l’interface de ligne de commande en utilisant l’étape EMR. Pour en savoir plus, consultez notre page de documentation.