Publié le: Mar 30, 2021
AWS Glue est un service d'intégration de données sans serveur qui facilite la découverte, la préparation et la combinaison des données pour l'analytique, le Machine Learning et le développement d'applications. La fonctionnalité AWS Glue Workflows vous permet d'orchestrer et exécuter un flux de travail complexe d'intégration de données multi-tâches et multi-analyses. Les plans personnalisés AWS Glue permettent aux ingénieurs de données de créer facilement des flux de travail AWS Glue reproductibles.
Avant de commencer à utiliser le plan AWS Glue, vous devez identifier un flux de travail d'intégration de données reproductible. Par exemple, un flux de travail ETL qui convertit les données CSV de votre compartiment S3 brut au format Parquet dans votre compartiment S3 de production, et vous pouvez exécuter ce flux de travail ETL plusieurs fois sur différents comptes AWS. Au lieu de créer un flux de travail pour chaque processus ETL, vous pouvez créer et enregistrer un plan AWS Glue qui accepte le compartiment S3 comme paramètre d'entrée. Un analyste de données doit simplement fournir des paramètres d'entrée (par exemple, des sources et des cibles de données) pour créer de nouveaux flux de travail d'intégration de données.
La version préliminaire publique des plans AWS Glue est disponible dans toutes les régions où AWS Glue est disponible. Pour en savoir plus, consultez le Guide du développeur AWS Glue. Pour commencer, accédez à la console AWS Glue.