AWS Glue

Intégration simple, scalable et sans serveur des données

AWS Glue est un service d'intégration sans serveur des données qui facilite la découverte, la préparation et la combinaison des données pour l'analytique, le machine learning et le développement d'applications. AWS Glue offre toutes les fonctionnalités nécessaires à l'intégration des données, pour vous permettre de commencer à analyser et à mettre à profit vos données en quelques minutes, plutôt qu'en quelques mois.

L'intégration des données se rapporte au processus impliquant la préparation et la combinaison des données pour l'analytique, le machine learning et le développement d'applications. Elle comprend plusieurs tâches, comme la découverte et l'extraction des données à partir de différentes sources ; l'enrichissement, le nettoyage, la normalisation et la combinaison des données ; ainsi que le chargement et l'organisation des données dans des bases de données, des entrepôts de données et des lacs de données. Ces tâches sont souvent gérées par différents types d'utilisateurs, qui utilisent différents produits.

AWS Glue propose des interfaces visuelles et codées pour faciliter l'intégration des données. Les utilisateurs peuvent facilement trouver et accéder aux données à l'aide du catalogue de données AWS Glue. Les ingénieurs de données et les développeurs ETL (extraire, transformer et charger) peuvent visuellement créer, exécuter et surveiller des flux de travail ETL en quelques clics dans AWS Glue Studio. Les analystes des données et les scientifiques des données peuvent utiliser AWS Glue DataBrew pour visuellement enrichir, nettoyer et normaliser les données sans écrire de code. Avec AWS Glue Elastic Views, les développeurs d'applications peuvent utiliser le langage SQL (Structured Query Language) courant pour combiner et répliquer les données dans plusieurs magasins de données.

Présentation d'AWS Glue (1:47)

Avantages

Intégration des données plus rapide

Différents groupes au sein de votre organisation peuvent utiliser AWS Glue pour travailler ensemble sur les tâches d'intégration des données, notamment l'extraction, le nettoyage, la normalisation, la combinaison, le chargement et l'exécution de flux de travail ETL scalables. Vous pouvez ainsi réduire le temps nécessaire pour analyser vos données et les mettre à profit de plusieurs mois à quelques minutes.

Automatisation de l'intégration de vos données à grande échelle

AWS Glue automatise une grande partie de l'effort requis pour l'intégration des données. AWS Glue analyse vos sources de données, identifie les formats de données et suggère des schémas pour stocker vos données. Il génère automatiquement le code nécessaire à l'exécution de vos processus de transformations et de chargements de données. Vous pouvez utiliser AWS Glue pour exécuter et gérer facilement des milliers de tâches ETL, ou pour combiner et répliquer des données dans plusieurs magasins de données à l'aide du langage SQL.

Aucun serveur à gérer

AWS Glue s'exécute dans un environnement sans serveur. Il n'y a pas d'infrastructure à gérer. AWS Glue met en service, configure et met à l'échelle les ressources requises pour exécuter vos tâches d'intégration de données. Vous ne payez que les ressources que vos tâches utilisent pendant leur exécution.

Cas d'utilisation


Création de pipelines ETL (extraire, transformer et charger) en fonction des événements

AWS Glue peut exécuter vos tâches ETL à mesure que les nouvelles données arrivent. Par exemple, vous pouvez utiliser une fonction AWS Lambda pour déclencher vos tâches ETL afin qu'elles s'exécutent dès que de nouvelles données deviennent disponibles dans Amazon S3. Vous pouvez également enregistrer ce nouvel ensemble de données dans le catalogue de données AWS Glue pour qu'il fasse partie de vos tâches ETL.

Diagramme de pipelines ETL en fonction des événements

Création d'un catalogue unifié pour rechercher des données dans plusieurs magasins de données

Vous pouvez utiliser le catalogue de données AWS Glue pour la découverte et la recherche rapides sur plusieurs ensembles de données AWS sans devoir déplacer les données. Une fois que les données sont cataloguées, elles sont immédiatement disponibles pour la recherche et l'interrogation avec Amazon Athena, Amazon EMR et Amazon Redshift Spectrum.

Création et exécution des tâches ELT dans AWS Glue

Création, exécution et surveillance des tâches ELT sans codage

AWS Glue Studio facilite la création, l'exécution et la surveillance visuelles des tâches ETL dans AWS Glue. Vous pouvez composer des tâches ETL qui déplacent et transforment les données à l'aide d'un éditeur glisser-déposer. AWS Glue génère automatiquement le code. Ensuite, vous pouvez utiliser le tableau de bord AWS Glue Studio pour surveiller l'exécution ETL et vérifier que vos tâches fonctionnent correctement. Pour en savoir plus sur AWS Glue Studio, cliquez ici.

Outil ETL visuel pour développeurs ETL

Exploration des données avec la préparation des données visuelles en libre-service

AWS Glue DataBrew vous permet d'explorer et d'expérimenter avec des données provenant directement de votre lac de données, de vos entrepôts de données et de vos bases de données, y compris Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora et Amazon RDS. Vous pouvez choisir parmi plus de 250 transformations pré-intégrés dans AWS Glue DataBrew pour automatiser les tâches de préparation des données, telles que le filtrage des anomalies, la normalisation des formats et la correction des valeurs non valides. Une fois les données préparées, vous pouvez les utiliser immédiatement à des fins d'analyse et de machine learning. Pour en savoir plus sur AWS Glue DataBrew, cliquez ici.

Nettoyage et normalisation visuels des données

Création de vues matérialisées pour combiner et répliquer des données (en version préliminaire)

AWS Glue Elastic Views vous permet d'utiliser le langage SQL courant pour créer des vues matérialisées. Utilisez ces vues pour accéder et combiner des données provenant de plusieurs magasins de données sources, et maintenez ces données combinées à jour et accessibles à partir d'un magasin de données cible. La version préliminaire d'AWS Glue Elastic Views prend actuellement en charge Amazon DynamoDB en tant que source. Amazon Aurora et Amazon RDS seront prochainement pris en charge. Les cibles actuellement prises en charge sont Amazon Redshift, Amazon S3 et Amazon Elasticsearch Service. Amazon Aurora, Amazon RDS et Amazon DynamoDB seront prochainement pris en charge. En savoir plus sur AWS Glue Elastic Views ici.

Nettoyage et normalisation visuels des données

Nouveautés

date
  • date
1
Fonctionnalités d'AWS Glue
Découvrir les fonctionnalités d'AWS Glue

Découvrez-en davantage sur les fonctionnalités clés d'AWS Glue.

En savoir plus 
Créez un compte AWS
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Commencez à créer dans la console
Commencez à créer avec AWS Glue

Commencez à créer avec AWS Glue dans l'interface ETL visuelle.

Se connecter