AWS Glue

ETL simple, flexible et économique

AWS Glue est un service d'extraction, de transformation et de chargement (ETL) entièrement géré qui facilite la préparation et le chargement des données pour analyse des clients. Vous pouvez créer et exécuter une tâche ETL en quelques clics grâce à AWS Management Console. Il vous suffit de pointer AWS Glue sur les données que vous avez stockées sur AWS pour qu'AWS Glue découvre vos données et les stocke dans la métadonnée (c'est-à-dire, la définition et le schéma de la table) associée dans le catalogue de données AWS Glue. Dès qu'elles sont répertoriées, il est possible d'effectuer des recherches, de lancer des requêtes et de rendre vos données disponibles pour l'ETL.

Présentation d’AWS Glue (1:47)

Avantages

Moins de tracas

AWS Glue est intégré à un large éventail de services AWS, ce qui signifie une intégration facilitée. AWS Glue prend en charge de manière native les données stockées dans Amazon Aurora et tous les autres moteurs Amazon RDS, Amazon Redshift, Amazon S3, ainsi que les moteurs de base de données communs et les bases de données de votre cloud virtuel privé (Amazon VPC) exécuté sur Amazon EC2.

Rentable

AWS Glue est sans serveur. Vous n'avez pas besoin de prévoir ni de gérer une infrastructure dédiée. AWS Glue gère la mise en service, la configuration et le dimensionnement des ressources nécessaires à l'exécution de tâches ETL dans un environnement entièrement géré d'augmentation Apache Spark. Vous ne payez que les ressources utilisées lors de l'exécution des tâches.

Plus performant

AWS Glue automatise la plupart des efforts en conception, maintenance et exécution des tâches ETL. AWS Glue analyse vos sources de données, identifie les formats de données et suggère des schémas et transformations. AWS Glue génère automatiquement le code nécessaire à l'exécution de vos processus de transformations et de chargements de données.

 

 

Fonctionnement

Sélectionnez une source et une cible de données. AWS Glue va générer le code ETL dans Scala ou Python pour extraire les données de la source, transformer les données pour correspondre au schéma cible et les charger dans la cible. Vous pouvez éditer, déboguer et tester ce code sur la console ou dans votre IDE favori ou sur tout ordinateur portable.

Étape 1 : Créer votre catalogue de données
Étape Créer votre catalogue de données

Tout d'abord, utilisez AWS Management Console pour enregistrer vos sources de données. AWS Glue analyse vos sources de données et élabore un catalogue de données à l'aide de classificateurs préconfigurés pour de nombreux formats et types de données populaires, notamment JSON, CSV, Parquet et plus encore.

Étape 2 : Générer et modifier des transformations
Étape Générer et modifier des transformations

Ensuite, sélectionnez une source et une cible de données. AWS Glue va générer le code ETL dans Scala ou Python pour extraire les données de la source, transformer les données pour correspondre au schéma cible et les charger dans la cible. Vous pouvez éditer, déboguer et tester ce code sur la console ou dans votre IDE favori ou sur tout ordinateur portable.

Étape 3 : Planifier et exécuter vos tâches
Étape Planifier et exécuter vos tâches

AWS Glue facilite la planification de tâches ETL récurrentes, l'association de plusieurs tâches ensemble ou l'appel de tâches à la demande de la part d'autres services comme AWS Lambda. AWS Glue gère les dépendances entre vos tâches, dimensionne automatiquement les ressources sous-jacentes et relance les tâches qui ont échoué.

Consultez la page Fonctionnalités d'AWS Glue ou la documentation relative au produit pour en savoir plus.

Cas d'utilisation

Requêtes contre un lac de données Amazon S3

Les lacs de données sont un moyen de plus en plus populaire de stocker et analyser des données structurées et non structurées. Si vous souhaitez créer votre propre lac de données Amazon S3, AWS Glue peut rendre vos données immédiatement disponibles pour analyse sans avoir à les déplacer.

Pour mettre en place un lac de données sécurisé en quelques jours, apprenez-en davantage sur AWS Lake Formation.

Diagramme Requêtes contre un lac de données Amazon S3

Analyse des données de journalisation de votre entrepôt de données

Préparez vos données de parcours de navigation ou de journalisation des processus pour l'analyse en nettoyant, normalisant et enrichissant vos ensembles de données avec AWS Glue. AWS Glue génère le schéma pour vos données semi-structurées, crée le code ETL pour transformer, aplatir et enrichir vos données, et charge régulièrement votre entrepôt de données.

Diagramme Analyse des données de journalisation de votre entrepôt de données

Vue unifiée de vos données sur plusieurs magasins de données

Vous pouvez utiliser le catalogue de données AWS Glue pour la découverte et la recherche rapide sur plusieurs sous-ensembles de données AWS sans devoir déplacer les données. Une fois que les données sont cataloguées, elles sont immédiatement disponibles pour la recherche et l'interrogation avec Amazon Athena, Amazon EMR et Amazon Redshift Spectrum.

Diagramme Affichage des données dans les magasins de données

Pipelines ETL en fonction des événements

AWS Glue peut exécuter vos tâches ETL en fonction d'un événement, par exemple l'obtention d'un nouvel ensemble de données. Par exemple, vous pouvez utiliser une fonction AWS Lambda pour déclencher vos tâches ETL afin qu'elles s'exécutent dès que de nouvelles données deviennent disponibles dans Amazon S3. Vous pouvez également enregistrer ce nouvel ensemble de données dans le catalogue de données AWS Glue pour qu'il fasse partie de vos tâches ETL.

Diagramme Pipelines ETL en fonction des événements
Image de page web
Découvrir les fonctionnalités du produit

Découvrez-en davantage sur les fonctionnalités clés d'AWS Glue.

En savoir plus 
Image d'inscription au compte
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Image de boîte à outils
Commencer à créer sur la console

Commencez à créer avec AWS Glue dans AWS Management Console.

Se connecter