AWS Glue
Cloud AWS
Démarrer avec AWS Glue

AWS Glue est un service d'extraction, de transformation et de chargement (ETL) entièrement géré qui facilite la préparation et le chargement des données pour analyse des clients. Vous pouvez créer et exécuter une tâche ETL en quelques clics grâce à AWS Management Console. Il vous suffit de pointer AWS Glue sur les données que vous avez stockées sur AWS pour qu'AWS Glue découvre vos données et les stocke dans la métadonnée (c'est-à-dire, la définition et le schéma de la table) associée dans le catalogue de données AWS Glue. Dès qu'elles sont répertoriées, il est possible d'effectuer des recherches, des requêtes et de rendre vos données disponibles pour l'ETL. AWS Glue génère le code pour exécuter les processus de transformation et de chargement de vos données.

AWS Glue génère du code Python personnalisable, réutilisable et portable. Lorsque votre tâche ETL est prête, vous pouvez prévoir son exécution sur l'environnement entièrement géré d'augmentation Apache Spark d'AWS Glue. AWS Glue apporte un planificateur flexible doté d'une résolution de dépendance, de la surveillance des tâches et d'un système d'alerte.

AWS Glue ne nécessite pas de serveur ; il n'y a donc pas d'infrastructure à construire, paramétrer ou gérer. Il alimente automatiquement l'environnement nécessaire pour réaliser la tâche et les clients ne paient que pour les ressources de calcul utilisées lorsqu'ils exécutent des tâches ETL. Avec AWS Glue, les données peuvent être disponibles pour analyse en quelques minutes.

Pou en savoir plus, participez à notre webinaire technique à venir : Serverless Analytics with Amazon Redshift Spectrum, AWS Glue, and Amazon QuickSightS'inscrire maintenant »

AWS Glue
1:47
Service ETL sans serveur, entièrement géré et optimisé dans le cloud

Prêt à démarrer votre ETL ?

Démarrer avec AWS Glue


Facile

Facile

AWS Glue automatise la plupart des efforts en conception, maintenance et exécution des tâches ETL. AWS Glue analyse vos sources de données, identifie les formats de données et suggère schémas et transformations. AWS Glue génère automatiquement le code nécessaire à l'exécution de vos processus de transformations et de chargements de données.

Intégration

Intégration

AWS Glue s'intègre à une large gamme de services AWS. AWS Glue prend en charge dès le départ les données stockées dans Amazon Aurora, Amazon RDS pour MySQL, Amazon RDS pour Oracle, Amazon RDS pour PostreSQL, Amazon RDS pour SQL Server, Amazon Redshift et Amazon S3, ainsi que dans les bases de données MySQL, Oracle, Microsoft SQL Server et PostgreSQL dans votre Virtual Private Cloud (Amazon VPC) s'exécutant sur Amazon EC2. AWS Glue apporte une intégration clé en main à Amazon Athena, Amazon EMR, Amazon Redshift Spectrum ainsi qu'à toute application compatible du metastore Apache Hive.

Sans serveur

Sans serveur

AWS Glue est sans serveur. Vous n'avez pas besoin de prévoir ni de gérer une infrastructure dédiée. AWS Glue gère la mise en service, la configuration et le dimensionnement des ressources nécessaires à l'exécution de tâches ETL dans un environnement entièrement géré d'augmentation Apache Spark. Vous ne payez que les ressources utilisées lors de l'exécution des tâches.

Facile d'utilisation pour les développeurs

Facile d'utilisation pour les développeurs

AWS Glue génère du code ETL personnalisable, réutilisable et portable à l'aide de technologies familières : Python et Spark. Vous pouvez également importer des lecteurs, des auteurs et des transformations personnalisées à votre code ETL Glue. Puisque le code qu'AWS Glue génère est basé sur des infrastructures ouvertes, il n'y a pas de verrouillage. Vous pouvez l'utiliser partout.


Etape 1 : Créer votre catalogue de données
Etape 1 : Créer votre catalogue de données

Cliquez pour agrandir

Tout d'abord, utilisez AWS Management Console pour enregistrer vos sources de données. AWS Glue analyse vos sources de données et élabore un catalogue de données à l'aide de classificateurs préconfigurés pour de nombreux formats et types de données populaires, notamment JSON, CSV, Parquet et plus encore.

Etape 2 : Générer et modifier des transformations
Etape 2 : Générer et modifier des transformations

Cliquez pour agrandir

Ensuite, sélectionnez une source et une cible de données. AWS Glue va générer le code ETL dans Python pour extraire les données de la source, transformer les données pour correspondre au schéma cible et les charger dans la cible. Vous pouvez éditer, déboguer et tester ce code sur la console ou dans votre IDE favori ou sur tout ordinateur portable.

Etape 3 : Planifier et exécuter vos travaux
Etape 3 : Planifier et exécuter vos travaux

Cliquez pour agrandir

AWS Glue facilite la planification de tâches ETL récurrentes, l'association de plusieurs tâches ensemble ou l'appel de tâches à la demande de la part d'autres services comme AWS Lambda. AWS Glue gère les dépendances entre vos tâches, dimensionne automatiquement les ressources sous-jacentes et relance les tâches qui ont échoué.

Consultez la page Description détaillée d'AWS Glue ou la documentation sur le produit pour en savoir plus.


Préparez vos données de parcours de navigation ou de journalisation des processus pour l'analyse en nettoyant, normalisant et enrichissant vos ensembles de données avec AWS Glue. AWS Glue génère le schéma pour vos données semi-structurées, crée le code ETL pour transformer, aplatir et enrichir vos données, et charge régulièrement votre entrepôt de données.

Préparez et chargez des données pour analyse

Vous pouvez utiliser le catalogue de données AWS Glue pour la découverte et la recherche rapide sur plusieurs sous-ensembles de données AWS sans devoir déplacer les données. Une fois que les données sont cataloguées, elles sont immédiatement disponibles pour la recherche et l'interrogation avec Amazon Athena, Amazon EMR et Amazon Redshift Spectrum.

Créez une vue unifiée de vos données

Les lacs de données sont un moyen de plus en plus populaire de stocker et d'analyser des données structurées et non structurées. Si vous utilisez un lac de données Amazon S3, AWS Glue peut rendre vos données immédiatement disponibles pour analyse sans avoir à les déplacer. Les robots d'analyse de Glue peuvent analyser votre lac de données et assurer la synchronisation du catalogue Glue avec les données sous-jacentes. Vous pouvez ensuite interroger directement votre lac de données avec Amazon Athena et Amazon Redshift Spectrum. Vous pouvez également utiliser le catalogue de données Glue en tant que metastore externe Apache Hive pour des applications Big Data exécutées sur Amazon EMR.

Créez une vue unifiée de vos données

AWS Glue peut exécuter vos tâches ETL en fonction d'un événement, par exemple l'obtention d'un nouvel ensemble de données. Par exemple, vous pouvez utiliser une fonction AWS Lambda pour déclencher vos tâches ETL afin qu'elles s'exécutent dès que de nouvelles données deviennent disponibles dans Amazon S3. Vous pouvez également enregistrer ce nouvel ensemble de données dans le catalogue de données AWS Glue pour qu'il fasse partie de vos tâches ETL.

Automatisez les tâches ETL dès que de nouvelles données apparaissent

Pour commencer à utiliser AWS Glue, c'est très simple. Connectez-vous simplement à AWS Management Console et accédez à « Glue » dans la catégorie « Analytics ».

Prêt à démarrer votre ETL ?

Démarrer avec AWS Glue