AWS Glue
Cloud AWS
Démarrer avec AWS Glue

AWS Glue est un service d'extraction, de transformation et de chargement (ETL) entièrement géré qui facilite la préparation et le chargement des données pour analyse des clients. Vous pouvez créer et exécuter une tâche ETL en quelques clics grâce à AWS Management Console. Il vous suffit de pointer AWS Glue sur les données que vous avez stockées sur AWS pour qu'AWS Glue découvre vos données et les stocke dans la métadonnée (c'est-à-dire, la définition et le schéma de la table) associée dans le catalogue de données AWS Glue. Dès qu'elles sont répertoriées, il est possible d'effectuer des recherches, des requêtes et de rendre vos données disponibles pour l'ETL. AWS Glue génère le code pour exécuter les processus de transformation et de chargement de vos données.

AWS Glue génère du code Python personnalisable, réutilisable et portable. Lorsque votre tâche ETL est prête, vous pouvez prévoir son exécution sur l'environnement entièrement géré d'augmentation Spark d'AWS Glue. AWS Glue apporte un planificateur flexible doté d'une résolution de dépendance, de la surveillance des tâches et d'un système d'alerte.

AWS Glue ne nécessite pas de serveur ; il n'y a donc pas d'infrastructure à construire, paramétrer ou gérer. Il alimente automatiquement l'environnement nécessaire pour réaliser la tâche et les clients ne paient que pour les ressources de calcul utilisées lorsqu'ils exécutent des tâches ETL. Avec AWS Glue, les données peuvent être disponibles pour analyse en quelques minutes.

Adobe Flash Player ou un navigateur moderne sont requis pour regarder les vidéos sur ce site.

glue-launch-video-image
1:47
Service ETL sans serveur, entièrement géré et optimisé dans le cloud

Prêt à démarrer votre ETL ?

Démarrer avec AWS Glue


Découverte de schéma et génération de code automatique

Facile

AWS Glue automatise la plupart des efforts en conception, maintenance et exécution des tâches ETL. AWS Glue analyse vos sources de données, identifie les formats de données et suggère schémas et transformations. AWS Glue génère automatiquement le code nécessaire à l'exécution de vos processus de transformations et de chargements de données.

Sans serveur. Aucune infrastructure à configurer et à gérer

Intégration

AWS Glue s'intègre à une large gamme de services AWS. AWS Glue prend en charge les données stockées dans Amazon Aurora, Amazon RDS MySQL, Amazon RDS PostreSQL, Amazon Redshift, et Amazon S3 ainsi que dans les bases de données MySQL et PostgreSQL de votre Virtual Private Cloud (Amazon VPC) exécuté sur Amazon EC2. AWS Glue apporte une intégration clé en main à Amazon Athena, Amazon EMR, Amazon Redshift Spectrum ainsi qu'à toute application compatible du metastore Apache Hive.

Intégration native à la plate-forme AWS

Sans serveur

AWS Glue est sans serveur. Vous n'avez pas besoin de prévoir ni de gérer une infrastructure dédiée. AWS Glue gère la mise en service, la configuration et le dimensionnement des ressources nécessaires à l'exécution de tâches ETL dans un environnement entièrement géré d'augmentation Spark. Vous ne payez que pour les ressources utilisées lors de l'exécution des tâches.

Économique

Facile d'utilisation pour les développeurs

AWS Glue génère du code ETL personnalisable, réutilisable et portable à l'aide de technologies familières : Python et Spark. Vous pouvez également importer des lecteurs, des auteurs et des transformations personnalisées à votre code ETL Glue. Puisque le code qu'AWS Glue génère est basé sur des infrastructures ouvertes, il n'y a pas de verrouillage. Vous pouvez l'utiliser partout.

screenshot-glue-step1-data-catalog2b
screenshot-glue-step1-data-catalog2b

Cliquez pour agrandir

Tout d'abord, utilisez AWS Management Console pour enregistrer vos sources de données. AWS Glue analyse vos sources de données et élabore un catalogue de données à l'aide de classificateurs préconfigurés pour de nombreux formats et types de données populaires, notamment JSON, CSV, Parquet et plus encore.

screenshot-glue-step2-etl-generation2
screenshot-glue-step2-etl-generation2

Cliquez pour agrandir

Ensuite, sélectionnez une source et une cible de données. AWS Glue va générer le code ETL dans Python pour extraire les données de la source, transformer les données pour correspondre au schéma cible et les charger dans la cible. Vous pouvez éditer, déboguer et tester ce code sur la console ou dans votre IDE favori ou sur tout ordinateur portable.

screenshot-glue-step3-orchestration2
screenshot-glue-step3-orchestration2

Cliquez pour agrandir

AWS Glue facilite la planification de tâches ETL récurrentes, l'association de plusieurs tâches ensemble ou l'appel de tâches à la demande de la part d'autres services comme AWS Lambda. AWS Glue gère les dépendances entre vos tâches, dimensionne automatiquement les ressources sous-jacentes et relance les tâches qui ont échoué.


Pour en savoir plus, consultez les articles sur les fonctions d'AWS Glue ici ou reportez-vous à la documentation sur le produit.

Préparez vos données de parcours de navigation ou de journalisation des processus pour l'analyse en nettoyant, normalisant et enrichissant vos ensembles de données avec AWS Glue. AWS Glue génère le schéma pour vos données semi-structurées, crée le code ETL pour transformer, aplatir et enrichir vos données, et charge régulièrement votre entrepôt de données.

Préparez et chargez des données pour analyse

Vous pouvez utiliser le catalogue de données AWS Glue pour la découverte et la recherche rapide sur plusieurs sous-ensembles de données AWS sans devoir déplacer les données. Une fois que les données sont cataloguées, elles sont immédiatement disponibles pour la recherche et l'interrogation avec Amazon Athena, Amazon EMR et Amazon Redshift Spectrum.

Créez une vue unifiée de vos données

Les lacs de données sont un moyen de plus en plus populaire de stocker et d'analyser des données structurées et non structurées. Si vous utilisez un lac de données Amazon S3, AWS Glue peut rendre vos données immédiatement disponibles pour analyse sans avoir à les déplacer. Les robots d'analyse de Glue peuvent analyser votre lac de données et assurer la synchronisation du catalogue Glue avec les données sous-jacentes. Vous pouvez ensuite interroger directement votre lac de données avec Amazon Athena et Amazon Redshift Spectrum. Vous pouvez également utiliser le catalogue de données Glue en tant que metastore externe Apache Hive pour des applications Big Data exécutées sur Amazon EMR.

Créez une vue unifiée de vos données

AWS Glue peut exécuter vos tâches ETL en fonction d'un événement, par exemple l'obtention d'un nouvel ensemble de données. Par exemple, vous pouvez utiliser une fonction AWS Lambda pour déclencher vos tâches ETL afin qu'elles s'exécutent dès que de nouvelles données deviennent disponibles dans Amazon S3. Vous pouvez également enregistrer ce nouvel ensemble de données dans le catalogue de données AWS Glue pour qu'il fasse partie de vos tâches ETL.

Automatisez les tâches ETL dès que de nouvelles données apparaissent

Pour commencer à utiliser AWS Glue, c'est très simple. Connectez-vous simplement à AWS Management Console et accédez à « Glue » dans la catégorie « Analytics ».

Prêt à démarrer votre ETL ?

Démarrer avec AWS Glue