Découverte des données

Découvrir et rechercher dans tous vos ensembles de données AWS

Le catalogue de données AWS Glue est votre magasin de métadonnées persistant pour toutes vos données, où qu'elles se trouvent. Le catalogue de données contient des définitions de table, des définitions de tâches, des schémas et d'autres informations de contrôle pour vous aider à gérer votre environnement AWS Glue. Il calcule automatiquement les statistiques et enregistre des partitions pour rendre les requêtes dans vos données efficaces et peu coûteuses. Il conserve également un historique complet des versions des schémas pour que vous compreniez comment vos données ont été modifiés dans le temps.

Découverte automatique des schémas

Les robots d'analyse AWS Glue se connectent à votre magasin de données sources ou cibles, progressent dans une liste hiérarchique de classificateurs pour déterminer le schéma pour vos données, puis créent les métadonnées dans votre catalogue de données AWS Glue. Les métadonnées sont stockées dans des tables dans votre catalogue de données et sont utilisés dans le processus de création de vos tâches ETL. Vous pouvez exécuter les robots d'analyse selon un calendrier ou à la demande, ou les déclencher en fonction d'un événement pour vous assurer que vos métadonnées sont à jour.

Gérer et appliquer des schémas pour les flux de données

AWS Glue Schema Registry est une fonctionnalité sans serveur AWS Glue qui vous permet de valider et de contrôler l'évolution des streamings de données à l'aide de schémas Apache Avro enregistrés, et ce sans frais supplémentaires. Grâce à des sérialiseurs et des désérialiseurs sous licence Apache, Schema Registry s'intègre avec les applications Java développées pour Apache Kafka/Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink/Amazon Kinesis Data Analytics for Apache Flink et AWS Lambda. Lorsque les applications de données en streaming sont intégrées à Schema Registry, vous pouvez améliorer la qualité des données et vous protéger des modifications inattendues en utilisant les tests de compatibilité qui régissent l'évolution des schémas. De plus, vous pouvez créer ou mettre à jour les tables et les partitions AWS Glue à l'aide des schémas stockés dans le registre.

Transformation de données

Transformer visuellement les données avec une interface glisser-déposer

AWS Glue Studio vous permet de créer des tâches ETL hautement scalables dédiées au traitement distribué sans que vous n'ayez besoin de devenir un expert Apache Spark. Définissez votre processus ETL dans l'éditeur de tâches glisser-déposer et AWS Glue génère automatiquement le code pour extraire, transformer et charger vos données. Le code est généré en langage Scala ou Python et écrit pour l'environnement Apache Spark.

Concevoir des pipelines ETL complexes avec une planification des tâches simple

Les tâches AWS Glue peuvent être invoquées de manière planifiée, à la demande, ou en fonction d'un événement. Vous pouvez démarrer plusieurs tâches parallèlement ou spécifier des dépendances sur plusieurs tâches pour créer des pipelines ETL complexes. AWS Glue traitera toutes les dépendances inter-tâches, filtrera les données incorrectes et relancera les tâches si elles échouent. Tous les journaux et les notifications sont envoyés vers Amazon CloudWatch pour que vous puissiez surveiller et recevoir des alertes depuis un service central.

Nettoyer et transformer les données en streaming en vol

Les tâches ETL de streaming sans serveur dans AWS Glue consomment en continu des données provenant des sources de données de streaming, dont Amazon Kinesis et Amazon MSK, nettoient et transforment ces données en transit et les rendent disponibles à l'analyse en quelques secondes dans votre banque de données cible. Utilisez cette fonctionnalité pour traiter les données d'événements comme les flux d'événements IoT, les parcours de navigation et les journaux de réseau. Les tâches ETL de streaming AWS Glue peuvent enrichir et regrouper des données, associer un lot et des sources de streaming, et exécuter diverses opérations d'analytique et de machine learning complexes.

Réplication de données

Combiner et répliquer des données sur plusieurs magasins de données à l'aide de SQL

AWS Glue Elastic Views vous permet de créer des vues sur les données stockées dans plusieurs types de magasins de données AWS, et de matérialiser les vues dans un magasin de données cible de votre choix. Vous pouvez utiliser AWS Glue Elastic Views pour créer des vues matérialisées en écrivant des requêtes en PartiQL. PartiQL est un langage de requête open source compatible avec SQL que vous pouvez utiliser pour interroger et manipuler des données, que les données aient une structure tabulaire ou flexible de type document. Vous pouvez écrire des requêtes PartiQL de manière interactive à l'aide de l'éditeur de requêtes dans l'AWS Management Console ou lancer des requêtes via l'API ou la CLI.

AWS Glue Elastic Views prend en charge Amazon DynamoDB en tant que source (Amazon Aurora et Amazon RDS seront prochainement pris en charge), ainsi qu'Amazon Redshift, Amazon Elasticsearch Service et Amazon S3 en tant que cibles (Amazon Aurora, Amazon RDS et Amazon DynamoDB seront prochainement pris en charge). Vous pouvez accélérer les délais de développement en partageant vos vues matérialisées avec d'autres utilisateurs pour qu'ils les utilisent dans leurs applications. AWS Glue Elastic Views surveille en permanence les modifications apportées aux données dans vos magasins de données sources et fournit automatiquement des mises à jour à vos magasins de données cibles. En savoir plus sur AWS Glue Elastic Views.

Préparation des données

Dédupliquer et nettoyer les données avec le machine learning intégré

AWS Glue aide à nettoyer et préparer vos données pour analyse sans que vous n'ayez besoin de devenir un expert en machine learning. Sa fonctionnalité FindMatches déduplique et trouve les enregistrements qui ne correspondent pas entre eux. Par exemple, utilisez l'outil FindMatches pour trouver des archives dupliquées dans votre base de données de restaurants, avec une archive indiquant « Joe's Pizza » au « 121 Main St. » et une autre indiquant « Joseph's Pizzeria » au « 121 Main ». FindMatches vous demandera uniquement de marquer des paires d'archives comme « correspondante » ou « non correspondante ». Le système apprendra alors vos critères pour qualifier une paire d'archives de « correspondante » et créera une tâche ETL que vous pourrez utiliser pour trouver des archives dupliquées dans une base de données ou des archives correspondantes sur deux bases de données.

Modifier, déboguer et tester du code ETL avec des points de terminaison développeur

Si vous choisissez de développer interactivement votre code d'extraction, de transport et de chargement (ETL), AWS Glue vous fournit les points de terminaison de développement à modifier, déboguer et tester le code généré pour vous. Vous pouvez utiliser votre environnement de développement intégré ou notebook préféré. Vous pouvez développer des lecteurs, enregistreurs ou transformations personnalisés et les importer dans vos tâches AWS Glue ETL sous la forme de bibliothèques personnalisées. Vous pouvez également utiliser et partager du code avec d'autres développeurs dans notre référentiel GitHub.

Normaliser les données sans code à l'aide d'une interface visuelle

AWS Glue DataBrew fournit une interface visuelle interactive de type « pointer-cliquer » aux utilisateurs tels que les analystes de données et les scientifiques des données pour nettoyer et normaliser les données sans écrire de code. Vous pouvez facilement visualiser, nettoyer et normaliser des données directement à partir de votre lac de données, de vos entrepôts de données et de vos bases de données, y compris Amazon S3, Amazon Redshift, Amazon Aurora et Amazon RDS. Vous pouvez choisir parmi plus de 250 transformations intégrées pour combiner, faire pivoter et transposer les données, et automatiser les tâches de préparation des données en appliquant les transformations enregistrées directement aux nouvelles données entrantes.

Tarification d'AWS Glue
Consulter la page de tarification

Explorez les options de tarification pour AWS Glue.

En savoir plus 
Créez un compte AWS
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Commencez à créer sur la console
Commencer à créer dans la console

Commencez à créer avec AWS Glue dans AWS Management Console.

Se connecter