Catalogue de données intégré

Le catalogue de données AWS Glue est votre magasin de métadonnées persistant pour toutes vos données, où qu'elles se trouvent. Le catalogue de données contient des définitions de table, des définitions de tâches et d'autres informations de contrôle pour vous aider à gérer votre environnement AWS Glue. Il calcule automatiquement les statistiques et enregistre des partitions pour rendre les requêtes dans vos données efficaces et peu coûteuses. Il conserve également un historique complet des versions des schémas pour que vous compreniez comment vos données ont été modifiés dans le temps.

Découverte automatique des schémas

Les robots d'analyse AWS Glue se connectent à votre magasin de données sources ou cibles, progressent dans une liste hiérarchique de classificateurs pour déterminer le schéma pour vos données, puis créent les métadonnées dans votre catalogue de données AWS Glue. Les métadonnées sont stockées dans des tables dans votre catalogue de données et sont utilisés dans le processus de création de vos tâches ETL. Vous pouvez exécuter les robots d'analyse selon un calendrier ou à la demande, ou les déclencher en fonction d'un événement pour vous assurer que vos métadonnées sont à jour.

Génération de code

AWS Glue génère automatiquement le code pour extraire, transformer et charger vos données. Pointez simplement AWS Glue vers votre source et cible de données et AWS Glue crée des scripts ETL pour transformer, aplatir et enrichir vos données. Le code est généré en langage Scala ou Python et écrit pour l'environnement Apache Spark.

Nettoyer et dédupliquer des données

AWS Glue aide à nettoyer et préparer vos données pour analyse en fournissant un Machine Learning Transform baptisé FindMatches pour la déduplication et la recherche d’archives correspondantes. Par exemple, utilisez l’outil FindMatches d’AWS Lake Formationt pour trouver des archives dupliquées dans votre base de données de restaurants, avec une archive indiquant « Joe's Pizza » au « 121 Main St. » et une autre indiquant « Joseph's Pizzeria » au « 121 Main ». Pour en profiter, aucune connaissance en machine learning n’est requise. FindMatches vous demandera uniquement de marquer des paires d’archives comme « correspondante » ou « non correspondante ». Le système apprendra alors vos critères pour qualifier une paire d’archives de « correspondante » et créera un ML Transform que vous pourrez utiliser pour trouver des archives dupliquées dans une base de données ou des archives correspondantes sur deux bases de données.

Points de terminaison développeur

Si vous choisissez de développer interactivement votre code d'extraction, de transport et de chargement (ETL), AWS Glue vous fournit les points de terminaison de développement à modifier, déboguer et tester le code généré pour vous. Vous pouvez utiliser votre environnement de développement intégré ou notebook préféré. Vous pouvez développer des lecteurs, enregistreurs ou transformations personnalisés et les importer dans vos tâches AWS Glue ETL sous la forme de bibliothèques personnalisées. Vous pouvez également utiliser et partager du code avec d'autres développeurs dans notre référentiel GitHub.

Planificateur de tâches flexible

Les tâches AWS Glue peuvent être invoquées de manière planifiée, à la demande, ou en fonction d'un événement. Vous pouvez démarrer plusieurs tâches parallèlement ou spécifier des dépendances sur plusieurs tâches pour créer des pipelines ETL complexes. AWS Glue traitera toutes les dépendances inter-tâches, filtrera les données incorrectes et relancera les tâches si elles échouent. Tous les journaux et les notifications sont envoyées vers Amazon CloudWatch pour que vous puissiez surveiller et recevoir des alertes depuis un service central.

ETL de streaming sans serveur

Les ETL de streaming sans serveur dans AWS Glue facilitent la configuration de pipelines d'ingestion continue qui préparent des données de streaming en vol et les rendent disponibles pour analyse en quelques secondes. Ces tâches peuvent consommer des données provenant de sources de streaming comme Amazon Kinesis et Apache Kafka, les nettoyer et les transformer en vol, puis charger les résultats en continu dans les lacs de données Amazon S3, les entrepôts de données et autres magasins de données. Utilisez cette fonctionnalité pour traiter les données d'événements comme les flux d'événements IoT, les parcours de navigation et les journaux de réseau. Les tâches ETL de streaming AWS Glue peuvent enrichir et regrouper des données, associer un lot et des sources de streaming, et exécuter diverses opérations d'analytique et de machine learning complexes.

Tarification d'AWS Glue
Consulter la page de tarification

Explorez les options de tarification pour AWS Glue.

En savoir plus 
Créez un compte AWS
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Commencer à créer dans la console
Commencer à créer dans la console

Commencez à créer avec AWS Glue dans AWS Management Console.

Se connecter