AWS Glue est un service entièrement géré d'extraction, de transport et de chargement (ETL) des données que vous pouvez utiliser pour cataloguer vos données, les nettoyer, les enrichir et les déplacer en toute fiabilité entre des magasins de données. Avec AWS Glue, vous pouvez nettement réduire le coût, la complexité et le temps passés à créer des tâches ETL. AWS Glue est sans serveur, il n'y a donc pas d'infrastructure à installer ou gérer. Vous payez uniquement pour les ressources consommées pendant l'exécution de vos tâches.

Vous êtes prêt à lancer vos tâches ETL?

Démarrer avec AWS Glue
100x100_benefit_ingergration

Le catalogue de données AWS Glue est votre magasin de métadonnées persistant pour toutes vos données, où qu'elles se trouvent. Le catalogue de données contient des définitions de table, des définitions de tâches et d'autres informations de contrôle pour vous aider à gérer votre environnement AWS Glue. Il calcule automatiquement les statistiques et enregistre des partitions pour rendre les requêtes dans vos données efficaces et peu coûteuses. Il conserve également un historique complet des versions des schémas pour que vous compreniez comment vos données ont été modifiés dans le temps.

100x100_benefit_automated

Les robots d'analyse AWS Glue se connectent à votre magasin de données sources ou cibles, progressent dans une liste hiérarchique de classificateurs pour déterminer le schéma pour vos données, puis créent les métadonnées dans votre catalogue de données AWS Glue. Les métadonnées sont stockées dans des tables dans votre catalogue de données et sont utilisés dans le processus de création de vos tâches ETL. Vous pouvez exécuter les robots d'analyse selon un calendrier ou à la demande, ou les déclencher en fonction d'un événement pour vous assurer que vos métadonnées sont à jour.

100x100_benefit_code

AWS Glue génère automatiquement le code pour extraire, transformer et charger vos données. Pointez simplement Glue vers votre source et cible de données et Glue crée des scripts ETL pour transformer, aplatir et enrichir vos données. Le code est généré en langage Python et écrit pour l'environnement Apache Spark 2.1.

100x100_benefit_tools

Si vous choisissez de développer interactivement votre code d'extraction, de transport et de chargement (ETL), Glue vous fournit les points de terminaison de développement à modifier, déboguer, et tester le code généré pour vous. Vous pouvez utiliser votre environnement de développement intégré ou notebook préféré. Vous pouvez développer des lecteurs, enregistreurs ou transformations personnalisés et les importer dans vos tâches ETL sous la forme de bibliothèques personnalisées. Vous pouvez également utiliser et partager du code avec d'autres développeurs dans notre référentiel GitHub.

100x100_benefit_monitoring-logging

Les tâches AWS Glue peuvent être invoquées de manière planifiée, à la demande, ou en fonction d'un événement. Vous pouvez démarrer plusieurs tâches parallèlement ou spécifier des dépendances sur plusieurs tâches pour créer des pipelines ETL complexes. Glue traitera toutes les dépendances inter-tâches, filtrera les données incorrectes et relancera les tâches si elles échouent. Tous les journaux et les notifications sont envoyées vers Amazon CloudWatch pour que vous puissiez surveiller et recevoir des alertes depuis un service central.

Pour commencer à utiliser AWS Glue, c'est très simple. Connectez-vous simplement à AWS Management Console et accédez à « Glue » dans la catégorie « Analytics ».

Prêt à démarrer votre ETL ?

Démarrer avec AWS Glue