Généralités

Q : Qu'est-ce qu'AWS Glue ?

AWS Glue est un service d'intégration sans serveur des données qui facilite la découverte, la préparation et la combinaison des données pour l'analytique, le machine learning et le développement d'applications. AWS Glue offre toutes les fonctionnalités nécessaires à l'intégration des données, pour vous permettre de commencer à analyser et à mettre à profit vos données en quelques minutes, plutôt qu'en quelques mois. AWS Glue propose des interfaces visuelles et codées pour faciliter l'intégration des données. Les utilisateurs peuvent facilement trouver et accéder aux données à l'aide du catalogue de données AWS Glue. Les ingénieurs de données et les développeurs ETL (extraire, transformer et charger) peuvent visuellement créer, exécuter et surveiller des flux de travail ETL en quelques clics dans AWS Glue Studio. Les analystes des données et les scientifiques des données peuvent utiliser AWS Glue DataBrew pour visuellement enrichir, nettoyer et normaliser les données sans écrire de code. Avec AWS Glue Elastic Views, les développeurs d'applications peuvent utiliser le langage SQL (Structured Query Language) courant pour combiner et répliquer les données dans plusieurs magasins de données.

Q : Comment démarrer avec AWS Glue ?

Pour commencer à utiliser AWS Glue, connectez-vous simplement à AWS Management Console et accédez à « Glue » dans la catégorie « Analyse ». Vous pouvez suivre l'un de nos tutoriels qui vous guidera dans un exemple de cas d'utilisation pour AWS Glue. Vous trouverez également des exemples de code ETL dans notre référentiel GitHub sous AWS Labs. Pour vous inscrire à la version préliminaire d'AWS Glue Elastic Views, en savoir plus ici.

Q : Quels sont les principaux composants d'AWS Glue ?

AWS Glue se compose d'un catalogue de données, c'est-à-dire un référentiel de métadonnées central ; d'un moteur ETL qui peut automatiquement générer du code Scala ou Python ; d'un programmateur flexible qui gère la résolution de dépendance, la surveillance des tâches et les nouvelles tentatives ; d'AWS Glue DataBrew pour le nettoyage et la normalisation des données avec une interface visuelle ; et d'AWS Glue Elastic Views pour la combinaison et la réplication des données dans plusieurs magasins de données. Ensemble, ces fonctionnalités automatisent une grande partie des lourdes tâches impliquées dans la découverte, la catégorisation, le nettoyage, l'enrichissement et le déplacement des données. Ainsi vous pouvez passer plus de temps à analyser vos données.

Q : Quand faut-il utiliser AWS Glue ?

Utilisez AWS Glue pour découvrir les propriétés des données que vous possédez, les transformer et les préparer pour analyse. Glue peut automatiquement découvrir les données structurées et semi-structurées dans vos lac de données sur Amazon S3, entrepôt de données dans Amazon Redshift et différentes bases de données exécutées sur AWS. Ce service fournit une vue unifiée de vos données via le catalogue de données Glue qui est disponible pour les tâches ETL en interrogeant et établissant des rapports à l'aide de services tels qu'Amazon Athena, Amazon EMR et Amazon Redshift Spectrum. Glue génère automatiquement du code Scala ou Python pour vos tâches ETL et vous pouvez le personnaliser davantage en utilisant les outils que vous connaissez déjà. Vous pouvez utiliser AWS Glue DataBrew pour nettoyer visuellement et normaliser les données sans écrire de code. Vous devriez utiliser AWS Glue Elastic Views pour combiner et répliquer en continu des données sur plusieurs magasins de données en temps quasi réel. AWS Glue est sans serveur, il n'y a donc aucune ressource de calcul à configurer ou gérer.

Q : Quelles sont les sources de données prises en charge par AWS Glue ?

AWS Glue prend en charge de manière native les données stockées dans Amazon Aurora, Amazon RDS for MySQL, Amazon RDS for Oracle, Amazon RDS for PostgreSQL, Amazon RDS for SQL Server, Amazon Redshift, DynamoDB et Amazon S3, ainsi que dans les bases de données MySQL, Oracle, Microsoft SQL Server et PostgreSQL dans votre Virtual Private Cloud (Amazon VPC) s'exécutant sur Amazon EC2. AWS Glue prend également en charge les flux de données d'Amazon MSK, Amazon Kinesis Data Streams et Apache Kafka.

Vous pouvez également écrire du code Scala ou Python et importer des bibliothèques personnalisées et des fichiers Jar dans vos tâches ETL AWS Glue pour accéder aux sources de données qui ne sont pas prises en charge de manière native par AWS Glue. Pour en savoir plus sur l'importation de bibliothèques personnalisées, consultez notre documentation.

La version préliminaire d'AWS Glue Elastic Views prend actuellement en charge Amazon DynamoDB en tant que source. Amazon Aurora et Amazon RDS seront prochainement pris en charge. Les cibles actuellement prises en charge sont Amazon Redshift, Amazon S3 et Amazon Elasticsearch Service. Amazon Aurora, Amazon RDS et Amazon DynamoDB seront prochainement pris en charge.

Q : Comment AWS Glue est-il associé à AWS Lake Formation ?

R : Lake Formation met à profit une infrastructure partagée avec AWS Glue, et notamment des commandes de console, la création de code ETL et la surveillance de tâche, un catalogue de données commun et une architecture sans serveur. Alors qu'AWS Glue reste concentré sur ces types de fonctions, Lake Formation englobe les fonctions d'AWS Glue ET fournit des fonctionnalités supplémentaires pour aider à développer, sécuriser et gérer un lac de données. Pour plus de détails, consultez les pages AWS Lake Formation.

Catalogue de données AWS Glue

Q: Qu'est-ce que le catalogue de données AWS Glue?

Le catalogue de données AWS Glue est un référentiel central pour stocker les métadonnées structurelles et opérationnelles de toutes vos données. Pour un ensemble de données particuliers, vous pouvez stocker la définition de sa table et son emplacement physique, ajouter les attributs pertinents de l'entreprise et suivre les modifications apportées aux données dans le temps.

Le catalogue de données AWS Glue est compatible avec le metastore Apache Hive et sert de remplacement instantané au metastore Apache Hive pour les applications Big Data exécutées sur Amazon EMR. Pour en savoir plus sur l'installation de votre cluster EMR afin d'utiliser le catalogue de données AWS Glue comme metastore Apache Hive, cliquez ici.

Le catalogue de données AWS Glue s'intègre également à Amazon Athena, Amazon EMR et Amazon Redshift Spectrum. Lorsque vous ajoutez vos définitions de table au catalogue de données Glue, elles deviennent disponibles pour les tâches ETL et sont également facilement interrogeables dans Amazon Athena, Amazon EMR et Amazon Redshift Spectrum. Vous obtenez ainsi une vue commune de vos données entre ces services.

Q : Comment intégrer mes métadonnées au catalogue de données AWS Glue ?

AWS Glue propose plusieurs méthodes pour alimenter les métadonnées dans le catalogue de données AWS Glue. Les robots d'analyse de Glue peuvent analyser les différents magasins de données que vous possédez pour en déduire automatiquement des schémas et une structure de partition, et alimenter le catalogue de données Glue avec les définitions de table et les statistiques correspondantes. Vous pouvez également planifier l'exécution régulière de robots d'analyse pour que vos métadonnées soient toujours à jour et synchronisées avec les données sous-jacentes. Vous avez aussi la possibilité d'ajouter et de mettre à jour les détails de la table manuellement en utilisant AWS Glue Console ou par un appel d'API. Vous pouvez exécuter les instructions DDL Hive via la console Amazon Athena ou un client Hive sur un cluster Amazon EMR. Enfin, si vous possédez déjà un metastore Apache Hive persistant, vous pouvez effectuer une importation globale de ces métadonnées dans le catalogue de données AWS Glue en utilisant notre script d'importation.

Q : Que sont les robots d'analyse AWS Glue ?

Un robot AWS Glue se connecte à une banque de données, progresse à travers une liste classée par priorité de classificateurs pour extraire le schéma de vos données et d'autres statistiques, puis alimente le catalogue de données Glue avec ces métadonnées. Les robots peuvent être exécutés régulièrement pour détecter la présence de nouvelles données ainsi que des changements aux données existantes, y compris les changements apportés à la définition à la table. Les robots ajoutent automatiquement de nouvelles tables, de nouvelles partitions aux tables existantes et de nouvelles versions des définitions des tables. Vous pouvez personnaliser les robots Glue pour classer vos propres types de fichiers.

Q : Comment puis-je importer des données de mon metastore Apache Hive existant vers le catalogue de données AWS Glue ?

Exécutez simplement une tâche ETL qui lit votre metastore Apache Hive, exporte les données dans un format intermédiaire vers Amazon S3, puis les importe dans le catalogue de données AWS Glue.

Q : Faut-il que je maintienne mon metastore Apache Hive si je stocke mes métadonnées dans le catalogue de données AWS Glue ?

Non. Le catalogue de données AWS Glue est compatible avec le metastore Apache Hive. Vous pouvez pointer vers le point de terminaison du catalogue de données Glue et l'utiliser à la place du metastore Apache Hive. Pour en savoir plus sur la manière de configurer votre cluster afin d'utiliser votre catalogue de données AWS Glue en tant que metastore Apache Hive, consultez notre documentation ici.

Q : Si j'utilise déjà Amazon Athena ou Amazon Redshift Spectrum et que j'ai des tables dans le catalogue de données internes d'Amazon Athena, comment puis-je commencer à utiliser le catalogue de données AWS Glue comme référentiel de métadonnées commun ?

Avant de pouvoir commencer à utiliser le catalogue de données AWS Glue comme référentiel de métadonnées commun entre Amazon Athena, Amazon Redshift Spectrum et AWS Glue, vous devez faire passer le catalogue de données Amazon Athena à la version du catalogue de données AWS Glue. Les étapes requises pour cette opération sont détaillées ici.

Q : Quels services analytiques le catalogue de données AWS Glue utilise-t-il ?

Les métadonnées stockées dans le catalogue de données AWS Glue sont facilement accessibles depuis ETL Glue, Amazon Athena, Amazon EMR, Amazon Redshift Spectrum et des services tiers.

AWS Glue Schema Registry

Q : Qu'est-ce qu'AWS Glue Schema Registry ?

AWS Glue Schema Registry est une fonctionnalité sans serveur d'AWS Glue qui vous permet de valider et de contrôler l'évolution des streamings de données à l'aide de schémas Apache Avro enregistrés, et ce sans frais supplémentaires. Grâce à des sérialiseurs et des désérialiseurs sous licence Apache, Schema Registry s'intègre avec les applications Java développées pour Apache Kafka/Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink/Amazon Kinesis Data Analytics for Apache Flink et AWS Lambda. Lorsque les applications de données en streaming sont intégrées à Schema Registry, vous pouvez améliorer la qualité des données et vous protéger des modifications inattendues en utilisant les tests de compatibilité qui régissent l'évolution des schémas. De plus, vous pouvez créer ou mettre à jour les tables et les partitions AWS Glue à l'aide des schémas stockés dans le registre.

Q : Pourquoi utiliser AWS Glue Schema Registry ?

Avec AWS Glue Schema Registry, vous pouvez :

  1. Valider des schémas. Lorsque les applications de streaming de données sont intégrées à AWS Glue Schema Registry, les schémas utilisés pour la production des données sont validés par rapport aux schémas à l'intérieur d'un registre central. De cette manière, vous pouvez contrôler la qualité des données de façon centralisée.
  2. Protéger l'évolution du schéma. Vous pouvez définir des règles pour déterminer comment les schémas peuvent et ne peuvent pas évoluer à l'aide de l'un des huit modes de compatibilité.
  3. Améliorer la qualité des données. Les sérialiseurs valident les schémas utilisés par les producteurs de données par rapport à ceux qui sont stockés dans le registre, améliorant ainsi la qualité des données lorsqu'elles sont créées et réduisant les problèmes en aval entraînés par des dérives de schémas inattendus.
  4. Réduire les coûts. Les sérialiseurs convertissent les données au format binaire et peuvent les compresser avant de les envoyer, réduisant ainsi les coûts de transfert et de stockage de données.
  5. Améliorer l'efficacité de traitement. Dans de nombreux cas, un flux de données contient des enregistrements de différents schémas. Le Schema Registry permet aux applications qui lisent à partir de flux de données de traiter chaque enregistrement de manière sélective en fonction du schéma, sans devoir analyser son contenu, ce qui augmente l'efficacité de traitement.

Q : Quel format de données, quelle langue client et quelles intégrations sont pris en charge par AWS Glue Schema Registry ?

Le Schema Registry prend en charge les schémas de données Apache Avro et les applications client Java. Nous prévoyons d'étendre la prise en charge aux clients hors Avro et Java. Schema Registry s'intègre avec les applications développées pour Apache Kafka/Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink/Amazon Kinesis Data Analytics for Apache Flink et AWS Lambda.

Q : Quels types de règles d'évolution est-ce qu'AWS Glue Schema Registry prend en charge ?

Les modes de compatibilité suivants sont disponibles pour vous permettre de gérer l'évolution de votre schéma : Backward, Backward All, Forward, Forward All, Full, Full All, None, et Disabled. Consultez la documentation utilisateur de Schema Registry pour en savoir plus sur les règles de compatibilité.

Q : Comment est-ce qu'AWS Glue Schema Registry maintient une haute disponibilité pour mes applications ?

Le plan de stockage et de contrôle de Schema Registry est conçu pour la haute disponibilité. Il est également soutenu par le SLA d'AWS Glue. Les sérialiseurs et désérialiseurs tirent parti de bonnes pratiques de techniques de mise en cache pour maximiser la disponibilité des schémas dans les clients.

Q : Est-ce qu'AWS Glue Schema Registry est open source ?

Le stockage AWS Glue Schema Registry est un service AWS, tandis que les sérialiseurs et désérialiseurs sont des composants open source sous licence Apache.

Q : Est-ce qu'AWS Glue Schema Registry offre un chiffrement au repos et en transit ?

Oui, vos clients communiquent avec Schema Registry par le biais d'appels API qui chiffrent les données en transit à l'aide du chiffrement TLS via HTTPS. Les schémas stockés dans Schema Registry sont toujours chiffrés au repos à l'aide d'une clé KMS gérée par le service.

Q : Comment puis-je établir une connexion privée à AWS Glue Schema Registry ?

Vous pouvez utiliser AWS PrivateLink pour connecter le VPC de votre producteur de données à AWS Glue en définissant un point de terminaison d'un VPC d'interface pour AWS Glue. Lorsque vous utilisez un point de terminaison d'un VPC d'interface, la communication entre votre VPC et AWS Glue est établie entièrement au sein du réseau AWS. Pour en savoir plus, consultez la documentation utilisateur.

Q : Comment puis-je surveiller mon utilisation d'AWS Glue Schema Registry ?

Les métriques AWS CloudWatch sont disponibles dans l'offre gratuite de CloudWatch. Vous pouvez accéder à ces métriques dans la console CloudWatch. Consultez la documentation utilisateur d'AWS Glue Schema Registry pour en savoir plus.

Q : Est-ce qu'AWS Glue Schema Registry fournit des outils qui permettent de gérer l'autorisation des utilisateurs ?

Oui, Schema Registry prend en charge les autorisations de niveau de ressource et les stratégies IAM basées sur l'identité.

Q : Comment puis-je migrer d'un registre de schémas existant vers AWS Glue Schema Registry ?

Les étapes de migration d'un registre de schémas tiers vers AWS Glue Schema Registry sont disponibles dans la documentation utilisateur.

Extraction, transformation et chargement (ETL) des données

Q : Le service AWS Glue dispose-t-il d'une interface sans code dédiée au visuel ETL ?

Oui. AWS Glue Studio offre une interface graphique pour la création de tâches Glue afin de traiter vos données. Une fois que vous avez défini le flux de vos sources de données, de vos transformations et de vos cibles dans l'interface visuelle, AWS Glue Studio va générer un code Apache Spark en votre nom.

Q : Quel langage de programmation puis-je utiliser pour écrire on code ETL pour AWS Glue ?

Vous pouvez utiliser Scala ou Python.

Q : Comment puis-je personnaliser le code ETL généré par AWS Glue ?

Le système de recommandation de script ETL du service AWS Glue génère un code Scala ou Python. Il se sert de la bibliothèque ETL personnalisée de Glue pour simplifier l'accès aux sources de données et gérer l'exécution des tâches. Pour en savoir plus sur la bibliothèque, consultez notre documentation. Vous pouvez écrire du code ETL en utilisant la bibliothèque personnalisée de Glue ou du code arbitraire en Scala ou Python en modifiant le code en ligne via l'éditeur de scripts AWS Glue Console, en téléchargeant le code auto-généré et en le modifiant dans votre propre environnement de développement intégré. Vous pouvez également commencer avec l'un des nombreux exemples qui se trouvent dans notre référentiel Github et personnaliser ce code.

Q : Puis-je importer des bibliothèques personnalisées dans le cadre de mon script ETL ?

Oui. Vous pouvez importer des bibliothèques Python et des fichiers Jar dans votre tâche ETL AWS Glue. Pour en savoir plus, consultez notre documentation ici.

Q : Puis-je apporter mon propre code ?

Oui. Vous pouvez écrire votre propre code à l'aide de la bibliothèque ETL d'AWS Glue, ou écrire votre propre code Scala ou Python, puis le télécharger vers une tâche ETL Glue. Pour en savoir plus, consultez notre documentation ici.

Q : Comment puis-je développer mon code ETL en utilisant mon propre environnement de développement intégré (IDE) ?

Vous pouvez créer et vous connecter à des points de terminaison de développement qui offrent le moyen de connecter vos notebooks et environnement IDE.

Q : Comment puis-je développer des charges de travail ETL de bout en bout en utilisant plusieurs tâches dans AWS Glue ?

Outre la bibliothèque ETL et la génération de codes, AWS Glue fournit un ensemble robuste de fonctionnalités d'orchestration qui vous permettent de gérer les dépendances entre plusieurs tâches afin de développer des workflow ETL de bout en bout. Les tâches ETL AWS Glue peuvent être déclenchées selon un calendrier ou lorsqu'un événement se termine. Plusieurs tâches peuvent être déclenchées parallèlement ou séquentiellement lors d'un événement de fin de tâche. Vous pouvez également déclencher une ou plusieurs tâches Glue à partir d'une source externe telle qu'une fonction AWS Lambda.

Q : Comment AWS Glue surveille les dépendances ?

AWS Glue gère les dépendances entre deux ou plusieurs tâches ou les dépendances sur les événements externes en utilisant des déclencheurs. Les déclencheurs peuvent surveiller et invoquer une ou plusieurs tâches. Vous pouvez avoir un déclencheur planifié qui invoque les tâches régulièrement, un déclencheur à la demande, ou un déclencheur en fonction de la fin d'un événement.

Q : Comment le service AWS Glue traite-t-il les erreurs ETL ?

AWS Glue surveille les mesures et les erreurs des événements de tâche et envoie toutes les notifications à Amazon CloudWatch. Avec Amazon CloudWatch, vous pouvez configurer toute une série d'actions déclenchables en fonction de des notifications particulières provenant d'AWS Glue. Par exemple, si vous obtenez une notification d'erreur ou de réussite de Glue, vous pouvez déclencher une fonction AWS Lambda. En outre, le service Glue lance par défaut trois nouvelles tentatives après échec, avant d'envoyer une notification d'erreur.

Q : Puis-je exécuter mes tâches ETL existantes avec AWS Glue ?

Oui. Vous pouvez exécuter votre code Scala ou Python existant dans AWS Glue. Téléchargez simplement le code vers Amazon S3 et créez une ou plusieurs tâches qui utilisent ce code. Vous pouvez réutiliser le même code sur plusieurs tâches en pointant vers le même emplacement de code sur Amazon S3.

Q : Comment puis-je utiliser AWS Glue pour diffuser les données ETL ?

AWS Glue prend en charge les ETL sur les flux d'Amazon Kinesis Data Streams, Apache Kafka et Amazon MSK. Ajoutez le flux au catalogue de données AWS Glue, puis sélectionnez-le en tant que source de données lors de la configuration de votre tâche AWS Glue.

Q : Faut-il utiliser à la fois le catalogue de données AWS Glue et ETL Glue pour utiliser le service ?

Non. Bien que nous pensions que l'utilisation du catalogue de données AWS Glue et du service d'extraction, de transformation et de chargement (ETL) des données fournissent une expérience ETL de bout en bout, vous pouvez les utiliser indépendamment l'un de l'autre.

Q : Dans quels cas me conseillez-vous d'utiliser le streaming AWS Glue ? Et dans quels cas est-il préférable d'avoir recours à Amazon Kinesis Data Analytics ?

AWS Glue et Amazon Kinesis Data Analytics peuvent tous deux être utilisés afin de traiter des données de streaming. Nous vous recommandons d'utiliser AWS Glue lorsque vos cas d'utilisation sont principalement des ETL et que vous désirez exécuter des tâches sur une plateforme basée Apache Spark sans serveur. Nous vous recommandons d'utiliser Amazon Kinesis Data Analytics lorsque vos cas d'utilisation sont principalement de l'analytique et que vous désirez exécuter des tâches sur une plateforme basée Apache Flink sans serveur.

Les ETL de streaming dans AWS Glue permettent une extraction, une transformation et un chargement (ETL) avancés des données de streaming au moyen de la même plateforme de paiement à l'utilisation sans serveur utilisée pour vos tâches par lot. AWS Glue génère un code ETL personnalisable afin de préparer vos données en vol et possède une fonctionnalité intégrée afin de traiter les données en streaming semi-structurées ou possédant un schéma d'évolution. Utilisez AWS Glue pour appliquer ses transformations intégrées et natives Spark aux flux de données, et chargez-les dans votre lac de données ou votre entrepôt de données.

Amazon Kinesis Data Analytics vous permet de créer des applications de streaming sophistiquées pour analyser les données en streaming en temps réel. Ce service fournit une exécution Apache Flink sans serveur qui procède automatiquement à la mise à l'échelle sans serveurs et qui sauvegarde de manière durable le statut de l'application. Utilisez Amazon Kinesis Data Analytics pour l'analytique en temps réel et le traitement plus général des données en flux.

Q : Dans quels cas me conseillez-vous d'utiliser AWS Glue ? Et dans quels cas est-il préférable d'avoir recours à Amazon Kinesis Data Firehose ?

AWS Glue et Amazon Kinesis Data Firehose peuvent tous deux être utilisés pour les ETL de streaming. Nous vous recommandons d'utiliser AWS Glue pour les ETL complexes, y compris l'association des flux, et le partitionnement de la production dans Amazon S3 en fonction du contenu des données. Nous vous recommandons d'utiliser Amazon Kinesis Data Firehose lorsque vos cas d'utilisation se concentrent sur la transmission des données et la préparation des données à traiter après leur transmission.

Les ETL de streaming dans AWS Glue permettent une extraction, une transformation et un chargement (ETL) avancés des données de streaming au moyen de la même plateforme de paiement à l'utilisation sans serveur utilisée pour vos tâches par lot. AWS Glue génère un code ETL personnalisable afin de préparer vos données en vol et possède une fonctionnalité intégrée afin de traiter les données en streaming semi-structurées ou possédant un schéma d'évolution. Utilisez AWS Glue pour appliquer des transformations complexes aux flux de données, pour enrichir les enregistrements d'informations provenant d'autres flux et magasins de données permanents, puis pour charger les enregistrements dans votre lac de données ou entrepôt de données.

Les ETL de streaming dans Amazon Kinesis Data Firehose vous permettent de saisir, transformer et transmettre des données de streaming. Amazon Kinesis Data Firehose fournit des capacités ETL, dont la transformation des données sans serveur via AWS Lambda et la conversion de format de JSON à Parquet. Ce service fournit des capacités ETL conçues pour simplifier le traitement des données après leur transmission, mais n'inclut pas les capacités ETL avancées qu'AWS Glue prend en charge.

Dédupliquer des données

Q : Quel genre de problèmes permettent de résoudre le ML Transform de FindMatches ?

FindMatches permet généralement de résoudre des problèmes d’association d’archives et de déduplication de données. La déduplication est ce que vous obtenez lorsque vous tentez d’identifier des archives dans une base de données conceptuellement « identique », mais pour laquelle vous disposez d’archives distinctes. Ce problème est mineur si les archives dupliquées peuvent être identifiées par une clé unique (par exemple si les produits peuvent être identifiés de manière unique par un code UPC),mais il peut prendre de l’ampleur si vous avez besoin de chercher une « correspondance approximative ».

Dans les grandes lignes, l’association d’archive est le même problème que la déduplication de données, mais ce terme signifie généralement que vous réalisez une « association approximative » de deux bases de données ne partageant pas une clé unique plutôt qu’une déduplication d’une seule base de données. Par exemple, prenons le problème de correspondance d’une grande base de données de clients à une petite base de données de fraudeurs connus. FindMatches peut servir pour les problèmes d’association d’archive et de déduplication.

Par exemple, le ML Transform de FindMatches d’AWS Glue peut vous aider pour les problèmes suivants :

Associer des archives de patients entre les hôpitaux pour que les médecins aient davantage d’informations contextuelles et soient capables de les soigner grâce à FindMatches sur des bases de données séparées contenant des champs courants que le nom, la date de naissance, l’adresse postale, le numéro de téléphone, etc.

Déduplication d’une base de données de films contenant des colonnes comme « titre », « synopsis », « année de sortie », « durée » et « distribution ». Par exemple, le même film pourrait être identifé de diverses manières, comme « Star Wars », « Star Wars: A New Hope » et « Star Wars: Episode IV—A New Hope (Special Edition) ».

Regroupez automatiquement tous les produits associés dans votre devanture en identifiant des éléments équivalents dans un catalogue de produits vestimentaires dans lequel vous souhaitez définir « équivalent » pour signifier qu’ils sont identiques en ignorant les différences de taille et de couleur. Ainsi, « Jean Levi’s 501 bleu, taille 34x34 » est défini comme étant le même niveau que « Jean Levi’s 501 noir, taille 32x31 ».

Q : Comment AWS Glue déduplique-t-il mes données ?

Le ML Transform de FindMatches d’AWS Glue simplifie la recherche et l’association d’archives faisant référence à la même entité mais qui ne partagent pas un identifieur fiable. Avant FindMatches, les développeurs devaient généralement résoudre les problèmes courants de correspondance de données de manière déterministe en rédigeant d’importantes quantités de règles ajustées à la main. FindMatches exploite des algorithmes de machine learning en arrière-plan pour apprendre à faire correspondre des archives en fonction des critères commerciaux de chaque développeur. FindMatches identifie en premier lieu les archives que le client doit marquer comme correspondantes ou non, puis utilise le machine learning pour créer un ML Transform. Les clients peuvent alors exécuter ce Transform sur leurs bases de données pour rechercher des archives correspondantes ou interroger FindMatches pour avoir d’autres archives à marquer et faire évoluer le niveau de précision du ML Transform.

Q: Que sont les ML Transforms ?

Les ML Transforms fournissent une destination de création et de gestion des transformateurs basés sur le machine-learning. Une fois créés et formés, les ML Transforms peuvent alors être exécutés dans des scripts AWS Glue standard. Les clients sélectionnent un algorithme spécifique (par exemple, le ML Transform de FindMatches) et saisissez des ensembles de données et des exemples de formation, puis les paramètres d’ajustement requis par cet algorithme. AWS Glue utilise ces saisies pour créer un ML Transform pouvant être incorporé dans un flux de travail ETL Job normal.

Q : Comment fonctionnent les ML Transforms ?

AWS Glue inclut des algorithmes de transformation d’ensemble de données basés sur le ML que les clients peuvent utiliser afin de créer leurs propres ML Transforms. Ces derniers incluent la déduplication d’archives et la recherche de correspondance.

Les clients commencent par se rendre dans l’onglet ML Transforms de la console (ou par utiliser les points de terminaison ML Transforms ou par accéder à la formation des ML Transforms via la CLI) pour créer leur premier modèle de ML Transform. L’onglet ML Transforms donne une vue simple pour la gestion des transformateurs des utilisateurs. Les ML Transforms requièrent des exigences distinctes de flux de travail d’autres transformateurs, notamment : le besoin de formation séparée, l’ajustement de paramètres et des flux de travail d’exécution ; le besoin d’évaluer des métriques de la qualité de transformations générées ; et le besoin de gérer et collecter des étiquettes vraies pour la formation et l’apprentissage actif..

Pour créer un ML Transform via la console, les clients commencent par sélectionner le type de transformateur (déducplication ou correspondance d’archive, par exemple) et indiquent les sources de données appropriées découvertes dans le catalogue de données. Selon le transformateur, il peut ensuite être demandé aux clients d’indiquer les données d’étiquette vraie de base pour la formation ou d’autres paramètres. Les clients peuvent surveiller le statut de leurs tâches de formation et consulter des métriques sur la qualité pour chaque transformateur. (Les métriques de la qualité sont reportées grâce à un ensemble de sécurité de données d’étiquettes fournies Quality metrics are par le client.)

Dès que les performances sont satisfaisantes, les clients peuvent promouvoir les modèles des ML Transforms à utiliser en promotion. Les ML Transforms peuvent alors être utilisés lors des flux de travail ETL, à la fois dans du code généré automatiquement par le service et dans des scripts définis par l’utilisateur envoyés avec d’autres tâches, semblables à des transformations préconçues proposées dans d’autres bibiliothèques AWS Glue.

Q : Puis-je voir une présentation de l’utilisation d’AWS Glue (et d’AWS Lake Formation) pour la recherche de correspondances et d’archives dédupliquées ?

R : Oui. L'enregistrement complet de la discussion en ligne sur la technologie AWS "Fuzzy Matching and Deduplicating Data with ML Transforms for AWS Lake Formation" est disponible ici.

AWS Glue DataBrew

Q : Qu'est-ce qu'AWS Glue DataBrew ?

AWS Glue DataBrew est un outil visuel de préparation des données qui permet aux analystes et aux scientifiques des données de préparer facilement celles-ci grâce à une interface visuelle interactive de type pointer-cliquer sans écrire de code. Avec Glue DataBrew, vous pouvez facilement visualiser, nettoyer et normaliser des téraoctets, voire des pétaoctets de données directement à partir de votre lac de données, de vos entrepôts de données et de vos bases de données, y compris Amazon S3, Amazon Redshift, Amazon Aurora et Amazon RDS. AWS Glue DataBrew est généralement disponible aujourd'hui dans les régions USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), UE (Irlande), UE (Francfort), Asie-Pacifique (Sydney) et Asie-Pacifique (Tokyo). 

Q : Qui peut utiliser AWS Glue DataBrew ?

AWS Glue DataBrew est conçu pour les utilisateurs qui ont besoin de nettoyer et de normaliser les données à des fins d'analyse et de machine learning. Les analystes et les scientifiques des données sont les principaux utilisateurs. Pour les analystes de données, voici des exemples de fonctions : analystes d'aide à la décision, analystes d'opérations, analystes d'intelligence du marché, analystes juridiques, analystes financiers, économistes, experts en analyse quantitative ou comptables. Pour les scientifiques des données, voici des exemples de fonctions : spécialistes des matériaux, bioanalystes et chercheurs scientifiques.

Q : Quels types de transformations sont prises en charge dans AWS Glue DataBrew ?

Vous pouvez choisir parmi plus de 250 transformations intégrées pour combiner, faire pivoter et transposer les données sans écrire de code. AWS Glue DataBrew recommande également automatiquement des transformations telles que le filtrage des anomalies, la correction des données non valables, mal classées ou en double, la normalisation des données à des valeurs de date et d'heure standard, ou la génération d'agrégats pour les analyses. Pour les transformations complexes, telles que la conversion de mots en une base commune ou un mot racine, Glue DataBrew propose des transformations qui utilisent des techniques avancées de machine learning telles que le traitement du langage naturel (TLN). Vous pouvez regrouper plusieurs transformations, les enregistrer sous forme de recettes et appliquer les recettes directement aux nouvelles données entrantes.

Q : Quels sont les formats de fichiers pris en charge par AWS Glue DataBrew support ?

Pour les données d'entrée, AWS Glue DataBrew prend en charge les formats de fichier utilisés couramment : valeurs séparées par des virgules (.csv), JSON et JSON imbriqué, Apache Parquet et Apache Parquet imbriqué et feuilles Excel. Pour les données de sortie, AWS Glue DataBrew prend en charge les valeurs séparées par des virgules (.csv), JSON, Apache Parquet, Apache Avro, Apache ORC et XML.

Q : Puis-je essayer AWS Glue DataBrew gratuitement ?

Oui. Inscrivez-vous à un compte Offre gratuite AWS, puis visitez la AWS Glue DataBrew Management Console, et commencez instantanément et gratuitement. Si vous utilisez Glue DataBrew pour la première fois, les 40 premières sessions interactives sont gratuites. Pour en savoir plus, consultez la page Tarification AWS Glue.

Q : Dois-je utiliser le catalogue de données AWS Glue ou AWS Lake Formation pour pouvoir utiliser AWS Glue DataBrew ?

Non. Vous pouvez utiliser AWS Glue DataBrew sans avoir à utiliser le catalogue de données AWS Glue ou AWS Lake Formation. Si vous utilisez le catalogue de données Glue pour stocker des schémas et des métadonnées, Glue DataBrew déduit automatiquement le schéma du catalogue de données Glue. Si vos données sont centralisées et sécurisées dans AWS Lake Formation, les utilisateurs DataBrew peuvent utiliser tous les ensembles de données à leur disposition à partir de son catalogue de données centralisé.

Q : Puis-je conserver un enregistrement de toutes les modifications apportées à mes données ?

Oui. Vous pouvez effectuer un suivi visuel de toutes les modifications apportées à vos données dans AWS Glue DataBrew Management Console. L'affichage visuel permet de retracer facilement les modifications et les relations apportées aux ensembles de données, aux projets et aux recettes, ainsi qu'à touts les autres tâches associées. En outre, Glue DataBrew conserve toutes les activités relatives aux comptes sous la forme de journaux dans AWS CloudTrail.

 

AWS Glue Elastic Views (version préliminaire)

Qu'est-ce qu'AWS Glue Elastic Views ?

AWS Glue Elastic Views facilite la création de vues matérialisées qui combinent et répliquent les données dans plusieurs magasins de données sans avoir à écrire un code personnalisé. Avec AWS Glue Elastic Views, vous pouvez utiliser le langage SQL (Structured Query Language) courant pour créer rapidement une table virtuelle, appelée vue matérialisée, à partir de différents magasins de données sources. AWS Glue Elastic Views copie les données de chaque magasin de données source et crée un réplica dans un magasin de données cible. AWS Glue Elastic Views surveille en permanence les modifications apportées aux données dans vos magasins de données sources et fournit automatiquement des mises à jour aux vues matérialisées dans vos magasins de données cibles, ce qui garantit que les données accessibles via la vue matérialisée sont toujours à jour. AWS Glue Elastic Views prend en charge plusieurs bases de données et magasins de données AWS, notamment Amazon DynamoDB, Amazon S3, Amazon Redshift et Amazon Elasticsearch Service, et entend prendre en charge Amazon RDS, Amazon Aurora, et bien d'autres bientôt. AWS Glue Elastic Views est une fonctionnalité sans serveur ; elle augmente ou diminue automatiquement la capacité en fonction de la demande. Il n'y a donc pas d'infrastructure à gérer. AWS Glue Elastic Views est disponible en version préliminaire dès aujourd'hui.

Pourquoi devrais-je utiliser AWS Glue Elastic Views ?

Vous devriez utiliser AWS Glue Elastic Views pour combiner et répliquer en continu des données sur plusieurs magasins de données en temps quasi réel. Cela s'applique fréquemment lors de la conception de nouvelles fonctionnalités d'applications où l'application doit accéder à des données provenant d'un ou plusieurs magasins de données existants. Par exemple, une organisation peut utiliser une application de gestion des relations client (CRM) pour suivre ses relations client et un site web de e-commerce pour les ventes en ligne. Ces applications utiliseraient un magasin de données ou plus pour stocker des informations. Maintenant, l'entreprise crée une nouvelle application personnalisée qui crée et affiche des offres spéciales pour les visiteurs actifs du site web. Pour ce faire, cette application combine les informations sur les clients de l'application CRM avec les données de parcours de navigation web de l'application de e-commerce. Avec AWS Glue Elastic Views, un développeur peut concevoir la nouvelle fonctionnalité en trois étapes. Tout d'abord, il connecte les magasins de données des applications CRM et de e-commerce avec AWS Glue Elastic Views. Ensuite, il utilise SQL pour sélectionner les bonnes données dans les magasins de données des applications CRM et de e-commerce. Enfin, il connecte le magasin de données de l'application personnalisée pour stocker les résultats.

Comment est-ce qu'AWS Glue Elastic Views fonctionne avec les autres services AWS ?

AWS Glue Elastic Views vous permet de connecter plusieurs sources de magasins de données dans AWS et de créer des vues sur ces vues à l'aide du langage SQL courant. Vous pouvez matérialiser ces vues dans des magasins de données cibles. Par exemple, vous pouvez créer des vues qui accèdent aux informations du restaurant dans Amazon Aurora et aux commentaires des clients dans Amazon DynamoDB, et matérialiser ces vues dans Amazon Redshift. Vous pouvez ensuite concevoir une application qui combine les préférences alimentaires et les restaurants populaires en plus d'Amazon Redshift. De plus, étant donné que les sources d'AWS Glue Elastic Views sont distinctes des cibles, si vous avez des applications qui réalisent beaucoup de lectures, vous pouvez transférer les demandes de lecture vers une cible AWS Glue Elastic Views qui maintient une copie cohérente de la source. Vous pouvez visualiser les données des magasins de données cibles d'AWS Glue Elastic Views à l'aide de services tels qu'Amazon QuickSight ou d'outils de visualisation partenaires comme Tableau.

Puis-je utiliser AWS Glue Elastic Views pour les charges de travail opérationnelles et d'analyse ?

Oui. Avec AWS Glue Elastic Views, vous pouvez répliquer les données d'un magasin de données vers un autre magasin quasiment en temps réel. Cela permet des applications opérationnelles haute performance qui ont besoin d'accéder à des données à jour provenant de plusieurs magasins de données. AWS Glue Elastic Views vous permet également d'intégrer vos systèmes opérationnels et d'analyse sans avoir à concevoir et entretenir des pipelines d'intégration de données complexes. En utilisant AWS Glue Elastic Views, vous pouvez créer des vues de bases de données sur les données contenues dans vos bases de données opérationnelles et matérialiser ces vues dans votre entrepôt de données ou votre lac de données. AWS Glue Elastic Views suit les modifications apportées à vos bases de données opérationnelles et s'assure que les données contenues dans votre entrepôt de données et votre lac de données sont maintenues en synchronisation. Vous pouvez désormais exécuter des requêtes analytiques sur vos données opérationnelles les plus récentes.

Quelles sources et cibles est-ce qu'AWS Glue Elastic Views prend en charge aujourd'hui ?

Les sources actuellement prises en charge dans la version préliminaire comprennent Amazon DynamoDB. Amazon Aurora MySQL, Amazon Aurora PostgreSQL, Amazon RDS for MySQL, et Amazon RDS for PostgreSQL seront prochainement pris en charge. Les cibles actuellement prises en charge sont Amazon Redshift, Amazon S3 et Amazon Elasticsearch Service. Amazon Aurora MySQL, Amazon Aurora PostgreSQL, Amazon RDS for MySQL, et Amazon RDS for PostgreSQL seront prochainement pris en charge.

Quelle relation existe-t-il entre AWS Glue Elastic Views et un lac de données ?

Un lac de données est un référentiel centralisé scalable dans Amazon S3 qui est optimisé pour rendre accessibles les données provenant de plusieurs magasins de données différents à un seul endroit, afin d'apporter un support aux applications d'analyse et aux requêtes. Un lac de données permet d'utiliser l'analytique et le machine learning sur l'ensemble des données de votre organisation, pour des informations commerciales et des prises de décisions améliorées. En revanche, AWS Glue Elastic Views est un service qui vous permet de combiner et de répliquer les données dans plusieurs bases de données et dans votre lac de données Amazon S3. Si vous concevez une fonctionnalité d'application qui doit accéder à des données spécifiques d'un ou plusieurs magasins de données existants quasiment en temps réel, AWS Glue Elastic Views vous permet de répliquer les données de plusieurs magasins de données et de maintenir les données à jour. Vous pouvez également utiliser AWS Glue Elastic Views pour charger des données provenant de bases de données opérationnelles dans un lac de données en créant des vues sur vos bases de données et en les matérialisant dans votre lac de données.

Intégrations de produits AWS

Q: Quand faut-il utiliser AWS Glue plutôt que AWS Data Pipeline ?

AWS Glue fournit un service ETL géré qui est exécuté dans un environnement Apache Spark sans serveur. Ceci vous permet de vous concentrer sur vos tâches ETL au lieu de vous inquiéter de la configuration et de la gestion des ressources de calcul sous-jacentes. AWS Glue suit l'approche de priorisation des données et vous permet de vous concentrer sur les propriétés et la manipulation des données pour les transformer de telle sorte que vous pouvez en tirer des informations importantes pour votre entreprise. Ce service fournit un catalogue de données intégrées qui rend les métadonnées disponibles pour leur extraction, transport et chargement (ETL) ainsi que pour leur interrogation via Amazon Athena et Amazon Redshift Spectrum.

AWS Data Pipeline fournit un service d'orchestration gérée qui vous donne une plus grande flexibilité en termes d'environnement d'exécution, d'accès et de contrôle sur les ressources de calcul qui exécutent votre code ainsi que sur le code lui-même qui réalise le traitement des données. AWS Data Pipeline lance les ressources de calcul dans votre compte et vous donne un accès direct aux instances Amazon EC2 ou aux clusters Amazon EMR.

De plus, les tâches ETL AWS Glue sont basées sur Scala ou Python. Si votre cas d'utilisation exige que vous utilisiez un moteur autre qu'Apache Spark ou si vous voulez exécuter un ensemble de tâches hétérogènes sur différents moteurs tels que Hive, Pig, etc., AWS Data Pipeline est un meilleur choix.

Q : Quand faut-il utiliser AWS Glue plutôt qu’Amazon EMR ?

AWS Glue fonctionne sur l'environnement Apache Spark pour fournir un environnement d'exécution à dimensionnement progressif pour les tâches de transformation de vos données. AWS Glue fait des déductions, évolue et surveille vos tâches ETL et simplifie grandement le processus de création et de maintenance des tâches. Amazon EMR vous permet d'avoir un accès direct à votre environnement Hadoop et vous accorde un accès au plus bas niveau et une plus grande flexibilité dans l'utilisation d'outils en dehors de Spark.

Q : Quand faut-il utiliser AWS Glue plutôt qu'AWS Database Migration Service ?

AWS Database Migration Service (DMS) vous aide à migrer vos bases de données vers AWS aisément et en toute sécurité. Pour les cas d'utilisation qui exigent une migration de la base de données du site vers AWS ou une réplication de la base de données entre les sources sur site et les sources sur AWS, nous recommandons l'utilisation d'AWS DMS. Une fois que vos données se trouvent dans AWS, vous pouvez utiliser AWS Glue pour les déplacer, les combiner, les répliquer et les transformer depuis votre source de données vers une autre base de données ou un entrepôt de données, comme Amazon Redshift.

Q : Quand faut-il utiliser AWS Glue plutôt qu'AWS Batch ?

AWS Batch vous permet de facilement et efficacement exécuter toute tâche de calcul par lots sur AWS quelle que soit la nature de la tâche. AWS Batch crée et gère les ressources de calcul dans votre compte AWS et vous donne ainsi le contrôle et la visibilité des ressources utilisées. AWS Glue est un service ETL entièrement géré qui fournit un environnement Apache Spark sans serveur pour exécuter vos tâches d'extraction, de transport et de chargement (ETL) des données. Pour vos cas d'utilisation ETL, nous recommandons que vous exploriez l'utilisation d'AWS Glue. Pour les autres cas d'utilisation par lots, y compris certains cas d'utilisation ETL, AWS Batch peut être préférable.

Tarification et facturation

Q: Comment est facturée l'utilisation d'AWS Glue?

Au-delà du niveau gratuit du catalogue de données AWS Glue, vous ne payez qu'un forfait mensuel simple pour stocker les métadonnées dans le catalogue de données AWS Glue et y accéder. Vous serez facturé à un tarif horaire, décompté à la seconde, pour l'exécution du robot d'indexation (minimum de 10 minutes). Si vous choisissez d'utiliser un point de terminaison de développement pour développer interactivement votre code ETL, vous serez facturé à un tarif horaire, décompté à la seconde, pour la mise en service du point de terminaison de développement (minimum de 10 minutes). En outre, vous serez facturé à un tarif horaire, décompté à la seconde, pour la tâche ETL, et ce pour un minimum d'une minute ou de 10 minutes selon la version de Glue que vous choisissez. Pour en savoir plus, consultez notre page sur la tarification.

Q : Quand commence et se termine la facturation de mes tâches AWS Glue ?

La facturation commence dès que la tâche est planifiée pour exécution et continue jusqu'à ce qu'elle soit terminée. Avec AWS Glue, vous ne payez que pour le durée d'exécution de votre tâche et non pour la mise en service de l'environnement ou les temps d'arrêt.

Sécurité et disponibilité

Q : Comment le service AWS Glue assure-t-il la sécurité de mes données ?

Nous fournissons un chiffrement côté serveur pour les données au repos et SSL pour les données en mouvement.

Q : Quelles sont les limites de service associées à AWS Glue ?

Pour en savoir plus sur les limites de service, consultez notre documentation.

Q : Dans quelles régions le service AWS Glue est-il disponible ?

Pour plus d'informations sur la disponibilité d'AWS Glue service par région, reportez-vous à la section relative au tableau des régions AWS.

Q : Combien d'unités de traitement des données (DPU) sont allouées au point de terminaison de développement ?

Par défaut, un point de terminaison de développement est mis en service avec 5 DPU. Vous pouvez configurer un point de terminaison de développement avec un minimum de 2 DPU et un maximum de 5 DPU.

Q : Comment puis-je adapter la taille et la performance de mes tâches ETL AWS Glue ?

Vous pouvez simplement spécifier le nombre de DPU (units de traitement des données) que vous voulez allouer à votre tâche ETL. Une tâche ETL Glue exige un minimum de 2 DPU. Par défaut, AWS Glue alloue 10 DPU à chaque tâche ETL.

Q : Comment puis-je surveiller l'exécution de mes tâches AWS Glue ?

AWS Glue indique l'état de chaque tâche et envoie toutes les notifications vers Amazon CloudWatch. Vous pouvez configurer les notifications SNS par le biais d'actions CloudWatch pour être informé de l'échec ou de la fin d'une tâche.

Contrat de niveau de service

Q : Que garantit le contrat de niveau de service (SLA) d'AWS Glue ?

Notre contrat de niveau de service AWS Glue garantit un pourcentage de temps de fonctionnement mensuel d'au moins 99,9 % pour AWS Glue.

Q : Comment savoir si je peux bénéficier d'un crédit de service au titre du contrat de niveau de service ?

Vous avez droit à un crédit dans le cadre d’un SLA AWS Glue lorsque plusieurs zones de disponibilité dans lesquelles vous exécutez une tâche, au sein de la même région, présentent un pourcentage de fonctionnement mensuel inférieur à 99,9 % pendant un cycle mensuel de facturation.

Pour consulter l'intégralité des conditions générales du SLA et en savoir plus sur la marche à suivre pour soumettre une demande, référez-vous à la page détaillée du SLA AWS Glue.

Standard Product Icons (Features) Squid Ink
Visiter la page de tarification

Explorez les options de tarification pour AWS Glue.

En savoir plus 
Sign up for a free account
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Standard Product Icons (Start Building) Squid Ink
Commencer à créer sur la console

Commencez à créer avec AWS Glue dans AWS Management Console.

Se connecter