Questions fréquentes (FAQ) sur AWS Glue | Service d'intégration des données sans serveur

Questions d'ordre général

Q : Qu'est-ce qu'AWS Glue ?

AWS Glue est un service d'intégration sans serveur des données qui facilite la découverte, la préparation et la combinaison des données pour l'analytique, le machine learning et le développement d'applications. AWS Glue offre toutes les fonctionnalités nécessaires à l'intégration des données, pour vous permettre de commencer à analyser et à mettre à profit vos données en quelques minutes, plutôt qu'en quelques mois. AWS Glue propose des interfaces visuelles et codées pour faciliter l'intégration des données. Les utilisateurs peuvent facilement trouver et accéder aux données à l'aide du catalogue de données AWS Glue. Les ingénieurs de données et les développeurs ETL (extraire, transformer et charger) peuvent visuellement créer, exécuter et surveiller des flux de travail ETL en quelques clics dans AWS Glue Studio. Les analystes des données et les scientifiques des données peuvent utiliser AWS Glue DataBrew pour visuellement enrichir, nettoyer et normaliser les données sans écrire de code.

Q : Comment démarrer avec AWS Glue ?

Pour commencer à utiliser AWS Glue, connectez-vous simplement à AWS Management Console et accédez à « Glue » dans la catégorie « Analyse ». Vous pouvez suivre l'un de nos tutoriels qui vous guidera dans un exemple de cas d'utilisation pour AWS Glue. Vous trouverez également des exemples de code ETL dans notre référentiel GitHub sous AWS Labs.

Q : Quels sont les principaux composants d'AWS Glue ?

AWS Glue se compose d'un catalogue de données, c'est-à-dire un référentiel de métadonnées central ; d'un moteur ETL qui peut automatiquement générer du code Scala ou Python ; d'un programmateur flexible qui gère la résolution de dépendance, la surveillance des tâches et les nouvelles tentatives ; d'AWS Glue DataBrew pour le nettoyage et la normalisation des données avec une interface visuelle. Ensemble, ces fonctionnalités automatisent une grande partie des tâches lourdes non différenciées impliquées dans la découverte, la catégorisation, le nettoyage, l'enrichissement et le déplacement des données. Ainsi vous pouvez passer plus de temps à analyser vos données.

Q : Quand faut-il utiliser AWS Glue ?

Utilisez AWS Glue pour découvrir les propriétés des données que vous possédez, les transformer et les préparer pour analyse. Glue peut automatiquement découvrir les données structurées et semi-structurées dans votre lac de données sur Amazon S3, dans votre entrepôt de données dans Amazon Redshift et dans différentes bases de données exécutées sur AWS. Ce service fournit une vue unifiée de vos données par le biais du catalogue de données Glue (qui est disponible pour les tâches ETL), l’interrogation et l’établissement de rapports à l'aide de services comme Amazon Athena, Amazon EMR et Amazon Redshift Spectrum. Glue génère automatiquement du code Scala ou Python pour vos tâches ETL et vous pouvez le personnaliser davantage en utilisant les outils que vous connaissez déjà. Vous pouvez utiliser AWS Glue DataBrew pour nettoyer et normaliser visuellement les données sans écrire de code.

Q : Quelles sont les sources de données prises en charge par AWS Glue ?

AWS Glue prend en charge de manière native les données stockées dans Amazon Aurora, Amazon RDS for MySQL, Amazon RDS for Oracle, Amazon RDS for PostgreSQL, Amazon RDS for SQL Server, Amazon Redshift, DynamoDB et Amazon S3, ainsi que dans les bases de données MySQL, Oracle, Microsoft SQL Server et PostgreSQL dans votre Virtual Private Cloud (Amazon VPC) s'exécutant sur Amazon EC2. AWS Glue prend également en charge les flux de données d'Amazon MSK, Amazon Kinesis Data Streams et Apache Kafka.

Vous pouvez également écrire du code Scala ou Python et importer des bibliothèques personnalisées et des fichiers Jar dans vos tâches ETL AWS Glue pour accéder aux sources de données qui ne sont pas prises en charge de manière native par AWS Glue. Pour en savoir plus sur l'importation de bibliothèques personnalisées, consultez notre documentation.

Q : Comment AWS Glue est-il associé à AWS Lake Formation ?

R : Lake Formation met à profit une infrastructure partagée avec AWS Glue, et notamment des commandes de console, la création de code ETL et la surveillance de tâche, un catalogue de données commun et une architecture sans serveur. Alors qu'AWS Glue reste concentré sur ces types de fonctions, Lake Formation englobe les fonctions d'AWS Glue ET fournit des fonctionnalités supplémentaires pour aider à développer, sécuriser et gérer un lac de données. Pour plus de détails, consultez les pages AWS Lake Formation.

Catalogue de données AWS Glue

Q: Qu'est-ce que le catalogue de données AWS Glue?

Le catalogue de données AWS Glue est un référentiel central pour stocker les métadonnées structurelles et opérationnelles de toutes vos données. Pour un ensemble de données particuliers, vous pouvez stocker la définition de sa table et son emplacement physique, ajouter les attributs pertinents de l'entreprise et suivre les modifications apportées aux données dans le temps.

Le catalogue de données AWS Glue est compatible avec le metastore Apache Hive et sert de remplacement instantané au metastore Apache Hive pour les applications Big Data exécutées sur Amazon EMR. Pour en savoir plus sur l'installation de votre cluster EMR afin d'utiliser le catalogue de données AWS Glue comme metastore Apache Hive, cliquez ici.

Le catalogue de données AWS Glue s'intègre également à Amazon Athena, Amazon EMR et Amazon Redshift Spectrum. Lorsque vous ajoutez vos définitions de table au catalogue de données Glue, elles deviennent disponibles pour les tâches ETL et sont également facilement interrogeables dans Amazon Athena, Amazon EMR et Amazon Redshift Spectrum. Vous obtenez ainsi une vue commune de vos données entre ces services.

Q : Comment intégrer mes métadonnées au catalogue de données AWS Glue ?

AWS Glue propose plusieurs méthodes pour alimenter les métadonnées dans le catalogue de données AWS Glue. Les robots d'analyse de Glue peuvent analyser les différents magasins de données que vous possédez pour en déduire automatiquement des schémas et une structure de partition, et alimenter le catalogue de données Glue avec les définitions de table et les statistiques correspondantes. Vous pouvez également planifier l'exécution régulière de robots d'analyse pour que vos métadonnées soient toujours à jour et synchronisées avec les données sous-jacentes. Vous avez aussi la possibilité d'ajouter et de mettre à jour les détails de la table manuellement en utilisant AWS Glue Console ou par un appel d'API. Vous pouvez exécuter les instructions DDL Hive via la console Amazon Athena ou un client Hive sur un cluster Amazon EMR. Enfin, si vous possédez déjà un metastore Apache Hive persistant, vous pouvez effectuer une importation globale de ces métadonnées dans le catalogue de données AWS Glue en utilisant notre script d'importation.

Q : Que sont les robots d'analyse AWS Glue ?

Un robot AWS Glue se connecte à une banque de données, progresse à travers une liste classée par priorité de classificateurs pour extraire le schéma de vos données et d'autres statistiques, puis alimente le catalogue de données Glue avec ces métadonnées. Les robots peuvent être exécutés régulièrement pour détecter la présence de nouvelles données ainsi que des changements aux données existantes, y compris les changements apportés à la définition à la table. Les robots ajoutent automatiquement de nouvelles tables, de nouvelles partitions aux tables existantes et de nouvelles versions des définitions des tables. Vous pouvez personnaliser les robots Glue pour classer vos propres types de fichiers.

Q : Comment puis-je importer des données de mon metastore Apache Hive existant vers le catalogue de données AWS Glue ?

Exécutez simplement une tâche ETL qui lit votre metastore Apache Hive, exporte les données dans un format intermédiaire vers Amazon S3, puis les importe dans le catalogue de données AWS Glue.

Q : Faut-il que je maintienne mon metastore Apache Hive si je stocke mes métadonnées dans le catalogue de données AWS Glue ?

Non. Le catalogue de données AWS Glue est compatible avec le metastore Apache Hive. Vous pouvez pointer vers le point de terminaison du catalogue de données Glue et l'utiliser à la place du metastore Apache Hive. Pour en savoir plus sur la manière de configurer votre cluster afin d'utiliser votre catalogue de données AWS Glue en tant que metastore Apache Hive, consultez notre documentation ici.

Q : Si j'utilise déjà Amazon Athena ou Amazon Redshift Spectrum et que j'ai des tables dans le catalogue de données internes d'Amazon Athena, comment puis-je commencer à utiliser le catalogue de données AWS Glue comme référentiel de métadonnées commun ?

Avant de pouvoir commencer à utiliser le catalogue de données AWS Glue comme référentiel de métadonnées commun entre Amazon Athena, Amazon Redshift Spectrum et AWS Glue, vous devez faire passer le catalogue de données Amazon Athena à la version du catalogue de données AWS Glue. Les étapes requises pour cette opération sont détaillées ici.

Q : Quels services analytiques le catalogue de données AWS Glue utilise-t-il ?

Les métadonnées stockées dans le catalogue de données AWS Glue sont facilement accessibles depuis ETL Glue, Amazon Athena, Amazon EMR, Amazon Redshift Spectrum et des services tiers.

AWS Glue Schema Registry

Q : Qu'est-ce qu'AWS Glue Schema Registry ?

AWS Glue Schema Registry est une fonction sans serveur d'AWS Glue qui permet de valider et de contrôler l'évolution des streamings de données à l'aide de schémas enregistrés dans les formats de données Apache Avro et JSON Schema, et ce sans frais supplémentaires. Grâce à des sérialiseurs et des désérialiseurs sous licence Apache, Schema Registry s'intègre avec les applications Java développées pour Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink et AWS Lambda. Lorsque les applications de données en streaming sont intégrées à Schema Registry, vous pouvez améliorer la qualité des données et vous protéger des modifications inattendues en utilisant les tests de compatibilité qui régissent l'évolution des schémas. De plus, vous pouvez créer ou mettre à jour les tables et les partitions AWS Glue à l'aide des schémas Apache Avro stockés dans le registre.

Q : Pourquoi utiliser AWS Glue Schema Registry ?

Avec AWS Glue Schema Registry, vous pouvez :

Valider des schémas. Lorsque les applications de streaming de données sont intégrées à AWS Glue Schema Registry, les schémas utilisés pour la production des données sont validés par rapport aux schémas à l'intérieur d'un registre central. De cette manière, vous pouvez contrôler la qualité des données de façon centralisée.
Protéger l'évolution du schéma. Vous pouvez définir des règles pour déterminer comment les schémas peuvent et ne peuvent pas évoluer à l'aide de l'un des huit modes de compatibilité.
Améliorer la qualité des données. Les sérialiseurs valident les schémas utilisés par les producteurs de données par rapport à ceux qui sont stockés dans le registre, améliorant ainsi la qualité des données lorsqu'elles sont créées et réduisant les problèmes en aval entraînés par des dérives de schémas inattendus.
Réduire les coûts. Les sérialiseurs convertissent les données au format binaire et peuvent les compresser avant de les envoyer, réduisant ainsi les coûts de transfert et de stockage de données.
Améliorer l'efficacité de traitement. Dans de nombreux cas, un flux de données contient des enregistrements de différents schémas. Le Schema Registry permet aux applications qui lisent à partir de flux de données de traiter chaque enregistrement de manière sélective en fonction du schéma, sans devoir analyser son contenu, ce qui augmente l'efficacité de traitement.

Q : Quel format de données, quelle langage client et quelles intégrations sont pris en charge par AWS Glue Schema Registry ?

Schema Registry prend en charge les formats de données Apache Avro et JSON Schema ainsi que les applications clientes Java. Nous entendons étendre la prise en charge à d'autres formats de données et à d'autres applications clientes non Java. Schema Registry s'intègre avec les applications développées pour Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink et AWS Lambda.

Q : Quels types de règles d'évolution est-ce qu'AWS Glue Schema Registry prend en charge ?

Les modes de compatibilité suivants sont disponibles pour vous permettre de gérer l'évolution de votre schéma : Backward, Backward All, Forward, Forward All, Full, Full All, None, et Disabled. Consultez la documentation utilisateur de Schema Registry pour en savoir plus sur les règles de compatibilité.

Q : Comment est-ce qu'AWS Glue Schema Registry maintient une haute disponibilité pour mes applications ?

Le plan de stockage et de contrôle de Schema Registry est conçu pour la haute disponibilité. Il est également soutenu par le SLA d'AWS Glue. Les sérialiseurs et désérialiseurs tirent parti de bonnes pratiques de techniques de mise en cache pour maximiser la disponibilité des schémas dans les clients.

Q : Est-ce qu'AWS Glue Schema Registry est open source ?

Le stockage AWS Glue Schema Registry est un service AWS, tandis que les sérialiseurs et désérialiseurs sont des composants open source sous licence Apache.

Q : Est-ce qu'AWS Glue Schema Registry offre un chiffrement au repos et en transit ?

Oui, vos clients communiquent avec Schema Registry par le biais d'appels API qui chiffrent les données en transit à l'aide du chiffrement TLS via HTTPS. Les schémas stockés dans Schema Registry sont toujours chiffrés au repos à l'aide d'une clé KMS gérée par le service.

Q : Comment puis-je établir une connexion privée à AWS Glue Schema Registry ?

Vous pouvez utiliser AWS PrivateLink pour connecter le VPC de votre producteur de données à AWS Glue en définissant un point de terminaison d'un VPC d'interface pour AWS Glue. Lorsque vous utilisez un point de terminaison d'un VPC d'interface, la communication entre votre VPC et AWS Glue est établie entièrement au sein du réseau AWS. Pour en savoir plus, consultez la documentation utilisateur.

Q : Comment puis-je surveiller mon utilisation d'AWS Glue Schema Registry ?

Les métriques AWS CloudWatch sont disponibles dans l'offre gratuite de CloudWatch. Vous pouvez accéder à ces métriques dans la console CloudWatch. Consultez la documentation utilisateur d'AWS Glue Schema Registry pour en savoir plus.

Q : Est-ce qu'AWS Glue Schema Registry fournit des outils qui permettent de gérer l'autorisation des utilisateurs ?

Oui, Schema Registry prend en charge les autorisations de niveau de ressource et les stratégies IAM basées sur l'identité.

Q : Comment puis-je migrer d'un registre de schémas existant vers AWS Glue Schema Registry ?

Les étapes de migration d'un registre de schémas tiers vers AWS Glue Schema Registry sont disponibles dans la documentation utilisateur.

Extraction, transformation et chargement (ETL) des données

Q : Le service AWS Glue dispose-t-il d'une interface sans code dédiée au visuel ETL ?

Oui. AWS Glue Studio offre une interface graphique pour la création de tâches Glue afin de traiter vos données. Une fois que vous avez défini le flux de vos sources de données, de vos transformations et de vos cibles dans l'interface visuelle, AWS Glue Studio va générer un code Apache Spark en votre nom.

Q : Quel langage de programmation puis-je utiliser pour écrire on code ETL pour AWS Glue ?

Vous pouvez utiliser Scala ou Python.

Q : Comment puis-je personnaliser le code ETL généré par AWS Glue ?

Le système de recommandation de script ETL du service AWS Glue génère un code Scala ou Python. Il se sert de la bibliothèque ETL personnalisée de Glue pour simplifier l'accès aux sources de données et gérer l'exécution des tâches. Pour en savoir plus sur la bibliothèque, consultez notre documentation. Vous pouvez écrire du code ETL en utilisant la bibliothèque personnalisée de Glue ou du code arbitraire en Scala ou Python en modifiant le code en ligne via l'éditeur de scripts AWS Glue Console, en téléchargeant le code auto-généré et en le modifiant dans votre propre environnement de développement intégré. Vous pouvez également commencer avec l'un des nombreux exemples qui se trouvent dans notre référentiel Github et personnaliser ce code.

Q : Puis-je importer des bibliothèques personnalisées dans le cadre de mon script ETL ?

Oui. Vous pouvez importer des bibliothèques Python et des fichiers Jar dans votre tâche ETL AWS Glue. Pour en savoir plus, consultez notre documentation ici.

Q : Puis-je apporter mon propre code ?

Oui. Vous pouvez écrire votre propre code à l'aide de la bibliothèque ETL d'AWS Glue, ou écrire votre propre code Scala ou Python, puis le télécharger vers une tâche ETL Glue. Pour en savoir plus, consultez notre documentation ici.

Q : Comment puis-je développer mon code ETL en utilisant mon propre environnement de développement intégré (IDE) ?

Vous pouvez créer et vous connecter à des points de terminaison de développement qui offrent le moyen de connecter vos notebooks et environnement IDE.

Q : Comment puis-je développer des charges de travail ETL de bout en bout en utilisant plusieurs tâches dans AWS Glue ?

Outre la bibliothèque ETL et la génération de codes, AWS Glue fournit un ensemble robuste de fonctionnalités d'orchestration qui vous permettent de gérer les dépendances entre plusieurs tâches afin de développer des workflow ETL de bout en bout. Les tâches ETL AWS Glue peuvent être déclenchées selon un calendrier ou lorsqu'un événement se termine. Plusieurs tâches peuvent être déclenchées parallèlement ou séquentiellement lors d'un événement de fin de tâche. Vous pouvez également déclencher une ou plusieurs tâches Glue à partir d'une source externe telle qu'une fonction AWS Lambda.

Q : Comment AWS Glue surveille les dépendances ?

AWS Glue gère les dépendances entre deux ou plusieurs tâches ou les dépendances sur les événements externes en utilisant des déclencheurs. Les déclencheurs peuvent surveiller et invoquer une ou plusieurs tâches. Vous pouvez avoir un déclencheur planifié qui invoque les tâches régulièrement, un déclencheur à la demande, ou un déclencheur en fonction de la fin d'un événement.

Q : Comment le service AWS Glue traite-t-il les erreurs ETL ?

AWS Glue surveille les mesures et les erreurs des événements de tâche et envoie toutes les notifications à Amazon CloudWatch. Avec Amazon CloudWatch, vous pouvez configurer toute une série d'actions déclenchables en fonction de des notifications particulières provenant d'AWS Glue. Par exemple, si vous obtenez une notification d'erreur ou de réussite de Glue, vous pouvez déclencher une fonction AWS Lambda. En outre, le service Glue lance par défaut trois nouvelles tentatives après échec, avant d'envoyer une notification d'erreur.

Q : Puis-je exécuter mes tâches ETL existantes avec AWS Glue ?

Oui. Vous pouvez exécuter votre code Scala ou Python existant dans AWS Glue. Téléchargez simplement le code vers Amazon S3 et créez une ou plusieurs tâches qui utilisent ce code. Vous pouvez réutiliser le même code sur plusieurs tâches en pointant vers le même emplacement de code sur Amazon S3.

Q : Comment puis-je utiliser AWS Glue pour diffuser les données ETL ?

AWS Glue prend en charge les ETL sur les flux d'Amazon Kinesis Data Streams, Apache Kafka et Amazon MSK. Ajoutez le flux au catalogue de données AWS Glue, puis sélectionnez-le en tant que source de données lors de la configuration de votre tâche AWS Glue.

Q : Faut-il utiliser à la fois le catalogue de données AWS Glue et ETL Glue pour utiliser le service ?

Non. Bien que nous pensions que l'utilisation du catalogue de données AWS Glue et du service d'extraction, de transformation et de chargement (ETL) des données fournissent une expérience ETL de bout en bout, vous pouvez les utiliser indépendamment l'un de l'autre.

Q : Dans quels cas me conseillez-vous d'utiliser le streaming AWS Glue ? Et dans quels cas est-il préférable d'avoir recours à Amazon Kinesis Data Analytics ?

AWS Glue et Amazon Kinesis Data Analytics peuvent tous deux être utilisés afin de traiter des données de streaming. Nous vous recommandons d'utiliser AWS Glue lorsque vos cas d'utilisation sont principalement des ETL et que vous désirez exécuter des tâches sur une plateforme basée Apache Spark sans serveur. Nous vous recommandons d'utiliser Amazon Kinesis Data Analytics lorsque vos cas d'utilisation sont principalement de l'analytique et que vous désirez exécuter des tâches sur une plateforme basée Apache Flink sans serveur.

Les ETL de streaming dans AWS Glue permettent une extraction, une transformation et un chargement (ETL) avancés des données de streaming au moyen de la même plateforme de paiement à l'utilisation sans serveur utilisée pour vos tâches par lot. AWS Glue génère un code ETL personnalisable afin de préparer vos données en vol et possède une fonctionnalité intégrée afin de traiter les données en streaming semi-structurées ou possédant un schéma d'évolution. Utilisez AWS Glue pour appliquer ses transformations intégrées et natives Spark aux flux de données, et chargez-les dans votre lac de données ou votre entrepôt de données.

Amazon Kinesis Data Analytics vous permet de créer des applications de streaming sophistiquées pour analyser les données en streaming en temps réel. Ce service fournit une exécution Apache Flink sans serveur qui procède automatiquement à la mise à l'échelle sans serveurs et qui sauvegarde de manière durable le statut de l'application. Utilisez Amazon Kinesis Data Analytics pour l'analytique en temps réel et le traitement plus général des données en flux.

Q : Dans quels cas me conseillez-vous d'utiliser AWS Glue ? Et dans quels cas est-il préférable d'avoir recours à Amazon Kinesis Data Firehose ?

AWS Glue et Amazon Kinesis Data Firehose peuvent tous deux être utilisés pour les ETL de streaming. Nous vous recommandons d'utiliser AWS Glue pour les ETL complexes, y compris l'association des flux, et le partitionnement de la production dans Amazon S3 en fonction du contenu des données. Nous vous recommandons d'utiliser Amazon Kinesis Data Firehose lorsque vos cas d'utilisation se concentrent sur la transmission des données et la préparation des données à traiter après leur transmission.

Les ETL de streaming dans AWS Glue permettent une extraction, une transformation et un chargement (ETL) avancés des données de streaming au moyen de la même plateforme de paiement à l'utilisation sans serveur utilisée pour vos tâches par lot. AWS Glue génère un code ETL personnalisable afin de préparer vos données en vol et possède une fonctionnalité intégrée afin de traiter les données en streaming semi-structurées ou possédant un schéma d'évolution. Utilisez AWS Glue pour appliquer des transformations complexes aux flux de données, pour enrichir les enregistrements d'informations provenant d'autres flux et magasins de données permanents, puis pour charger les enregistrements dans votre lac de données ou entrepôt de données.

Les ETL de streaming dans Amazon Kinesis Data Firehose vous permettent de saisir, transformer et transmettre des données de streaming. Amazon Kinesis Data Firehose fournit des capacités ETL, dont la transformation des données sans serveur via AWS Lambda et la conversion de format de JSON à Parquet. Ce service fournit des capacités ETL conçues pour simplifier le traitement des données après leur transmission, mais n'inclut pas les capacités ETL avancées qu'AWS Glue prend en charge.

Dédupliquer des données

Q : Quel genre de problèmes permettent de résoudre le ML Transform de FindMatches ?

FindMatches permet généralement de résoudre des problèmes d’association d’archives et de déduplication de données. La déduplication est ce que vous obtenez lorsque vous tentez d’identifier des archives dans une base de données conceptuellement « identique », mais pour laquelle vous disposez d’archives distinctes. Ce problème est mineur si les archives dupliquées peuvent être identifiées par une clé unique (par exemple si les produits peuvent être identifiés de manière unique par un code UPC),mais il peut prendre de l’ampleur si vous avez besoin de chercher une « correspondance approximative ».

Dans les grandes lignes, l’association d’archive est le même problème que la déduplication de données, mais ce terme signifie généralement que vous réalisez une « association approximative » de deux bases de données ne partageant pas une clé unique plutôt qu’une déduplication d’une seule base de données. Par exemple, prenons le problème de correspondance d’une grande base de données de clients à une petite base de données de fraudeurs connus. FindMatches peut servir pour les problèmes d’association d’archive et de déduplication.

Par exemple, le ML Transform de FindMatches d’AWS Glue peut vous aider pour les problèmes suivants :

Associer des archives de patients entre les hôpitaux pour que les médecins aient davantage d’informations contextuelles et soient capables de les soigner grâce à FindMatches sur des bases de données séparées contenant des champs courants que le nom, la date de naissance, l’adresse postale, le numéro de téléphone, etc.

Déduplication d’une base de données de films contenant des colonnes comme « titre », « synopsis », « année de sortie », « durée » et « distribution ». Par exemple, le même film pourrait être identifé de diverses manières, comme « Star Wars », « Star Wars: A New Hope » et « Star Wars: Episode IV—A New Hope (Special Edition) ».

Regroupez automatiquement tous les produits associés dans votre devanture en identifiant des éléments équivalents dans un catalogue de produits vestimentaires dans lequel vous souhaitez définir « équivalent » pour signifier qu’ils sont identiques en ignorant les différences de taille et de couleur. Ainsi, « Jean Levi’s 501 bleu, taille 34x34 » est défini comme étant le même niveau que « Jean Levi’s 501 noir, taille 32x31 ».

Q : Comment AWS Glue déduplique-t-il mes données ?

Le ML Transform de FindMatches d’AWS Glue simplifie la recherche et l’association d’archives faisant référence à la même entité mais qui ne partagent pas un identifieur fiable. Avant FindMatches, les développeurs devaient généralement résoudre les problèmes courants de correspondance de données de manière déterministe en rédigeant d’importantes quantités de règles ajustées à la main. FindMatches exploite des algorithmes de machine learning en arrière-plan pour apprendre à faire correspondre des archives en fonction des critères commerciaux de chaque développeur. FindMatches identifie en premier lieu les archives que le client doit marquer comme correspondantes ou non, puis utilise le machine learning pour créer un ML Transform. Les clients peuvent alors exécuter ce Transform sur leurs bases de données pour rechercher des archives correspondantes ou interroger FindMatches pour avoir d’autres archives à marquer et faire évoluer le niveau de précision du ML Transform.

Q: Que sont les ML Transforms ?

Les ML Transforms fournissent une destination de création et de gestion des transformateurs basés sur le machine-learning. Une fois créés et formés, les ML Transforms peuvent alors être exécutés dans des scripts AWS Glue standard. Les clients sélectionnent un algorithme spécifique (par exemple, le ML Transform de FindMatches) et saisissez des ensembles de données et des exemples de formation, puis les paramètres d’ajustement requis par cet algorithme. AWS Glue utilise ces saisies pour créer un ML Transform pouvant être incorporé dans un flux de travail ETL Job normal.

Q : Comment fonctionnent les ML Transforms ?

AWS Glue inclut des algorithmes de transformation d’ensemble de données basés sur le ML que les clients peuvent utiliser afin de créer leurs propres ML Transforms. Ces derniers incluent la déduplication d’archives et la recherche de correspondance.

Les clients commencent par se rendre dans l’onglet ML Transforms de la console (ou par utiliser les points de terminaison ML Transforms ou par accéder à la formation des ML Transforms via la CLI) pour créer leur premier modèle de ML Transform. L’onglet ML Transforms donne une vue simple pour la gestion des transformateurs des utilisateurs. Les ML Transforms requièrent des exigences distinctes de flux de travail d’autres transformateurs, notamment : le besoin de formation séparée, l’ajustement de paramètres et des flux de travail d’exécution ; le besoin d’évaluer des métriques de la qualité de transformations générées ; et le besoin de gérer et collecter des étiquettes vraies pour la formation et l’apprentissage actif..

Pour créer un ML Transform via la console, les clients commencent par sélectionner le type de transformateur (déducplication ou correspondance d’archive, par exemple) et indiquent les sources de données appropriées découvertes dans le catalogue de données. Selon le transformateur, il peut ensuite être demandé aux clients d’indiquer les données d’étiquette vraie de base pour la formation ou d’autres paramètres. Les clients peuvent surveiller le statut de leurs tâches de formation et consulter des métriques sur la qualité pour chaque transformateur. (Les métriques de la qualité sont reportées grâce à un ensemble de sécurité de données d’étiquettes fournies Quality metrics are par le client.)

Dès que les performances sont satisfaisantes, les clients peuvent promouvoir les modèles des ML Transforms à utiliser en promotion. Les ML Transforms peuvent alors être utilisés lors des flux de travail ETL, à la fois dans du code généré automatiquement par le service et dans des scripts définis par l’utilisateur envoyés avec d’autres tâches, semblables à des transformations préconçues proposées dans d’autres bibiliothèques AWS Glue.

Q : Puis-je voir une présentation de l’utilisation d’AWS Glue (et d’AWS Lake Formation) pour la recherche de correspondances et d’archives dédupliquées ?

R : Oui. L'enregistrement complet de la discussion en ligne sur la technologie AWS "Fuzzy Matching and Deduplicating Data with ML Transforms for AWS Lake Formation" est disponible ici.

AWS Glue DataBrew

Q : Qu'est-ce qu'AWS Glue DataBrew ?

AWS Glue DataBrew est un outil visuel de préparation des données qui permet aux analystes et aux scientifiques des données de préparer facilement celles-ci grâce à une interface visuelle interactive de type pointer-cliquer sans écrire de code. Avec Glue DataBrew, vous pouvez facilement visualiser, nettoyer et normaliser des téraoctets, voire des pétaoctets de données directement à partir de votre lac de données, de vos entrepôts de données et de vos bases de données, y compris Amazon S3, Amazon Redshift, Amazon Aurora et Amazon RDS. AWS Glue DataBrew est généralement disponible aujourd'hui dans les régions USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), UE (Irlande), UE (Francfort), Asie-Pacifique (Sydney) et Asie-Pacifique (Tokyo).

Q : Qui peut utiliser AWS Glue DataBrew ?

AWS Glue DataBrew est conçu pour les utilisateurs qui ont besoin de nettoyer et de normaliser les données à des fins d'analyse et de machine learning. Les analystes et les scientifiques des données sont les principaux utilisateurs. Pour les analystes de données, voici des exemples de fonctions : analystes d'aide à la décision, analystes d'opérations, analystes d'intelligence du marché, analystes juridiques, analystes financiers, économistes, experts en analyse quantitative ou comptables. Pour les scientifiques des données, voici des exemples de fonctions : spécialistes des matériaux, bioanalystes et chercheurs scientifiques.

Q : Quels types de transformations sont prises en charge dans AWS Glue DataBrew ?

Vous pouvez choisir parmi plus de 250 transformations intégrées pour combiner, faire pivoter et transposer les données sans écrire de code. AWS Glue DataBrew recommande également automatiquement des transformations telles que le filtrage des anomalies, la correction des données non valables, mal classées ou en double, la normalisation des données à des valeurs de date et d'heure standard, ou la génération d'agrégats pour les analyses. Pour les transformations complexes, telles que la conversion de mots en une base commune ou un mot racine, Glue DataBrew propose des transformations qui utilisent des techniques avancées de machine learning telles que le traitement du langage naturel (TLN). Vous pouvez regrouper plusieurs transformations, les enregistrer sous forme de recettes et appliquer les recettes directement aux nouvelles données entrantes.

Q : Quels sont les formats de fichiers pris en charge par AWS Glue DataBrew support ?

Pour les données d'entrée, AWS Glue DataBrew prend en charge les formats de fichier utilisés couramment : valeurs séparées par des virgules (.csv), JSON et JSON imbriqué, Apache Parquet et Apache Parquet imbriqué et feuilles Excel. Pour les données de sortie, AWS Glue DataBrew prend en charge les valeurs séparées par des virgules (.csv), JSON, Apache Parquet, Apache Avro, Apache ORC et XML.

Q : Puis-je essayer AWS Glue DataBrew gratuitement ?

Oui. Inscrivez-vous à un compte Offre gratuite AWS, puis visitez la AWS Glue DataBrew Management Console, et commencez instantanément et gratuitement. Si vous utilisez Glue DataBrew pour la première fois, les 40 premières sessions interactives sont gratuites. Pour en savoir plus, consultez la page Tarification AWS Glue.

Q : Dois-je utiliser AWS Glue Data Catalog ou AWS Lake Formation pour pouvoir utiliser AWS Glue DataBrew ?

Non. Vous pouvez utiliser AWS Glue DataBrew sans avoir à utiliser AWS Glue Data Catalog ou AWS Lake Formation. Toutefois, si vous utilisez AWS Glue Data Catalog ou AWS Lake Formation, les utilisateurs de DataBrew peuvent sélectionner les ensembles de données dont ils ont accès dans leur catalogue de données centralisé.

Q : Puis-je conserver un enregistrement de toutes les modifications apportées à mes données ?

Oui. Vous pouvez effectuer un suivi visuel de toutes les modifications apportées à vos données dans AWS Glue DataBrew Management Console. L'affichage visuel permet de retracer facilement les modifications et les relations apportées aux ensembles de données, aux projets et aux recettes, ainsi qu'à touts les autres tâches associées. En outre, Glue DataBrew conserve toutes les activités relatives aux comptes sous la forme de journaux dans AWS CloudTrail.

Tâches AWS Glue Flex

Q :Qu'est-ce que Glue Flex ?

AWS Glue Flex est une catégorie de tâches d'exécution flexibles qui vous permet de réduire jusqu'à 35 % le coût d'intégration des données de vos charges de travail non urgentes (ex : tâches de pré-production, test, chargement de données, etc.). Glue a deux catégories de tâches d'exécution : standard et flexible. La catégorie d'exécution standard est idéale pour les charges de travail urgentes qui nécessitent un lancement rapide des tâches ainsi que des ressources dédiées. La catégorie d'exécution flexible est appropriée pour les tâches non urgentes dont la durée de lancement et d'achèvement peut varier. AWS Glue Flex peut réduire le coût de votre charges de travail non urgentes (ex : tâches nocturnes ETL par lot, tâches d'ingestion de données en volume unique, etc.).

Q : Quelle est la différence entre les catégories d'exécution standard et flexible d'AWS Glue ?

Les catégories d'exécution standard et flexible d’AWS Glue ont des propriétés d'exécution différentes. Avec la catégorie d'exécution standard, les tâches débutent immédiatement et ont des ressources dédiées lorsque qu'elles sont exécutées. Les tâches de la catégorie d'exécution flexible sont exécutées avec des ressources informatiques non dédiées dans AWS. Ces ressources peuvent être récupérées alors qu'une tâche est exécutée et leur durée de lancement et d'achèvement varie. En résumé, les deux catégories d'exécution sont appropriées pour des charges de travail différentes. La catégorie d'exécution standard est idéale pour les charges de travail urgentes qui nécessitent un lancement rapide des tâches ainsi que des ressources dédiées. La catégorie d'exécution flexible est moins coûteuse et appropriée pour des tâches non urgentes qui acceptent une certaine variation dans la durée de lancement et d'achèvement.

Q : Comment débuter avec la catégorie de tâches d'exécution flexible AWS Glue Flex ?

La catégorie d'exécution flexible est disponible pour les tâches Glue Spark. Pour utiliser la catégorie d'exécution flexible, il vous suffit de modifier les paramètres de la catégorie d'exécution par défaut et de les passer de « STANDARD » à «FLEX ». Vous pouvez réaliser cette modification via Glue Studio ou CLI. Consultez la documentation utilisateur d'AWS Glue pour en savoir plus.

Q : Quels sont les types d'intégration des données et de charges de travail ETL non appropriés pour la catégorie d'exécution flexible AWS Glue Flex ?

La catégorie d'exécution flexible AWS Glue Flex n'est pas appropriée pour les charges de travail urgentes qui nécessite une durée constante de lancement et d'achèvement des tâches, ni pour les tâches qui doivent achever une exécution dans un temps donné. AWS Glue Flex est également déconseillé pour les charges de travail dont l'intégration des données nécessite beaucoup de temps, car elles risquent d'être interrompues et, par conséquent, de faire échouer l'exécution.

Q : À quelle fréquence d'interruption des tâches en cours d'exécution dois-je m'attendre avec la catégorie d'exécution flexible AWS Glue Flex ?

La disponibilité et la fréquence d'interruption d'AWS Glue Flex dépend de plusieurs facteurs, notamment la région, la zone de disponibilité (AZ), le moment dans la journée et le jour dans la semaine. La disponibilité des ressources conditionne directement le lancement des tâches Glue Flex. Le taux d'interruption peut être compris entre 5 et 10 % durant les heures de forte activité. Le taux d'interruption des tâches Glue Flex est estimé à environ 5 % et le taux d'échec des tâches Glue Flex en raison d'une interruption est estimé à moins de 5 %.

Q : La catégorie d'exécution flexible est-elle toujours disponible ?

Oui, vous pouvez constamment choisir la catégorie d'exécution flexible pour l'exécution de vos tâches Glue. Toutefois, la capacité d'AWS Glue à exécuter ces tâches est basée sur la disponibilité de la capacité non-dédiée d'AWS et sur le nombre de travailleurs sélectionnés pour votre tâche. Durant les périodes de forte activité, il est possible que Glue n'ait pas la capacité adéquate pour votre tâche. Dans ce cas, votre tâche ne sera pas lancée. Vous pouvez indiquer une période d'attente au-delà de laquelle Glue annellera la tâche. Plus la période d'attente est longue, plus les chances d'exécution de votre tâche sont élevées.

Q : Que se passe-t-il si une tâche AWS Glue Flex est interrompue durant son exécution ?

Si une tâche Glue Flex est interrompue, car le nombre de travailleurs disponibles pour l'achèvement de la tâche est insuffisant par rapport au nombre défini, la tâche échouera. Glue tentera d'exécuter la tâche suivant le nombre de tentatives définies dans la tâche avant de l'annuler. Nous vous déconseillons d'utiliser la catégorie d'exécution flexible pour toute tâche ayant une dépendance en aval d'autres systèmes ou processus.

Q : Quels sont les types de tâches AWS Glue pris en charge par la catégorie d'exécution flexible ?

La catégorie d'exécution flexible prend uniquement en charge les tâches Glue Spark. Pythonshell et streaming ne sont pas pris en charge. AWS Glue Flex est pris en charge à partir de la version Glue 3.0. Actuellement, la catégorie d'exécution flexible ne prend pas en charge les charges de travail streaming.

Intégrations de produits AWS

Q: Quand faut-il utiliser AWS Glue plutôt que AWS Data Pipeline ?

AWS Glue fournit un service ETL géré qui est exécuté dans un environnement Apache Spark sans serveur. Ceci vous permet de vous concentrer sur vos tâches ETL au lieu de vous inquiéter de la configuration et de la gestion des ressources de calcul sous-jacentes. AWS Glue suit l'approche de priorisation des données et vous permet de vous concentrer sur les propriétés et la manipulation des données pour les transformer de telle sorte que vous pouvez en tirer des informations importantes pour votre entreprise. Ce service fournit un catalogue de données intégrées qui rend les métadonnées disponibles pour leur extraction, transport et chargement (ETL) ainsi que pour leur interrogation via Amazon Athena et Amazon Redshift Spectrum.

AWS Data Pipeline fournit un service d'orchestration gérée qui vous donne une plus grande flexibilité en termes d'environnement d'exécution, d'accès et de contrôle sur les ressources de calcul qui exécutent votre code ainsi que sur le code lui-même qui réalise le traitement des données. AWS Data Pipeline lance les ressources de calcul dans votre compte et vous donne un accès direct aux instances Amazon EC2 ou aux clusters Amazon EMR.

De plus, les tâches ETL AWS Glue sont basées sur Scala ou Python. Si votre cas d'utilisation exige que vous utilisiez un moteur autre qu'Apache Spark ou si vous voulez exécuter un ensemble de tâches hétérogènes sur différents moteurs tels que Hive, Pig, etc., AWS Data Pipeline est un meilleur choix.

Q : Quand faut-il utiliser AWS Glue plutôt qu’Amazon EMR ?

AWS Glue fonctionne sur l'environnement Apache Spark pour fournir un environnement d'exécution à dimensionnement progressif pour les tâches de transformation de vos données. AWS Glue fait des déductions, évolue et surveille vos tâches ETL et simplifie grandement le processus de création et de maintenance des tâches. Amazon EMR vous permet d'avoir un accès direct à votre environnement Hadoop et vous accorde un accès au plus bas niveau et une plus grande flexibilité dans l'utilisation d'outils en dehors de Spark.

Q : Quand faut-il utiliser AWS Glue plutôt qu'AWS Database Migration Service ?

AWS Database Migration Service (DMS) vous aide à migrer vos bases de données vers AWS aisément et en toute sécurité. Pour les cas d'utilisation qui exigent une migration de la base de données du site vers AWS ou une réplication de la base de données entre les sources sur site et les sources sur AWS, nous recommandons l'utilisation d'AWS DMS. Une fois que vos données se trouvent dans AWS, vous pouvez utiliser AWS Glue pour les déplacer, les combiner, les répliquer et les transformer depuis votre source de données vers une autre base de données ou un entrepôt de données, comme Amazon Redshift.

Q : Quand faut-il utiliser AWS Glue plutôt qu'AWS Batch ?

AWS Batch vous permet de facilement et efficacement exécuter toute tâche de calcul par lots sur AWS, quelle que soit la nature de la tâche. AWS Batch crée et gère les ressources de calcul dans votre compte AWS et vous donne ainsi le contrôle et la visibilité des ressources utilisées. AWS Glue est un service ETL entièrement géré qui fournit un environnement Apache Spark sans serveur pour exécuter vos tâches d'extraction, de transport et de chargement (ETL) des données. Pour vos cas d'utilisation ETL, nous recommandons que vous exploriez l'utilisation d'AWS Glue. Pour les autres cas d'utilisation par lots, y compris certains cas d'utilisation ETL, AWS Batch peut être préférable.

Tarification et facturation

Q: Comment est facturée l'utilisation d'AWS Glue?

Au-delà du niveau gratuit du catalogue de données AWS Glue, vous ne payez qu'un forfait mensuel simple pour stocker les métadonnées dans le catalogue de données AWS Glue et y accéder. Vous serez facturé à un tarif horaire, décompté à la seconde, pour l'exécution du robot d'indexation (minimum de 10 minutes). Si vous choisissez d'utiliser un point de terminaison de développement pour développer interactivement votre code ETL, vous serez facturé à un tarif horaire, décompté à la seconde, pour la mise en service du point de terminaison de développement (minimum de 10 minutes). En outre, vous serez facturé à un tarif horaire, décompté à la seconde, pour la tâche ETL, et ce pour un minimum d'une minute ou de 10 minutes selon la version de Glue que vous choisissez. Pour en savoir plus, consultez notre page sur la tarification.

Q : Quand commence et se termine la facturation de mes tâches AWS Glue ?

La facturation commence dès que la tâche est planifiée pour exécution et continue jusqu'à ce qu'elle soit terminée. Avec AWS Glue, vous ne payez que pour le durée d'exécution de votre tâche et non pour la mise en service de l'environnement ou les temps d'arrêt.

Sécurité et disponibilité

Q : Comment le service AWS Glue assure-t-il la sécurité de mes données ?

Nous fournissons un chiffrement côté serveur pour les données au repos et SSL pour les données en mouvement.

Q : Quelles sont les limites de service associées à AWS Glue ?

Pour en savoir plus sur les limites de service, consultez notre documentation.

Q : Dans quelles régions le service AWS Glue est-il disponible ?

Pour plus d'informations sur la disponibilité d'AWS Glue service par région, reportez-vous à la section relative au tableau des régions AWS.

Q : Combien d'unités de traitement des données (DPU) sont allouées au point de terminaison de développement ?

Par défaut, un point de terminaison de développement est mis en service avec 5 DPU. Vous pouvez configurer un point de terminaison de développement avec un minimum de 2 DPU et un maximum de 5 DPU.

Q : Comment puis-je adapter la taille et la performance de mes tâches ETL AWS Glue ?

Vous pouvez simplement spécifier le nombre de DPU (units de traitement des données) que vous voulez allouer à votre tâche ETL. Une tâche ETL Glue exige un minimum de 2 DPU. Par défaut, AWS Glue alloue 10 DPU à chaque tâche ETL.

Q : Comment puis-je surveiller l'exécution de mes tâches AWS Glue ?

AWS Glue indique l'état de chaque tâche et envoie toutes les notifications vers Amazon CloudWatch. Vous pouvez configurer les notifications SNS par le biais d'actions CloudWatch pour être informé de l'échec ou de la fin d'une tâche.

Contrat de niveau de service

Q : Que garantit le contrat de niveau de service (SLA) d'AWS Glue ?

Notre contrat de niveau de service AWS Glue garantit un pourcentage de temps de fonctionnement mensuel d'au moins 99,9 % pour AWS Glue.

Q : Comment savoir si je peux bénéficier d'un crédit de service au titre du contrat de niveau de service ?

Vous avez droit à un crédit dans le cadre d’un SLA AWS Glue lorsque plusieurs zones de disponibilité dans lesquelles vous exécutez une tâche, au sein de la même région, présentent un pourcentage de fonctionnement mensuel inférieur à 99,9 % pendant un cycle mensuel de facturation.

Pour consulter l'intégralité des conditions générales du SLA et en savoir plus sur la marche à suivre pour soumettre une demande, référez-vous à la page détaillée du SLA AWS Glue.

Visiter la page de tarification

Explorez les options de tarification pour AWS Glue.

Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS.

S'inscrire

Commencer à créer sur la console

Commencez à créer avec AWS Glue dans AWS Management Console.

Se connecter

FAQ sur AWS Glue