Stockage gratuit de 1 million d'objets avec l'offre gratuite d'AWS

AWS Glue

Découvrez, préparez et intégrez toutes vos données à n'importe quelle échelle

En savoir plus sur l'intégration de données d'AWS

Pourquoi choisir AWS Glue ?

Préparer vos données pour obtenir des résultats de qualité est la première étape d'un projet analytique ou de ML. AWS Glue est un service d'intégration des données sans serveur qui facilite et accélère la préparation des données, et en réduit les coûts. Vous pouvez découvrir plus de 70 sources de données diverses et vous y connecter, gérer vos données dans un catalogue de données centralisé, et créer, exécuter et surveiller visuellement des pipelines ETL pour charger des données dans vos lacs de données.

Présentation d'AWS Glue (01:54)

Fonctionnement

AWS Glue est un service d'intégration des données sans serveur qui facilite la découverte, la préparation, le déplacement et l'intégration des données depuis des sources multiples pour l'analytique, le machine learning (ML) et le développement des applications.

Options des moteurs d'intégration des données
ETL basé sur les événements
Catalogue de données AWS Glue
Tâches ETL sans code
Gérer et contrôler la qualité des données
Préparation des données

Options des moteurs d'intégration des données
Sélectionnez votre moteur d'intégration des données favori dans AWS Glue pour prendre en charge vos utilisateurs et vos charges de travail.

Le diagramme présente la manière dont les utilisateurs d'AWS Glue peuvent choisir parmi les options d'interface pour créer des charges de travail utilisant plusieurs moteurs d'intégration des données. Quatre sections s'affichent : une à gauche, deux au milieu et une à droite.

La première section sur la gauche est appelée « Source de données ». Elle comprend les sources de données suivantes : « Amazon S3 », « Amazon DynamoDB », « Bases de données s'exécutant sur Amazon EC2 », « Bases de données » et « SaaS ».

Depuis la première section, il existe une flèche pointant vers la section du milieu au-dessus du diagramme, appelée « Choix des interfaces ». Trois éléments sont compris dans cette deuxième section : « AWS Glue Studio », « Bloc-notes Amazon SageMaker » et « Bloc-notes et IDE ».

Au-dessous de cette deuxième section, un texte indique « Les interfaces ouvertes prennent en charge les charges de travail interactives. » Ce texte comprend une flèche pointant vers la deuxième section précédemment décrite, située au-dessus, et une flèche pointant vers la troisième section, située au-dessous.

Cette troisième section est appelée « Moteurs d'intégration de données ». Le texte précise : « Choisissez un moteur de traitement de données évolutif sans serveur privilégié, avec une mise à l'échelle automatique et une tarification à l'usage ». Cette section comprend trois noms de moteur : « AWS Glue pour Ray », « AWS Glue pour Python Shell » et « AWS Glue pour Apache Spark ».

La quatrième section apparaît sur la droite de la deuxième section, avec une flèche pointant de la deuxième section vers la quatrième. La quatrième section indique : « Créez et chargez des données dans des lacs de données et des entrepôts de données ». Cette section comprend également trois éléments : « Amazon Redshift », « Lacs de données » et « Entrepôts de données ».

Cliquez pour agrandir
ETL basé sur les événements
AWS Glue peut exécuter vos tâches d'extraction, de transformation et de chargement (ETL) à mesure que les nouvelles données arrivent. Par exemple, vous pouvez configurer AWS Glue pour que vos tâches ETL s'exécutent dès que de nouvelles données sont disponibles dans Amazon Simple Storage Service (S3).
Catalogue de données AWS Glue
Vous pouvez utiliser le catalogue de données pour la découverte et la recherche rapides sur plusieurs jeux de données AWS sans devoir déplacer les données. Une fois que les données sont cataloguées, elles sont immédiatement disponibles pour la recherche et l'interrogation avec Amazon Athena, Amazon EMR et Amazon Redshift Spectrum.
Tâches ETL sans code
AWS Glue Studio facilite la création, l'exécution et la surveillance visuelles des tâches ETL dans AWS Glue. Vous pouvez créer des tâches ETL qui déplacent et transforment les données à l'aide d'un éditeur glisser-déposer. AWS Glue génère automatiquement le code.
Gérer et contrôler la qualité des données
AWS Glue Data Quality automatise la création, la gestion et la surveillance des règles de qualité des données afin de garantir des données de haute qualité dans vos lacs et pipelines de données.

Le diagramme montre comment AWS Glue Data Quality peut être utilisé pour créer des recommandations de règles, surveiller la qualité des données et envoyer des alertes lorsque la qualité des données se détériore. Trois sections s'affichent de gauche à droite.

La première section présente une illustration du Catalogue de données AWS Glue et de l'ETL AWS Glue. Sous le Catalogue de données AWS Glue, il est indiqué : « Cataloguez tous les jeux de données dans vos lacs de données ». Sous l'ETL AWS Glue, il est indiqué : « Intégrez et transformez les données provenant de sources de données disparates ».

La deuxième section est intitulée : « AWS Glue Data Quality ». Cette section comporte trois icônes. La première est une liste de contrôle. En dessous, il est écrit : « Recommandations de règles de qualité des données. Démarrez rapidement avec les recommandations automatiques de règles de qualité des données ». La deuxième icône est un crayon. En dessous, il est écrit : « Règles de qualité des données préconfigurées. Modifiez ou augmentez les recommandations avec des règles de qualité des données préconfigurées ». La troisième icône est une cloche. En dessous, il est écrit : « Alertes et actions. Ajoutez des alertes et des actions à effectuer lorsque la qualité des données se détériore ».

La troisième icône comprend deux icônes empilées. La première icône est un diagramme en barres. En dessous, il est écrit : « Mesures. Utilisez les mesures de qualité des données pour prendre des décisions commerciales en toute confiance ». La deuxième icône est un signe d'avertissement. En dessous, il est écrit : « Alertes. Utilisez des alertes pour être prévenu lorsque la qualité se détériore et prenez des mesures pour corriger les données ».

Cliquez pour agrandir
Préparation des données
AWS Glue DataBrew vous permet d'explorer et d'expérimenter avec des données provenant directement de votre lac de données, de vos entrepôts de données et de vos bases de données, y compris Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora et Amazon Relational Database Service (RDS). Vous pouvez choisir parmi plus de 250 transformations pré-intégrées dans DataBrew pour automatiser les tâches de préparation des données, telles que le filtrage des anomalies, la normalisation des formats et la correction des valeurs non valides.

Nouveautés

Aucun résultat correspondant

1 …

…

AWS Glue

Fonctionnement

Nouveautés

Découvrir davantage sur AWS

Fin de la prise en charge d'Internet Explorer