AWS Glue
Cloud AWS
S'inscrire à la version préliminaire

AWS Glue est un service ETL entièrement géré, qui facilite le déplacement des données entre vos magasins de données. AWS Glue simplifie et automatise les tâches difficiles et fastidieuses de découverte, de conversion, de mappage et de planification des tâches. AWS Glue vous guide dans le processus de déplacement de vos données grâce à une console facile à utiliser qui vous aide à comprendre vos sources de données, à préparer les données pour l'analyse et à les charger de façon fiable depuis les sources de données vers les destinations.

AWS Glue est intégré avec Amazon S3, Amazon RDS et Amazon Redshift, et peut se connecter à n'importe quel magasin de données compatible avec JDBC. AWS Glue analyse automatiquement vos sources de données, identifie les formats de données, puis propose des schémas et des transformations, de sorte que vous n'avez pas à passer du temps sur le codage manuel des flux de données. Vous pouvez ensuite modifier ces transformations, si nécessaire, en utilisant les outils et technologies que vous connaissez déjà, tels que Python, Spark, Git et votre environnement de développement intégré (IDE) préféré, et les partager avec d'autres utilisateurs d'AWS Glue. AWS Glue planifie vos travaux et provisions ETL et calcule toutes les infrastructures nécessaires pour que vos travaux ETL fonctionnent rapidement et efficacement à n'importe quelle échelle. Il n'y a pas de serveurs à gérer et vous ne payez que pour les ressources consommées par vos travaux ETL.

Présentation d’AWS Glue (2:17)

video-thumbnail-aws-glue-launch-reinvent2016
Présentation d’AWS Glue

Pour obtenir les dernières informations sur la disponibilité du service, inscrivez-vous ici et nous vous tiendrons au courant par e-mail.

Étape 1. Créer votre catalogue de données

Tout d'abord, vous utilisez AWS Management Console pour enregistrer vos sources de données avec AWS Glue. AWS Glue analyse vos sources de données et élabore un catalogue de données à l'aide de classificateurs préconfigurés pour de nombreux formats et types de données populaires, notamment JSON, CSV, Parquet et plus encore. Vous pouvez également ajouter vos propres classificateurs ou choisir des classificateurs de la communauté AWS Glue pour les ajouter à vos analyses.


Étape 1. Créer automatiquement votre catalogue de données
Étape 1. Créer automatiquement votre catalogue de données

Cliquez pour agrandir l'image


Étape 2. Générer et modifier des transformations

Ensuite, sélectionnez une source de données et une cible et AWS Glue générera le code Python pour extraire les données de la source, transformer les données en fonction du schéma cible et les charger dans la cible. Le code généré automatiquement gère les cas d'erreur courants, tels que les mauvaises données ou les défaillances matérielles. Vous pouvez modifier ce code en utilisant votre IDE préféré et le tester avec vos propres données d'échantillon. Vous pouvez également parcourir le code partagé par d'autres utilisateurs d'AWS Glue et l'utiliser dans vos travaux.


Étape 2. Générer les transformations
Étape 2. Générer les transformations

Cliquez pour agrandir l'image


Étape 3. Planifier et exécuter vos travaux

Enfin, vous pouvez utiliser le planificateur flexible d'AWS Glue pour exécuter vos flux de façon récurrente, en réponse à des déclencheurs ou même en réponse aux événements AWS Lambda. AWS Glue distribue automatiquement vos travaux ETL sur les nœuds Apache Spark, de sorte que vos temps d'exécution ETL restent cohérents à mesure que le volume de données augmente. AWS Glue coordonne l'exécution de vos travaux dans le bon ordre et réessaie automatiquement d'effectuer les travaux en échec. AWS Glue réduit de façon élastique l'infrastructure requise pour terminer vos travaux à temps et réduire les coûts.


Étape 3. Planifier et exécuter vos travaux
Étape 3. Planifier et exécuter vos travaux

Cliquez pour agrandir l'image


Terminé.

Et voilà ! Une fois les travaux ETL en production, AWS Glue vous aide à suivre les modifications apportées aux métadonnées, telles que les définitions de schéma et les formats de données, afin que vous puissiez garder vos travaux ETL à jour.

reinvent-hkt-banner-01

La conférence AWS re:Invent est le plus grand rassemblement de la communauté mondiale AWS. La conférence vous permet d’approfondir votre connaissance sur les services AWS et de vous familiariser avec les pratiques excellence. Nous avons annoncé AWS Glue au re:Invent 2016. Regardez les séances ci-dessous pour en savoir plus sur AWS Glue et les autres analyses associées, ou consultez la playlist complète des séances de groupe sur le big data.

AWS Glue est un service ETL entièrement géré facilitant la compréhension de vos sources de données, la préparation des données pour les analyses et leur chargement en toute fiabilité dans vos magasins de données. Au cours de cette séance, nous présentons AWS Glue, nous fournissons une vue d’ensemble de ces composants et examinons comment vous pouvez utiliser le service pour simplifier et automatiser votre processus ETL. Nous aborderons également quand vous pourrez essayer le service et comment vous inscirire pour une prévisualisation.

Regarder la vidéo »

 

L'analyse rapide et efficace de Big Data nécessite un entrepôt de données optimisé pour gérer et dimensionner de grands ensembles de données. Amazon Redshift est un entrepôt de données rapide doté d'une capacité de plusieurs pétaoctets qui permet d’exécuter des analyses de toutes vos données de façon simple et économique, pour un coût nettement inférieur à celui des entrepôts de données classiques. Au cours de cette session, nous nous penchons sur l’entreposage des données avec Amazon Redshift pour les analyses du big data. Nous traitons des pratiques d’excellence pour mettre à profit la technologie en colonnes et les capacités d’exécution parallèle d’Amazon Redshift afin de fournir un débit élevé et des performances de requête. Nous abordons également la manière de concevoir des schémas optimaux, charger efficacement les données et d’utiliser la gestion de la charge de travail.

Regarder la vidéo »

 

Le monde produit une quantité et une diversité de plus en plus importante de big data, à une rythme de plus en plus soutenu. Les consommateurs et les entreprises exigent des analyses instantanées de leurs données en constante évolution parallèlement au traitement par lots. AWS propose de nombreuses technologies pour la résolution des problèmes de big data. Mais quels services devez-vous utiliser, pourquoi, quand et comment ? Au cours de cette séance, nous simplifions le traitemen du big data sous forme d’un bus de données comprenant diverses étapes : ingestion, stockage, traitement et visualisation. Nous examinons ensuite la manière de choisir la bonne technologie à chaque étape en fonction des critères tels que la structure de données, la latence de requête, le prix, la fréquence de demande, la taille de l’élément, le volume de données, la durée de vie, etc. Enfin, nous vous proposons l’architecture de référence, les modèles de conception et les pratiques d’excellence pour l’assemblage de ces technologies afin de résoudre vos problèmes de big data à un prix raisonnable.

Regarder la vidéo »

 

Cliquez ici pour vous inscrire au programme d'essai de la version préliminaire d'AWS Glue. Une fois votre inscription approuvée, vous pourrez essayer ce service gratuitement.

S'inscrire à la version préliminaire