En tant que service ETL (Extract-Transform-Load) géré, AWS Data Pipeline vous permet de définir des mouvements et des transformations de données sur divers services AWS, ainsi que pour des ressources sur site. Avec Data Pipeline, vous définissez les processus dépendants pour créer votre pipeline composé des nœuds de données qui contiennent vos données ; des activités ou de la logique commerciale, comme les tâches EMR ou les requêtes SQL qui s'exécuteront séquentiellement ; et du planning d'exécution de votre logique commerciale.

Par exemple, si vous souhaitez transférer des données de parcours de navigation d'Amazon S3 vers Amazon Redshift, vous devrez définir un pipeline avec un S3DataNode qui stocke vos fichiers journaux, un HiveActivity qui convertit vos fichiers journaux en un fichier .csv grâce à un cluster Amazon EMR et le stocke à nouveau dans S3, un RedshiftCopyActivity qui copie vos données de S3 vers Redshift, et un RedshiftDataNode qui se connecte à votre cluster Redshift. Vous pouvez ensuite choisir un planning à exécuter en fin de journée.

AWS Data Pipeline transfère les données de parcours de navigation d'Amazon S3 vers Amazon Redshift.

Utilisez AWS Data Pipeline pour transférer les données de parcours de navigation d'Amazon S3 vers Amazon Redshift.

Découvrez gratuitement AWS.

Créer un compte gratuit
Ou connectez-vous à la console.

L'offre gratuite AWS inclut 3 conditions préalables à faible fréquence et 5 activités à faible fréquence avec AWS Data Pipeline.

Consulter les informations relatives à l'offre gratuite AWS »

Vous pouvez également définir des préconditions permettant de vérifier si vos données sont disponibles avant le lancement de toute activité spécifique. Dans l'exemple ci-dessus, vous pouvez disposer d'une précondition sur le S3DataNode qui vérifie si les fichiers journaux sont disponibles avant le lancement de la HiveActivity.

AWS Data Pipeline gère :

  • la planification, l'exécution et la logique de retentative de vos tâches ;
  • le suivi des liens de dépendance entre votre logique métier, les sources de données et les étapes antérieures de traitement afin de garantir que votre logique ne s'exécute que lorsque tous ses liens de dépendance sont satisfaits ;
  • l'envoi d'éventuelles notifications d'échec ;
  • la création et la gestion des ressources de calcul nécessaires pour vos tâches.

 

Cas d'utilisation

Données ETL vers Amazon Redshift

Copiez des tables RDS ou DynamoDB vers S3, transformez la structure des données, exécutez une analyse avec les requêtes SQL et chargez-les dans Redshift.

Données ETL non structurées

Analysez des données non structurées comme les journaux de parcours de navigation avec Hive ou Pig sur EMR, combinez-les aux données structurées de RDS et chargez-les dans Redshift pour faciliter les requêtes.

Chargez les données de journaux AWS vers Amazon Redshift.

Chargez les fichiers de journaux issus de journaux de facturation AWS, par exemple, ou de journaux AWS CloudTrail, Amazon CloudFront ou encore Amazon CloudWatch, depuis Amazon S3 vers Redshift.

Chargements et extractions de données

Copiez des données de votre table RDS ou Redshift vers S3 et inversement.

Transférer vers le cloud

Copiez en toute simplicité des données de votre magasin de données sur site, comme une base de données MySQL, et transférez-les vers un magasin de données AWS, par exemple S3, pour les rendre disponibles pour divers services AWS, comme Amazon EMR, Amazon Redshift et Amazon RDS.

 

Sauvegarde et restauration Amazon DynamoDB

Sauvegardez régulièrement votre table DynamoDB sur S3 à des fins de reprise après sinistre.

Commencez dès maintenant à utiliser AWS Data Pipeline via AWS Management Console, l'interface de ligne de commande AWS ou les API de services.