En tant que service ETL (Extract-Transform-Load) géré, AWS Data Pipeline vous permet de définir des mouvements et des transformations de données sur divers services AWS, ainsi que pour des ressources sur site. Avec Data Pipeline, vous définissez les processus dépendants pour la création de votre pipeline composé des nœuds de données contenant vos données, les activités, ou la logique commerciale, comme les tâches EMR ou les requêtes SQL qui s’exécuteront par la suite, et le planning sur lequel s’exécute la logique commerciale.

Par exemple, si vous souhaitez déplacer des données de flux de clics d'Amazon S3 vers Amazon Redshift, vous pouvez définir un pipeline avec un S3DataNode qui stocke vos fichiers journaux, un HiveActivity qui convertira vos fichiers journaux en fichier .csv grâce à un cluster Amazon EMR et le stockera à nouveau dans S3, un RedshiftCopyActivity qui copiera vos données de S3 vers Redshift, et un RedshiftDataNode qui se connectera à votre cluster Redshift. Vous pouvez ensuite choisir un planning à exécuter en fin de journée.

ExampleWorkflow

PLACEHOLDER: Use AWS Data Pipeline to move clickstream data from Amazon S3 to Amazon Redshift.

Découvrez gratuitement AWS

Créez un compte gratuit
Vous pouvez également vous connecter à la console

Le niveau gratuit d'AWS inclut 3 conditions préalables à faible fréquence et 5 activités à faible fréquence avec AWS Data Pipeline.

Voir les détails relatifs au niveau gratuit d'AWS »

Vous pouvez également définir des préconditions permettant de vérifier si vos données sont disponibles avant le lancement de toute activité spécifique. Dans l'exemple ci-dessus, vous pouvez disposer d'une précondition sur le S3DataNode qui vérifiera si les fichiers journaux sont disponibles avant le lancement de la HiveActivity.

AWS Data Pipeline gère :

  • la planification, l'exécution et la logique de réitération de vos tâches ;
  • le suivi des liens de dépendance entre votre logique métier, les sources de données et les étapes antérieures de traitement afin de garantir que votre logique ne s'exécute que lorsque tous ses liens de dépendance sont satisfaits ;
  • l'envoi des éventuelles notifications d'échec ;
  • la création et la gestion des ressources de calcul nécessaires.

 

Cognito_page_divider

Données ETL vers Amazon Redshift

Copiez des tableaux RDS ou DynamoDB vers S3, transformez la structure des données, exécutez une analyse avec les requêtes SQL et chargez-la dans Redshift.

Données ETL non structurées

Analysez des données non structurées comme les journaux de flux de clics avec Hive ou Pig sur EMR, combinez-les aux données structurées de RDS et chargez-les dans Redshift pour faciliter les requêtes.

Chargez des données de journal AWS vers Amazon Redshift

Chargez des fichiers de journal, des journaux de facturation AWS, par exemple, ou de journaux AWS CloudTrail, Amazon CloudFront ou encore Amazon CloudWatch depuis Amazon S3 vers Redshift.

Chargements et extractions de données

Copiez des données de tableaux RDS ou Redshift vers S3 et inversement.

Déplacez vers le cloud

Copiez en toute simplicité des données de votre magasin de données sur site, comme une base de données MySQL, et déplacez-les vers un magasin de données AWS, comme S3, pour les rendre disponibles pour divers services AWS comme Amazon EMR, Amazon Redshift et Amazon RDS.

 

Sauvegarde et restauration d’Amazon DynamoDB

Sauvegardez régulièrement votre tableau DynamoDB sur S3 à des fins de récupération après sinistre.

Commencez à utiliser AWS Data Pipeline via AWS Management Console, l’interface de ligne de commande AWS ou les API de service.