AWS Data Pipeline est un service Web qui offre un système de gestion unique pour les flux de travail guidés par les données. Avec AWS Data Pipeline, vous définissez un pipeline contenant des « sources de données » qui renferment vos données, des « activités » ou la logique métier (tâches EMR ou requêtes SQL, par exemple) et le « calendrier » selon lequel votre logique métier s'exécute. Par exemple, vous pouvez définir une tâche qui, chaque heure, exécute une analyse basée sur Amazon Elastic MapReduce (Amazon EMR) et portant sur les données consignées au cours de cette heure dans Amazon Simple Storage Service (Amazon S3). Les résultats de cette analyse sont ensuite chargés dans une base de données relationnelle pour leur consultation ultérieure et un récapitulatif quotidien vous est automatiquement envoyé par e-mail.

AWS Data Pipeline gère :

  • la planification, l'exécution et la logique de réitération de vos tâches ;
  • le suivi des liens de dépendance entre votre logique métier, les sources de données et les étapes antérieures de traitement afin de garantir que votre logique ne s'exécute que lorsque tous ses liens de dépendance sont satisfaits ;
  • l'envoi des éventuelles notifications d'échec ;
  • la création et la gestion des ressources de calcul temporaires nécessaires.

Découvrez gratuitement AWS

Créez un compte gratuit
ou connectez-vous à la console

Le niveau gratuit d'AWS inclut 3 conditions préalables à faible fréquence et 5 activités à faible fréquence avec AWS Data Pipeline.

Voir les détails relatifs au niveau gratuit d'AWS »

Afin de s'assurer que les données sont disponibles avant l'exécution de l'activité, AWS Data Pipeline vous permet de créer des vérifications facultatives de la disponibilité des données. Ces vérifications sont appelées « conditions préalables ». Ces vérifications cherchent continuellement à contrôler la disponibilité des données et bloquent l'exécution des activités liées tant que les conditions préalables ne sont pas satisfaites.

Pour utiliser AWS Data Pipeline, procédez simplement comme suit :

  • Utilisez AWS Management Console, l'interface de ligne de commande ou les API du service afin de définir vos sources de données, conditions préalables et activités, ainsi que leur calendrier d'exécution et les éventuelles conditions de notification.
  • Des notifications automatiques et configurables vous seront envoyées si vos données ne sont pas disponibles à la date prévue ou si vos activités génèrent des erreurs.

Dans AWS Management Console, la section relative aux modèles vous permet de sélectionner (et d'exploiter) diverses tâches AWS Data Pipeline couramment utilisées. En voici quelques-unes :

  • Analyse des données consignées dans Amazon S3 toutes les heures
  • Réplication quotidienne des données Amazon DynamoDB vers Amazon S3
  • Réplication régulière des tables de base de données JDBC sur site dans RDS

Pour plus d'informations, consultez le manuel AWS Data Pipeline Developer Guide.

Votre utilisation de ce service est soumise au Contrat client Amazon Web Services.