Découvrez gratuitement AWS

Créez un compte gratuit
Vous pouvez également vous connecter à la console

Le niveau gratuit d'AWS inclut 750 heures d'exécution d'un nœud de cache Micro avec Amazon ElastiCache.

Voir les détails relatifs au niveau gratuit d'AWS »

Q : En quoi consiste AWS Data Pipeline ?

AWS Data Pipeline est un service Web qui facilite la planification des activités régulières de traitement et de transfert de données dans le cloud AWS. AWS Data Pipeline s'intègre aux systèmes de stockage sur site et dans le cloud afin de permettre aux développeurs d'exploiter leurs données à tout moment, quand et où ils en ont besoin et dans le format requis. AWS Data Pipeline vous permet de définir rapidement une série interdépendante de sources de données, de destinations et d'activités prédéfinies ou personnalisées pour le traitement des données, le tout formant ce qu'on appelle un « pipeline ». Selon un calendrier que vous définissez, votre pipeline lance régulièrement des activités de traitement telles que la copie de données distribuées, des conversions SQL, des applications MapReduce ou des scripts personnalisés selon les destinations (Amazon S3, Amazon RDS ou Amazon DynamoDB, par exemple). En appliquant cette logique de planification, réitération et échec aux flux de travail dans le cadre d'un service entièrement géré, AWS Data Pipeline garantit la robustesse et la haute disponibilité de vos pipelines.

Q : Que puis-je faire avec AWS Data Pipeline ?

Avec AWS Data Pipeline, vous pouvez, rapidement et facilement, mettre en service des pipelines grâce auxquels vous n'avez plus à consacrer vos efforts de développement et de maintenance à la gestion des opérations réalisées quotidiennement sur vos données. Vous pouvez ainsi vous concentrer sur l'exploitation pertinente de ces données. Pour ce faire, précisez simplement les sources de données, les calendriers et les activités de traitement pour votre pipeline de données. AWS Data Pipeline gère l'exécution et la surveillance de vos activités de traitement sur une infrastructure hautement fiable et tolérante aux pannes. En outre, pour simplifier davantage le processus de développement, AWS Data Pipeline fournit des activités préintégrées pour les actions courantes telles que la copie de données entre Amazon S3 et Amazon RDS, ou l'exécution d'une interrogation sur les données des fichiers journaux Amazon S3.

Q : En quoi AWS Data Pipeline diffère-t-il d'Amazon Simple Workflow Service ?

Bien que ces deux services fournissent des fonctions de suivi, de réitération et de gestion des exceptions et permettent de lancer des actions arbitraires, AWS Data Pipeline est spécialement conçu pour simplifier les étapes spécifiques qui sont communes à la plupart des flux guidés par les données. Il s'agit, en particulier, d'exécuter des activités en fonction de critères précis de disponibilité auxquels les données saisies répondent, de copier aisément des données entre des magasins de données distincts et de planifier des transformations chaînées. Grâce à cette spécificité, les définitions de flux de travail peuvent être créées très rapidement et sans aucune connaissance en matière de programmation ou de code.

Q : Qu'est-ce qu'un pipeline ?

Un pipeline est la ressource AWS Data Pipeline qui contient la définition de la suite interdépendante de sources de données, de destinations et d'activités prédéfinies ou personnalisées servant au traitement des données. Le pipeline est nécessaire à l'exécution de votre logique métier.

Q : Qu'est-ce qu'un nœud de données ?

Un nœud de données est une représentation de vos données métier. Par exemple, un nœud de données peut référencer un chemin Amazon S3 spécifique. AWS Data Pipeline prend en charge un langage d'expression qui permet de référencer facilement les données générées de manière régulière. Par exemple, vous pouvez indiquer que vos données Amazon S3 sont au format s3://example-bucket/my-logs/logdata-#{scheduledStartTime('YYYY-MM-dd-HH')}.tgz.

Q : Qu'est-ce qu'une activité ?

Une activité est une action initiée par AWS Data Pipeline à votre place, dans le cadre d'un pipeline. Les activités possibles sont, par exemple, des tâches EMR ou Hive, des copies, des requêtes SQL ou des scripts de ligne de commande.

Q : Qu'est-ce qu'une condition préalable ?

Une condition préalable consiste en une vérification de la disponibilité. Elle peut éventuellement être associée à une source de données ou à une activité. Si une vérification de condition préalable est associée à une source de données, cette vérification doit être positive pour que toute activité relative à la source de données puisse être lancée. Dans le cas où une activité dispose d'une condition préalable, la vérification de cette condition préalable doit être réussie avant que l'activité ne soit lancée. Cette précaution peut être utile notamment dans le cas où vous exécutez une activité dont le traitement est onéreux et qui ne doit être lancée que si des critères spécifiques sont satisfaits.

Q : Qu'est-ce qu'un calendrier ?

Les calendriers définissent quand vos activités de pipeline s'exécutent et la fréquence à laquelle le service attend la mise à disposition des données. Tous les calendriers doivent avoir une date de début et une fréquence (par exemple, chaque jour à compter du 1 janv. 2013, 15h). Il est éventuellement possible d'indiquer une date de fin dans le calendrier, au-delà de laquelle le service AWS Data Pipeline n'exécutera plus aucune activité. Lorsque vous associez un calendrier à une activité, celle-ci s'exécute en conséquence. Lorsque vous associez un calendrier à une source de données, vous indiquez au service AWS Data Pipeline que vous vous attendez à ce que les données soient mises à jour selon ce calendrier. Par exemple, si vous définissez une source de données Amazon S3 avec une planification toutes les heures, le service s'attend à ce que, chaque heure, la source de données comporte de nouveaux fichiers.



Q : AWS Data Pipeline fournit-il des activités standard ?

Oui, AWS Data Pipeline intègre la prise en charge des activités suivantes :

  • CopyActivity : Cette activité peut copier des données entre les sources de données Amazon S3 et JDBC, ou exécuter une requête SQL et en copier le résultat dans Amazon S3.
  • HiveActivity : Cette activité vous permet d'exécuter facilement des requêtes Hive.
  • EMRActivity : Cette activité vous permet d'exécuter des tâches Amazon EMR arbitraires.
  • ShellCommandActivity : Cette activité vous permet d'exécuter des programmes ou des commandes shell Linux arbitraires.

Q : AWS Data Pipeline fournit-il des conditions préalables standard ?

Oui, AWS Data Pipeline intègre la prise en charge des conditions préalables suivantes :

  • DynamoDBDataExists : Cette condition préalable vérifie si des données figurent dans une table DynamoDB.
  • DynamoDBTableExists : Cette condition préalable vérifie si une table DynamoDB existe.
  • S3KeyExists : Cette condition préalable vérifie qu'un chemin Amazon S3 donné existe.
  • S3PrefixExists : Cette condition préalable vérifie qu'au moins un fichier existe sous le chemin en question.
  • ShellCommandPrecondition : Cette condition préalable exécute un script arbitraire sur vos ressources et vérifie la réussite de l'exécution.

Q : Puis-je ajouter mes propres activités personnalisées ?

Oui, vous pouvez utiliser ShellCommandActivity pour exécuter une logique d'activité arbitraire.

Q : Puis-je ajouter mes propres conditions préalables personnalisées ?

Oui, vous pouvez utiliser ShellCommandPrecondition pour exécuter une logique de condition préalable arbitraire.

Q : Est-il possible de définir plusieurs calendriers pour différentes activités au sein du même pipeline ?

Oui, précisez simplement plusieurs objets de calendrier dans votre fichier de définition du pipeline et associez un calendrier à l'activité souhaitée via le champ de planification correspondant. De cette manière, vous pouvez définir un calendrier selon lequel, par exemple, les fichiers journaux sont stockés dans Amazon S3 toutes les heures en vue de générer un rapport cumulé une fois par jour.

Q : Que se passe-t-il si une activité échoue ?

Une activité échoue si toutes les tentatives d'exécution renvoient une erreur. Par défaut, une activité est relancée trois fois avant de renvoyer une erreur permanente. Vous pouvez augmenter le nombre de tentatives automatiques à 10 ; toutefois, le système n'autorise pas un nombre illimité de tentatives. Lorsqu'une activité a épuisé toutes ses tentatives, elle déclenche une éventuelle alarme onFailure configurée et plus aucune tentative n'est effectuée, à moins que vous ne lanciez manuellement une commande de réitération via l'interface de ligne de commande, l'API ou le bouton de la console.

Q : Comment ajouter des alarmes à une activité ?

Vous pouvez définir des alarmes Amazon SNS qui se déclenchent en cas de réussite, d'échec ou de retard de l'activité. Créez un objet d'alarme et référencez-le dans les éléments onFail, onSuccess ou onLate de l'objet d'activité.

Q : Puis-je relancer manuellement les activités qui ont échoué ?

Oui. Vous pouvez relancer un jeu d'activités terminées ou ayant échoué en redéfinissant leur état sur SCHEDULED. Pour cela, vous pouvez utiliser le bouton Rerun de l'interface utilisateur ou modifier leur état via une ligne de commande ou l'API. Une nouvelle vérification de tous les liens de dépendance de l'activité est planifiée, suivie de l'exécution des nouvelles tentatives. Suite à un nouvel échec, l'activité relance le nombre initial de tentatives.

Q : Quelles sont les ressources utilisées pour exécuter les activités ?

Les activités AWS Data Pipeline s'exécutent sur les ressources de calcul que vous possédez. Il existe deux types de ressources de calcul : celles qui sont gérées par AWS Data Pipeline et celles dont vous assurez la gestion. Les ressources gérées par AWS Data Pipeline sont des clusters Amazon EMR ou des instances Amazon EC2 qu'AWS Data Pipeline lance uniquement lorsque cela est nécessaire. Les ressources que vous gérez s'exécutent sur une plus longue durée. Il peut s'agir de n'importe quelle ressource capable d'exécuter une instance de l'application Task Runner, basée sur Java, qui est utilisée par AWS Data Pipeline (matériel sur site, instance Amazon EC2 gérée par le client, etc.).

Q : Le service AWS Data Pipeline procède-t-il automatiquement à la mise en service et à l'arrêt des ressources de calcul dont il assure la gestion ?

Oui, les ressources de calcul sont mises en service dès lors que la première activité planifiée qui en a besoin est prête à s'exécuter. Ces instances sont ensuite arrêtées lorsque la dernière activité qui utilise les ressources a abouti ou a échoué.

Q : Plusieurs ressources de calcul peuvent-elles être utilisées sur le même pipeline ?

Oui, précisez simplement plusieurs objets de cluster dans votre fichier de définition et associez le cluster à utiliser pour chaque activité via le champ runsOn correspondant. De cette manière, les pipelines peuvent associer ressources AWS et ressources sur site, ou utiliser une combinaison de types d'instance pour leurs activités. Vous pouvez, par exemple, utiliser une instance t1.micro pour exécuter un script rapide à moindre coût, mais par la suite le pipeline peut inclure une tâche Amazon EMR qui nécessite la puissance d'un cluster comprenant des instances de taille supérieure.

Q : Puis-je exécuter des activités sur mes ressources sur site et sur les ressources AWS que je gère ?

Oui. Afin de permettre l'exécution d'activités au niveau des ressources sur site, AWS Data Pipeline fournit un package Task Runner que vous pouvez installer sur vos hôtes sur site. Ce package interroge en permanence le service AWS Data Pipeline pour savoir si des tâches doivent être effectuées. Lorsqu'une activité donnée doit être exécutée sur vos ressources sur site (exécution d'une procédure stockée de base de données ou vidage du contenu d'une base de données, par exemple), AWS Data Pipeline transmet la commande correspondante à Task Runner. Afin de garantir la haute disponibilité de vos activités de pipeline, vous pouvez éventuellement affecter plusieurs instances Task Runner pour scruter une tâche donnée. De cette manière, si une instance Task Runner venait à être indisponible, les autres prendraient simplement le relais.

Q : Comment installer une instance Task Runner sur mes hôtes sur site ?

Vous pouvez installer le package Task Runner sur vos hôtes sur site en procédant comme suit :

  1. Téléchargez le package AWS Task Runner.
  2. Créez un fichier de configuration incluant vos informations d'identification AWS.
  3. Lancez l'agent Task Runner à l'aide de la commande suivante :
    java -jar TaskRunner-1.0.jar --config ~/credentials.json --workerGroup=[myWorkerGroup]
  4. Lorsque vous définissez des activités, indiquez qu'elles doivent s'exécuter sur [myWorkerGroup] afin de les diriger vers les hôtes installés précédemment.

Q : Comment commencer à utiliser AWS Data Pipeline ?

Pour faire vos premiers pas avec AWS Data Pipeline, rendez-vous simplement sur AWS Management Console et accédez à l'onglet AWS Data Pipeline. A partir de là, vous pouvez créer un pipeline à l'aide d'un simple éditeur graphique.

Q : Que puis-je faire avec AWS Data Pipeline ?

Avec AWS Data Pipeline, vous pouvez planifier et gérer des tâches régulières de traitement des données. Ce service peut remplacer vos systèmes basiques qui sont actuellement gérés par des solutions fragiles reposant sur cron. Vous pouvez également l'utiliser pour élaborer des tâches complexes de traitement des données impliquant plusieurs étapes.

Q : Des exemples de pipeline sont-ils disponibles afin d'essayer AWS Data Pipeline ?

Oui, des exemples de pipeline figurent dans notre documentation. De plus, la console dispose de plusieurs gabarits de pipeline que vous pouvez utiliser pour commencer.

Q : Combien de pipelines puis-je créer dans AWS Data Pipeline ?

Par défaut, votre compte accepte jusqu'à 100 pipelines.

Q : Existe-t-il des restrictions concernant le contenu que je peux placer au sein d'un seul et même pipeline ?

Par défaut, chaque pipeline que vous créez peut comporter jusqu'à 100 objets.

Q : Ces restrictions sont-elles modifiables ?

Oui. Si vous souhaitez que ces restrictions soient revues à la hausse, contactez-nous.

Q : vos prix sont-ils toutes taxes comprises ?

Sauf indication contraire, nos prix n'incluent pas les taxes et redevances applicables, y compris la TVA et les taxes sur les ventes applicables.Pour les clients dont l'adresse de facturation est située au Japon, l'utilisation de services AWS est soumise à la taxe sur la consommation applicable dans ce pays. En savoir plus.