Magesh vous montre comment
exécuter des tâches EMR simultanées
à l'aide d’AWS Data Pipeline.

concurrent-emr-jobs-data-pipeline-magesh

Comment exporter plusieurs tables Amazon DynamoDB vers Amazon Simple Storage Service (Amazon S3) à l'aide d'AWS Data Pipeline ? Je ne souhaite pas créer plusieurs pipelines.

Lorsque vous utilisez le modèle Export DynamoDB table to S3 (Exporter la table DynamoDB vers S3), vous devez créer un pipeline distinct pour chaque table que vous souhaitez sauvegarder. Si vous souhaitez exporter plusieurs tables DynamoDB vers Amazon S3 à l'aide d'un pipeline de données, utilisez l'objet HadoopActivity pour envoyer des tâches Amazon EMR simultanées. Pour optimiser l'utilisation des ressources sur votre cluster Amazon EMR, utilisez l'objet FairScheduler ou CapacityScheduler, selon le plus adapté à votre cas d'utilisation.

  1. Connectez-vous à la console Data Pipeline.
  2. Cliquez sur Créer nouveau pipeline, puis remplissez les champs suivants :
    Nom : saisissez un nom.
    Source : sélectionnez Build using Architect (Créer à l'aide de l’architecte).
    Run (Exécuter) : sélectionnez on pipeline activation (à l'activation du pipeline).
    Journalisation : sélectionnez Activée ou Désactivée, en fonction de votre cas d'utilisation.
  3. Sélectionnez Edit in Architect (Modifier dans l’architecte).
  4. Cliquez sur Ajouter dans le coin supérieur gauche, puis sélectionnez HadoopActivity.
  5. Ouvrez la section Activités et recherchez l'objet HadoopActivity. Il porte un nom du type « DefaultHadoopActivity1 ».
  6. URI Jar : saisissez s3://dynamodb-emr-Region/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar. Remplacez la Région par la région dans laquelle se trouve votre table DynamoDB, par exemple us-east-1.
  7. Dans la liste Add an optional field (Ajouter un champ facultatif), sélectionnez Argument. Répétez cette étape trois fois pour créer un total de quatre champs Argument.
  8. Dans le premier champ Argument, saisissez org.apache.hadoop.dynamodb.tools.DynamoDbExport.
  9. Dans le deuxième champ Argument, saisissez un chemin Amazon S3. Ce dernier servira d'emplacement à la table DynamoDB exportée.
    Remarque : les tables DynamoDB et le compartiment S3 doivent se situer dans la même région AWS.
  10. Dans le troisième champ Argument, saisissez le nom de votre table DynamoDB (par exemple, Utilisateurs).
  11. Dans le quatrième champ Argument, saisissez une valeur comprise entre 0,1 et 1,0. Celle-ci représente le taux de débit de lecture de DynamoDB.
  12. Dans le menu déroulant Add an optional field (Ajouter un champ facultatif), sélectionnez Runs On (Exécutions en cours).
  13. Dans le menu déroulant Runs On (Exécutions en cours), sélectionnez Create new: EmrCluster (Créer nouveau : EmrCluster).
  14. Répétez les étapes 4 à 12 pour chaque table DynamoDB que vous souhaitez exporter.
  15. Ouvrez la section Ressources, puis recherchez l'objet de cluster Amazon EMR. Il porte un nom du type « DefaultEmrCluster1 ».
  16. Ajoutez les champs suivants à partir de la liste Add an optional field (Ajouter un champ facultatif) :
    Cliquez sur Release Label (Étiquette de version), puis saisissez le numéro de version d'Amazon EMR que vous souhaitez utiliser, par exemple emr-5.20.0. Pour plus d'informations, consultez la section À propos des versions d'Amazon EMR.
    Sélectionnez Master Instance Type (Type d’instance principale), puis saisissez une taille d’instance qui convienne à votre cas d’utilisation, par exemple m5.xlarge.
    Sélectionnez Core Instance Type (Type d’instance de base), puis saisissez une taille d'instance qui convienne à votre cas d’utilisation.
    Sélectionnez Hadoop Scheduler Type (Type de planificateur Hadoop), puis saisissez PARALLEL_CAPACITY_SCHEDULING ou PARALLEL_FAIR_SCHEDULING, selon le mode de distribution que vous souhaitez utiliser pour le cluster. Pour plus d'informations, consultez la section EmrCluster.
  17. Répétez l'étape 16 pour chaque cluster Amazon EMR dans la section Ressources.
  18. Cliquez sur Enregistrer dans le coin supérieur gauche, puis sélectionnez Activer.

Si votre cluster Amazon EMR possède une paire de clés Amazon Elastic Compute Cloud (Amazon EC2), vous pouvez vous connecter au nœud maître à l'aide de SSH et exécuter historique des applications - liste pour voir le nombre d'applications en cours d'exécution.


Cette page vous a-t-elle été utile ? Oui | Non

Retour au Centre de connaissances AWS Support

Vous avez besoin d'aide ? Consultez le site du Centre AWS Support.

Date de publication : 04/10/2016

Date de mise à jour : 26/02/2019