Je veux optimiser l'utilisation d'un cluster EMR en exécutant simultanément plusieurs travaux Hadoop à l'aide d'AWS Data Pipeline avec un planificateur d'équité ou de capacité, plutôt que des étapes sérialisées. Comment puis-je faire cela ?

AWS Data Pipeline prend en charge la soumission de travaux parallèles ou simultanés à l'aide de HadoopActivity. Vous pouvez choisir un planificateur d'équité ou un planificateur de capacité pour optimiser l'utilisation des ressources du cluster ; l'outil le plus adapté dépend de votre cas d'utilisation.

Data Pipeline utilise le gestionnaire de stockage Amazon DynamoDB, une application MapReduce qui importe et exporte les tables DynamoDB. L'exemple suivant inclut également les étapes à suivre pour exporter la table spécifiée dans Amazon S3 à l'aide de HadoopActivity.

Remarque : Les ressources DynamoDB, EMRCluster et S3 de cette sauvegarde doivent se trouver dans la même région AWS.

Vous pouvez utiliser la syntaxe JSON avec HadoopActivity ou utiliser la console AWS :

  1. Connectez-vous à la console Data Pipeline et choisissez Create Pipeline.
  2. Incluez les éléments suivants dans les champs :
    Pour Name, insérez un nom ayant une signification pour vous.
    Pour Source, choisissez Build using Architect.
    Pour Run, choisissez On pipeline activation.
    Pour Logging, ajoutez un emplacement S3 dans lequel copier les journaux d'exécution, ou choisissez Disabled.
  3. Choisissez Edit in Architect.
  4. Choisissez Add et sélectionnez HadoopActivity.
  5. Dans le champ Jar URI, entrez s3://dynamodb-emr-/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar, en ajoutant la région dans laquelle se trouvent vos ressources.
  6. Depuis le menu Add an optional field, choisissez Argument. Ajoutez un nouveau champ Argument pour chacune des quatre valeurs.
  7. Insérez l'entrée suivante dans le nouveau champ Argument , en ajoutant les noms et les emplacements de vos ressources, comme requis :
    [org.apache.hadoop.dynamodb.tools.DynamoDbExport, , , 0.25]
  8. A partir du menu Add an optional field menu, choisissez Runs On.
  9. Ouvrez le menu déroulant Runs On que vous venez de créer, puis choisissez Create new : EMR Cluster.
  10. Répétez les étapes 4 et 5 pour chaque table DynamoDB à sauvegarder.
  11. Ouvrez le menu déroulant Resource sur la droite de l'écran, puis choisissez le volet EmrCluster .
  12. Depuis le menu Add an optional field, choisissez les options et les paramètres suivants :
    Choisissez Release Label et entrez emr-4.7.2.
    Choisissez Master Instance Type et entrez une taille d'instance correspondant à vos besoins.
    Choisissez Core Instance Type et entrez un type d'instance correspondant à vos besoins.
    Choisissez Hadoop Scheduler Type et entrez PARALLEL_CAPACITY_SCHEDULING ou PARALLEL_FAIR_SCHEDULING, selon que vous voulez utiliser un planificateur de capacité ou d'équité.
  13. Choisissez Activate.

Si une paire de clés EC2 est associée à votre cluster EMR, vous pouvez vous connecter au nœud maître et exécuter la commande yarn application –list pour vérifier le nombre d'applications en cours d'exécution.

HadoopActivity, sauvegarde dynamodb


Cette page vous a-t-elle été utile ? Oui | Non

Retour au Centre de connaissances AWS Support

Vous avez besoin d'aide ? Consultez le site du Centre AWS Support

Date de publication : 04/10/2016