Comment puis-je déterminer si je dois utiliser une action d'amorçage ou une étape sur un cluster Amazon EMR ?

Date de la dernière mise à jour : 11/05/2020

Dans quels cas est-il nécessaire d'exécuter une action d'amorçage ou une étape sur un cluster Amazon EMR ?

Courte description

Les actions d'amorçage permettent d'installer des logiciels supplémentaires sur un cluster EMR. Les étapes permettent, quant à elles, de soumettre des tâches à un cluster EMR ou de traiter des données.

Résolution

Actions d'amorçage

  • Les actions d'amorçage s'exécutent une fois que l'état du cluster passe de DÉMARRAGE à AMORÇAGE. Les actions d'amorçage s'exécutent avant l'installation des services principaux, tels que Hadoop ou Spark. Si une action d'amorçage échoue, le cluster ne démarre pas. Pour obtenir des informations supplémentaires, consultez la section Présentation du cycle de vie d'un cluster.
  • Les actions d'amorçage s'exécutent sur tous les nœuds du cluster. Les actions d'amorçage sont des scripts qui s'exécutent en tant qu'utilisateur Hadoop par défaut, mais ils peuvent aussi s'exécuter en tant qu'utilisateur root avec la commande sudo. Vous pouvez configurer des actions d'amorçage pour exécuter des commandes sous certaines conditions, sur la base de valeurs propres à l'instance dans le fichier instance.json ou job-flow.json.

Remarque : sur les versions 2.x et 3 x d'Amazon EMR, les actions d'amorçage s'exécutent après l'installation des services de base. La plupart des actions d'amorçage prédéfinies pour les AMI Amazon EMR 2.x et 3.x ne sont pas prises en charge dans les versions ultérieures d'Amazon EMR. Pour plus d'informations, consultez la rubrique Création d'actions d'amorçage pour installer des logiciels supplémentaires.

Étapes

  • Une étape est une unité de travail contenant une ou plusieurs tâches Hadoop. Les étapes sont généralement utilisées pour transférer ou traiter des données. Une étape peut soumettre du travail à un cluster. D'autres étapes peuvent traiter les données soumises, puis envoyer les données traitées à un emplacement particulier.
  • Les étapes démarrent après les actions d'amorçage et ne s'exécutent que sur le nœud maître. Pour obtenir des informations supplémentaires, consultez la section Exécution d'étapes pour traiter des données.
  • Dans la version 5.28.0 ou ultérieure d'Amazon EMR, vous pouvez exécuter plusieurs étapes en parallèle. Dans les versions antérieures d'Amazon EMR, les étapes s'exécutent de manière séquentielle.
  • Lorsque vous configurez une étape, vous pouvez définir l'action qui s'effectue après son échec.

Pour plus d'informations sur les étapes, consultez la rubrique Utilisation d'étapes à l'aide de l'interface de ligne de commande et de la console AWS.


Cet article vous a-t-il été utile ?

Cette page peut-elle être améliorée ?


Vous avez besoin d’aide ?