Quels sont les cas d'utilisation propices à l'exécution d'une action d'amorçage ou d'une étape sur mon cluster Amazon EMR ?

L'exécution d'actions d'amorçage et d'étapes Amazon EMR permet d'achever un travail ou une tâche sur des clusters Amazon EMR. La différence entre celles-ci est déterminée par le moment et l'emplacement auxquels elles sont exécutées au cours du cycle de vie d'un cluster, ainsi que le type de travail qu'elles effectuent.

Actions d'amorçage

Comme décrit dans Présentation du cycle de vie du cluster, les actions d'amorçage sont les premières à être exécutées une fois qu'un cluster Amazon EMR passe de l'état STARTING à l'état BOOTSTRAPPING. Les actions d'amorçage exécutées sur tous les nœuds du cluster sont des scripts qui s'exécutent en tant qu'utilisateur Hadoop par défaut, mais ils peuvent également s'exécuter en tant qu'utilisateur racine à l'aide de la commande sudo. Vous pouvez spécifier jusqu'à 16 actions d'amorçage par cluster en fournissant plusieurs paramètres bootstrap-action depuis la console, l'interface de ligne de commande AWS (AWS CLI) ou l'API.

Vous pouvez utiliser des actions d'amorçage pour installer des logiciels supplémentaires sur votre cluster. Elles peuvent également être configurées pour exécuter des commandes sous certaines conditions en fonction de valeurs spécifiques à l'instance se trouvant dans le fichier instance.json ou job-flow.json. Dans la mesure où les actions d'amorçage sont exécutées avant l'installation de services de base tels que Hadoop ou Spark, le cluster ne démarre pas si l'action d'amorçage échoue.

Remarque : Sur les images AMI versions 2.x et 3.x d'Amazon EMR, les actions d'amorçage sont exécutées après l'installation de services de base tels que Hadoop ou Spark. La plupart des actions d'amorçage prédéfinies pour l'AMI Amazon EMR versions 2.x et 3.x ne sont pas prises en charge dans Amazon EMR versions 4.x. Pour plus d'informations, consultez Création d'actions d'amorçage pour installer des logiciels supplémentaires.

Étapes

Une étape est une unité de travail distincte contenant un travail ou plusieurs travaux Hadoop qui s'exécutent uniquement sur le nœud maître d'un cluster Amazon EMR. Dans la mesure où un cluster ne démarre pas si l'action d'amorçage échoue, les étapes doivent toujours commencer après les actions d'amorçage. Des étapes sont généralement utilisées pour le transfert ou le traitement des données. Par exemple, une étape peut envoyer un travail à un cluster, tandis que d'autres peuvent traiter les données transmises, puis envoyer les données traitées vers un emplacement spécifique. Les étapes effectuent le travail de manière séquentielle, comme décrit dans le diagramme de la page Exécution d'étapes pour traiter des données. Lors de la configuration d'une étape, vous pouvez choisir ce qui se passe en cas d'échec de l'étape, ce qui définit un niveau de tolérance aux pannes. Pour plus d'informations sur la création d'étapes, consultez Utilisation des étapes à l'aide de l'interface de ligne de commande AWS et de la console.


Cette page vous a-t-elle été utile ? Oui | Non

Retour au Centre de connaissances AWS Support

Vous avez besoin d'aide ? Consultez le site du Centre AWS Support

Date de publication : 28/10/2016

Date de mise à jour : 07/09/2018