¿Cómo puedo determinar si debo usar una acción de arranque o un paso en un clúster de Amazon EMR?

3 minutos de lectura
0

¿Cuáles son los casos de uso para ejecutar una acción de arranque o un paso en un clúster de Amazon EMR?

Breve descripción

Use las acciones de arranque para instalar software adicional en un clúster de EMR. Siga los pasos que se indican a continuación para enviar el trabajo a un clúster de EMR o para procesar datos.

Resolución

Acciones de arranque

  • Las acciones de arranque se ejecutan después de que el clúster de EMR pase del estado STARTING al estado BOOTSTRAPPING. Las acciones de arranque se ejecutan antes de que se instalen los servicios principales, como, por ejemplo, Hadoop o Spark. Si se produce un error en una acción de arranque, el clúster no se inicia. Para obtener más información, consulte Descripción del ciclo de vida del clúster.
  • Las acciones de arranque se ejecutan en todos los nodos del clúster. Las acciones de arranque son scripts que se ejecutan como usuario de Hadoop de forma predeterminada, pero también se pueden ejecutar como usuario raíz con el comando sudo. Puede configurar las acciones de arranque para que ejecuten comandos de forma condicional, en función de los valores específicos de la instancia en el archivo instance.json o job-flow.json.

Nota: En las versiones 2.x y 3.x de Amazon EMR, las acciones de arranque se ejecutan después de instalar los servicios principales. La mayoría de las acciones de arranque predefinidas para las versiones 2.x y 3.x de la AMI de Amazon EMR no se admiten en las versiones posteriores de Amazon EMR. Para obtener más información, consulte Create bootstrap actions to install additional software.

Pasos

  • Un paso es una unidad de trabajo que contiene uno o más trabajos de Hadoop. Los pasos se suelen usar para transferir o procesar datos. Un paso podría enviar el trabajo a un clúster. Otros pasos pueden procesar los datos enviados y luego enviar los datos procesados a una ubicación particular.
  • Los pasos comienzan después de las acciones de arranque y solo se ejecutan en el nodo maestro. Para obtener más información, consulte Pasos en ejecución para procesar datos.
  • En las versiones 5.28.0 y posteriores de Amazon EMR, puede ejecutar varios pasos en paralelo. En las versiones anteriores de Amazon EMR, los pasos completan su trabajo de forma secuencial.
  • Al configurar un paso, puede elegir qué ocurre cuando se produce un error en un paso.

Para obtener más información sobre los pasos, consulte Work with steps using the AWS CLI and console.


Información relacionada

StepExecutionStatusDetail

Plan and configure clusters

OFICIAL DE AWS
OFICIAL DE AWSActualizada hace 2 años