Como determino se devo usar uma ação de bootstrap ou uma etapa em um cluster do Amazon EMR?

3 minuto de leitura
0

Quais são os casos de uso para executar uma ação de bootstrap ou executar uma etapa em um cluster do Amazon EMR?

Breve descrição

Use ações de bootstrap para instalar software adicional em um cluster EMR. Use as etapas para enviar o trabalho para um cluster do EMR ou para processar dados.

Resolução

Ações de bootstrap

  • As ações de bootstrap são executadas após a transição de um cluster EMR do estado INICIANDO para o estado BOOTSTRAPPING. As ações de bootstrap são executadas antes que os serviços básicos, como o Hadoop ou o Spark, sejam instalados. Se uma ação de bootstrap falhar, o cluster não será iniciado. Para obter mais informações, consulte Entendendo o ciclo de vida do cluster.
  • As ações de bootstrap são executadas em todos os nós do cluster. As ações de bootstrap são scripts executados como usuário do Hadoop por padrão, mas também podem ser executados como usuário raiz com o comando sudo. Você pode configurar ações de bootstrap para executar comandos condicionalmente, com base em valores específicos da instância no arquivo instance.json ou job-flow.json.

Observação: Nas versões 2.x e 3.x do Amazon EMR, as ações de bootstrap são executadas após a instalação dos serviços básicos. A maioria das ações de bootstrap predefinidas para as versões 2.x e 3.x do Amazon EMR AMI não são suportadas em versões posteriores do Amazon EMR. Para obter mais informações, consulte Criar ações de bootstrap para instalar software adicional.

Etapas

  • Uma etapa é uma unidade de trabalho que contém uma ou mais trabalhos do Hadoop. As etapas geralmente são usadas para transferir ou processar dados. Uma etapa pode enviar trabalho para um cluster. Outras etapas podem processar os dados enviados e, em seguida, enviar os dados processados para um local específico.
  • As etapas começam após as ações de bootstrap e são executadas somente no nó principal. Para obter mais informações, consulte Como executar etapas para processar dados.
  • Nas versões 5.28.0 e posteriores do Amazon EMR, você pode executar várias etapas em paralelo. Nas versões anteriores do Amazon EMR, as etapas concluem seu trabalho sequencialmente.
  • Ao configurar uma etapa, você pode escolher o que acontece após a falha de uma etapa.

Para obter mais informações sobre etapas, consulte Trabalhar com etapas usando a AWS CLI e o console.


Informações relacionadas

StepExecutionStatusDetail

Planejar e configurar clusters

AWS OFICIAL
AWS OFICIALAtualizada há 2 anos