Come faccio a determinare se utilizzare un'azione bootstrap o una fase su un cluster Amazon EMR?

2 minuti di lettura
0

Quali sono i casi d'uso per eseguire un'azione bootstrap o una fase su un cluster Amazon EMR?

Descrizione breve

Utilizza le azioni bootstrap per installare un software aggiuntivo su un cluster EMR. Utilizza delle fasi per inviare il lavoro a un cluster EMR o per elaborare i dati.

Risoluzione

Azioni bootstrap

  • Le azioni bootstrap vengono eseguite dopo la transizione di un cluster EMR dallo stato STARTING allo stato BOOTSTRAPPING. Le azioni bootstrap vengono eseguite prima dell'installazione dei servizi principali, come Hadoop o Spark. Se un'azione bootstrap fallisce, il cluster non si avvia. Per ulteriori informazioni, consulta Comprensione del ciclo di vita del cluster.
  • Le azioni bootstrap vengono eseguite su tutti i nodi del cluster. Le azioni bootstrap sono script che vengono eseguiti come utente Hadoop per impostazione predefinita, ma possono anche essere eseguite come utente root con il comando sudo. È possibile configurare le azioni bootstrap per eseguire i comandi in modo condizionale, in base ai valori specifici dell'istanza nel file instance.json o job-flow.json.

Nota: nelle versioni di Amazon EMR 2.x e 3.x, le azioni bootstrap vengono eseguite dopo l'installazione dei servizi principali. La maggior parte delle azioni bootstrap predefinite per le versioni 2.x e 3.x di Amazon EMR AMI non sono supportate nelle versioni successive di Amazon EMR. Per ulteriori informazioni, consulta Creare azioni bootstrap per installare un software aggiuntivo.

Fasi

  • Una fase è un'unità di lavoro che contiene uno o più processi Hadoop. Le fasi vengono generalmente utilizzate per trasferire o elaborare i dati. Una fase potrebbe inviare il lavoro a un cluster. Altre fasi potrebbero elaborare i dati inviati e quindi inviare i dati elaborati a una posizione specifica.
  • Le fasi iniziano dopo le azioni bootstrap e vengono eseguite solo sul nodo principale. Per ulteriori informazioni, consulta Esecuzione delle fasi per l'elaborazione dei dati.
  • Nelle versioni 5.28.0 e successive di Amazon EMR, puoi eseguire più fasi in parallelo. Nelle versioni precedenti di Amazon EMR, le fasi completano il loro lavoro in sequenza.
  • Quando configuri una fase, puoi scegliere cosa succede dopo il fallimento di una fase.

Per ulteriori informazioni sulle fasi, consulta Lavorare con le fasi utilizzando l'interfaccia della linea di comando e la console AWS.


Informazioni correlate

StepExecutionStatusDetail

Pianifica e configura i cluster

AWS UFFICIALE
AWS UFFICIALEAggiornata 2 anni fa