Come posso risolvere gli errori relativi all'etichetta dei nodi e a YARN ResourceManager in Amazon EMR?

2 minuti di lettura
0

Ho abilitato le etichette dei nodi su un cluster Amazon EMR. Quindi, YARN ResourceManager ha riscontrato un errore.

Breve descrizione

Questo problema riguarda le versioni di rilascio di Amazon EMR 5.19.0 - 5.21.0. In queste versioni, Amazon EMR archivia i file delle etichette dei nodi in HDFS:

  • DEFAULT_DIR_NAME = "node-labels"
  • MIRROR_FILENAME = "nodelabel.mirror"
  • EDITLOG_FILENAME = "nodelabel.editlog"

Amazon EMR archivia questi file nella seguente posizione in yarn-site.xml su tutti i nodi: yarn.node-labels.fs-store.root-dir: '/apps/yarn/nodelabels'. Il problema si verifica quando questi file vengono danneggiati quando si perdono tutti i nodi che contengono i blocchi del file durante un'operazione di ridimensionamento. ResourceManager quindi si riavvia, si blocca in un ciclo di riavvio e quindi CommonNodeLabelsManager genera un'eccezione.

Per trovare l'eccezione, cerca "org.apache.hadoop.yarn.nodelabels.CommonNodeLabelsManager" in /var/log/hadoop-yarn/yarn-yarn-resourcemanager-*.log.

Per risolvere questo errore, elimina i file delle etichette dei nodi. Quindi, riavvia ResourceManager per ricreare i file.

Risoluzione

  1. Controlla lo stato del file system e individua i blocchi:
hdfs fsck /apps/yarn/nodelabels/ -locations -blocks -files
  1. Rimuovi i file:
hdfs dfs -rm -skipTrash /apps/yarn/nodelabels/*
  1. Riavvia ResourceManager:
sudo stop hadoop-yarn-resourcemanager
sudo start hadoop-yarn-resourcemanager
  1. Quando ResourceManager si riavvia, ricrea i file delle etichette dei nodi. Questo risolve il ciclo di riavvio. Tuttavia, non puoi ancora inoltrare applicazioni YARN. Prima di poter inoltrare le applicazioni YARN, aggiungi manualmente le voci delle etichette dei nodi:
yarn rmadmin -addToClusterNodeLabels "CORE(exclusive=false)"
  1. Elenca le etichette per confermare che ResourceManager le ha ricreate:
yarn cluster --list-node-labels

Informazioni correlate

Comprendi i tipi di nodi: principali, core e attività

AWS UFFICIALE
AWS UFFICIALEAggiornata 2 anni fa