¿Cómo puedo solucionar los errores de fase de los trabajos de Spark en Amazon EMR?

2 minutos de lectura
0

Deseo solucionar errores de fase en aplicaciones Apache Spark en Amazon EMR.

Descripción breve

En Spark, los errores de fase se producen cuando hay un problema con el procesamiento de una tarea de Spark. Estos errores pueden deberse a problemas de hardware, configuraciones incorrectas de Spark o problemas de código. Cuando se produce un error de fase, los registros del controlador de Spark informan de una excepción similar a la siguiente:

org.apache.spark.SparkException: Job aborted due to stage failure: Task XXX in stage YYY failed 4 times, most recent failure: Lost task XXX in stage YYY (TID ZZZ, ip-xxx-xx-x-xxx.compute.internal, executor NNN): ExecutorLostFailure (executor NNN exited caused by one of the running tasks) Reason: ...

Resolución

Encuentre el código del motivo

Para los trabajos de Spark enviados con --deploy-mode client, el código del motivo se encuentra en la excepción que se despliega en el terminal.

Para los trabajos de Spark enviados con --deploy-mode cluster, ejecute el siguiente comando en el nodo maestro para encontrar errores de fase en los registros de la aplicación YARN. Sustituya application_id por el ID de su aplicación Spark (por ejemplo, application_1572839353552_0008).

yarn logs -applicationId application_id | grep  "Job aborted due to stage failure" -A 10

También puede obtener esta información de YARN ResourceManager en el contenedor maestro de la aplicación.

Solucionar la causa raíz

Después de encontrar la excepción, utilice uno de los siguientes artículos para solucionar la causa raíz:


OFICIAL DE AWS
OFICIAL DE AWSActualizada hace 2 años