Descripción breve
------------------



En Spark, los errores de fase se producen cuando hay un problema con el procesamiento de una tarea de Spark. Estos errores pueden deberse a problemas de hardware, configuraciones incorrectas de Spark o problemas de código. Cuando se produce un error de fase, los registros del controlador de Spark informan de una excepción similar a la siguiente:





```plaintext
org.apache.spark.SparkException: Job aborted due to stage failure: Task XXX in stage YYY failed 4 times, most recent failure: Lost task XXX in stage YYY (TID ZZZ, ip-xxx-xx-x-xxx.compute.internal, executor NNN): ExecutorLostFailure (executor NNN exited caused by one of the running tasks) Reason: ...
```


Resolución
-----------


### Encuentre el código del motivo



Para los trabajos de Spark enviados con **--deploy-mode client**, el código del motivo se encuentra en la excepción que se despliega en el terminal.


Para los trabajos de Spark enviados con **--deploy-mode cluster**, ejecute el siguiente comando en el nodo maestro para encontrar errores de fase en los registros de la aplicación YARN. Sustituya **application\_id** por el ID de su aplicación Spark (por ejemplo, **application\_1572839353552\_0008**).





```plaintext
yarn logs -applicationId application_id | grep  "Job aborted due to stage failure" -A 10
```



También puede obtener esta información de YARN ResourceManager en el contenedor maestro de la aplicación.



### Solucionar la causa raíz



Después de encontrar la excepción, utilice uno de los siguientes artículos para solucionar la causa raíz:


* [¿Cómo soluciono el error de Spark «Contenedor eliminado a pedido. El código de salida es 137» en Amazon EMR?](https://repost.aws/es/knowledge-center/container-killed-on-request-137-emr)
* [¿Cómo soluciono los errores de fase de Spark «no queda espacio en el dispositivo» en Amazon EMR?](https://repost.aws/es/knowledge-center/no-space-left-on-device-emr-spark)
* [¿Cómo soluciono los errores «Esclavo perdido» de ExecutorLostFailure de Spark en Amazon EMR?](https://repost.aws/es/knowledge-center/executorlostfailure-slave-lost-emr)





---








Deseo solucionar errores de fase en aplicaciones Apache Spark en Amazon EMR.

Solucionar errores de fase de los trabajos de Spark en Amazon EMR

¿Cómo puedo solucionar los errores de fase de los trabajos de Spark en Amazon EMR?

¿Cómo puedo solucionar los errores de fase de los trabajos de Spark en Amazon EMR?

Descripción breve

Resolución

Encuentre el código del motivo

Solucionar la causa raíz

Contenido relevante