Comment résoudre les messages d'erreur dans les tâches Spark sur Amazon EMR ?

Dernière mise à jour : 08/01/2020

Comment résoudre les messages d'erreur dans les applications Apache Spark sur Amazon EMR ?

Brève description

Dans Spark, les erreurs se produisent lorsqu'il y a un problème dans le traitement d'une tâche Spark. Ces défaillances peuvent être provoquées par des problèmes matériels, des configurations Spark incorrectes ou des problèmes de code. Lorsqu'une erreur arrive, les journaux du pilote Spark signalent une exception similaire à celle-ci :

org.apache.spark.SparkException: Job aborted due to stage failure: Task XXX in stage YYY failed 4 times, most recent failure: Lost task XXX in stage YYY (TID ZZZ, ip-xxx-xx-x-xxx.compute.internal, executor NNN): ExecutorLostFailure (executor NNN exited caused by one of the running tasks) Reason: ...

Solution

Rechercher le code du motif

Pour les tâches Spark soumises avec --deploy-mode client, le code du motif se trouve dans l'exception qui s'affiche dans le terminal.

Pour les tâches Spark soumises avec --deploy-mode cluster, exécutez la commande suivante sur le nœud maître pour rechercher les échecs dans les journaux de l'application YARN. Remplacez application_id par l'ID de votre application Spark (par exemple, application_1572839353552_0008).

yarn logs -applicationId application_id | grep  "Job aborted due to stage failure" -A 10

Cet article vous a-t-il été utile ?

Cette page peut-elle être améliorée ?


Vous avez besoin d’aide ?