Python 3.4.3 est installé sur mes instances de cluster Amazon EMR, mais la version de Python par défaut qu'utilisent Spark et d'autres programmes est Python 2.7.10. Comment faire de Python 3 la version par défaut et exécuter un travail Pyspark ?

Dans votre fichier de configuration, modifiez la variable d'environnement PYSPARK_PYTHON en /usr/bin/python3 pour la classification spark-env. Exemple :

[
  {
     "Classification": "spark-env",
     "Configurations": [
       {
         "Classification": "export",
         "Properties": {
            "PYSPARK_PYTHON": "/usr/bin/python3"
          }
       }
    ]
  }
]

Exécutez la commande suivante pour modifier l'environnement Python par défaut pendant l'exécution du cluster EMR :

sudo sed -i -e '$a\export PYSPARK_PYTHON=/usr/bin/python3' /etc/spark/conf/spark-env.sh

Spark utilisera la nouvelle configuration pour la prochaine tâche.


Cette page vous a-t-elle été utile ? Oui | Non

Retour au Centre de connaissances AWS Support

Vous avez besoin d'aide ? Consultez le site du Centre AWS Support

Date de publication : 26/10/2016

Date de mise à jour : 16/10/2018