Je sais que Python 3.4.3 est installé sur les instances d'un cluster Amazon EMR, mais la version de Python par défaut qu'utilisent Spark et d'autres programmes est Python 2.7.10. Comment faire de Python 3 la version par défaut et exécuter un travail pyspark ?

Pour modifier l'environnement Python par défaut lors du lancement du cluster EMR, mettez à jour votre fichier de configuration EMR et définissez la variable d'environnement PYSPARK_PYTHON sur l'un des chemins d'accès suivants :

/usr/bin/python3

Une fois les modifications nécessaires effectuées, votre fichier de configuration EMR contiendra des entrées JSON similaires à ce qui suit :

[

    {

    "Classification": "spark-env",

    "Configurations": [

            {

                "Classification": "export",

                "Properties": {

                    "PYSPARK_PYTHON": "/usr/bin/python3"

                }

            }

        ]

    }

]

Pour exécuter un travail pyspark à l'aide du runtime Python 3 sans modifier les valeurs par défaut de Spark, vous pouvez transmettre directement la variable d'environnement PYSPARK_PYTHON lors de l'appel d'un script à un emplacement spécifique (cet exemple suppose que votre script se trouve sous s3://mybucket/myscript.py) :

$ command-runner.jar spark-submit --deploy-mode cluster --conf PYSPARK_PYTHON=/usr/bin/python3 s3://mybucket/mypath/myscript.py

pyspark, Python 3, EMR Python3, EMR Spark Python3, EMR Spark Python default


Cette page vous a-t-elle été utile ? Oui | Non

Retour au Centre de connaissances AWS Support

Vous avez besoin d'aide ? Consultez le site du Centre AWS Support

Date de publication : 26/10/2016