Python 3.4.3 は Amazon EMR クラスターインスタンスにインストールされますが、Spark や他のプログラムで使用されるデフォルトの Python バージョンは Python 2.7.10 です。デフォルトの Python バージョンを Python 3 に変更し、PySpark ジョブを実行するにはどうすればよいですか?

設定ファイルPYSPARK_PYTHON 環境変数を spark-env 分類の /usr/bin/python3 に変更します。例:

[
  {
     "Classification": "spark-env",
     "Configurations": [
       {
         "Classification": "export",
         "Properties": {
            "PYSPARK_PYTHON": "/usr/bin/python3"
          }
       }
    ]
  }
]

EMR クラスターの実行中にデフォルトの Python 環境を変更するには、次のコマンドを実行します。

sudo sed -i -e '$a\export PYSPARK_PYTHON=/usr/bin/python3' /etc/spark/conf/spark-env.sh

Spark によって新しい設定が次のジョブに使用されます。


このページは役に立ちましたか? はい | いいえ

AWS サポート ナレッジ センターに戻る

サポートが必要ですか? AWS サポートセンターをご覧ください。

公開日: 2016 年 10 月 26 日

更新: 2018 年 10 月 16 日