投稿日: Sep 20, 2018

よく使われる Machine Learning と深層学習フレームワークである TensorFlow 1.9.0 と S3 Select を、Amazon EMR リリース 5.17.0 上の Apache Spark で使えるようになりました。Tensorflow ライブラリは EMR 上の Spark などのビッグデータ処理エンジンと組み合わせ、トレーニングパラメータのチューニングを並列化することで、モデルのトレーニングプロセスを高速化できます。こうしてトレーニングのできたモデルはクラスター上すべてのノードにブロードキャストすることで、ひとつのノードで実行するには大きすぎる大量のデータの分散型推論ができます。EMR 上の TensorFlow は可視化ツールである TensorBoard と共にパッケージに入れられており、リアルタイムでのテンソルグラフの流れの可視化とデバッグ、設計上の選択事項の効果の確認、さらにモデルの最適化に役立ちます。EMR 上の TensorFlow のビルドは、クラスターにお使いのインスタンスタイプによって異なります。

EMR リリース 5.17.0 では、S3 Select を Spark と共にお使いいただけます。この機能では、お使いの Spark アプリケーションが S3 にある大プロジェクトからデータのサブセットを選択的にクエリできます。このため EMR に転送してプロセスされる必要のあるデータの量を削減して、パフォーマンスを向上できます。さらにこのリリースでは、EMR 上の JupyterHub を設定し、ノートブックを S3 に直接保存して永続性を持たせることができます。また、Apache Flink 1.5.2 のアップグレードされたバージョンである Apache HBase 1.4.6 と Presto 0.206 も使えます。

AWS マネジメントコンソール、AWS CLI、または SDK からリリースラベル「emr-5.17.0」を選択することによって、リリース 5.17.0 で Amazon EMR クラスターを作成できます。EMR クラスターを起動する際に、TensorFlow、HBase、Presto を選択して、これらのアプリケーションをインストールすることができます。EMR リリース 5.17.0TensorFlow 1.9.0S3 Select with SparkFlink 1.5.2HBase 1.4.6Presto 0.206 についての詳細は、EMR ドキュメントをご覧ください。

Amazon EMR リリース 5.17.0 は、現在、Amazon EMR がサポートされているすべてのリージョンで利用できます。

EMR リリースの最新情報を得るには、 EMR リリースノートのフィードにサブスクライブしてください。EMR リリースガイドの上部にある RSS アイコンを使ってフィード URL をお使いのフィードリーダーに直接リンクしてください。