投稿日: Aug 2, 2016

Amazon EMR リリース 5.0 は 16 種類のオープンソースアプリケーションに対応する最新バージョンです。今回のリリースには Apache Spark 2.0Apache Hive 2.1Presto 0.150Apache Zeppelin 0.6.1 (Snapshot)Pig 0.16Hue 3.10 などのアップグレードも含まれています。Apache Hadoop MapReduce の代わりに Hive や Pig の実行エンジンとして、最適化された実行フレームワークの Apache Tez が導入されました。これにより、アプリケーションが実行時の環境で Java Development Kit 8 (JDK 8) を使用できるようになったほか、Scala 2.11 で Spark がコンパイルされるようにもなりました。また、これに伴い従来の Amazon EMR リリース 4.x のサンドボックスアプリケーションはすべて GA になりました。 さらに EMR ステップ用の強化されたデバッグ機能を使用してログで素早くエラーを検出したり、一般的な根本的原因の可能性があるものをハイライトできるようになりました。

Spark 2.0 は、先週 Apache Foundation から GA でリリースされました。Spark のさらに向上したパフォーマンス機能、より優れた SQL サポート、構造化したストリーミング API、SparkR のサポート改善などをご活用いただけます。Hive 2.1 は Apache Parquet ファイル形式のサポート改善、様々なパフォーマンスの最適化、SQL サポートの増加などを提供しています。 Amazon EMR の Hive 2.1 と Hive 1.0 の違いについてはこちらをご覧ください。Zeppelin 0.6.1 (Snapshot) に認証機能とノートブックの認証サポートが追加されました。また、Hue 3.10 にはノートブックインターフェイスや複雑なワークフローを視覚的に作るための Apache Oozie ワークフローエディタなど、多くの改善点を UI に取り入れました。

AWS マネジメントコンソール、AWS CLI または SDK からリリースラベル「emr-5.0.0」を選択し、リリース 5.0 で Amazon EMR クラスターを作成できます。ご自分のクラスターにインストールしたいアプリケーションを指定できます。また、従来のサンドボックスアプリケーションは「sandbox」のサフィックスなしに指定されるようになりました。強化されたデバッグ情報は、コンソールまたはステップの説明で直接ご覧いただけます。また、リリース 5.0 ではクラスターで自動的に有効になっています。リリース 5.0Spark 2.0Hive 2.1Presto 0.150Tez 0.8.4Zeppelin 0.6.1 (Snapshot)Hue 3.10、強化したデバッグ機能などの詳細は Amazon EMR ドキュメントをご覧ください。2016 年 8 月 23 日 (火) 午前 9 時 (太平洋標準時) に開催の AWS ライブオンラインセミナー、Introducing Amazon EMR Release 5.0 でもリリース 5.0 の詳細についてご説明しますので、興味があればぜひご参加ください。