Amazon Web Services ブログ

Amazon EMR 5.0.0 – メジャーアプリアップデート、UI改善、デバッグ改善、その他

Amazon EMRチームは新しいリリースをものすごい勢いでリリースし続けています。今年のローンチを振り返ってみましょう:

  • EMR 4.7.0 – Apache Tez, Apache Phoenix, Presto, HBase, Mahout (6月)
  • EMR 4.6.0 – 巨大データへのリアルタイムアクセス用に、HBase (4月)
  • EMR 4.5.0 – Hadoop, Presto, SparkとEMRFS追加 (4月)
  • EMR 4.4.0 – Sqoop, HCatalog, Java 8, 他 (3月)
  • EMR 4.3.0 – Spark, Presto, Ganglia (1月)

今日、チームからEMR 5.0.0が発表されました。こちらはメジャーリリースとなり、16のオープンソースのHadoopエコシステムプロジェクトをサポートしています。SparkとHiveのメジャーバージョンアップ、TezがHiveとPigのデフォルトに、HueとZeppelinのUI改善、そしてデバッグ機能の改良が含まれています。

こちらは過去の幾つかのリリースでEMRがどの様に進化してきたかの図になります。

それではEMR 5.0.0の新しい機能をチェックしてみましょう!

16のオープンソースHadoopエコシステムプロジェクトのサポート

EMR 4.0.0の開発からEMRのビルドとパッケージング処理を管理するために、Apache Bigtopを使い始めました。最新のGA (一般利用可能)なオープンソースのバージョンを出来る限り早くアクセス可能にするというゴールのために、Hadoopエコシステムから新しいパッケージを追加し続けながらもリリースサイクルを加速することができたのはBigtopのおかげです。

そのゴールのもとに、EMR 5.0は16のHadoopエコシステムプロジェクトをサポートしていて、その中にはApache Hadoop, Apache Spark, Presto, Apache Hive, Apache HBase, そしてApache Tezが含まれます。EMRクラスタ作成時に、必要なアプリを選択することができます。

SparkとHiveのメジャーバージョンアップグレード

今回のEMRのリリースより、Hive (TezやHadoop MapReduceのSQL風インタフェース)が1.0から2.1にアップデートされ、同時にJava 8に移行しました。また、Spark (巨大データ処理エンジン)も1.6.2から2.0へアップデートされ、同時にScala 2.11に移行しました。SparkとHiveのアップデートは共にメジャーリリースで、新しい機能、パフォーマンス改善、そしてバグ修正が含まれています。例えば、SparkではStructured Streaming APIの追加、SQLサポートの改良等が含まれています。ただし、新しいバージョンのSparkとHiveは100%の後方互換を持っていません。なので、お使いのコードでの動作を確認しながらEMR 5.0.0への更新を行って下さい。

今回のリリースから、Hive 2.1とPig 0.16ではHadoop MapReduceに代わりTezがデフォルトエンジンになり、パフォーマンスが改善され、クエリのレイテンシが削減されています。このアップデートにより、MapReduceはHadoop MapReduceジョブが直接実行された時のみ使われることになりました。(HiveとPigはTezを使いますし、Sparkは独自のフレームワークを持っています)

UI改善

またEMR 5.0.0では、Apache Zeppelin (対話的データ分析のためのノートブック)を0.5.6から0.6.1に、Hue (Hadoopのデータを分析するためのインタフェース)を3.7.1から3.10にアップデートしました。これらウェブベースのツールの新しいバージョンでは、新しい機能や多数の細かい改善が含まれています。

ZeppelinはSparkとよく一緒に使われ、HueはHive, Pig, HBaseと協調します。新しいバージョンのHueはノートブックの機能が追加され、複数のクエリを1つの同じページから実行することができるようになりました。

HueはOozieのワークフローのデザインもできます:

デバッグ機能の改善

最後に、EMR 5.0.0はデバッグ機能の改善も含まれていて、特定のEMRジョブのステップがなぜ失敗したのかを簡単に調べることができます。コンソールにはスタックトレースの一部とログファイル(Amazon S3に保存)へのリンクが表示され、簡単に調べてトラブルシュートしてエラーを修正することができます。

今日からクラスタが起動できます

EMR 5.0.0は今日から全てのAWSリージョンで起動することができます!EMRコンソールを開き、クラスタの作成をクリックし、リリースメニューからemr-5.0.0を選ぶだけです。

詳細な情報はこちら

この強力な新しいEMRのリリースをもっと詳しく知りたい場合には、8月23日のウェビナー Introducing Amazon EMR Release 5.0: Faster, Easier, Hadoop, Spark, and Prestoへの参加もご検討下さい。

Jeff;

原文: Amazon EMR 5.0.0 – Major App Updates, UI Improvements, Better Debugging, and More (翻訳: SA岩永)