投稿日: Apr 9, 2020
Hadoop、Hive、HBase、Amazon Linux 2 の新しいメジャーバージョンのサポートと、Docker による Spark 環境の依存関係のパッケージ化のサポートを含む Amazon EMR リリース 6.0.0 を発表できることをうれしく思います。
Spark ユーザーは、EMR リリース 6.0.0 で Docker Hub と Amazon Elastic Container Registry (Amazon ECR) の Docker イメージを使用して、環境とライブラリの依存関係を定義できるようになりました。Docker を使用すると、個々のジョブの Python と R の依存関係を簡単にパッケージ化でき、個々のクラスターホストに依存関係をインストールする必要がなくなります。EMR 6.0.0 で Docker を使用する方法の詳細については、Docker の設定方法に関する EMR 管理ガイドのセクションと、Docker を使用して Spark の依存関係管理を簡略化する方法に関するブログ投稿を参照してください。
Hive ユーザーは、EMR リリース 6.0.0 で Hive Live Long and Process (LLAP) を使用できるようになりました。これにより、EMR 5.29 に比べて 2 倍のスピードのパフォーマンスと個々の Hive TPC-DS クエリ* での最大 10 倍の改善を実現します。Hive LLAP は Hive の新しい実行モデルで、動的メモリ内キャッシュを備えた永続的なデーモンを使用して、クエリの実行を高速化します。Hive LLAP を有効にする方法の詳細については、Hive LLAP の使用に関するドキュメントとブログ投稿を参照して、EMR 6.0.0 で Hive LLAP を使用すると Apache Hive が 2 倍高速になる理由を確認してください。
EMR リリース 6.0.0 は、Apache Hadoop 3.2.1、Apache Hive 3.1.2、Apache HBase 2.2.3、Apache Phoenix 5.0.0、および Scala 2.12 をサポートする Apache Spark 2.4.4 の EMR ランタイムの新しいメジャーバージョンを提供します。EMR リリース 6.0.0 は、Amazon Linux 2 および Amazon Corretto JDK 8 に構築されています。Amazon Linux 2 は Amazon Linux サーバーオペレーティングシステムの最新世代で、systemd init システムのような新しいシステムツールや、パフォーマンスチューニング済みの Amazon Linux LTS Kernel を提供します。Amazon Corretto JDK 8 は、長期サポート、パフォーマンス強化、セキュリティ修正を含む、Java SE 認定の互換 JDK を提供します。EMR リリース 6.0.0 で更新されたすべての EMR アプリケーションの詳細については、リリースノートを参照してください。
Amazon EMR リリース 6.0.0 は、現在 Amazon EMR がサポートされているリージョンのすべてで利用できます。
EMR リリースの最新情報を得るには、EMR リリースノートのフィードをサブスクライブしてください。EMR リリースガイドの上部にあるアイコンを使ってフィード URL をお使いのフィードリーダーに直接リンクしてください。
*3 TB TPC-DS ベンチマークでの EMR 5.29.0 と EMR 6.0.0 との比較に基づきます。