投稿日: Aug 1, 2019

Amazon EMR リリース 5.25.0 で、Spark 2.4.3、Presto 0.220、Apache Hive 2.3.5、Apache Tez 0.9.2 の使用が可能になりました。

またこのリリースには、EMR 5.24 の場合と比較して Spark のパフォーマンスを最大 3 倍* 向上させる 2 つの新しいパフォーマンス最適化が含まれています。ブルームフィルタ結合と結合順序の最適化です。

  • ブルームフィルタ結合ではテーブルの結合を動的にフィルタリングし、関連する行のみが含められるようにします。これにより、Spark によって処理するデータ量が削減され、クエリ実行時のパフォーマンスが向上します。
  • 結合順序の最適化では、フィルタを使用して、小さい結合を最初に実行するように結合が動的に並べ替えられるため、それに続くより大きな結合に必要な処理が削減されます。

これらの最適化を有効にする方法の詳細については、EMR Spark のパフォーマンスのドキュメントおよび EMR 5.25.0 リリースノートを参照してください。 

さらに、メモリ最適化 R4 インスタンスのデフォルトの Spark 設定を更新して、CPU とメモリの使用率を改善しました。この更新により、Spark の実行時のパフォーマンスが 1.5 倍* 向上します。

Amazon EMR リリース 5.25.0 は、現在 Amazon EMR がサポートされているリージョンすべてで利用できます。 

EMR リリースの最新情報を得るには、EMR リリースノートのフィードにサブスクライブしてください。EMR リリースガイドの上部にあるアイコンを使ってフィード URL をお使いのフィードリーダーに直接リンクしてください。 

*3 TB TPC-DS ベンチマークでの EMR 5.24.0 と EMR 5.25.0 との比較に基づきます。