投稿日: Aug 27, 2019
EMR リリース 5.26.0 により、Spark ユーザーは、設定やコードの変更を必要とせずに、EMR リリース 5.24.0 および 5.25.0 で導入された新しい Spark パフォーマンスの最適化を行うことができます。5.26.0 リリースにより、次の最適化がデフォルトで利用可能となります。
- 動的パーティションプルーニング – Spark エンジンが実行時の関連パーティションを推測できるようになり、ストレージから読み取るデータ量および処理が必要な記録数を減らすことにより、時間とコンピューティングリソースを節約します。
- INTERSECT 前の DISTINCT – 接触点をコンピューティングする前に各入力コレクションの重複値を排除し、ホスト間でシャッフルされるデータの量を減らすことによってパフォーマンスを改善します。
- フラット化スカラーサブクエリ – 特定のテーブルの列に複数の異なる条件を適用する必要がある状況をサポートし、テーブルが各条件につき複数回読み込まれるのを防ぎます。
- 結合順序の最適化 – フィルターを使用して、小さい結合を最初に実行するように結合が並べ替えられるため、それに続くより大きな結合に必要な処理が削減されます。
- ブルームフィルター結合 – テーブルの結合を動的にフィルタリングして関連する行のみが含められるようにすることで、Spark によって処理するデータ量が削減され、クエリ実行時のパフォーマンスが向上します。
これらの最適化の詳細については、Spark のパフォーマンスの最適化ドキュメントおよび EMR 5.26.0 リリースノートを参照してください。
また、EMR 5.26.0 には AWS Lake Formation のベータ統合や Apache HBase 1.4.10 の新バージョン、および Apache Phoenix 4.14.2 も含まれています。統合の詳細については、Amazon EMR と AWS Lake Formation の統合 (ベータ) を参照してください。
Amazon EMR リリース 5.26.0 は、現在 Amazon EMR がサポートされているリージョンすべてで利用できます。
AWS Lake Formation と Amazon EMR の統合はベータ版で、米国東部 (バージニア北部) および米国西部 (オレゴン) リージョンで利用できます。
EMR リリースの最新情報を得るには、EMR リリースノートのフィードにサブスクライブしてください。EMR リリースガイドの上部にあるアイコンを使ってフィード URL をお使いのフィードリーダーに直接リンクしてください。