投稿日: Nov 18, 2019

Apache Spark の Amazon EMR ランタイムをお知らせいたします。これは、Apache Spark のパフォーマンスが最適化されたランタイム環境で、Amazon EMR クラスターでデフォルトで使用可能になり、有効になっています。Spark の EMR ランタイムは最大 32 倍高速で、オープンソースの Spark と 100% API 互換性があります。EMR リリース 5.28 以降、ランタイムはデフォルトでオンになっています。 

これらの改善の影響を測定するために、Amazon S3 にデータがある 6 ノード c4.8xlarge EMR クラスターで実行される 3 TB スケールの TPC-DS ベンチマーククエリを使用しました。合計クエリ実行時間とすべてのクエリの合計クエリ実行時間の改善の幾何平均としてパフォーマンスの改善を測定しました。EMR 5.16 と EMR 5.28 の間で、幾何平均が 2.4 倍、クエリ実行時間の合計が 3.2 倍改善しました。パフォーマンスの改善と、短期および長期のクエリへの影響の詳細については、AWS Big Data ブログの投稿 Amazon EMR が Apache Spark の EMR ランタイムを導入をご覧ください。