張貼日期: Nov 18, 2019

我們非常高興地宣佈 Amazon EMR runtime for Apache Spark – 這是適用於 Apache Spark 的效能最佳化執行時間環境,預設會在 Amazon EMR 叢集上開啟。EMR runtime for Spark 速度最多快 32 倍,API 100% 與開放原始碼 Spark 相容。自 EMR 5.28 版起,執行時間預設開啟。 

為評估這些改進的影響,我們使用 TPC-DS 基準查詢,在 6 節點 c4.8xlarge EMR 叢集上使用 Amazon S3 中的資料執行 3-TB 擴展。我們將效能改進評估為總查詢執行時間的幾何改進方式,以及所有查詢的總查詢執行時間。幾何方式得到 2.4 倍的改進,EMR 5.16 和 EMR 5.28 之間的總查詢執行時間實現 3.2 倍的改進。如需有關效能改進和對短期和長期執行查詢的影響的更多詳細資料,請查閱 AWS Big Data Blog 文章:Amazon EMR introduces EMR runtime for Apache Spark