張貼日期: Aug 27, 2019

使用 EMR 5.26.0 版,Spark 使用者可受益於 EMR 5.24.0 和 5.25.0 版引進的所有最新 Spark 效能最佳化,無須進行任何組態或程式碼變更。5.26.0 版預設會啟用以下最佳化:

  • 動態分割區清除 – 允許 Spark 引擎在執行階段推論相關分割區,透過從儲存中讀取較少資料和減少需要處理的記錄數量來節省時間和運算資源。
  • INTERSECT 前的 DISTINCT – 在運算交集前消除每個輸入集合重複的值,可透過減少在主機間移動的資料量來提升效能。
  • 扁平化純量子查詢 – 需要將多個不同條件套用到特定表格列時很有用,可避免針對每個條件多次讀取表格。
  • 最佳化的聯結重新排序 – 重新排序聯結可優先執行含篩選條件的較小聯結,減少後續較大聯結所需的處理工作。
  • Bloom 篩選條件聯結 – 動態篩選表格聯結使其僅包含相關的列,減少 Spark 處理的資料量並提升查詢執行時間的效能。

請瀏覽最佳化 Spark 效能文件和 EMR 5.26.0 版本備註以取得這些最佳化的詳細資訊。

EMR 5.26.0 還包含 AWS Lake Formation 與新版 Apache HBase 1.4.10 和 Apache Phoenix 4.14.2 整合的 Beta 版。請查看 Amazon EMR 與 AWS Lake Formation 整合 (Beta 版) 以取得有關整合的詳細資訊。

Amazon EMR 5.26.0 版現已在所有支援 Amazon EMR 的區域提供。

AWS Lake Formation 與 Amazon EMR 之間的整合目前提供 Beta 版,在美國東部 (維吉尼亞北部) 和美國西部 (奧勒岡) 等區域提供。

您可以訂閱 EMR 版本備註摘要,以取得 EMR 版本的最新資訊。請使用 EMR 版本指南頂端的圖示,將摘要 URL 直接連結到您喜愛的摘要閱讀器。