发布于: Aug 27, 2019

借助 EMR 版本 5.26.0,Spark 用户可以从 EMR 版本 5.24.0 和 5.25.0 中引入的所有全新 Spark 性能优化中受益,且无需进行任何配置或代码更改。默认情况下,版本 5.26.0 中启用了以下优化:

  • 动态分区裁剪 - 允许 Spark 引擎在运行时推断相关分区,通过从存储器中读取较少的数据并减少需要处理的记录数量来节省时间和计算资源。
  • 在计算交集之前消除重复值 - 在计算交集之前消除每个输入集合中的重复值,从而通过减少主机之间的无序数据量来提高性能。
  • 合并标量子查询 - 在需要将多个不同条件应用于特定表中多个行的情况下提供帮助,从而防止针对每个条件多次读取该表。
  • 经过优化的联结重新排序功能 - 对联接重新排序以首先使用筛选器执行较小的联接,从而减少较大后续联接所需的处理。
  • 扩展筛选器联结 - 筛选器表动态联接以仅包含相关行,从而减少 Spark 处理的数据量并提高查询运行时性能。

有关这些优化性能的详细信息,请访问优化 Spark 性能文档和 EMR 5.26.0 发行说明

EMR 5.26.0 中还包括 AWS Lake Formation 与新版本 Apache HBase 1.4.10 和 Apache Phoenix 4.14.2 的测试版集成。有关集成的详细信息,请参阅 Amazon EMR 与 AWS Lake Formation 集成(测试版)

Amazon EMR 版本 5.26.0 现已在所有支持 Amazon EMR 的区域推出。

AWS Lake Formation 与 Amazon EMR 的集成目前提供测试版,并在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)区域提供。

您可以订阅 EMR 发行说明的源,以了解有关 EMR 版本的最新信息。请使用 EMR 版本指南顶部的图标,将源 URL 直接链接至您最喜欢的源阅读器。