发布于: Aug 1, 2019

您现在可以在 Amazon EMR 版本 5.25.0 上使用 Spark 2.4.3、Presto 0.220、Apache Hive 2.3.5 和 Apache Tez 0.9.2。

此版本还包括两项新的性能优化,可通过 EMR 5.24 将 Spark 性能提高 3 倍*:Bloom Filter Join 和 Optimized Join Reorder。

  • Bloom Filter Join 筛选器表动态联接以仅包含相关行。这减少了 Spark 处理的数据量,从而提高了查询运行时性能。
  • Optimized Join Reorder 动态地重新排序连接以首先使用筛选器执行较小的联接,从而减少较大后续联接所需的处理。

有关启用这些优化的详细信息,请参阅我们的 EMR Spark 性能文档和 EMR 5.25.0 发行说明。 

此外,我们更新了内存优化 R4 实例的默认 Spark 配置,以实现更好的 CPU 和内存利用率。此更新将 Spark 运行时性能提高了 1.5 倍*。

Amazon EMR 版本 5.25.0 现已在所有支持 Amazon EMR 的区域推出。 

您可以订阅 EMR 发行说明的源,以了解有关 EMR 版本的最新信息。请使用 EMR 版本指南顶部的图标,将源 URL 直接链接至您最喜欢的源阅读器。 

*基于 3TB TPC-DS 基准,将 EMR 5.24.0 与 EMR 5.25.0 进行比较。