发布于: Nov 18, 2019

我们很高兴地宣布推出适用于 Apache Spark 的 Amazon EMR 运行时 – 一种针对 Apache Spark 优化性能的运行时环境,默认在 Amazon EMR 集群上可用并已启用。适用于 Spark 的 EMR 运行时速度提高至 32 倍,并且与开源 Spark 的 API 兼容性达到 100%。从 EMR 版本 5.28 开始,此运行时默认处于启用状态。 

为了衡量这些改进的影响,我们使用了具有 3TB 规模的 TPC-DS 基准查询,该查询在 6 节点 c4.8xlarge EMR 集群上运行,并在 Amazon S3 中存储数据。我们衡量性能改进的方式是,计算总体查询执行时间以及所有查询总查询执行时间改进的几何平均值。我们发现,在 EMR 5.16 和 EMR 5.28 之间,这个几何平均值提高至 2.4 倍,总查询运行时间则改进至 3.2 倍。有关性能改进以及对短时间和长时间运行的查询的影响的更多详细信息,请参阅我们的 AWS 大数据博客博文:Amazon EMR introduces EMR runtime for Apache Spark