发布于: Apr 9, 2020
我们很高兴地宣布推出支持新主要版本 Hadoop、Hive、HBase、Amazon Linux 2 并支持使用 Docker 封装 Spark 环境的 Amazon EMR 版本 6.0.0。
Spark 用户现在可以将来自 Docker Hub 的 Docker 镜像和 Amazon Elastic Container Registry (Amazon ECR) 以及 EMR 版本 6.0.0 结合使用,从而定义环境和库依赖项。借助 Docker,您可以轻松为单项作业封装您的 Python 和 R 依赖项,无需在集群主机上一一安装依赖项。有关将 Docker 与 EMR 6.0.0 结合使用的更多信息,请参阅我们有关如何配置 Docker 的 EMR 管理指南,以及我们有关如何使用 Docker 简化 Spark 依赖项管理的博客文章。
Hive 用户现在可以将 Hive Live Long and Process (LLAP) 与 EMR 版本 6.0.0 结合使用,与 EMR 5.29 相比的速度可提高 2 倍,单个 Hive TPC-DS 查询的性能可提高 10 倍*。Hive LLAP 是 Hive 中的一种新执行模式,它将常驻守护程序与动态的内存中缓存结合使用,从而加快查询执行的速度。有关如何启用 Hive LLAP 的详细信息,请参阅我们有关使用 Hive LLAP 的文档以及我们有关为什么在 EMR 6.0.0 上使用 Hive LLAP 可将 Apache Hive 的速度提高 2 倍的博客文章。
EMR 版本 6.0.0 提供新主要版本的 Apache Hadoop 3.2.1、Apache Hive 3.1.2、Apache HBase 2.2.3、Apache Phoenix 5.0.0 以及适用于 Apache Spark 2.4.4 的 EMR 运行时,此外还支持 Scala 2.12。EMR 版本 6.0.0 基于 Amazon Linux 2 和 Amazon Corretto JDK 8 构建。Amazon Linux 2 是最新一代的 Amazon Linux 服务器操作系统,提供新的系统工具(如 systemd init 系统)和性能优化的 Amazon Linux LTS 内核。Amazon Corretto JDK 8 提供经过 Java SE 认证的兼容 JDK,包括长期支持、性能增强和安全修复程序。有关 EMR 版本 6.0.0 中更新的所有 EMR 应用程序的更多详细信息,请参阅我们的发行说明。
Amazon EMR 版本 6.0.0 现已在所有支持 Amazon EMR 的区域推出。
您可以订阅 EMR 发行说明的源,以了解有关 EMR 版本的最新信息。请使用 EMR 版本指南顶部的图标,将源 URL 直接链接至您最喜欢的源阅读器。
*基于 3TB TPC-DS 基准,将 EMR 5.29.0 与 EMR 6.0.0 进行比较。