发布于: Sep 6, 2019
EMR 6.0.0(测试版)允许用户使用来自 Docker Hub 的 Docker 镜像和采用 Spark 2.4.3 和 Hadoop 3.1.0 的 Amazon Elastic Container Registry (ECR) 定义应用程序和库依赖项。
现今,PySpark 和 SparkR 用户必须在集群中的每个主机上安装它们的依赖项。因此,运营多租户集群的团队很难跟上特定的库版本并管理依赖项,因而限制了开发人员的工作效率、增加了准备可用集群所花费的时间,以及增加了集群升级的复杂性。
使用 Hadoop 3、Docker 和 EMR,Spark 用户不再需要在单个集群主机上安装库依赖项,现在可以将应用程序依赖项限定为单个 Spark 应用程序。这可以通过在 Docker 容器中(而不是直接在 EMR 集群主机上)运行 Spark 应用程序来实现。要将 Docker 与 Spark 应用程序一起使用,只需在将作业提交到 EMR 集群时引用 Docker 镜像的名称。在 EMR 集群上运行的 YARN 将自动从 Docker Hub 或 ECR 检索镜像,并运行您的应用程序。您可以使用 Docker 镜像打包自己的库依赖项,甚至可以在同一个集群上运行具有不同版本的 R 和 Python 的容器。
EMR 版本 6.0.0(测试版)中还包括对 Amazon Linux 2 和 Amazon Corretto JDK 8 的支持。Amazon Linux 2 是最新一代的 Amazon Linux 服务器操作系统,提供新的系统工具(如 systemd init 系统)和性能优化的 Amazon Linux LTS 内核。Amazon Corretto JDK 8 提供经过 Java SE 认证的兼容 JDK,包括长期支持、性能增强和安全修复程序。
此 EMR 版本 6.0.0(测试版)在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)区域推出。要开始使用,请参阅使用 Amazon EMR 6.0.0(测试版)通过 Docker 运行 Spark 应用程序。要提供有关此版本的反馈或提出问题,请使用我们的 Amazon EMR 论坛。
您可以订阅 EMR 发行说明的源,以了解有关 EMR 版本的最新信息。请使用 EMR 版本指南顶部的图标,将源 URL 直接链接至您最喜欢的源阅读器。