发布于: Jun 24, 2021

Amazon EMR on Amazon EKS 宣布支持自定义映像,这是一种新功能,允许客户自定义在 Amazon EMR on EKS 上运行 Apache Spark 应用程序所用的 Docker 容器映像。通过自定义映像,可以在单个不可变容器中安装和配置特定于工作负载的程序包,这些程序包在 EMR Spark 运行时的公开分发版中不可用。不可变容器促进了可移植性,简化了每个工作负载的依赖项管理,并支持将开发中的 EMR on EKS 应用程序与您自己的持续集成 (CI) 管道相集成。

至今,EMR on EKS 使您能够及时提供应用程序依赖项,即您可以从外部存储服务(如 Amazon S3)作为作业提交的一部分提交依赖项。现在,在自定义映像的支持下,您可以为每个使用案例创建一个包含应用程序及其依赖项的自包含的 Docker 映像。例如,您可以为数据工程师创建一个自定义映像,其中包含应用程序所需的特定 Java 版本和证书,为数据科学家创建一个单独的映像,其中包含不同的依赖项,如专用库或特定的 Python 依赖项。然后,数据工程师和数据科学家可以在 EMR on EKS 作业中使用其特定于应用程序的自定义映像。利用此新功能,您不再需要维护、更新外部存储的库或对其进行版本控制,并且可以使用与其他容器化应用程序所用的相同 DevOps 流程开发大数据应用程序。

对您的 EMR on EKS 作业使用自定义映像非常简单。您可以在 Start-Job-Run API 中使用参数 spark.kubernetes.container.image 指定要在作业中使用的自定义映像。还可以使用参数 spark .kubernetes.driver.container.imagespark .kubernetes.executor.container.image 为 Spark 驱动程序和执行程序 pod 指定不同的映像。 

要开始使用,请参阅我们的 AWS 新闻发布博客并观看我们的概览演示视频。所有 Amazon EMR on EKS 版本都支持自定义映像,并且它在提供 Amazon EMR on EKS 的所有区域都可以使用。此外,您可以阅读我们的文档或访问 Amazon EMR on Amazon EKS 详细信息页面了解更多信息。