張貼日期: Sep 6, 2019

EMR 6.0.0 (Beta) 允許使用者使用 Spark 2.4.3 和 Hadoop 3.1.0,透過來自 Docker HubAmazon Elastic Container Registry (ECR) 的 Docker 影像定義應用程式和程式庫相依性。

目前,PySpark 和 SparkR 使用者必須在叢集的每個主機上安裝它們的相依性。因此,操作多租戶叢集的團隊很難跟上特定程式庫版本和管理相依性,因而限制了開發人員的生產力、增加叢集使用的準備時間,且多了叢集升級的複雜性。 

使用 Hadoop 3、Docker 和 EMR 時,Spark 使用者再也不需要在個別叢集主機上安裝程式庫相依性,而且現在應用程式相依性範圍可以是個別 Spark 應用程式。這是透過在 Docker 容器中執行 Spark 應用程式而實現,並不是在 EMR 叢集主機上直接執行。要將 Docker 與 Spark 應用程式搭配使用,只需在將任務提交至 EMR 叢集時,參考 Docker 影像的名稱即可。在 EMR 叢集上執行的 YARN 會從 Docker Hub 或 ECR 自動擷取影像,並執行您的應用程式。您可以使用 Docker 影像封裝自己的程式庫相依性,甚至可以在相同叢集上執行具有不同 R 和 Python 版本的容器。 

EMR 版本 6.0.0 (Beta) 中也包括 Amazon Linux 2 和 Amazon Corretto JDK 8 的支援。Amazon Linux 2 是最新一代的 Amazon Linux 伺服器作業系統,提供新的系統工具,如 systemd init 系統,和效能調校的 Amazon Linux LTS 核心。Amazon Corretto JDK 8 提供 Java SE 認證的相容 JDK,包括長期支援、效能增強和安全修正程式。 

這個 EMR 版本 6.0.0 (Beta) 可在美國東部 (維吉尼亞北部) 和美國西部 (奧勒岡) 等區域使用。要開始使用,請參閱 Run Spark applications with Docker using Amazon EMR 6.0.0 (Beta)。要提供有關此版本的意見回饋或提出問題,請使用我們的 Amazon EMR 論壇

您可以訂閱 EMR 版本備註摘要,以取得 EMR 版本的最新資訊。請使用 EMR 版本指南頂端的圖示,將摘要 URL 直接連結到您喜愛的摘要閱讀器。