Veröffentlicht am: Sep 6, 2019
EMR 6.0.0 (Beta) ermöglicht Benutzern das Definieren von Anwendungs- und Bibliotheksabhängigkeiten mithilfe von Docker-Images von Docker Hub und Amazon Elastic Container Registry (ECR) unter Spark 2.4.3 und Hadoop 3.1.0.
Aktuell müssen PySpark- und SparkR-Nutzer ihre Abhängigkeiten auf jedem Host in ein Cluster installieren. Infolgedessen haben Teams, die Cluster mit mehreren Mandanten betreiben, Schwierigkeiten, mit bestimmten Bibliotheksversionen Schritt zu halten und Abhängigkeiten zu verwalten, was die Produktivität der Entwickler einschränkt, die Zeit für die Vorbereitung eines Clusters zur Nutzung erhöht und Cluster-Upgrades verkompliziert.
Dank Hadoop 3, Docker und EMR müssen Spark-Anwender keine Bibliotheksabhängigkeiten mehr auf einzelnen Cluster-Hosts installieren, und Anwendungsabhängigkeiten können nun auf einzelne Spark-Anwendungen übertragen werden. Hierfür werden Spark-Anwendungen in Docker-Containern und nicht direkt auf EMR-Cluster-Hosts ausgeführt. Wenn Sie Docker mit Ihrer Spark-Anwendung verwenden möchten, geben Sie einfach den Namen des Docker-Images an, wenn Sie Aufträge an einen EMR-Cluster senden. YARN, das auf einem EMR-Cluster läuft, ruft das Bild automatisch vom Docker Hub oder ECR ab und führt Ihre Anwendung aus. Sie können Docker-Images verwenden, um Ihre eigenen Bibliotheksabhängigkeiten zu bündeln, und sogar Container mit unterschiedlichen R- und Python-Versionen auf dem selben Cluster ausführen.
Ebenfalls in der EMR-Version 6.0.0 (Beta) inbegriffen ist der Support für Amazon Linux 2 und Amazon Corretto JDK 8. Amazon Linux 2 ist die neueste Generation des Amazon Linux Serverbetriebssystems und bietet neue System-Tools wie das System-basierte init-System und den leistungsgesteigerten Amazon Linux LTS Kernel. Amazon Corretto JDK 8 bietet ein Java SE-zertifiziertes kompatibles JDK, das langfristigen Support, Leistungssteigerungen und Sicherheitskorrekturen umfasst.
Die EMR-Version 6.0.0 (Beta) ist in den Regionen USA Ost (Nord-Virginia) und USA West (Oregon) verfügbar. Informationen zu den ersten Schritten finden Sie unter Ausführen von Spark-Anwendungen mit Docker unter Amazon EMR 6.0.0 (Beta). Wenn Sie Feedback geben möchten oder Fragen zu dieser Version haben, nutzen Sie bitte unser Amazon EMR-Forum.
Bleiben Sie bezüglich der neuesten EMR-Versionen auf dem neuesten Stand, indem Sie den Feed für EMR-Versionshinweise abonnieren. Verknüpfen Sie die Feed-URL über das Symbol oben im EMR Release Guide direkt mit Ihrem bevorzugten Feed-Reader.