Veröffentlicht am: Jan 6, 2023
Amazon EMR Serverless ist eine Serverless-Option in Amazon EMR, die es Data Engineers und Datenwissenschaftlern einfach macht, Open-Source-Analyse-Frameworks für Big Data auszuführen, ohne Cluster oder Server konfigurieren, verwalten und skalieren zu müssen. Wir freuen uns, Ihnen heute mitteilen zu können, dass Sie mit EMR Serverless jetzt Images für Apache Spark und Hive anpassen können. Das bedeutet, dass Sie Anwendungsabhängigkeiten oder benutzerdefinierten Code in das Image aufnehmen können, was die Ausführung von Spark- und Hive-Workloads vereinfacht.
Die Ausführung benutzerdefinierter Images vereinfacht viele Anwendungsfälle für Big-Data-Analysen. Data Engineers können beispielsweise das Standard-Release-Image anpassen, um allgemeine Abhängigkeiten, benutzerdefinierten Code, bestimmte Java- oder Python-Versionen oder SSL-Zertifikate, die für Workloads erforderlich sind, zu paketieren. Sie können diese benutzerdefinierten Images dann im Amazon Elastic Container Repository (ECR) speichern, sodass Spark-Workloads mit benutzerdefinierten Abhängigkeiten einfach ausgeführt werden können. Security Engineers können diese Images scannen, um die organisatorischen Standards zu erfüllen. Datenwissenschaftler können Laufzeit-Images so anpassen, dass sie proprietäre Bibliotheken oder bestimmte Python-Pakete enthalten. Darüber hinaus können EMR-Serverless-Versionen direkt in die Entwicklungs-, Test- und Bereitstellungsprozesse Ihres Unternehmens in Docker integriert werden, was die Continuous Integration (CI) und Continuous Delivery (CD) von Anwendungen vereinfacht.
Weitere Informationen dazu, wie Sie die EMR-Laufzeit für eine bestimmte Version anpassen können, um Anwendungsabhängigkeiten einzubeziehen, finden Sie in unserer Dokumentation.
Diese Funktion ist in allen AWS-Regionen verfügbar, in denen EMR Serverless angeboten wird. Informationen zur regionalen Verfügbarkeit von Amazon EMR Serverless finden Sie unter Häufig gestellte Fragen.