Amazon EMR Serverless macht die lokale Speicherbereitstellung für Apache Spark-Workloads überflüssig

Veröffentlicht am: 2. Dez. 2025

Amazon EMR Serverless bietet jetzt Serverless-Speicher, der die lokale Speicherbereitstellung für Apache Spark-Workloads überflüssig macht, wodurch die Datenverarbeitungskosten um bis zu 20% gesenkt und Job-Fehlschläge aufgrund von Festplattenkapazitätsbeschränkungen verhindert werden. Sie müssen nicht mehr den lokalen Festplattentyp und die Größe für jede Anwendung konfigurieren. EMR Serverless wickelt zwischengeschaltete Datenvorgänge wie Shuffle automatisch ohne lokale Speicherkosten ab. Sie zahlen nur für Rechen- und Speicherressourcen, die Ihr Job verbraucht.

EMR Serverless lagert zwischengeschaltete Datenvorgänge auf einen vollständig verwalteten, automatisch skalierenden Serverless-Speicher aus, der Daten während der Übertragung und im Ruhezustand mit Isolierung auf Jobebene verschlüsselt. Serverless-Speicher entkoppelt Speicher von Rechenleistung, sodass Spark Worker sofort freigeben kann, wenn sie inaktiv sind, anstatt die Worker zur Aufbewahrung temporärer Daten aktiv zu lassen. Dies verhindert Job-Fehlschläge aufgrund unzureichender Festplattenkapazität und senkt die Kosten, indem Kosten für ungenutzte Worker vermieden werden. Dies ist besonders nützlich für Jobs, bei denen dynamische Ressourcenzuweisung verwendet wird, wie z. B. Empfehlungsengines, die Millionen von Kundeninteraktionen verarbeiten, bei denen in der Anfangsphase große Datensätze mit hoher Parallelität verarbeitet werden und die Verarbeitung sich daraufhin mit wachsender Datenaggregation verengt.

Diese Funktion ist für EMR Version 7.12 und höher allgemein verfügbar. Informationen zur Verfügbarkeit finden Sie unter Unterstützte AWS-Regionen. Ziehen Sie für die ersten Schritte die Dokumentation zu Serverless-Speicher für EMR Serverless zu Rate.

Amazon EMR Serverless macht die lokale Speicherbereitstellung für Apache Spark-Workloads überflüssig

Lernen

Ressourcen

Entwickler

Hilfe