Veröffentlicht am: May 1, 2024
Amazon EMR Serverless ist eine Serverless-Option in Amazon EMR, die es Data Engineers und Datenwissenschaftlern einfach macht, Open-Source-Analyse-Frameworks für Big Data auszuführen, ohne Cluster oder Server konfigurieren, verwalten und skalieren zu müssen. Eine Serverless-EMR-Anwendung verwendet Worker zur Ausführung von Workloads, sodass Benutzer temporären Speicher pro Worker auf der Grundlage der Workload-Anforderungen konfigurieren können. Wir führen heute Shuffle-optimierte Laufwerke auf Amazon EMR Serverless ein. Sie bieten eine höhere Speicherkapazität (bis zu 2 TB) sowie höhere IOPS und somit eine bessere Leistung für I/O-intensive Spark- und Hive-Workloads.
Shuffle ist ein grundlegender Schritt in Apache-Spark- oder Apache-Hive-Aufträgen und umfasst I/O-intensive Vorgänge, bei denen Daten für parallele Berechnungen bei Vorgängen wie Verknüpfungen, Aggregationen oder Transformationen neu verteilt oder neu organisiert werden. Komplexe Workloads mit großen Datensätzen erfordern eine ausreichende Laufwerkkapazität und I/O-Leistung für eine optimierte Shuffle-Verarbeitung. Shuffle-optimierte Laufwerke bieten bis zu 2 TB Speicherkapazität und höhere Basis-IOPS, sodass Sie Shuffle- und I/O-intensive Spark- und Hive-Workloads effizient ausführen können.
Shuffle-optimierte Laufwerke sind in den EMR-Release-Versionen 7.1.0 allgemein in allen AWS-Regionen verfügbar, in denen EMR Serverless verfügbar ist, mit Ausnahme der Regionen AWS GovCloud (USA) und China. Weitere Informationen zu Shuffle-optimierten Laufwerken finden Sie im Benutzerhandbuch zu EMR Serverless. Preisinformationen zu Shuffle-optimierten Laufwerken finden Sie auf der Preisseite für EMR Serverless.