Veröffentlicht am: Aug 1, 2019

Sie können jetzt Spark 2.4.3, Presto 0.220, Apache Hive 2.3.5 und Apache Tez 0.9.2 auf der Amazon EMR-Version 5.25.0 verwenden.

Diese Version umfasst außerdem zwei neue Performance-Optimierungen mit einer bis zu dreifachen* Erhöhung der Spark-Performance im Vergleich zu EMR 5.24: Bloomfilter für Joins und optimierte Join-Neuanordnung.

  • Der Bloomfilter für Joins filtert Tabellenverknüpfungen dynamisch, sodass anschließend nur relevante Zeilen enthalten sind. Dadurch wird die Menge der von Spark verarbeiteten Daten verringert, wodurch sich die Laufzeit-Performance der Abfrage verbessert.
  • Die optimierte Join-Neuanordnung ordnet Joins dynamisch neu an. So können kleinere Joins mit Filtern zuerst ausgeführt werden, wodurch sich die für größere nachfolgende Joins erforderliche Verarbeitung reduziert.

Weitere Informationen zur Aktivierung dieser Optimierungen finden Sie in der Dokumentation zur EMR Spark-Performance und in den Versionshinweisen zu EMR 5.25.0

Darüber hinaus haben wir die standardmäßige Spark-Konfiguration für speicheroptimierte R4-Instanzen aktualisiert, um eine bessere CPU- und Speicherauslastung zu erreichen. Dieses Update verbessert die Spark-Laufzeit-Performance um das 1,5-Fache*.

Amazon EMR Version 5.25.0 ist nun in allen Regionen, in denen Amazon EMR unterstützt wird, verfügbar. 

Bleiben Sie bezüglich der neuesten EMR-Versionen auf dem neuesten Stand, indem Sie den Feed für EMR-Versionshinweise abonnieren. Verknüpfen Sie die Feed-URL über das Symbol oben in den EMR-Versionshinweisen direkt mit Ihrem bevorzugten Feed-Reader. 

* Basierend auf einem 3-TB-TPC-DS-Vergleichstest im Vergleich zu EMR 5.24.0 mit EMR 5.25.0.