Veröffentlicht am: Nov 18, 2019
Mit Freude kündigen wir die Amazon EMR-Laufzeitumgebung für Apache Spark an – eine Performance-optimierte Laufzeitumgebung für Apache Spark, die bei Amazon EMR-Clustern automatisch verfügbar und standardmäßig aktiviert ist. Die EMR-Laufzeitumgebung für Spark ist bis zu 32-mal schneller und bietet eine 100-prozentige API-Kompatibilität mit Open-Source-Spark. Die Laufzeitumgebung ist ab EMR-Release 5.28 automatisch aktiv.
Die Auswirkungen dieser Verbesserungen haben wir mit dem Benchmark TPC-DS gemessen. Dabei verwendeten wir Abfragen mit einer Größe von 3 TB bei einem c4.8xlarge-EMR-Cluster mit 6 Knoten in Amazon S3. Wir haben die Performance-Verbesserungen zunächst anhand des geometrischen Mittelwerts der Verbesserungen bei der Ausführungszeit aller Abfragen und anschließend anhand der Ausführungszeit aller Abfragen gemessen. Dabei beobachteten wir eine Verbesserung um das 2,4-Fache beim geometrischen Mittelwert und um das 3,2-Fache bei der Ausführungszeit aller Abfragen beim Vergleich von EMR 5.16 und EMR 5.28. Weitere Informationen zu den Performance-Verbesserungen und den Auswirkungen auf kurze und lange Abfragen erhalten Sie in unserem AWS Big Data Blog-Beitrag: Amazon EMR introduces EMR runtime for Apache Spark.