Veröffentlicht am: Aug 19, 2021
Wir freuen uns, heute AWS Glue Version 3.0 ankündigen zu können, eine neue Version von AWS Glue Spark für Ihre Batch- und Streaming-Aufträge, die Ihre Datenintegrationsworkloads in AWS beschleunigt. Mit AWS Glue 3.0 wird eine leistungsoptimierte Spark-Laufzeit eingeführt, die Optimierungen von AWS Glue und Amazon EMR enthält und auf Open-Source Apache Spark 3.1.1 basiert. Die AWS Glue 3.0-Laufzeit optimiert sowohl den Lese- als auch den Schreibzugriff auf Amazon Simple Storage Service (Amazon S3), indem sie schnellere vektorisierte Leser und für Amazon S3 optimierte Ausgabe-Committer verwendet. Außerdem wird der Zugriff auf den AWS Glue Datenkatalog durch die Verwendung von Partitionsprädikaten optimiert. Bei stark partitionierten Datensätzen verbessert Glue 3.0 die Ausführungsgeschwindigkeit, indem unnötige Partitionen mithilfe von Partitionsindizes herausgefiltert werden. AWS Glue 3.0 ist auch vollständig in AWS Lake Formation integriert, so dass Sie Ihren Datenzugriff in verschiedenen Details wie Datenbank-, Tabellen-, Spalten-, Zeilen- und Zellenebene mit Hilfe von Ressourcennamen und AWS Lake Formation Tag-basierter Zugriffskontrolle sichern können. Mit AWS Glue 3.0 bieten wir auch neue Funktionen zur Verbesserung des Benutzererlebnis beim Überwachen, Debuggen und Optimieren von Spark-Anwendungen. Spark 3.1.1 ermöglicht ein verbessertes Spark-UI-Erlebnis, das neue Spark-Executor-Speichermetriken und Spark Structured Streaming-Metriken enthält, die für AWS Glue-Streaming-Aufträge nützlich sind. Ähnlich wie bei AWS Glue 2.0 verringert AWS Glue 3.0 die Startlatenz und verbessert die Gesamtdauer der Auftragsabwicklung.
AWS Glue 3.0 ist in jeder AWS Region verfügbar, in der AWS Glue verfügbar ist. Weitere Informationen zu dieser Funktion finden Sie im Blog und im AWS Glue Benutzerhandbuch.