Veröffentlicht am: Oct 27, 2022
Hive-Benutzer führen den Befehl „Metastore check“ mit der Option „repair table“ (MSCK REPAIR table) aus, um die Partitions-Metadaten im Hive-Metaspeicher für Partitionen zu aktualisieren, die dem Dateisystem (S3 oder HDFS) direkt hinzugefügt oder daraus entfernt wurden. Wenn der MSCK-Reparaturbefehl ausgeführt wird, muss er einen Dateisystemaufruf durchführen, um zu prüfen, ob die Partition für jede Partition existiert. Dieser Schritt kann viel Zeit in Anspruch nehmen, wenn die Tabelle Tausende von Partitionen aufweist. In EMR 6.5 haben wir eine Optimierung des MSCK-Reparaturbefehls in Hive eingeführt, um die Anzahl der S3-Dateisystemaufrufe beim Abrufen von Partitionen zu reduzieren. Diese Funktion verbessert die Leistung des MSCK-Befehls (um ~15-20x bei mehr als 10.000 Partitionen) aufgrund der geringeren Anzahl von Dateisystemaufrufen, insbesondere bei der Arbeit an Tabellen mit einer großen Anzahl von Partitionen. Zuvor mussten Sie diese Funktion durch explizites Setzen eines Flags aktivieren. Ab Amazon EMR 6.8 haben wir die Anzahl der S3-Dateisystemaufrufe weiter reduziert, um die MSCK-Reparatur schneller durchzuführen, und diese Funktion standardmäßig aktiviert.
Zusätzlich zur Optimierung der MSCK-Reparaturtabelle möchten wir mitteilen, dass Amazon EMR Hive-Benutzer jetzt die modulare Parquet-Verschlüsselung verwenden können, um sensible Informationen in Parquet-Dateien zu verschlüsseln und zu authentifizieren. Es ist eine schwierige Aufgabe, die Privatsphäre und die Integrität sensibler Daten in großem Umfang zu schützen und gleichzeitig die Parquet-Funktionalität beizubehalten. Derzeit werden zur Verschlüsselung von Parquet-Dateien Datenschutzlösungen wie die Verschlüsselung von Dateien oder der Speicherebene verwendet, die jedoch zu Leistungseinbußen führen können. Mit der modularen Parquet-Verschlüsselung können Sie nicht nur eine granulare Zugriffskontrolle ermöglichen, sondern auch die Parquet-Optimierungen wie Spaltenprojektion, Prädikat-Pushdown, Kodierung und Komprimierung beibehalten. Durch die modulare Parquet-Verschlüsselung können Amazon EMR Hive-Benutzer sowohl Parquet-Daten als auch Metadaten schützen, unterschiedliche Verschlüsselungsschlüssel für verschiedene Spalten verwenden und eine teilweise Verschlüsselung ausschließlich sensibler Spalten durchführen. Außerdem können Clients die Integrität der abgerufenen Daten überprüfen und dabei alle Parquet-Optimierungen beibehalten. Diese Funktion ist ab Amazon EMR 6.6 und höher verfügbar.
Sie können diese Funktionen in allen Regionen nutzen, in denen Amazon EMR verfügbar ist, und mit beiden Bereitstellungsoptionen: EMR auf EC2 und EMR Serverless. Mehr zu diesen Funktionen erfahren Sie in unserer Dokumentation.