Veröffentlicht am: Jan 8, 2021

Amazon EMR ist jetzt nativ in Apache Ranger integrierbar, sodass Sie eine detaillierte Datenzugriffskontrolle definieren, erzwingen und prüfen können. Mit dieser Funktion können Sie Autorisierungsrichtlinien auf Datenbank-, Tabellen- und Spaltenebene für Apache Spark- und Apache Hive-Benutzer für den Datenzugriff über Hive Metastore sowie Autorisierungsrichtlinien auf Präfix- und Objektebene definieren und durchsetzen, wenn sie über das Amazon EMR File System (EMRFS) auf Daten in Amazon S3 zugreifen, und Amazon CloudWatch nutzen, um Audit-Logs zu erfassen.

Apache Ranger ist ein Open-Source-Tool zur Aktivierung, Überwachung und Verwaltung umfassender Datensicherheit auf der Hadoop-Plattform. Zuvor konnten Sie Apache Ranger verwenden, um eine detaillierte Autorisierung für Daten im HDFS mit Apache Hive zu erzwingen (siehe diesen Blog-Beitrag). Jetzt ermöglicht diese native Integration zusätzliche Funktionen. Sie können drei Arten von Autorisierungsrichtlinien auf dem Apache Ranger Policy Admin-Server definieren. Sie können die Autorisierung auf Tabellen-, Spalten- und Zeilenebene für Apache Hive, die Autorisierung auf Tabellen- und Spaltenebene für Apache Spark und die Autorisierung auf Präfix- und Objektebene für Amazon S3 festlegen. Amazon EMR installiert und konfiguriert automatisch die entsprechenden Apache Ranger-Plugins auf dem Cluster. Diese Ranger-Plugins synchronisieren sich mit dem Policy Admin-Server für Autorisierungsrichtlinien, setzen die Datenzugriffskontrolle durch und senden Prüfereignisse an Amazon CloudWatch Logs.

Hier sind einige Überlegungen und Einschränkungen, bevor Sie die Apache Ranger-Integration auf Amazon EMR aktivieren. 1/ Autorisierungs- und Datenmaskierungsrichtlinien auf Zeilenebene werden derzeit nur mit Apache Hive unterstützt. 2/ Das EMR Ranger-Spark-Plugin erzwingt eine detaillierte Autorisierung beim Lesen und Schreiben von Daten unter Verwendung der Spark-API mit Java, Scala, R und Pyspark. Allerdings wird das Schreiben von Daten mit Spark SQL auf Ranger-aktivierten Clustern derzeit nicht unterstützt; nur das Lesen von Daten mit SparkSQL wird unterstützt. 3/ Diese native Integration unterstützt ausgewählte Anwendungen wie Apache Zeppelin und Hue. Eine vollständige Liste der unterstützten Anwendungen finden Sie unter Unterstützte Anwendungen

Die native Integration von Amazon EMR mit Apache Ranger ist in den folgenden AWS-Regionen verfügbar: USA Ost (Nord-Virginia und Ohio), USA West (Nord-Kalifornien und Oregon), Europa (Frankfurt, Irland, London, Paris, Mailand und Stockholm), Kanada (Central), Asien-Pazifik (Mumbai, Seoul, Singapur, Hongkong, Tokio und Sydney), Südamerika (São Paulo), Naher Osten (Bahrain) und Afrika (Kapstadt).

Zum Einstieg empfehlen wir die folgende Ressourcenliste:

• Amazon EMR-Managementhandbuch: Integration von Amazon EMR in Apache Ranger
• AWS Big Data-Blogbeitrag: Einführung der Amazon EMR-Integration in Apache Ranger