Veröffentlicht am: May 13, 2021
Die Amazon-EMR-Integration mit Apache Ranger ist jetzt in EMR 6.3 verfügbar, sodass Sie eine detaillierte Datenzugriffskontrolle definieren, erzwingen und prüfen können. Mit dieser Funktion können Sie 1/ Autorisierungsrichtlinien auf Datenbank-, Tabellen- und Spaltenebene für Apache-Spark- und Apache-Hive-Benutzer für den Zugriff auf Daten über Hive Metastore und 2/ Autorisierungsrichtlinien auf Präfix- und Objektebene beim Zugriff auf Daten in Amazon S3 über das Amazon EMR File System (EMRFS) definieren und durchsetzen, wobei Amazon CloudWatch zur Erfassung von Prüfprotokollen genutzt wird.
Apache Ranger ist ein Open-Source-Tool zur Aktivierung, Überwachung und Verwaltung umfassender Datensicherheit auf der Hadoop-Plattform. Zuvor konnten Sie Apache Ranger verwenden, um eine detaillierte Autorisierung für Daten im HDFS mit Apache Hive zu erzwingen (siehe diesen Blog-Beitrag). Jetzt ermöglicht diese native Integration zusätzliche Funktionen. Sie können drei Arten von Autorisierungsrichtlinien auf dem Apache Ranger Policy Admin-Server definieren. Sie können die Autorisierung auf Tabellen-, Spalten- und Zeilenebene für Apache Hive, die Autorisierung auf Tabellen- und Spaltenebene für Apache Spark und die Autorisierung auf Präfix- und Objektebene für Amazon S3 festlegen. Amazon EMR installiert und konfiguriert automatisch die entsprechenden Apache Ranger-Plugins auf dem Cluster. Diese Ranger-Plugins synchronisieren sich mit dem Policy Admin-Server für Autorisierungsrichtlinien, setzen die Datenzugriffskontrolle durch und senden Prüfereignisse an Amazon CloudWatch Logs.
Hier sind einige Überlegungen und Einschränkungen, bevor Sie die Apache Ranger-Integration auf Amazon EMR aktivieren. 1/ Autorisierungs- und Datenmaskierungsrichtlinien auf Zeilenebene werden derzeit nur mit Apache Hive unterstützt. 2/ Das EMR Ranger-Spark-Plugin erzwingt eine detaillierte Autorisierung beim Lesen und Schreiben von Daten unter Verwendung der Spark-API mit Java, Scala, R und Pyspark. Allerdings wird das Schreiben von Daten mit Spark SQL auf Ranger-aktivierten Clustern derzeit nicht unterstützt; nur das Lesen von Daten mit SparkSQL wird unterstützt. 3/ Diese native Integration unterstützt ausgewählte Anwendungen wie Apache Zeppelin und Hue. Eine vollständige Liste der unterstützten Anwendungen finden Sie unter Unterstützte Anwendungen.
Die Integration von Amazon EMR mit Apache Ranger in EMR 6.3 ist in den folgenden AWS-Regionen verfügbar: USA Ost (Nord-Virginia und Ohio), USA West (Nord-Kalifornien und Oregon), Europa (Frankfurt, Irland, London, Paris, Mailand und Stockholm), Kanada (Zentral), Asien-Pazifik (Mumbai, Seoul, Singapur, Hongkong, Tokio und Sydney), Südamerika (São Paulo), Naher Osten (Bahrain) und Afrika (Kapstadt).
Zum Einstieg empfehlen wir die folgende Ressourcenliste:
- Amazon-EMR-Managementhandbuch: Integration von Amazon EMR in Apache Ranger
- AWS-Big-Data-Blogbeitrag: Introducing Amazon EMR integration with Apache Ranger