Publié le: May 13, 2021
L'intégration d'Amazon EMR à Apache Ranger est désormais disponible sur EMR 6.3, ce qui vous permet de définir, d'appliquer et d'auditer un contrôle précis de l'accès aux données. Grâce à cette fonctionnalité, vous avez la possibilité de définir et d'appliquer 1. des stratégies d'autorisation au niveau des colonnes, tables et bases de données pour que les utilisateurs Apache Spark et Apache Hive puissent accéder aux données avec Hive Metastore, et 2. des stratégies d'autorisation au niveau des objets et des préfixes pour les accès aux données dans Amazon S3 par le biais du système de fichiers Amazon EMR (EMRFS). Ainsi, vous exploitez Amazon CloudWatch pour enregistrer des journaux d'audit.
Apache Ranger est un outil open source qui active, surveille et gère la sécurité exhaustive des données sur la plateforme Hadoop. En premier lieu, vous pouvez utiliser Apache Ranger pour appliquer un mécanisme d’autorisation précis sur les données dans HDFS avec Apache Hive à l’aide de cette publication du blog. Maintenant, cette intégration native offre de nouvelles fonctionnalités. Vous avez la possibilité de définir trois types de stratégies d’autorisation sur le serveur Policy Admin Apache Ranger. Vous pouvez configurer des autorisations au niveau des lignes, colonnes et tables pour Apache Hive ; au niveau des colonnes et des tables pour Apache Spark ; et au niveau des objets et des préfixes pour Amazon S3. Amazon EMR installe et configure automatiquement les plugins Apache Ranger correspondants sur le cluster. Ces plugins Ranger se synchronisent avec le serveur Policy Admin pour les stratégies d’autorisation, appliquent des contrôles d’accès aux données et envoient des événements d’audit à Amazon CloudWatch Logs.
Avant d’intégrer Apache Ranger à Amazon EMR, voici quelques éléments et restrictions à prendre en compte : 1/ Les stratégies de masquage de données et d’autorisation au niveau des lignes ne sont actuellement prises en charge uniquement par Apache Hive. 2/ Le plugin Ranger-Spark EMR applique un mécanisme d’autorisation précis pour la lecture et l’écriture de données en utilisant l’API Spark avec Java, Scala, R et Pyspark. Toutefois, l’écriture de données avec Spark SQL sur des clusters ayant activé Ranger n’est actuellement pas prise en charge ; seule la lecture de données avec Spark SQL est possible. 3/ Cette intégration native prend en charge certaines applications comme Apache Zeppelin et Hue. Pour obtenir une liste complète des applications prises en charge, consultez la section Applications prises en charge.
L'intégration d'Amazon EMR à Apache Ranger on EMR 6.3 est disponible dans les régions AWS suivantes : USA Est (Virginie du Nord et Ohio), USA Ouest (Californie du Nord et Oregon), UE (Francfort, Irlande, Londres, Milan, Paris et Stockholm), Canada (Centre), Asie-Pacifique (Hong Kong, Mumbai, Séoul, Singapour, Sydney et Tokyo), Amérique du Sud (Sao Paulo), Moyen-Orient (Bahreïn) et Afrique (Le Cap).
Pour démarrer, consultez la liste des ressources suivante :
- Guide d'utilisation d'Amazon EMR : Intégration d'Amazon EMR à Apache Ranger
- Publication du blog AWS Big Data : Présentation de l'intégration d'Amazon EMR à Apache Ranger