Publié le: Jan 8, 2021

Désormais, Amazon EMR s’intègre de façon native à Apache Ranger, ce qui vous permet de définir, appliquer et vérifier les contrôles précis des accès aux données. Grâce à cette fonctionnalité, vous avez la possibilité de définir et appliquer : 1/ des stratégies d’autorisation au niveau des colonnes, tables et bases de données pour que les utilisateurs Apache Spark et Apache Hive puissent accéder aux données via Hive Metastore ; 2/ des stratégies d’autorisation au niveau des objets et des préfixes pour les accès aux données dans Amazon S3 via le système de fichiers Amazon EMR (EMRFS). Ainsi, vous exploitez Amazon CloudWatch pour enregistrer les journaux d’audit.

Apache Ranger est un outil open source qui active, surveille et gère la sécurité exhaustive des données sur la plateforme Hadoop. En premier lieu, vous pouvez utiliser Apache Ranger pour appliquer un mécanisme d’autorisation précis sur les données dans HDFS avec Apache Hive à l’aide de cette publication du blog. Maintenant, cette intégration native offre de nouvelles fonctionnalités. Vous avez la possibilité de définir trois types de stratégies d’autorisation sur le serveur Policy Admin Apache Ranger. Vous pouvez configurer des autorisations au niveau des lignes, colonnes et tables pour Apache Hive ; au niveau des colonnes et des tables pour Apache Spark ; et au niveau des objets et des préfixes pour Amazon S3. Amazon EMR installe et configure automatiquement les plugins Apache Ranger correspondants sur le cluster. Ces plugins Ranger se synchronisent avec le serveur Policy Admin pour les stratégies d’autorisation, appliquent des contrôles d’accès aux données et envoient des événements d’audit à Amazon CloudWatch Logs.

Avant d’intégrer Apache Ranger à Amazon EMR, voici quelques éléments et restrictions à prendre en compte : 1/ Les stratégies de masquage de données et d’autorisation au niveau des lignes ne sont actuellement prises en charge uniquement par Apache Hive. 2/ Le plugin Ranger-Spark EMR applique un mécanisme d’autorisation précis pour la lecture et l’écriture de données en utilisant l’API Spark avec Java, Scala, R et Pyspark. Toutefois, l’écriture de données avec Spark SQL sur des clusters ayant activé Ranger n’est actuellement pas prise en charge ; seule la lecture de données avec Spark SQL est possible. 3/ Cette intégration native prend en charge certaines applications comme Apache Zeppelin et Hue. Pour obtenir une liste complète des applications prises en charge, consultez la section Applications prises en charge

L’intégration native d’Amazon EMR à Apache Ranger est disponible dans les régions AWS suivantes : USA Est (Virginie du Nord et Ohio), USA Ouest (Californie du Nord et Oregon), UE (Francfort, Irlande, Londres, Milan, Paris et Stockholm), Canada (Centre), Asie-Pacifique (Hong Kong, Mumbai, Séoul, Singapour, Sydney et Tokyo), Amérique du Sud (Sao Paulo), Moyen-Orient (Bahreïn) et Afrique (Le Cap).

Pour démarrer, consultez la liste des ressources suivantes :

• Guide d’utilisation d’Amazon EMR : Intégration d’Amazon EMR à Apache Ranger
• Publication du blog AWS Big Data : Présentation de l’intégration d’Amazon EMR à Apache Ranger