Publicado en: May 13, 2021
La integración de Amazon EMR con Apache Ranger está disponible ahora en EMR 6.3 y permite definir, aplicar y auditar un control pormenorizado del acceso a los datos. Gracias a esta característica, puede definir y aplicar: 1) políticas de autorización a nivel de columna, de tabla y de base de datos para permitir que los usuarios de Apache Spark y Apache Hive accedan a los datos a través Hive Metastore; y 2) políticas de autorización a nivel de objeto y de prefijo a la hora de acceder a datos en Amazon S3 mediante Amazon EMR File System (EMRFS) (Sistema de archivos de Amazon EMR) y aprovechar Amazon CloudWatch para capturar los registros de las auditorías.
Apache Ranger es una herramienta de código abierto que permite habilitar, monitorear y administrar de forma pormenorizada la seguridad de los datos en la plataforma Hadoop. Hasta ahora, podía usar Apache Ranger para aplicar autorizaciones pormenorizadas de acceso a datos en HDFS con Apache Hive tal y como se indica en este artículo del blog. Ahora, esta integración nativa le permite disfrutar de más capacidades. Puede definir tres tipos de políticas de autorización en el servidor de administración de políticas de Apache Ranger. Puede definir autorizaciones a nivel de fila, de columna y de tabla para Apache Hive, a nivel de columna y de tabla para Apache Spark y, por último, a nivel de prefijo y de objeto para Amazon S3. Amazon EMR instala y configura de forma automática los complementos correspondientes de Apache Ranger en el clúster. Estos complementos de Ranger se sincronizan con el servidor de administración de políticas para determinar las autorizaciones, aplicar las políticas de acceso a datos y enviar los eventos de auditoría a Amazon CloudWatch Logs.
A continuación, le ofrecemos algunas consideraciones y limitaciones que debe tener en cuenta antes de habilitar la integración de Apache Ranger en Amazon EMR. 1) En la actualidad, las políticas de autorización a nivel de fila y de enmascaramiento de datos solo son compatibles con Apache Hive. 2) El complemento de Ranger-Spark para EMR aplica la autorización pormenorizada para las operaciones de lectura y escritura de datos mediante la API de Spark con Java, Scala, R y Pyspark. Sin embargo, actualmente no son compatibles las operaciones de escritura de datos mediante Spark SQL en clústeres que tengan habilitado Ranger, y únicamente se pueden leer datos mediante dicho módulo. 3) Esta integración nativa es compatible con determinadas aplicaciones seleccionadas, como Apache Zeppelin y Hue. Si desea conocer la lista completa de aplicaciones compatibles, visite Aplicaciones compatibles.
La integración de Amazon EMR con Apache Ranger en EMR 6.3 está disponible en las siguientes regiones de AWS: EE. UU. Este (Norte de Virginia y Ohio), EE. UU. Oeste (Norte de California y Oregón), UE (Fráncfort, Irlanda, Londres, París, Milán y Estocolmo), Canadá (Central), Asia-Pacífico (Mumbai, Seúl, Singapur, Hong Kong, Tokio y Sídney), América del Sur (São Paulo), Medio Oriente (Baréin) y África (Ciudad del Cabo).
Para comenzar, consulte la siguiente lista de recursos:
- Guía para la administración de Amazon EMR: Integración de Amazon EMR con Apache Ranger
- Publicación del blog de AWS sobre Big Data: Presentación de la integración de Amazon EMR con Apache Ranger