Publicado en: Jan 8, 2021

Ahora, Amazon EMR se integra de forma nativa con Apache Ranger y le permite definir, aplicar y auditar políticas pormenorizadas de control del acceso a datos. Gracias a esta característica, puede definir y aplicar: 1) políticas de autorización a nivel de columna, de tabla y de base de datos para permitir que los usuarios de Apache Spark y Apache Hive accedan a los datos a través Hive Metastore; y 2) políticas de autorización a nivel de objeto y de prefijo a la hora de acceder a datos en Amazon S3 mediante Amazon EMR File System (EMRFS) (Sistema de archivos de Amazon EMR) y aprovechar Amazon CloudWatch para capturar los registros de las auditorías.

Apache Ranger es una herramienta de código abierto que permite habilitar, monitorear y administrar de forma pormenorizada políticas de seguridad de datos en la plataforma Hadoop. Hasta ahora, podía usar Apache Ranger para aplicar autorizaciones pormenorizadas de acceso a datos en HDFS con Apache Hive tal y como se indica en este artículo del blog. Ahora, esta integración nativa le permite disfrutar de más capacidades. Puede definir tres tipos de políticas de autorización en el servidor de administración de políticas de Apache Ranger. Puede definir autorizaciones a nivel de fila, de columna y de tabla para Apache Hive, a nivel de columna y de tabla para Apache Spark y, por último, a nivel de prefijo y de objeto para Amazon S3. Amazon EMR instala y configura de forma automática los complementos correspondientes de Apache Ranger en el clúster. Estos complementos de Ranger se sincronizan con el servidor de administración de políticas para determinar las autorizaciones, aplicar las políticas de acceso a datos y enviar los eventos de auditoría a Amazon CloudWatch Logs.

A continuación, le ofrecemos algunas consideraciones y limitaciones que debe tener en cuenta antes de habilitar la integración de Apache Ranger en Amazon EMR. 1) En la actualidad, las políticas de autorización a nivel de fila y de enmascaramiento de datos solo son compatibles con Apache Hive. 2) El complemento de Ranger-Spark para EMR aplica la autorización pormenorizada para las operaciones de lectura y escritura de datos mediante la API de Spark con Java, Scala, R y Pyspark. Sin embargo, actualmente no son compatibles las operaciones de escritura de datos mediante Spark SQL en clústeres que tengan habilitado Ranger, y únicamente se pueden leer datos mediante dicho módulo. 3) Esta integración nativa es compatible con determinadas aplicaciones seleccionadas, como Apache Zeppelin y Hue. Si desea conocer la lista completa de aplicaciones compatibles, visite Aplicaciones compatibles

La integración nativa de Amazon EMR con Apache Ranger está disponible en las siguientes regiones de AWS: US East (N. Virginia y Ohio), US West (N. California y Oregon), Europe (Frankfurt, Ireland, London, Paris, Milan y Stockholm), Canada (Central), Asia Pacific (Mumbai, Seoul, Singapore, Hong Kong, Tokyo y Sydney), South America (São Paulo), Middle East (Bahrain), y Africa (Cape Town).

Para comenzar, consulte la siguiente lista de recursos:

• Guía para la administración de Amazon EMR: Integración de Amazon EMR con Apache Ranger
• Artículo del blog de AWS sobre big data: Presentación de la integración de Amazon EMR con Apache Ranger