Publicado: Jan 8, 2021
O Amazon EMR já se integra nativamente ao Apache Ranger, possibilitando a definição, aplicação e auditoria do controle de acesso detalhado aos dados. Com este recurso, você pode definir e aplicar 1) políticas de autorização de nível de banco de dados, tabela e coluna para usuários do Apache Spark e do Apache Hive para acesso a dados por meio do Hive Metastore e 2) políticas de autorização de nível de prefixo e de objeto durante o acesso a dados no Amazon S3 pelo Amazon EMR File System (EMRFS), aproveitando o Amazon CloudWatch para capturar logs de auditoria.
O Apache Ranger é uma ferramenta de código aberto utilizada para habilitar, monitorar e gerenciar a segurança abrangente de dados em toda a plataforma Hadoop. Antes, era possível usar o Apache Ranger para aplicar autorização detalhada em dados no HDFS com o Apache Hive usando esta publicação do blog. Agora, essa integração nativa possibilita recursos adicionais. Você pode definir três tipos de políticas de autorização no servidor Policy Admin do Apache Ranger. Você pode definir autorização de nível de tabela, coluna e linha para o Apache Hive, autorização de nível de tabela e coluna para o Apache Spark e autorização de nível de prefixo objeto para o Amazon S3. O Amazon EMR instala e configura automaticamente os plug-ins do Apache Ranger correspondentes no cluster. Esses plug-ins do Ranger são sincronizados com o servidor Policy Admin para políticas de autorização, aplicação do controle de acesso a dados e envio de eventos de auditoria para o Amazon CloudWatch Logs.
Antes de habilitar a integração do Apache Ranger no Amazon EMR, veja aqui algumas considerações e limitações. 1) Atualmente, a autorização em nível de linha e as políticas de mascaramento de dados são compatíveis apenas com o Apache Hive. 2) O plug-in EMR Ranger-Spark aplica autorização detalhada ao ler e gravar dados usando a API Spark com Java, Scala, R e Pyspark. No entanto, a gravação de dados usando o Spark SQL em clusters habilitados para o Ranger não é aceita no momento, apenas a leitura de dados usando o SparkSQL. 3) Essa integração nativa é compatível com aplicações selecionadas, como Apache Zeppelin e Hue. Para ver uma lista completa das aplicações compatíveis, consulte Aplicações compatíveis.
A integração nativa do Amazon EMR com o Apache Ranger está disponível nas seguintes regiões da AWS: Leste dos EUA (Virgínia do Norte e Ohio), Oeste dos EUA (Califórnia do Norte e Oregon), Europa (Frankfurt, Irlanda, Londres, Paris, Milão e Estocolmo) , Canadá (Central), Ásia-Pacífico (Mumbai, Seul, Singapura, Hong Kong, Tóquio e Sydney), América do Sul (São Paulo), Oriente Médio (Bahrein) e África (Cidade do Cabo).
Para começar, consulte a seguinte lista de recursos:
• Guia de gerenciamento do Amazon EMR: Integrar o Amazon EMR ao Apache Ranger
• Publicação do blog sobre big data da AWS: Introducing Amazon EMR integration with Apache Ranger