Publicado: Aug 8, 2023
O Amazon EMR Studio é um ambiente de desenvolvimento integrado (IDE) que facilita que cientistas e engenheiros de dados desenvolvam, visualizem e depurem aplicações de big data e análises desenvolvidos em PySpark, Python, Scala e R. O EMR Studio fornece cadernos Jupyterlab totalmente gerenciados e ferramentas, como o Spark UI e o YARN Timeline Service, para simplificar a depuração. Hoje, temos o prazer de anunciar que os espaços de trabalho do EMR Studio já oferecem suporte à aplicação de um controle detalhado de acesso a dados com o AWS Lake Formation no acesso a dados de clusters do EC2 por meio do EMR.
Quando conecta espaços de trabalho do EMR Studio a clusters do EMR, você já pode escolher o perfil do IAM (chamado de perfil do IAM para runtimes) desejado para a conexão. Os cadernos interativos do Apache Spark acessarão apenas os dados e recursos permitidos pelas políticas associadas a esse perfil de runtime. Além disso, no acesso a dados de data lakes gerenciados com o AWS Lake Formation, você pode aplicar o acesso por tabela e coluna usando políticas associadas a esse perfil de runtime. Com esse novo recurso, vários usuários podem conectar seus espaços de trabalho do EMR Studio ao mesmo cluster do EMR, cada um deles usando um perfil de runtime com o escopo definido por permissões personalizadas de acesso a dados. No cluster compartilhado, as sessões de usuários são totalmente isoladas entre si. Isso também pode simplificar o provisionamento de clusters do EMR para casos de uso interativos, reduzindo assim a sobrecarga operacional e os custos.
Esse recurso está disponível para o público em geral nas conexões ao Amazon EMR em clusters do EC2 nas versões 6.11 e posteriores em todas as regiões com suporte ao EMR Studio. Para saber mais, consulte a documentação do EMR.