Publicado: Dec 5, 2022
O Amazon SageMaker Studio é um ambiente de desenvolvimento totalmente integrado (IDE) para machine learning. O Studio incorpora uma integração com o Amazon EMR para que cientistas de dados possam preparar interativamente os dados em escala de petabytes usando frameworks como Apache Spark diretamente em notebooks do Studio. Temos o prazer de anunciar que o SageMaker Studio já oferece suporte à aplicação de controle detalhado de acesso a dados com o AWS Lake Formation para dados acessados por meio do Amazon EMR.
Até agora, todos os trabalhos executados em um cluster do EMR usavam o mesmo perfil do IAM, o perfil de instância do EC2 do cluster, para acessar dados. Portanto, para executar trabalhos que precisavam usar fontes de dados diferentes (por exemplo, buckets do S3 diferentes), era preciso configurar o perfil de instâncias do EC2 com políticas que permitiam o acesso à união de todas essas fontes de dados. Além disso, para habilitar grupos de usuários com permissões diferentes de acesso aos dados, você precisava criar clusters separados, um para cada grupo, o que resultava em sobrecarga operacional. Separadamente, os trabalhos enviados de notebooks do Studio ao EMR não conseguiam aplicar um controle detalhado de acesso a dados com o AWS LakeFormation.
A partir de hoje, quando você conecta notebooks do SageMaker Studio a clusters do EMR, pode escolher o perfil do IAM (denominado perfil de IAM do tempo de execução) a ser usado na conexão. Trabalhos do Apache Spark, Hive ou Presto criados em notebooks do Studio acessarão apenas os dados e recursos permitidos pelas políticas associadas ao perfil do tempo de execução. Além disso, quando os dados são acessados de data lakes gerenciados com o AWS LakeFormation, você pode aplicar acesso por tabela e coluna usando políticas associadas ao perfil do tempo de execução. Com esse novo recurso, vários usuários do SageMaker Studio podem se conectar ao mesmo cluster do EMR, cada um deles usando um perfil do tempo de execução com o escopo definido por permissões personalizadas de acesso a dados. No cluster compartilhado, as sessões de usuários são totalmente isoladas entre si. Esse recurso permite que os clientes simplifiquem o provisionamento de clusters do EMR, reduzindo a sobrecarga operacional e os custos.
O recurso está disponível no SageMaker Studio em conexões com o Amazon EMR 6.9 nestas regiões da AWS: Leste dos EUA (Ohio), Leste dos EUA (N. da Virgínia), Oeste dos EUA (Oregon) e Europa (Paris). Para saber mais, consulte este blog.