Amazon EMR habilita recursos aprimorados do Apache Spark para tabelas do Lake Formation com acesso total às tabelas

Publicado: 29 de mai de 2025

Agora, o Amazon EMR oferece suporte a operações de leitura e gravação de trabalhos do Apache Spark em tabelas registradas do AWS Lake Formation quando a função de trabalho tem acesso total à tabela. Esse recurso permite operações de Linguagem de Manipulação de Dados (DML), incluindo as instruções CREATE, ALTER, DELETE, UPDATE e MERGE INTO nas tabelas do Apache Hive e do Iceberg a partir da mesma aplicação do Apache Spark.

Embora o controle de acesso refinado (FGAC) do Lake Formation ofereça controles de segurança granulares nos níveis de linha, coluna e célula, muitas workloads de ETL simplesmente precisam de acesso total à tabela. Esse novo atributo permite que o Apache Spark leia e grave dados diretamente quando o acesso total à tabela é concedido, removendo as limitações do FGAC que anteriormente restringiam determinadas operações de ETL. Agora você pode aproveitar os recursos avançados do Spark, incluindo RDDs, bibliotecas personalizadas, UDFs e imagens personalizadas (AMIs para EMR no EC2, imagens personalizadas para EMR Sem Servidor) com tabelas do Lake Formation. Além disso, as equipes de dados podem executar aplicações do Spark complexas e interativas por meio do SageMaker Unified Studio no modo de compatibilidade, mantendo os limites de segurança em nível de tabela do Lake Formation.

Esse atributo está disponível em todas as regiões da AWS nas quais o Amazon EMR e o AWS Lake Formation são oferecidos.

Para saber mais sobre esse atributo, acesse a seção Lake Formation unfiltered access na documentação do EMR Sem Servidor.