Amazon EMR 为 Lake Formation 表提供增强的 Apache Spark 功能,同时支持完全表访问权限
在 Apache Spark 作业角色对 AWS Lake Formation 注册表具有完全访问权限时,Amazon EMR 现在支持此作业对表执行读写操作。此功能支持在同一 Apache Spark 应用程序中对 Apache Hive 和 Iceberg 表执行数据操作语言 (DML) 操作,包括 CREATE、ALTER、DELETE、UPDATE 和 MERGE INTO 语句。
尽管 Lake Formation 的精细访问控制 (FGAC) 能够在行、列和单元格级别提供精细的安全控制,但许多 ETL 工作负载仅需完全表访问权限。借助这一新功能,Apache Spark 可以在被授予完全表访问权限时直接读取和写入数据,从而消除了 FGAC 此前对特定 ETL 操作的限制。现在,您可以对 Lake Formation 表使用以下 Spark 高级功能:RDD、自定义库、UDF 和自定义映像(适用于 EC2 上的 EMR 的 AMI,适用于 EMR Serverless 的自定义映像)。此外,数据团队可以在兼容模式下通过 SageMaker Unified Studio 运行复杂的交互式 Spark 应用程序,同时保留 Lake Formation 的表级安全性边界。
此功能已在支持 Amazon EMR 和 AWS Lake Formation 的所有 AWS 区域推出。
要了解有关此功能的更多信息,请访问 EMR Serverless 文档中的 Lake Formation 未经筛选的访问权限部分。