Amazon EMR 透過完整資料表存取權提供 Lake Formation 資料表的增強型 Apache Spark 功能

張貼日期: 2025年5月29日

Amazon EMR 目前在工作角色具有完整資料表存取權時,支援 AWS Lake Formation 註冊表上的 Apache Spark 工作讀取和寫入作業。此功能可在相同 Apache Spark 應用程式內啟用 Apache Hive 和 Iceberg 資料表上的 CREATE、ALTER、DELETE、UPDATE 和 MERGE INTO 陳述式等資料操作語言 (DML)。

雖然 Lake Formation 的精細存取控制 (FGAC) 可在資料列、資料欄和儲存格層級提供細微的安全控制,但許多 ETL 工作負載僅需要完整的資料表存取權限。此新功能使 Apache Spark 得以在獲得完整資料表存取權時直接讀取和寫入資料,從而消除先前限制特定 ETL 操作的 FGAC 限制。您現在可以搭配 Lake Formation 資料表來利用進階 Spark 功能,包括 RDD、自訂程式庫、UDF 和自訂映像 (適用於 EMR on EC2 的 AMI、EMR Serverless 的自訂映像)。此外,資料團隊可以透過 SageMaker Unified Studio,以相容模式執行複雜的互動式 Spark 應用程式,同時維持 Lake Formation 的資料表層級安全邊界。

此功能適用於支援 Amazon EMR 和 AWS Lake Formation 的所有 AWS 區域。

若要進一步了解此功能,請造訪 EMR Serverless 文件中的 Lake Formation 未篩選存取區段。