Amazon EMR、Lake Formation テーブルに対してフルアクセスが許可されている場合の Apache Spark 機能を拡張

投稿日: 2025年5月29日

Amazon EMR では、ジョブのロールにテーブルへのフルアクセス権が付与されている場合に、Apache Spark ジョブから AWS Lake Formation に登録されたテーブルの読み書きをサポートするようになりました。この機能により、同じ Apache Spark アプリケーション内で Apache Hive テーブルと Iceberg テーブルに対して、CREATE、ALTER、DELETE、UPDATE、MERGE INTO といったステートメントなどのデータ操作言語 (DML) 操作が可能になります。

Lake Formation のきめ細かなアクセス制御 (FGAC) は、行や列、セル単位での詳細なセキュリティ管理を実現しますが、多くの ETL ワークロードではテーブル全体へのフルアクセスが必要とされます。この新機能により、テーブルへのフルアクセスが許可されている場合に、Apache Spark から直接データの読み書きが可能となり、従来は FGAC によって制限されていた特定の ETL 操作の制約がなくなります。また、Lake Formation テーブルを使って、RDD やカスタムライブラリ、UDF、カスタムイメージ (EMR on EC2 の AMI、EMR Serverless のカスタムイメージ) などの高度な Spark 機能を活用できるようになりました。さらに、データチームは、SageMaker Unified Studio の互換モードを使って複雑でインタラクティブな Spark アプリケーションを実行しながら、Lake Formation のテーブルレベルのセキュリティ境界を維持することができます。

この機能は、Amazon EMR と AWS Lake Formation がサポートされているすべての AWS リージョンでご利用いただけます。

この機能の詳細については、EMR Serverless ドキュメントの「Lake Formation unfiltered access」セクションをご覧ください。