Amazon EMR、Lake Formation テーブルに対してフルアクセスが許可されている場合の Apache Spark 機能を拡張
Amazon EMR では、ジョブのロールにテーブルへのフルアクセス権が付与されている場合に、Apache Spark ジョブから AWS Lake Formation に登録されたテーブルの読み書きをサポートするようになりました。この機能により、同じ Apache Spark アプリケーション内で Apache Hive テーブルと Iceberg テーブルに対して、CREATE、ALTER、DELETE、UPDATE、MERGE INTO といったステートメントなどのデータ操作言語 (DML) 操作が可能になります。
Lake Formation のきめ細かなアクセス制御 (FGAC) は、行や列、セル単位での詳細なセキュリティ管理を実現しますが、多くの ETL ワークロードではテーブル全体へのフルアクセスが必要とされます。この新機能により、テーブルへのフルアクセスが許可されている場合に、Apache Spark から直接データの読み書きが可能となり、従来は FGAC によって制限されていた特定の ETL 操作の制約がなくなります。また、Lake Formation テーブルを使って、RDD やカスタムライブラリ、UDF、カスタムイメージ (EMR on EC2 の AMI、EMR Serverless のカスタムイメージ) などの高度な Spark 機能を活用できるようになりました。さらに、データチームは、SageMaker Unified Studio の互換モードを使って複雑でインタラクティブな Spark アプリケーションを実行しながら、Lake Formation のテーブルレベルのセキュリティ境界を維持することができます。
この機能は、Amazon EMR と AWS Lake Formation がサポートされているすべての AWS リージョンでご利用いただけます。
この機能の詳細については、EMR Serverless ドキュメントの「Lake Formation unfiltered access」セクションをご覧ください。