投稿日: Dec 22, 2023
Amazon EMR Serverless が AWS Lake Formation をサポートするようになり、Apache Spark による詳細なデータアクセス制御が可能になりました。これにより、Amazon S3 に保存されているデータに対して、EMR Serverless Spark ジョブからデータベース、テーブル、列、行、セルの各レベルでポリシーを適用できます。Lake Formation で定義したポリシーは、EMR Studio、AWS CLI、または Amazon Managed Workflows for Apache Airflow や AWS Step Functions などのジョブオーケストレーターを使用して Spark アプリケーションを実行したときに有効になります。
Lake Formation を使用することで、データレイクの構築、保護、管理が簡単になります。リレーショナルデータベース管理システム (RDBMS) で使用されるものと同様に、grant ステートメントや revoke ステートメントを使用して詳細なアクセス制御を定義し、Athena、EMR on EC2、Redshift Spectrum などの互換性のあるエンジンを経由してこれらのポリシーを自動的に適用できます。本日のリリースにより、Athena などの他のサービスで使用するために設定したものと同じ Lake Formation ルールが、EMR Serverless での Spark ジョブにも適用され、データレイクのセキュリティとガバナンスをさらに簡素化できるようになりました。
EMR Serverless での Apache Spark による詳細なアクセス制御はプレビュー段階であり、EMR 6.15 リリースでは、アジアパシフィック (ムンバイ、ソウル、シンガポール、シドニー、東京)、カナダ (中部)、欧州 (フランクフルト、アイルランド、ロンドン、パリ、ストックホルム)、南米 (サンパウロ)、米国東部 (バージニア北部、オハイオ)、米国西部 (北カリフォルニア、オレゴン) で利用できます。使用を開始するには、「Amazon EMR Serverless での AWS Lake Formation の使用」を参照してください。