投稿日: Aug 8, 2023
Amazon EMR Studio は、PySpark、Python、Scala、R で記述されたビッグデータや分析のアプリケーションを、データサイエンティストやデータエンジニアが簡単に開発、視覚化、デバッグできるようにする統合開発環境 (IDE) です。EMR Studio では、フルマネージド Jupyterlab Notebook と、Spark UI や YARN Timeline Service などのツールを使用して、デバッグを簡素化できます。本日、EMR Studio ワークスペースで、EMR on EC2 クラスターを介してデータにアクセスする際に、AWS Lake Formation によるきめ細かなデータアクセス制御を適用できるようになったことを発表いたします。
EMR Studio ワークスペースから EMR クラスターに接続するときに、接続に使用する IAM ロール (ランタイム IAM ロールと呼ばれる) を選択できるようになりました。Apache Spark インタラクティブノートブックは、このランタイムロールにアタッチされたポリシーによって許可されているデータとリソースにのみアクセスします。AWS Lake Formation によって管理されるデータレイクからデータがアクセスされるとき、このランタイムロールにアタッチされたポリシーを使用して、テーブルや列レベルのアクセスを適用できます。この新しい機能を使うと、複数のユーザーが各々の EMR Studio ワークスペースから、カスタマイズされたデータアクセス許可によって範囲の定められたランタイムロールをそれぞれ使用して、同一の EMR クラスターに接続できます。この共有クラスターにおいて、ユーザーセッションは互いに完全に分離されます。これによって、インタラクティブなユースケース向けの EMR クラスターを簡単にプロビジョニングできるようにもなるため、運用上のオーバーヘッドとコストを削減できます。
この機能は、リリースバージョン 6.11 以降で Amazon EMR on EC2 クラスターに接続する場合に、EMR Studio がサポートされているすべてのリージョンで一般提供されています。詳細については、EMR のドキュメントを参照してください。