投稿日: Apr 20, 2021

本日、EMR Studio の一般公開を発表いたします。これは、データサイエンティストとデータエンジニアが、R、Python、Scala、および PySpark で記述されたビッグデータと分析のアプリケーションを簡単に開発、視覚化、デバッグできる統合開発環境 (IDE) です。EMR Studio では、フルマネージド型の Jupyter Notebooks と、Spark UIYARN Timeline Service などのツールを使用して、デバッグを簡素化できます。EMR Studio では AWS Single Sign-On が使用され、ユーザーは AWS コンソールにログインせずに企業の認証情報を使用して直接ログインできるようになります。

EMR Studio を使用すると、ユーザーは管理者として EMR コンソールから EMR Studios を作成および構成するか、または、CloudFormation テンプレートで構成および依存関係を制定することで、Studio の作成を自動化できます。AWS SSO を有効にするため、AWS SSO コンソールを使用できるほか、Okta、Azure AD、OneLogin、Ping Identity、Microsoft AD などのサポートされている ID プロバイダーから選択し、EMR Studio にユーザーとグループを割り当てるために EMR コンソールを使用できます。 

EMR Studio ではデータサイエンスアプリケーションの開発をすぐに始められるよう Hive メタストアにクエリを実行する PySpark コードや、視覚化のための Python コードなどノートブックの例を提供しています。ユーザーはパブリックアクセスポイントに関係なく、GitHub、Bitbucket、GitLab、および AWS CodeCommit などのリポジトリに、ノートブックを接続できます。既存の EMR クラスター上でアプリケーションを実行するか、事前定義された CloudFormation テンプレートを使用して、新しいクラスターを作成し、EMR Studio のカスタムパラメータを渡すことができます。ログへのアクセスやアプリケーションのデバッグのため、ノートブックからライブの Spark UI を直接起動できます。 

EMR Studio は、EMR リリースバージョン 5.32 および 6.2 以降で、米国東部 (オハイオ、バージニア北部)、米国西部 (オレゴン)、欧州 (フランクフルト、ロンドン)、アジアパシフィック (ムンバイ、ソウル、シンガポール、シドニー、東京) の各リージョンで利用できます。 

EMR Studio の使用を始めるには、Amazon EMR Studio のドキュメントを参照してください。