投稿日: Nov 24, 2021

EMR Studio は、R、Python、Scala、PySpark で記述されたビッグデータおよび分析アプリケーションを、データサイエンティストやデータエンジニアが簡単に開発、視覚化、デバッグできるようにした統合開発環境 (IDE) です。 本日、EMR Studio の 2 つの新機能を発表いたします。まず、より簡単に EMR Studio ノートブックから直接 Python スクリプトを実行できるようになりました。次に、EMR Studio のノートブックから他の依存する Jupyter ノートブックを直接実行できるようになりました。以前は、これらの機能の両方で、こうしたファイルを EMR Studio から EMR クラスターに手動でコピーする必要がありました。 

EMR Studio Workspace は、クラウドでフルマネージド型サーバーレス Jupyter インスタンスを提供します。このインスタンスには、ノートブックとファイルを作成、保存、整理できるローカルファイルシステムが付属しています。データサイエンティストは、他のノートブックから呼び出す必要のある Python スクリプトやノートブックを持っていることがよくあります。例えば、一般的なデータ品質チェックを実行する Python スクリプトは、複数のノートブックで使用される可能性があります。以前は、こうしたファイルを実行するには、これらのファイルを EMR Studio Workspace のローカルストレージからクラスターに手動でコピーする必要がありました。今後は、%mount_workspace_dir Jupyter マジックコマンドを使用して、EMR Studio Workspace ディレクトリを EMR クラスターにマウントできます。これにより、EMR クラスターで実行しているノートブックは、これらのファイルを手動でコピーしたりクラスターにログインしたりすることなく、Python ファイルを実行したり、ローカル Workspace で他のノートブックを呼び出したりできます。さらに、Amazon S3 からファイルをダウンロードするためのコマンド %generate_s3_download_url も追加しました。この機能を使用して、ノートブックからデータファイルをダウンロードし、ローカルで分析できます。例えば、Excel でさらに分析するなどです。この機能がなかったので、S3 バケットからファイルをダウンロードするために Amazon S3 コンソールに移動する必要がありました。上記の Jupyter マジックコマンドは両方とも、EMR Notebooks iPython Magics パッケージで利用できます。

EMR Studio は、米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、カナダ (中部)、欧州 (アイルランド)、欧州 (フランクフルト)、欧州 (ロンドン)、欧州 (パリ)、欧州 (ストックホルム)、アジアパシフィック (ムンバイ)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京) および南米 (サンパウロ) の各リージョンでご利用いただけます。

この機能の詳細については、こちらのドキュメントを参照してください。この機能の使用方法の詳細については、こちらのサンプルノートブックを参照してください。