メインコンテンツに移動

Amazon EMR

  • 概要
  • 料金

Amazon EMR Studio

EMR Studio を使用すべき理由

EMR Studioは、データサイエンティストやデータエンジニアがR、Python、Scala、PySparkで書かれたデータエンジニアリングおよびデータサイエンスアプリケーションを開発、可視化、デバッグするのを簡単にする統合開発環境(IDE)です。

EMR Studio では、フルマネージド Jupyter ノートブックと、Spark UI や YARN Timeline Service などのツールを使用して、デバッグを簡素化できます。データサイエンティストとアナリストは、カスタムのカーネルやライブラリをインストールしたり、GitHub や BitBucket などのコードリポジトリを使用して同僚と共同作業を行ったりできます。また、Apache Airflow や Amazon Managed Workflows for Apache Airflow などのオーケストレーションサービスを使用して、スケジュールしたワークフローの一環として、パラメータ化されたノートブックを実行できます。

EMR Studio カーネルとアプリケーションは EMR クラスターで実行されるため、パフォーマンス最適化 Apache Spark 用 Amazon EMR ランタイムを使用して、分散データ処理の恩恵を享受できます。管理者は、アナリストが既存の EMR クラスターでアプリケーションを実行したり、EMR 用に事前定義された AWS CloudFormation テンプレートを使用して新しいクラスターを作成したりできるように EMR Studio をセットアップできます。

使用が簡単

EMR Studio を使用すると、EMR クラスター上のアプリケーションと簡単にインタラクションできます。EMR Studio には、AWS IAM Authentication を使用して AWS コンソールからアクセスできるほか、AWS IAM アイデンティティセンター (AWS SSO の後継) を介して ID プロバイダー (IdP) からのフェデレーションアクセスを有効にすることで AWS コンソールにログインすることなくアクセスできます。ノートブックを使用してデータをインタラクティブに検索、処理、および視覚化し、パイプラインを構築およびスケジュールし、EMR クラスターにログインすることなくアプリケーションをデバッグできます。
Screenshot of the AWS EMR Studio dashboard highlighting the use of fully-managed Jupyter Notebooks, notebook attachment to clusters for running jobs, and tools for quick diagnosis and debugging. The interface allows creation of workspaces and searching clusters, useful for analytics and data engineering workflows.

フルマネージド Jupyter ノートブック

EMR Studio を使用すると、ノートブックを数秒で起動し、サンプルノートブックを使用してオンボーディングして、データの検索を実行できます。組み込みのリアルタイムコラボレーションを介して同僚とコラボレーションし、Git リポジトリを介してノートブックバージョン全体の変更を追跡できます。また、ノートブックからカスタムのカーネルや Python のライブラリをロードすれば、環境をカスタマイズできます。
Screenshot of an EMR Notebooks demo in AWS EMR Studio. The displayed Jupyter notebook explains how to install notebook-scoped Python libraries on a running cluster, visualize Spark dataframes, and describes the benefits of notebook-scoped libraries such as runtime installation, dependency isolation, and portability.

簡単に構築できるアプリケーション

EMR Studio を使用すると、プロトタイピングから本番環境に簡単に移行できます。コードリポジトリからパイプラインをトリガーしたり、Apache Airflow や Amazon Managed Workflows for Apache Airflow などのオーケストレーションツールを使用してノートブックをパイプラインとして実行したり、シングルクリックでノートブックをより大きなクラスターにアタッチしたりできます。
Screenshot of the Apache Airflow interface in AWS EMR Studio showing the DAG (Directed Acyclic Graph) tree view for a custom cluster execution sensor DAG, with workflow steps and task status indicators.

簡素化されたデバッグ

EMR Studio を使用すると、アクティブなクラスターと終了したクラスターの両方について、クラスターにログインしなくても、ジョブをデバッグしてログにアクセスできます。Spark UI や YARN タイムラインサービスなどのネイティブアプリケーションインターフェイスを EMR Studio から直接使用できます。EMR Studio では、クラスターの状態、作成時刻、クラスター ID などのフィルターを使用して、デバッグするクラスターまたはジョブをすばやく見つけることもできます。
Screenshot of the AWS EMR Studio interface showing EC2 cluster management and debugging features within a Jupyter notebook environment. The interface lists various EMR clusters, their IDs, states, elapsed times, and launching options for application UIs such as Spark History Server, YARN Timeline Server, and Tez UI.

リアルタイムのコラボレーションノートブック

EMR Studio を使用すると、データサイエンティスト、エンジニア、およびアナリストは、チーム間でリアルタイムにコラボレーションできます。同僚を招待して、ノートブックを表示および編集できます。これにより、Jupyter ノートブックのリアルタイムの共同編集、コードデバッグ、およびコードレビューが可能になります。

SQL Explorer

EMR Studio では、EMR Studio からデータカタログを参照し、EMR クラスターに対して SQL クエリを実行することを可能にする機能である SQL Explorer をご利用いただけます。SQL Explorer では、Presto を利用する EC2 クラスター上の Amazon EMR に接続し、データカタログを表示および閲覧することが可能です。SQL Explorer では、SQL クエリの実行、クエリ結果のテーブル表示、クエリ結果の csv 形式でのダウンロードを行う Editor も利用できます。

多言語ノートブック

EMR Studio を使用すると、単一の Jupyter ノートブック内で複数の言語を使用できます。同じ Jupyter ノートブック内で Python 、Scala、SparkSQL、および R を切り替えて、一時テーブルを介してセル間でデータを共有できます。この機能を使用すると、ワークフローのさまざまなコンポーネントに最適な言語でコードを記述できます。
Screenshot of Amazon EMR Studio showing a multi-language Jupyter Notebook interface with cells using SparkR, SQL, PySpark, and ScalaSpark code, displayed on a gradient background.

ユースケース

    EMR Studio を使用すると、ノートブックを数秒で起動し、サンプルノートブックを使用してオンボーディングして、データの検索を実行できます。組み込みのリアルタイムコラボレーションを介して同僚とコラボレーションし、Git リポジトリを介してノートブックバージョン全体の変更を追跡できます。また、ノートブックからカスタムのカーネルや Python のライブラリをロードすれば、環境をカスタマイズできます。

    EMR Studio では、コードリポジトリを使用してパイプラインをトリガーできます。ノートブックをパラメータ化およびチェーン化し、パイプラインを構築することもできます。Apache Airflow や Amazon Managed Workflows for Apache Airflow などのワークフローオーケストレーションサービスを使用して、スケジュールされたワークフローにノートブックを統合できます。EMR Studio では、ノートブックをより大きなクラスターに再アタッチしてジョブを実行することもできます。

    EMR Studio では、ノートブック UI からノートブックアプリケーションをデバッグできます。また、最初にクラスター状態などのフィルターを使用してクラスターを絞り込み、できるだけ少ないクリックでアクティブクラスターと終了したクラスターの両方のジョブを診断して、Spark UI、Tez UI、Yarn Timeline Service などのネイティブデバッグ UI を開くことでパイプラインをデバッグすることもできます。