投稿日: Dec 9, 2020
本日、EMR Studio の公開プレビューを発表いたします。これは、データサイエンティストとデータエンジニアが、R、Python、Scala、および PySpark で記述されたデータエンジニアリングとデータサイエンスのアプリケーションを簡単に開発、視覚化、デバッグできる統合開発環境 (IDE) です。EMR Studio は、フルマネージド型の Jupyter Notebook と、デバッグを簡素化する Spark UI や YARN Timeline Service などのツールを提供します。
EMR Studio は AWS SSO を使用しており、AWS コンソールにログインせずに企業の認証情報を使用して直接ログインできます。データサイエンティストとアナリストは、カスタムカーネルとライブラリをインストールしたり、GitHub や BitBucket などのコードリポジトリを使用して同僚と共同作業したり、Apache Airflow や Apache Airflow 用 Amazon マネージドワークフローなどのオーケストレーションサービスを使用して、スケジュール済みワークフローの一部としてパラメータ化されたノートブックを実行したりできます。
EMR Studio カーネルとアプリケーションは EMR クラスターで実行されるため、パフォーマンスが最適化された Apache Spark 用 Amazon EMR ランタイムを使用して分散データ処理のメリットを得ることができます。 管理者は、アナリストが既存の EMR クラスターでアプリケーションを実行したり、EMR 用に事前定義された AWS CloudFormation テンプレートを使用して新しいクラスターを作成したりできるように EMR Studio をセットアップできます。EMR Studio では、すべての EMR クラスターを中央で参照し、クラスター ID、クラスター状態、およびその他のパラメータによるフィルターを使用して絞り込むことができます。1 回のクリックで、アクティブクラスターと終了クラスターの両方のジョブの実行コンテキストをオーバーレイする Spark History Server、YARN Timeline Server、または Tez UI にアクセスできます。
EMR Studio は、米国東部 (バージニア北部)、米国西部 (オレゴン)、および欧州 (アイルランド) リージョンで、EMR リリースバージョン 6.2 以降を使って、公開プレビューを利用できます。
EMR Studio のパブリックプレビューを開始するには、製品の詳細ページを参照してください。