Amazon Web Services ブログ

新機能 — Amazon SageMaker Studio で EMR クラスターと Spark ジョブを作成して管理する

2021 年 12 月 1 日(米国時間)、Amazon SageMaker Studio サービスに 3 つの新しい機能強化を提供できることを非常に嬉しく思います。

現在、SageMaker Studio のユーザーは、単一の AWS アカウント内、および組織全体の共有アカウントで実行されている Amazon EMR クラスターの作成、終了、管理、検出、接続を SageMaker Studio から直接行うことができます。さらに、SageMaker Studio ノートブックのユーザーは SparkUI を利用して、Amazon EMR クラスターで実行されている Spark ジョブを SageMaker Studio ノートブックから直接モニタリングおよびデバッグすることができます。

これまでの話では…
今日以前は、SageMaker Studio のユーザーは、SageMaker Studio と同じアカウントで実行していれば、EMR クラスターを検索して接続する機能がいくつかありました。それらは多くの状況で有用ですが、実行するモデルまたは解析の要件に適合するクラスターが存在しない場合、データサイエンティストは開発環境を離れ、ニーズに合ったクラスターを手動で設定する必要がありました。データサイエンティストのワークフローを中断させるだけでなく、データサイエンティストが作業を続けられるようにするクラスターのプロビジョニングに必要な権限または深い知識を持っているという保証もありません。さらに、複数の AWS アカウントにまたがって作業している組織では、単一のアカウントでのクラスターの作成と管理は禁止される可能性があります。

最新情報
データサイエンティストは以下を行うことができます。

  • SageMaker Studio 内から Amazon EMR クラスターを検出、管理、作成、終了、接続する
  • 「テンプレート」を活用する — これは、経験豊富な DevOps プラクティショナーのサポートを受けて、ワークロードのニーズに合わせてクラスターを設定およびプロビジョニングする新しい方法です
  • SageMaker Studio ノートブック内から Amazon EMR クラスターで実行されている Spark ジョブに接続、デバッグ、モニタリングする

EMR クラスターの作成、接続、管理

SageMaker Studio ノートブックから EMR クラスターに接続する

SageMaker Studio 内から EMR クラスターに接続して管理する機能により、データサイエンティストは、ワークロードを実行する EMR クラスターを作成、設定、プロビジョニングするために、使い慣れた環境を離れる必要がなくなりました。

テンプレートの紹介
テンプレートは、多数のワークロード向けに最適化された既製のクラスター設定を集めたものです。テンプレートは DevOps 管理者が作成および管理し、AWS Service Catalog を通じて SageMaker Studio 内でデータサイエンティストが使用できるようになります。これにより、信頼できる DevOps 管理者がプロジェクトの要件に従ってクラスターを正しく設定したことを知り、すべて安全でありながら、ニーズに合わせてクラスターを迅速に起動できるようになります。さらに、これにより、データサイエンティストは全力で作業に取り掛かることができ、これらのチーム内の DevOps 管理者は、プロビジョニングされたインフラストラクチャのタイプをより詳細に管理できるようになります。

SageMaker Studio ノートブック内から EMR クラスターを管理する

Spark ジョブに直接接続してモニタリングする
最後に、データサイエンティストの業務をさらにシンプルにするために、SageMaker Studio ノートブック内から Amazon EMR クラスターで実行されている Spark ジョブに接続、デバッグ、およびモニタリングする機能を構築しました。これまでは、Spark ジョブのモニタリング UI にアクセスするには、現在実行中のジョブに直接アクセスできるようにセキュアなトンネルとウェブプロキシを設定する必要があり、データサイエンティストがワークロードのモニタリングとデバッグを試みるワークフローに摩擦が加わっていました。これらの新機能により、ユーザーは既に知っているインターフェイスからワンクリックで直接アクセスできます。これにより、インフラストラクチャやワークロードの設定に時間を費やすことなく、ワークロードを構築して稼働させることができます。

SageMaker Studio ノートブック内から Spark ジョブに接続する

これらの新機能により、データサイエンティストは、シンプルで一貫性のある UI を使用して、SageMaker Studio から離れたり、そのようなハードウェアのプロビジョニングの詳細を掘り下げたりすることなく、必要に応じてインフラストラクチャのプロビジョニングと管理を行うことができます。さらに、実行中の Spark ジョブのデバッグやモニタリングを行うために、プロキシや SSH トンネルの設定に時間を費やす必要がなくなります。

詳細はこちら
これらの機能は、SageMaker Studio が利用可能なすべての AWS リージョンで一般に使用でき、この機能を使用するための追加料金は発生しません。料金およびリージョンでの利用可能性の詳細については、SageMaker Studio の料金ページを参照してください。

詳細については、ドキュメントをご覧ください。

原文はこちらです。