未加工データの準備から機械学習モデルのデプロイとモニタリングまで、すべての機械学習開発ステップを実行し、単一の Web ベースのビジュアルインターフェイスで最も包括的なツール セットにアクセスできます。
機械学習ライフサイクルのステップ間をすばやく移動して、モデルを微調整します。SageMaker Studio を離れることなく、トレーニング実験を再生し、モデルの特徴量やその他の入力を調整し、結果を比較します。
150 を超える一般的なオープンソースモデルと 15 を超える構築済みソリューションにアクセスして、機械学習モデルを数分で構築します。数回クリックするだけで、独自のデータを使用して機械学習モデルを作成できます。
Amazon SageMaker Studio は、データの準備から構築、トレーニング、デプロイまで、すべての機械学習 (ML) 開発ステップを実行するための専用ツールにアクセスできる単一のウェブベースの視覚的インターフェイスを提供する統合開発環境 (IDE) です。データサイエンスチームの生産性を最大 10 倍向上させます。データのアップロード、新規ノートブックの作成、モデルのトレーニングと調整、ステップ間の移動による実験の調整、組織内でのシームレスなコラボレーション、および SageMaker Studio を離れることなく本番環境にモデルをデプロイするといった処理を実行できます。
仕組み

主な特徴
データを準備する
コードをほとんどまたはまったく使用せずに、数回のクリックでデータを準備する
SageMaker Data Wrangler を使用し、数回クリックするだけで、40 以上の AWS およびサードパーティのデータソースに接続し、データをインポートし、データ品質を検証し、300 以上の組み込みデータ変換を使用してモデルの特徴量エンジニアリングを行い、それらを SageMaker Feature Store に保存します。Data Wrangler ジョブを作成またはスケジュールして大規模なデータを処理し、SageMaker Pipelines を使用して機会学習ワークフロー内のデータ準備ステップを自動化することができます。
SageMaker Studio ノートブックを使用してデータを準備する
データエンジニアリング、分析、機械学習のための統合されたノートブック環境で、データワークフローを簡素化します。Studio ノートブックから直接 Amazon EMR クラスターや AWS Glue インタラクティブセッションを作成、閲覧、接続します。ノートブックから直接 Spark UI などの使い慣れたツールを使用して、Spark ジョブのモニタリングやデバッグを行うことができます。SageMaker Data Wrangler を搭載した組み込みのデータ準備機能を Studio ノートブックから直接使用します。これにより、データを可視化し、データ品質の問題を特定し、推奨ソリューションを適用して、コードをまったく記述することなくデータ品質とモデルの精度を向上させることができます。
数回のクリックでデータ処理
データストアに接続し、リソースを起動してデータ処理ジョブを実行し、出力を永続的ストレージに保存し、SageMaker Processing を使用してログとメトリクスを提供します。
特徴量の一元管理
SageMaker Studio のフルマネージド型専用リポジトリである SageMaker Feature Store で、トレーニングと推論に使用する機械学習モデルの特徴量を保存、共有、管理し、機械学習アプリケーション間で特徴量の再利用を促進します。トレーニングをする際と、推論をする際の両方で一貫して同じ特徴量を取得できるため、数か月の開発労力を節約できます。
Build
クイックスタート SageMaker Studio ノートブック
ワンクリックで SageMaker Studio 内の完全マネージド型 Jupyter Notebook にアクセスできます。ノートブックには、TensorFlow と PyTorch (AWS に最適化された) の深層学習環境が事前構成されており、モデルの構築をすばやく開始できます。作業を中断することなく、基盤となるコンピューティング リソースをダイヤルアップまたはダイヤルダウンできます。
ノートブックのコラボレーションを効率化
同じノートブックファイルを共同編集し、ノートブックコードを同時に実行し、その結果を一緒にレビューすることで、共同作業を効率化することができます。すべてのリソースに自動的にタグが付けられ、SageMaker Studio のコストや使用状況の把握が容易になります。
組み込みアルゴリズム
15 を超えるアルゴリズムが組み込まれた構築済みのコンテナイメージを使用して、推論をすばやくトレーニングして実行したり、独自のカスタム イメージを SageMaker Studio に取り込んだりできます。
AutoML
Amazon SageMaker Autopilot を使用して、完全な制御と可視性を維持しながら、データに基づいて最適な機械学習モデルを自動的に構築、トレーニング、および調整する。そして、ワンクリックでモデルを本番環境にデプロイします。SageMaker Autopilot が作成する任意のモデルの SageMaker Studio ノートブックを自動的に生成することもでき、どのように作成されたかに関する詳細を調べ、必要に応じて改良し、ノートブックから再作成できます。
構築済みのソリューションとオープンソースモデル
SageMaker JumpStart では、数回クリックするだけでデプロイ可能な何百もの構築済のソリューションを使用して、機械学習をすばやく開始するのに役立ちます。
トレーニング
分散型トレーニング
分散コンピューティングクラスターをセットアップし、トレーニングを実行して、結果を Amazon Simple Storage Service (S3) に出力し、ワンクリックでクラスターを破棄します。SageMaker のデータ並列ライブラリとモデル並列ライブラリを使用してモデルを大規模にトレーニングし、SageMaker Training Compiler を使用して、グラフおよびカーネルレベルの最適化を通じてトレーニング プロセスを最大 50% 加速します。マネージドスポットインスタンストレーニングを使用すると、コストを最大 90% 削減できます。
実験管理と追跡
Amazon SageMaker Experiments を使用することで、入力パラメータ、設定、および結果を取得し、こうした内容を「実験結果」として保存することで、機械学習モデルに対するイテレーションを追跡しやすくなります。アクティブな実験を参照したり、以前の実験を検索やレビュー、実験間の結果を比較したりすることができます。
自動モデルチューニング
何千ものアルゴリズムパラメータの組み合わせを調節してモデルを自動的にチューニングし、モデルが出し得る最も正確な予測に到達します。これにより、数週間分の労力を削減できます。
デバッグおよびプロファイルトレーニングの実行
Amazon SageMaker Debugger を使用することで、メトリクスとプロファイルのトレーニングジョブをリアルタイムでキャプチャするため、モデルを本番環境にデプロイする前にパフォーマンスの問題をすばやく修正できます。
デプロイと管理
より簡単なデプロイ
ワンクリックで、トレーニング済みのモデルを本番環境にデプロイします。低レイテンシ (数ミリ秒)、高スループット (数十万リクエスト/秒) から、自然言語処理やコンピュータビジョンなどのユースケース向けの長時間推論まで、あらゆる推論ニーズに対応した SageMaker Model Deployment を SageMaker Studio 内で利用できます。
マルチモデルエンドポイント
SageMaker のマルチモデルエンドポイントとマルチコンテナエンドポイントを使用して、単一のエンドポイントに数千のモデルをデプロイすることで、費用対効果を改善しながら、必要な頻度でモデルを使用する柔軟性が得られます。
モデルのバージョンを一元的に追跡および管理
モデルのバージョン、そのメタデータ、およびパフォーマンスを追跡し、SageMaker Model Registry を使用して、ビジネス要件に基づいてデプロイに適したモデルをより簡単に選択できるようにします。さらに、監査とコンプライアンスのための承認ワークフローを自動的にログすることができます。
本番アプリケーション用の新しいモデルを迅速に提供
SageMaker Projects を使用して、開発環境と本番環境の整合性の維持、ソースとバージョンの管理、A/B テスト、自動化など、継続的インテグレーションとデリバリー (CI/CD) のプラクティスを機械学習に導入することができます。
継続的なモデルのモニタリング
SageMaker Studio 内の SageMaker Model Monitor を使用して、モデルのドリフトとコンセプトのドリフトをリアルタイムで検出することにより、品質を維持します。SageMaker でトレーニングされたすべてのモデルは、SageMaker Studio で収集と表示が可能な主要メトリクスを出します。
ノートブックコードから本番環境に対応したジョブへの自動変換
ノートブックが選択されると、Amazon SageMaker Studio ノートブックはノートブック全体のスナップショットを取得し、依存関係をコンテナにパッケージ化し、インフラストラクチャを構築します。そして、プラクティショナーが設定したスケジュールでノートブックを自動ジョブとして実行し、ジョブ完了時にインフラストラクチャをプロビジョニング解除します。この自動化により、ノートブックの本番環境への移行にかかる時間を数週間から数時間に短縮できます。
モデル構築ワークフローを自動化
SageMaker Pipelines を使用して、データの準備、特徴量エンジニアリング、モデルのトレーニング、モデルの調整、モデルの検証など、モデル構築ワークフロー全体を自動化します。SageMaker パイプラインを定期的に、または特定のイベントが起きたときに自動的に実行するように設定したり、必要に応じて手動で実行したりできます。
ML モデルにおけるバイアスの検出
SageMaker Clarify を使用して指定した属性を調べることにより、データ準備中、モデル学習後、および配備したモデルで潜在的な偏りを検出し制限することができます。SageMaker Clarify は、モデルの説明可能性レポートも提供するため、利害関係者はモデルが予測を行う方法と理由を確認できます。
お客様

SageMaker Studio を使用することで、AstraZeneca は大量のデータを分析するソリューションを迅速に展開し、データサイエンティストの手作業によるワークロードを軽減しながらインサイトを深めることができました。これは、世界中の人々の人生を変える薬を発見し開発するという AstraZeneca の使命にとって重要です。
「多くの手動プロセスを作成するのではなく、Amazon SageMaker Studio 内で簡単に機械学習開発プロセスのほとんどを自動化できます」
Cherry Cabading、グローバルシニアエンタープライズアーキテクト – AstraZeneca

INVISTA ではモデル追跡のために Studio 内で Amazon SageMaker Experiments を使用しました。実験を管理し、プロジェクトの範囲を広げ、新しいモデル、メトリクス、パフォーマンスを構造的に追加する簡単なインターフェースにより、INVISTA はデータサイエンスの価値を加速させました。
「Amazon SageMaker Studio のおかげで、データサイエンスタスクの共同作業ができるようになりました。これにより、インフラストラクチャとリポジトリを管理する時間を節約でき、アルゴリズムと分析プロジェクトを本番環境にデプロイする時間を短縮できます」
INVISTA の分析およびクラウドリーダー、Tanner Gonzalez 氏

SageMaker Studio と Experiments を使用することで、SyntheticGestalt は最適な実験設定を 2 倍の速さで決定でき、最終的に生命を変える候補分子を生成する能力を加速させることができました。
「SageMaker のおかげで、研究者は何千もの実験設定を簡単に比較できるようになりました。これまで研究者が何時間もかけて行っていたことを、1 ステップで行うことができるのです」
CTO – SyntheticGestalt Ltd.、Kotaro Kamiya 氏
