データサイエンティスト向け Amazon SageMaker

データサイエンティスト向け Amazon SageMaker

データサイエンス

SageMaker を使用すれば、機械学習 (ML) を使用してビジネス上の問題を簡単に解決できるため、何万人ものデータサイエンティストが Amazon SageMaker を使用しています。SageMaker Studio は、ML の完全に統合された開発環境 (IDE) を提供するため、データを用意し、単一の視覚的な体験でモデルを構築、トレーニング、デプロイできます。全体として、データサイエンスチームは SageMaker を使用して最大 10 倍の生産性を上げることができます。

機械学習

透明性

バイアスは、年齢や所得階層など、さまざまなグループ間での予測精度における不均衡です。バイアスは、モデルのトレーニングに使用されたデータまたはアルゴリズムから発生する可能性があります。機械学習の分野では、データとモデルでバイアスを検出することで、バイアスに対処する機会が提供されます。

バイアスを検出し、予測を理解する

Amazon SageMaker Clarify は、データ準備中およびトレーニング後のバイアス検出を通じてモデルの品質を向上させるためのデータを提供します。SageMaker Clarify は、モデルの説明可能性レポートも提供するため、利害関係者はモデルが予測を行う方法と理由を確認できます。

詳細 »
SageMaker Clarify

トレーニングデータの収集と準備

Amazon SageMaker は、高品質のトレーニングデータを作成するために必要なすべてのツールを提供します。AWS およびサードパーティー製データソースからのデータに簡単にアクセスし、データにラベルを付け、自動的にクレンジングおよび変換し、データを視覚化してモデル機能を設計することができます。

ML のデータを数分で準備する

SageMaker Data Wrangler のデータ選択ツールを使用すると、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon S3、Amazon SageMaker Feature Store などの複数のデータソースからデータをすばやく選択できます。データソースのクエリを記述し、さまざまなファイル形式から SageMaker に直接データをインポートし、SageMaker Data Wrangler の可視化テンプレートと組み込みのデータ変換を使用して、用意されたデータが正確な ML モデルになるようにすることができます。

詳細 »
SageMaker Data Wrangler

データのラベル付け

Amazon SageMaker Ground Truth を使用すれば、機械学習用の高精度なトレーニングデータセットを構築できます。カスタム、または組み込み済みのデータラベル付けワークフローを使用して、SageMaker Ground Truth コンソールから数分でデータのラベル付けを開始することができます。これには、3D ポイントクラウド、動画、画像、およびテキストが含まれます。

使用を開始する »
SageMaker Ground Truth

低レイテンシーの Feature Store

Amazon SageMaker Feature Store は、機械学習機能を保存、更新、取得、共有するためのフルマネージド型のリポジトリです。SageMaker Feature Store は、トレーニング用のバッチ機能、推論用のリアルタイム機能でまったく同じ機能を提供するため、機能の一貫性を保つためにコードを記述する必要はありません。新しい機能を簡単に追加したり、既存の機能を更新したり、トレーニング用に機能をバッチで取得したり、リアルタイムでの推論のためにミリ秒単位の 1 桁のレイテンシーで同じ機能を取得したりできます。

詳細 »
SageMaker Feature Store

モデルの構築

データが用意された後、Amazon SageMaker は、パフォーマンスの評価を目的に、さまざまなモデリング手法を繰り返し試すために必要なすべてのツールを提供します。SageMaker 用に組み込まれて最適化された 15 以上のアルゴリズムや、数回クリックするだけで利用できる人気モデルの動物園からの 150 以上のビルド済みモデルなど、さまざまなアルゴリズムを選択できます。SageMaker Studio 内では、モデルを小規模に実行して結果を確認し、パフォーマンスに関するレポートを表示できるため、高品質の実用的なプロトタイプを作成できます。

ワンクリック Jupyter ノートブック

Amazon SageMaker Studio ノートブックは、ワンクリックですばやくスピンアップができる Jupyter ノートブックです。根本となるコンピューティングリソースは完全に伸縮自在であるため、使用可能なリソースの量を簡単に増減させることができ、変更は作業を中断することなくバックグラウンドで自動的に反映されます。ノートブックはワンクリックで共有でき、同僚は同一の場所に保存されるまったく同じノートブックを取得できます。

使用を開始する »
SageMaker Studio ノートブック

組み込みアルゴリズム

Amazon SageMaker は、推論をすばやくトレーニングして実行するために使用できる、あらかじめ構築されたコンテナイメージで利用可能な 15 を超える組み込みアルゴリズムも提供します。

使用を開始する »
組み込みアルゴリズム

ローカルモード

Amazon SageMaker を使用すると、ローカルでのテストとプロトタイプの作成が可能になります。GitHub では、Apache MXNet と TensorFlow Docker コンテナを SageMaker で使用できます。また、これらのコンテナをローカル環境にダウンロードしたり、スクリプトを SageMaker のトレーニング環境やホスト環境にデプロイする前に、SageMaker Python SDK を使用してそのスクリプトをテストしたりすることもできます。 

使用を開始する »
SageMaker ローカルモード

強化学習

Amazon SageMaker は、従来の教師あり/教師なし学習に加え、強化学習をサポートします。SageMaker に、完全管理型の強化学習アルゴリズムが組み込まれました。これには学術文献における最新/最高のパフォーマンスがいくつか含まれています。

使用を開始する »
強化学習

モデルのトレーニングと調整

Amazon SageMaker は、モデルのトレーニングと調整に必要なすべてを提供します。さまざまなトレーニングの実行を簡単に管理して、データセット、アルゴリズムのバージョン、モデルパラメータの変更による影響を分離して測定したり、モデルの自動調整を利用したりできます。

トレーニングの実行を整理、追跡、評価する

Amazon SageMaker Experiments は、トレーニングの入力パラメータ、構成、結果を自動的にとらえ、「実験」として保存します。ユーザーは、アクティブな実験結果を参照したり、性質別に前回の実験結果を検索したり、あるいは、その結果とともに前回の実験を検証、または実験結果を視覚的に比較できます。

使用を開始する »
SageMaker Experiments

問題の検出とデバッグを行う

Amazon SageMaker Debugger は、メトリクスをリアルタイムでとらえるため、モデルを本番環境にデプロイする前にパフォーマンスの問題をすばやく修正できます。

詳細 »
SageMaker Debugger

マネージドスポットトレーニング

Amazon SageMaker はトレーニングコストを最大で 90% 削減できるようマネージドスポットトレーニングを提供します。この機能は Amazon EC2 スポットインスタンスを使用します。これは、AWS コンピューティング性能を節約します。トレーニングジョブはコンピューティング性能に空きができた時点で自動的に実行され、空き状況の変化によって処理が中断しても復帰できるように作成されています。そのため、トレーニングジョブを実行するタイミングを柔軟に調整できるので、コストの削減が可能になります。

使用を開始する »
マネージドスポットトレーニング

自動モデルチューニング

Amazon SageMaker は何千ものアルゴリズムパラメータの異なる組み合わせを調節してモデルを自動的にチューニングし、モデルが出し得る最も正確な予測に到達します。これにより、数週間分の労力を削減できます。自動モデルチューニングでは、機械学習を利用してできるだけ正確に素早くモデルを調整します。 

使用を開始する »
自動モデルチューニング

モデルを本番環境にデプロイする

Amazon SageMaker は、機械学習モデルを本番環境にデプロイし、モデルの品質を長期にわたって監視するために必要なすべてを提供することにより、予測の生成を容易にします。 

自動ワークフロー

Amazon SageMaker Pipelines は、CI/CD プラクティスを使用して、エンドツーエンドの ML ワークフローを大規模に作成、自動化、および管理する場合に役に立ちます。ワークフローが作成されると、SageMaker Studio で可視化および管理できます。SageMaker Pipelines は、ML ワークフローの各ステップ間の依存関係を管理する際に伴うすべての面倒な作業を処理します。更新されたデータを使用すると、いつでも完全なワークフローを再実行してモデルを正確に保ち、ワークフローを他のチームと共有してプロジェクト上の共同作業を行うことができます。 

詳細 »
SageMaker Pipelines

モデルを継続的にモニタリング

Amazon SageMaker Model Monitor は、モデルとコンセプトの変動を自動的に検出し、問題の原因を特定するのに役立つ詳細なアラートを提供します。これにより、時間の経過とともにモデルの質を改善することができます。SageMaker でトレーニングされたすべてのモデルは、SageMaker Studio で収集と表示が可能な主要メトリクスを出します。

詳細 »
SageMaker Model Monitor

人によるレビュー

多くの機械学習アプリケーションでは、結果が正しいかどうかを確認するため、人間が信頼性の低い予測を確認する必要があります。Amazon Augmented AI は一般的な機械学習のユースケース用にビルトインの人間レビューワークフローを提供します。

使用を開始する »

バッチ変換

Amazon SageMaker バッチ変換を使用すると、バッチ処理ジョブのために大きなデータセットのサイズを変更する必要がなくなります。バッチ変換により、単純な API を使用して、大小のバッチデータセットに対する予測を実行できます。 

使用を開始する »

マルチモデルエンドポイント

Amazon SageMaker では、多数のカスタム機械学習モデルをデプロイするためのスケーラブルで費用対効果の高い方法を提供します。SageMaker マルチモデルエンドポイントを使用すると、1 つのエンドポイントを 1 回クリックするだけで複数のモデルをデプロイし、1 つの提供コンテナを使用してサービスを提供できます。

使用を開始する »

Amazon SageMaker のリソース (データサイエンティスト向け)

JP Morgan Chase の機械学習データサイエンティストの 1 日 (34:41)