Amazon SageMaker Inference

推論用の機械学習 (ML) モデルを簡単にデプロイして管理できます

What is Amazon SageMaker Inference? (Amazon SageMaker Inference とは)

Amazon SageMaker AI を利用すると、基盤モデル (FM) を含む ML モデルをより簡単にデプロイして、どのようなユースケースでも最高のコストパフォーマンスで推論リクエストを実行できます。低レイテンシーで高スループットな推論から長時間実行の推論まで、SageMaker AI はあらゆる推論ニーズに対応できます。SageMaker AI はフルマネージドサービスであり、MLOps ツールと統合されているため、デプロイモデルのスケール、推論コストの削減、本番環境でのモデルの効果的な管理、運用上の負担の軽減が可能になります。

SageMaker Inference の利点

幅広い推論オプション

リアルタイム推論

トラフィックパターンが安定しているユースケース向けの、リアルタイムでインタラクティブな低レイテンシー予測を行います。 自動スケーリングをサポートするフルマネージド型エンドポイントにモデルをデプロイできます。

サーバーレス推論

トラフィックパターンが断続的なユースケース向けの低レイテンシーと高スループット。サーバーレスエンドポイントは、コンピューティングリソースを自動的に起動し、トラフィックに応じてスケールイン/スケールアウトするため、インスタンスタイプを選択したり、スケーリングポリシーを管理したりする必要がありません。

非同期推論

ペイロードが大きく (最大 1 GB)、処理時間が長く (最大 1 時間)、ほぼリアルタイムのレイテンシーが必要なユースケースに合わせて、低レイテンシーを実現します。非同期推論は、処理するリクエストがないときにインスタンス数をゼロに自動スケーリングすることで、コスト削減に役立ちます。

バッチ変換

大規模なデータセットを使用するユースケースでのデータバッチのオフライン推論。バッチ変換を使用すると、データセットを前処理してノイズやバイアスを取り除き、入力レコードを推論に関連付けて結果の解釈に役立てることができます。

スケーラブルで費用対効果の高い推論オプション

単一モデルのエンドポイント

専有インスタンスでホストされるコンテナ上の 1 つのモデル、または低レイテンシーと高スループットを実現するサーバーレスモデル。

詳細を確認する

単一モデルのエンドポイント

単一のエンドポイントに複数のモデルをデプロイする

複数のモデルを同じインスタンスにホストして、基盤となるアクセラレーターをより効果的に活用し、デプロイコストを最大 50% 削減できます。各 FM のスケーリングポリシーを個別に制御できるため、インフラストラクチャコストを最適化しながら、モデルの使用パターンに適応することが容易になります。

詳細を確認する

マルチモデルエンドポイント

シリアル推論パイプライン

複数のコンテナが専有インスタンスを共有し、順番に実行されます。推論パイプラインを使用して、前処理、予測、および後処理のデータサイエンスタスクを組み合わせることができます。

詳細を確認する

シリアル推論パイプライン

ほとんどの機械学習フレームワークとモデルサーバーをサポート

Amazon SageMaker 推論は、TensorFlow、PyTorch、ONNX、XGBoost などの最も一般的な機械学習フレームワークの組み込みアルゴリズムと事前構築済みの Docker イメージをサポートしています。事前構築済みの Docker イメージがどれもニーズに合わない場合は、CPU ベースのマルチモデルエンドポイントで使用する独自のコンテナを構築できます。SageMaker 推論は、TensorFlow Serving、TorchServe、NVIDIA Triton、AWS マルチモデルサーバーなど、ほとんどの一般的なモデルサーバーをサポートしています。

Amazon SageMaker AI には、モデル並列処理と大規模モデル推論 (LMI) に特化した深層学習コンテナ (DLC)、ライブラリ、ツールが用意されており、基礎モデルのパフォーマンスを向上させるのに役立ちます。これらのオプションを使用すると、基盤モデル (FM) を含むモデルを事実上あらゆるユースケースに迅速にデプロイできます。


詳細はこちら
 

TensorFlow
PyTorch
MXNet
Hugging Face のロゴ
TensorFlow

低コストで高い推論パフォーマンスを実現

低コストで高い推論パフォーマンスを実現

Amazon SageMaker AI の新しい推論最適化ツールキットは、Llama 3、Mistral、Mixtral モデルなどの生成 AI モデルのコストを最大 50% 削減しながら、最大 2 倍のスループットを実現します。例えば、Llama 3-70B モデルを使用すると、ml.p5.48xlarge インスタンスで最大約 2,400 トークン/秒を達成できます (以前は最適化なしで約 1,200 トークン/秒)。投機的デコード、量子化、コンパイルなどのモデル最適化手法を選択したり、複数の手法を組み合わせたりして、それらをモデルに適用し、ベンチマークを実行してその手法が出力の質と推論パフォーマンスに及ぼす影響を評価できるほか、わずか数回クリックするだけでモデルをデプロイすることもできます。

評価メトリクスを一目で確認できる様子を示す画像

最もパフォーマンスの高いインフラストラクチャにモデルをデプロイするか、サーバーレスに移行するか

Amazon SageMaker AI には、AWS Inferentia に基づく Amazon EC2 Inf1 インスタンス、AWS によって設計および構築された高性能な ML 推論チップ、Amazon EC2 G4dn などの GPU インスタンスなど、さまざまなレベルのコンピューティングとメモリを備えた 70 種類以上のインスタンスタイプが用意されています。または、Amazon SageMaker Serverless Inference を選択すれば、1 エンドポイントあたり数千のモデル、1 秒あたりの数百万のトランザクション (TPS) スループット、10 ミリ秒未満のオーバーヘッドレイテンシーに簡単にスケーリングできます。

ML 推論チップの特徴を示す画像

ML モデルのパフォーマンスを検証するためのシャドーテスト

Amazon SageMaker AI では、ライブ推論リクエストを使用して、現在 SageMaker がデプロイしているモデルに対してパフォーマンスをシャドウテストすることで、新しいモデルを評価できます。シャドウテストは、潜在的な設定エラーやパフォーマンスの問題を、エンドユーザーに影響を与える前に発見するのに役立ちます。ユーザーに影響を与える前に発見するのに役立ちます。SageMaker AI を使えば、何週間もの時間をかけて独自のシャドウテストインフラストラクチャを構築する必要がありません。テスト対象の本番モデルを選択するだけで、SageMaker AI は自動的に新しいモデルをシャドウモードでデプロイし、実稼働モデルで受信した推論要求のコピーをリアルタイムで新しいモデルにルーティングします。

シャドウテストのプロセスを示す画像

伸縮性を実現する自動スケーリング

スケーリングポリシーを使用すると、基盤となるコンピューティングリソースを自動的にスケーリングして、推論リクエストの変動に対応できます。各 ML モデルのスケーリングポリシーを個別に制御して、モデルの使用状況の変化に簡単に対処できると同時に、インフラストラクチャのコストを最適化できます。

自動スケーリンググループを示す画像

レイテンシーの改善とインテリジェントルーティング

推論リクエストの処理で負荷がかかっているインスタンスにランダムにリクエストをルーティングするのではなく、使用可能なインスタンスに新しい推論リクエストをインテリジェントにルーティングすることで、ML モデルの推論レイテンシーを平均 20% 削減できます。

運用上の負担を軽減し、価値実現までの時間を短縮

フルマネージドモデルのホスティングと管理

Amazon SageMaker AI は、完全マネージド型サービスとして、インスタンスのセットアップと管理、ソフトウェアバージョンの互換性、バージョンへのパッチ適用を行います。また、アラートの監視と受信に使用できるエンドポイントのメトリクスとログも組み込まれています。

モデル管理の流れを示す画像

MLOps 機能との組み込み統合

SageMaker Pipelines (ワークフローのオートメーションとオーケストレーション)、SageMaker Projects (ML の CI/CD)、SageMaker Feature Store (特徴量の管理)、SageMaker Model Registry (リネージを追跡し、自動化された承認ワークフローをサポートするモデルとアーティファクトのカタログ)、SageMaker Clarify (バイアスの検出)、SageMaker Model Monitor (モデルとコンセプトのドリフト検出) など、Amazon SageMaker AI のモデルデプロイ機能は、MLOps 機能とネイティブに統合されます。その結果、1 つのモデルをデプロイする場合でも、数万のモデルをデプロイする場合でも、SageMaker AI は ML モデルのデプロイ、スケーリング、管理による運用上のオーバーヘッドを軽減し、より早く本番環境に移行できるようにします。

Train モデルのフローチャートを示す画像