投稿日: Nov 29, 2023

Amazon SageMaker の新機能を発表します。これにより、お客様はモデルのデプロイコストを平均 50% 削減し、推論レイテンシーを平均 20% 削減できます。お客様は複数のモデルを同じインスタンスにデプロイして、基盤となるアクセラレータをより有効に活用できます。SageMaker は、推論リクエストを処理しているインスタンスをアクティブに監視し、どのインスタンスが使用可能であるかに基づいて要求をインテリジェントにルーティングします。

これらの機能は SageMaker のリアルタイム推論で利用できるため、MLモデルを簡単にデプロイできます。1 つ以上の InferenceComponent を作成して SageMaker エンドポイントにデプロイできるようになりました。InferenceComponent は ML モデルを抽象化し、CPU、GPU、Neuron アクセラレータ、スケーリングポリシーをモデルごとに割り当てることができます。各モデルをエンドポイントの背後にある複数のインスタンスにインテリジェントに配置して、使用率を最大化し、コストを節約します。各モデルは個別にスケールアップ、およびゼロにスケールダウンできます。これにより、ハードウェアリソースを解放して、他のモデルがインスタンスでアクセラレータを利用できるようになります。また、各モデルは独自のメトリクスとログを生成し、問題の監視とデバッグに役立てることができます。新しい最小未処理リクエストルーティングアルゴリズムが追加されたことにより、リクエストがより均等に分散され、エンドツーエンドのレイテンシが短縮されます。 

これらの新機能は、アジアパシフィック (東京、ソウル、ムンバイ、シンガポール、シドニー、ジャカルタ)、カナダ (中部)、欧州 (フランクフルト、ストックホルム、アイルランド、ロンドン)、中東 (UAE)、南米 (サンパウロ)、米国東部 (バージニア北部、オハイオ)、米国西部 (オレゴン) でご利用いただけます。

詳細については、ドキュメントページ製品ページをご覧ください。