投稿日: Dec 1, 2021
Amazon SageMaker Serverless Inference は、基盤となるインフラストラクチャを構成または管理することなく、推論用の機械学習モデルを簡単にデプロイすることを可能にする新しい推論オプションです。機械学習モデルをデプロイするときにサーバーレスオプションを選択するだけで、Amazon SageMaker は推論リクエストの量に基づいてコンピューティング性能の自動的なプロビジョニングやスケールを実行したり、コンピューティング性能をオフにしたりします。SageMaker Serverless Inference では、推論コードの実行時間と処理されたデータの量の料金のみをお支払いいただきます。アイドル時間については料金がかかりません。
Amazon SageMaker Serverless Inference は、トラフィックが断続的または予測できないアプリケーションに最適です。例えば、給与処理サービスを提供する会社が使用するチャットボットサービスでは月末に問い合わせが増加しますが、それ以外の期間はトラフィックは断続的です。このようなシナリオで 1 か月の全期間にわたってインスタンスをプロビジョニングすることは、アイドル期間の料金を支払うことになるため、費用対効果は高くありません。Amazon SageMaker Serverless Inference は、トラフィック需要を事前に予測したり、スケーリングポリシーを管理したりすることなく、推論リクエストの量に基づいてコンピューティング性能を自動的にスケーリングすることで、これらのタイプのユースケースに対処するのに役立ちます。さらに、推論コードを実行するためのコンピューティング時間 (ミリ秒単位で請求されます) と処理されるデータの量についての料金のみをお支払いいただくため、断続的なトラフィックを伴うワークロードについては費用対効果の高いオプションです。SageMaker Serverless Inference の提供開始により、SageMaker は 4 つの推論オプションを提供するようになりました。これにより、幅広いユースケースで利用可能なデプロイの選択肢が増加します。他の 3 つのオプションは、ミリ秒単位の低レイテンシー要件を満たす必要があるワークロード向けの SageMaker Real-Time Inference、データのバッチで予測を実行するための SageMaker Batch Transform、大きなサイズのペイロードを持つか、長い処理時間を必要とする推論向けの SageMaker Asynchronous Inference です。詳細については、Amazon SageMaker のデプロイのウェブページにアクセスしてください。
SageMaker Inference エンドポイントは、コンソール、AWS SDK、または AWS Command Line Interface (CLI) から簡単に作成できます。開始方法の詳細な手順については、サンプルノートブックも含まれている SageMaker Serverless Inference のドキュメントを参照してください。料金に関する情報については、SageMaker の料金のページを参照してください。SageMaker Serverless Inference は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、欧州 (アイルランド)、アジアパシフィック (東京)、およびアジアパシフィック (シドニー) でプレビューでご利用いただけます。