投稿日: Apr 10, 2023

Amazon SageMaker Inference Recommender (IR) は、SageMaker に ML モデルをデプロイする際に最適なインスタンスタイプと構成 (インスタンス数、コンテナパラメータ、モデル最適化など) を選択するのに役立ちます。新たに IR では、Amazon CloudWatch とのログとメトリクスの統合の強化、IR ジョブの実行に関する python SDK サポート、任意の VPC サブネット内で IR ジョブを実行できるようにする機能、新しい API を使用して既存のエンドポイントで負荷テストを実行できるようにするサポート、IR を簡単に開始できるようにするための操作性の改善が行われました。

CloudWatch 統合により、IR 実行時のエラーを特定するための新しいロググループに IR ログが表示されます。IR では、スループットとレイテンシーに加えて、P99 レイテンシーでの同時ユーザー数、CPU、メモリ使用率などの主要な指標も公開されるようになります。Python SDK のサポートにより、Jupyter Notebook から IR ジョブをトリガーして推奨インスタンスタイプを取得できます。また、IR ジョブのすべての実行ステップを詳細に可視化し、既存のエンドポイントに対してモデルをロードテストするオプションを提供する新しい API も公開されました。操作性向上のため、一部の必須入力パラメータが任意になりました。これにより、モデルの登録や、IRジョブを実行するためのドメインなどの入力が不要になりました。

SageMaker Inference が利用可能な AWS リージョンの詳細については、AWS リージョン表をご覧ください。 

詳細については、Inference Recommender のドキュメントをご覧ください。Amazon SageMaker Inference Recommender では、使用された基礎となるリソースに対してのみ課金されます。SageMaker でモデルをデプロイする方法の詳細については、ドキュメントをご覧ください。