Amazon SageMaker AI が最適化された生成 AI 推論レコメンデーションの提供を開始
Amazon SageMaker AI が推論レコメンデーションをサポートするようになりました。これは、手動による最適化やベンチマークを排除して最適な推論パフォーマンスを実現する新機能です。SageMaker AI は、検証済みの最適なデプロイ設定とパフォーマンスメトリクスを提供することで、本番環境への移行をスピードアップし、モデル開発者がインフラストラクチャの管理ではなく高精度なモデルの構築に集中できるようにします。
お客様は独自の生成 AI モデルを使用し、予想されるトラフィックパターンを定義し、パフォーマンス目標 (コストの最適化、レイテンシーの最小化、スループットの最大化) を指定します。すると、SageMaker AI がモデルのアーキテクチャを分析し、その目標に沿った最適化を複数のインスタンスタイプにわたって適用し、NVIDIA AIPerf を使用して実際の GPU インフラストラクチャ上で各構成をベンチマークします。複数のインスタンスタイプを評価することで、お客様はワークロードに対して最もコストパフォーマンスに優れたオプションを選択できます。その結果、最初のトークンまでの時間、トークン間レイテンシー、リクエストレイテンシーのパーセンタイル、スループット、コスト予測などの検証済みメトリクスを備えた、デプロイ準備が整った構成が得られます。
この機能は現在、米国東部 (バージニア北部)、米国西部 (オレゴン)、米国東部 (オハイオ)、アジアパシフィック (東京)、欧州 (アイルランド)、アジアパシフィック (シンガポール)、欧州 (フランクフルト) の 7 つの AWS リージョンで利用できます。詳細については、SageMaker AI のドキュメントを参照してください。