Amazon Bedrock で初回トークンレイテンシーとクォータ使用量のオブザーバビリティのサポートを開始

投稿日: 2026年3月10日

Amazon Bedrock は、主要な AI プロバイダーが提供する高性能な基盤モデルを使用して生成 AI アプリケーションを構築するためのフルマネージドサービスです。この度、TimetoFirstToken と EstimatedTPMQuotaUsage という 2 つの新しい CloudWatch メトリクスがサポートされるようになり、推論パフォーマンスとクォータ使用量をより詳細に把握できるようになりました。

TimeToFirstToken は、ストリーミング API (ConverseStream と InvokeModelWithResponseStream) でリクエスト送信から最初のトークン受信までのレイテンシーを測定するものです。このメトリクスを使用すると、クライアント側のインストルメンテーションなしで、レイテンシーの低下をモニタリングして SLA ベースラインを確立する CloudWatch アラームを設定できます。EstimatedTPMQuotaUsage は、すべての推論 API (Converse、InvokeModel、ConverseStream、InvokeModelWithResponseStream) で、キャッシュ書き込みトークンや出力バーンダウン乗数など、1 分あたりのトークン数 (TPM) クォータの推定使用量を追跡します。このメトリクスを使用すると、クォータ制限に達する前に事前通知するアラームを設定したり、モデル全体でのクォータ使用量を追跡したり、使用量がレート制限を受ける前にクォータの引き上げをリクエストしたりできます。

どちらのメトリクスも、クロスリージョン推論プロファイルとリージョン内推論で利用可能なモデルのすべての商用 Bedrock リージョンでサポートされ、正常に完了したリクエストを対象に毎分更新されます。これらは CloudWatch ですぐにご利用いただけます。API の変更やオプトインは不要で、お支払いは実際に使用した基盤モデルの推論分のみとなります。

TimeToFirstToken と EstimatedTPMQuotaUsage の詳細については、Amazon Bedrock のモニタリングに関するドキュメントページをご覧ください。