Amazon Bedrock 现在支持观测首个令牌延迟和配额消耗情况

发布于: 2026年3月10日

Amazon Bedrock 是一项完全托管的服务,可借助全球顶尖 AI 提供商的高性能基础模型构建生成式 AI 应用程序。该服务现在支持两个新的 CloudWatch 指标,即 TimeToFirstToken 和 EstimatedTPMQuotaUsage,使您可以更深入地了解推理性能和配额消耗情况。

TimeToFirstToken 用于衡量流式 API(ConverseStream 和 InvokeModelWithResponseStream)从发送请求到收到首个令牌的延迟。您可以使用此指标来设置 CloudWatch 警报,以监控延迟下降并建立 SLA 基线,无需任何客户端检测。EstimatedTPMQuotaUsage 用于跟踪所有推理 API(Converse、InvokeModel、ConverseStream 和 InvokeModelWithResponseStream)的预估每分钟令牌数 (TPM) 配额消耗情况,包括缓存写入令牌数和输出消耗倍数。您可以使用此指标设置在达到配额上限之前主动警报,跟踪所有模型的配额消耗情况,并在使用量达到额定限制之前请求进一步增加配额。

所有商业 Bedrock 区域中通过跨区域推理配置文件和区域内推理获得的模型均支持这两个指标,成功完成的请求每分钟更新一次。这两个指标在您的 CloudWatch 中开箱即用;您仅需为实际消耗的基础模型推理服务付费,无需更改 API,也无需手动加入。

要了解有关 TimeToFirstToken 和 EstimatedTPMQuotaUsage 的更多信息,请参阅有关监控 Amazon Bedrock 的文档页面