Amazon Bedrock 現已支援 First Token Latency 和 Quota Consumption 的可觀測性

張貼日期: 2026年3月10日

Amazon Bedrock 是一項全受管服務，可使用來自領先 AI 供應商的高效能基礎模型，以建置生成式 AI 應用程式。它現已支援兩個新的 CloudWatch 指標：TimeToFirstToken 和 EstimatedTPMQuotaUsage，讓您更深入了解推論效能和配額取用情況。

TimeToFirstToken 可衡量從傳送請求到收到第一個字符之間的延遲，適用於串流 API (ConverseStream 和 InvokeModelWithResponseStream)。您可以使用此指標來設定 CloudWatch 警示，以監控延遲下降情況並建立 SLA 基準，而無需進行任何用戶端檢測。EstimatedTPMQuotaUsage 會追蹤您的預估每分鐘字符 (TPM) 配額取用情況，包含快取寫入字符和輸出消耗倍數，範圍涵蓋所有推論 API (Converse、InvokeModel、ConverseStream 和 InvokeModelWithResponseStream)。您可以使用此指標，設定主動警示以在達到配額限制之前接收通知、追蹤各模型的配額取用情況，並在系統對您的 API 使用情況進行速率限制之前請求進一步增加配額。

對於透過跨區域推論設定檔和區域內推論提供的模型，這兩種指標在所有商業 Bedrock 區域均受支援，並對成功完成的請求每分鐘更新一次。這些功能預先內建在您的 CloudWatch 中；您只需為使用的基礎模型推論付費，不需要變更 API 或選擇加入。

若要進一步了解 TimeToFirstToken 和 EstimatedTPMQuotaUsage，請參閱我們關於監控 Amazon Bedrock 的文件頁面。

Amazon Bedrock 現已支援 First Token Latency 和 Quota Consumption 的可觀測性

了解

資源

開發人員

說明