Amazon Bedrock 現已支援 First Token Latency 和 Quota Consumption 的可觀測性

張貼日期: 2026年3月10日

Amazon Bedrock 是一項全受管服務,可使用來自領先 AI 供應商的高效能基礎模型,以建置生成式 AI 應用程式。它現已支援兩個新的 CloudWatch 指標:TimeToFirstToken 和 EstimatedTPMQuotaUsage,讓您更深入了解推論效能和配額取用情況。

TimeToFirstToken 可衡量從傳送請求到收到第一個字符之間的延遲,適用於串流 API (ConverseStream 和 InvokeModelWithResponseStream)。您可以使用此指標來設定 CloudWatch 警示,以監控延遲下降情況並建立 SLA 基準,而無需進行任何用戶端檢測。EstimatedTPMQuotaUsage 會追蹤您的預估每分鐘字符 (TPM) 配額取用情況,包含快取寫入字符和輸出消耗倍數,範圍涵蓋所有推論 API (Converse、InvokeModel、ConverseStream 和 InvokeModelWithResponseStream)。您可以使用此指標,設定主動警示以在達到配額限制之前接收通知、追蹤各模型的配額取用情況,並在系統對您的 API 使用情況進行速率限制之前請求進一步增加配額。

對於透過跨區域推論設定檔和區域內推論提供的模型,這兩種指標在所有商業 Bedrock 區域均受支援,並對成功完成的請求每分鐘更新一次。這些功能預先內建在您的 CloudWatch 中;您只需為使用的基礎模型推論付費,不需要變更 API 或選擇加入。

若要進一步了解 TimeToFirstToken 和 EstimatedTPMQuotaUsage,請參閱我們關於監控 Amazon Bedrock 的文件頁面