Amazon Bedrock теперь поддерживает наблюдаемость задержки первого токена и потребления квот

Проведено: 10 мар. 2026 г.

Amazon Bedrock – это полностью управляемый сервис для создания приложений генеративного искусственного интеллекта с использованием высокопроизводительных базовых моделей от ведущих поставщиков ИИ. Теперь он поддерживает две новые метрики CloudWatch: TimeToFirstToken и EstimatedTPMQuotaUsage, – что позволяет лучше отслеживать эффективность логических выводов и потребление квот.

TimeToFirstToken измеряет задержку с момента отправки запроса до получения первого токена для потоковых API (ConverseStream и InvokeModelWithResponseStream). Эту метрику можно использовать для настройки оповещения CloudWatch, которые отслеживают ухудшение задержек и задают базовые уровни SLA, без использования каких-либо средств контроля на стороне клиента. EstimatedTPMQuotaUsage отслеживает предполагаемое потребление квоты на токены в минуту (TPM), включая токены записи в кэш и множители сгорания выходного потока, во всех API вывода (Converse, InvokeModel, ConverseStream и InvokeModelWithResponseStream). С помощью этой метрики можно настраивать упреждающие оповещения до достижения лимита квоты, отслеживать потребление квоты в разных моделях и запрашивать дальнейшее увеличение квоты до появления ограничения использования по частоте.

Обе метрики поддерживаются во всех коммерческих регионах Bedrock для моделей, доступных через профили межрегиональных и внутрирегиональных выводов, которые обновляются ежеминутно для успешно выполненных запросов. Эти метрики доступны в CloudWatch по умолчанию: плата начисляется только за используемый вывод базовой модели, без изменений API и необходимости дополнительного подключения.

Дополнительные сведения о TimeToFirstToken и EstimatedTPMQuotaUsage см. на странице документации по мониторингу Amazon Bedrock.