Amazon Bedrock, 첫 번째 토큰 지연 시간 및 할당량 소비 관찰성 지원

게시된 날짜: 2026년 3월 10일

Amazon Bedrock은 주요 AI 제공업체의 고성능 파운데이션 모델을 사용하여 생셩형 AI 애플리케이션을 구축할 수 있는 완전관리형 서비스입니다. 이제 TimeToFirstToken과 EstimatedTPMQuotaUsage라는 두 가지 새로운 CloudWatch 지표를 지원하여 추론 성능 및 할당량 소비에 대한 가시성을 더욱 강화했습니다.

TimeToFirstToken은 스트리밍 API (ConverseStream 및 InvokeModelWithResponseStream)에 대해 요청이 전송된 시점부터 첫 번째 토큰이 수신될 때까지의 지연 시간을 측정합니다. 이 지표를 사용하면 클라이언트 측 계측 없이도 지연 시간 저하를 모니터링하고 SLA 기준을 설정하는 CloudWatch 경보를 구성할 수 있습니다. EstimatedTPMQuotaUsage는 모든 추론 API(Converse, InvokeModel, ConverseStream, InvokeModelWithResponseStream)에서 캐시 쓰기 토큰 및 출력 소진 배율을 포함한 예상 TPM(분당 토큰 수) 할당량 소비를 추적합니다. 이 지표를 사용하여 할당량 한도에 도달하기 전에 사전 알림을 설정하고, 모델 전반에서 할당량 소비를 추적하고, 사용량 한도에 도달하기전에 추가 할당량 증가를 요청할 수 있습니다.

두 지표 모두 모든 상용 Bedrock 리전에서 크로스 리전 추론 프로파일과 리전 내 추론을 통해 제공되는 모델에 대해 지원되며, 성공적으로 완료되는 요청에 대해 1분마다 업데이트됩니다. 이러한 지표는 CloudWatch에서 바로 사용할 수 있으며, API 변경이나 별도의 옵트인 없이 실제 사용한 모델 추론에 대해서만 비용을 지불하면 됩니다.

TimeToFirstToken 및 EstimatedTPMQuotaUsage에 대한 자세한 내용은 Amazon Bedrock 모니터링에 관한 설명서 페이지를 참조하세요.