Amazon Bedrock hiện hỗ trợ khả năng quan sát Độ trễ token đầu tiên và Sử dụng hạn mức
Amazon Bedrock là một dịch vụ được quản lý toàn phần để xây dựng các ứng dụng AI tạo sinh bằng các mô hình nền tảng hiệu suất cao từ các nhà cung cấp AI hàng đầu. Dịch vụ hiện hỗ trợ hai chỉ số CloudWatch mới: TimeToFirstToken và EstimatedTPMQuotaUsage, giúp bạn có được khả năng theo dõi sâu hơn về hiệu suất suy luận và tình hình sử dụng hạn mức.
TimeToFirstToken đo độ trễ từ lúc yêu cầu được gửi tới khi nhận token đầu tiên cho các API phát trực tuyến (ConverseStream và InvokeModelWithResponseStream). Bạn có thể sử dụng chỉ số này để đặt cảnh báo CloudWatch theo dõi sự suy giảm độ trễ và thiết lập các mức cơ sở SLA mà không cần bất kỳ thiết bị đo nào ở phía máy khách. EstimatedTPMQuotaUsage theo dõi tình hình sử dụng hạn mức Số token mỗi phút (Tokens Per Minute – TPM) ước tính của bạn, bao gồm token ghi bộ nhớ cache và hệ số tiêu thụ đầu ra, trên tất cả các API suy luận (Converse, InvokeModel, ConverseStream và InvokeModelWithResponseStream). Bạn có thể sử dụng chỉ số này để thiết lập cảnh báo chủ động trước khi đạt đến giới hạn hạn mức, theo dõi tình hình sử dụng hạn mức trên các mô hình của bạn và yêu cầu tăng hạn mức thêm nữa trước khi tốc độ sử dụng bị giới hạn.
Cả hai chỉ số đều được hỗ trợ ở tất cả các khu vực Bedrock thương mại cho các mô hình có sẵn thông qua cấu hình suy luận liên khu vực và suy luận trong khu vực, được cập nhật mỗi phút đối với các yêu cầu được hoàn tất thành công. Các chỉ số này sẵn dùng ngay trong CloudWatch của bạn; bạn chỉ trả tiền cho tính năng suy luận mô hình cơ bản mà bạn sử dụng, không cần phải thay đổi API hay chọn tham gia.
Để tìm hiểu thêm về TimeToFirstToken và EstimatedTPMQuotaUsage, hãy xem trang tài liệu của chúng tôi về Theo dõi Amazon Bedrock.