Amazon Bedrock artık İlk Belirteç Gecikmesi ve Kota Tüketiminin gözlemlenebilirliğini destekliyor
Amazon Bedrock, önde gelen yapay zeka sağlayıcılarının yüksek performanslı temel modellerini kullanarak üretken yapay zeka uygulamaları oluşturmak için tam olarak yönetilen bir hizmettir. Artık TimeToFirstToken ve EstimatedTPMQuotaUsage olmak üzere iki yeni CloudWatch ölçümünü destekleyerek model çıkarımı performansı ve kota tüketimi hakkında daha derin gözlemlenebilirlik sunar.
TimeToFirstToken, akış API'leri (ConverseStream ve InvokeModelWithResponseStream) için bir isteğin gönderilmesinden ilk belirtecin alınmasına kadar geçen gecikmeyi ölçer. İstemci tarafında ek bir kurulum gerektirmeden gecikme düşüşünü izleyen ve SLA temel değerlerini belirleyen CloudWatch alarmları oluşturmak için bu ölçümü kullanabilirsiniz. EstimatedTPMQuotaUsage, önbellek yazma belirteçleri ve çıktı tüketim çarpanları dahil olmak üzere tüm model çıkarımı API'leri (Converse, InvokeModel, ConverseStream ve InvokeModelWithResponseStream) genelinde tahmini Dakika Başına Belirteç (TPM) kota tüketiminizi izler. Kota sınırına ulaşmadan önce proaktif alarmlar oluşturmak, modelleriniz genelinde kota kullanımını izlemek ve kullanım sınırlandırılmadan önce ek kota talep etmek için bu ölçümü kullanabilirsiniz.
Her iki ölçüm de, bölgeler arası çıkarım profilleri ve bölge içi çıkarım aracılığıyla kullanılabilen modeller için tüm ticari Amazon Bedrock bölgelerinde desteklenir ve başarılı şekilde tamamlanan istekler için her dakika güncellenir. Bu ölçümler CloudWatch'ta hazır olarak sunulur, API değişikliği veya ek etkinleştirme gerektirmez ve yalnızca kullandığınız model çıkarımı için ödeme yaparsınız.
TimeToFirstToken ve EstimatedTPMQuotaUsage hakkında daha fazla bilgi için Amazon Bedrock İzleme belgeleri sayfasına bakın.