Amazon Bedrock รองรับข้อมูลการสังเกตของเวลาแฝงจากโทเค็นแรก และการใช้งานโควตาแล้ว
Amazon Bedrock เป็นบริการที่มีการจัดการเต็มรูปแบบสำหรับการสร้างแอปพลิเคชัน AI ช่วยสร้าง โดยใช้โมเดลพื้นฐานประสิทธิภาพสูงจากผู้ให้บริการ AI ชั้นนำ ขณะนี้รองรับตัวชี้วัด CloudWatch ใหม่สองรายการ ได้แก่ TimeToFirstToken และ EstimatedTPMQuotaUsage ซึ่งช่วยให้คุณมองเห็นประสิทธิภาพการอนุมานและการใช้โควตาได้ชัดเจนยิ่งขึ้น
TimeToFirstToken วัดระยะเวลาแฝงนับตั้งแต่เมื่อส่งคำขอจนถึงเมื่อได้รับโทเค็นแรก สำหรับ API การสตรีม (ConverseStream และ InvokeModelWithResponseStream) คุณสามารถใช้ตัวชี้วัดนี้เพื่อตั้งค่าการแจ้งเตือน CloudWatch ซึ่งจะตรวจติดตามการลดลงของเวลาแฝงและกำหนดเกณฑ์มาตรฐาน SLA โดยไม่ต้องมีการติดตั้งเครื่องมือใด ๆ บนฝั่งไคลเอ็นต์ EstimatedTPMQuotaUsage จะติดตามการใช้โควตาของโทเค็นต่อนาที (TPM) โดยประมาณของคุณ ซึ่งรวมถึงโทเค็นการเขียนแคชและตัวคูณลดทอนเอาต์พุต ใน API การอนุมานทั้งหมด (Converse, InvokeModel, ConverseStream และ InvokeModelWithResponseStream) คุณสามารถใช้ตัวชี้วัดนี้เพื่อตั้งค่าการแจ้งเตือนเชิงรุกก่อนที่จะถึงขีดจำกัดโควตา ติดตามการใช้โควตาในโมเดลต่าง ๆ ของตนเอง และขอเพิ่มโควตาเพิ่มเติมก่อนที่การใช้งานจะถูกจำกัดอัตรา
ทั้งสองตัวชี้วัดรองรับในทุกรีเจี้ยน Bedrock เชิงพาณิชย์สำหรับโมเดลที่ใช้งานได้ผ่านโปรไฟล์การอนุมานข้ามรีเจี้ยนและการอนุมานภายในรีเจี้ยน โดยจะอัปเดตทุกนาทีสำหรับคำขอที่ทำสำเร็จแล้ว ซึ่งพร้อมใช้งานใน CloudWatch ของคุณทันที คุณจะเสียค่าใช้จ่ายเฉพาะการอนุมานของโมเดลที่คุณใช้งานจริง โดยไม่ต้องเปลี่ยน API หรือเลือกใช้งานเพิ่มเติม
หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ TimeToFirstToken และ EstimatedTPMQuotaUsage โปรดดูหน้าเอกสารประกอบของเราเกี่ยวกับการตรวจติดตาม Amazon Bedrock