Amazon Bedrock kini mendukung observabilitas Latensi Token Pertama dan Konsumsi Kuota
Amazon Bedrock adalah layanan yang dikelola sepenuhnya untuk membangun aplikasi AI generatif menggunakan model dasar berkinerja tinggi dari penyedia AI terkemuka. Layanan ini kini mendukung dua metrik CloudWatch baru, TimeToFirstToken dan EstimatedTpmQuotAuse, memberi Anda visibilitas yang lebih dalam terhadap kinerja inferensi dan konsumsi kuota.
TimeToFirstToken mengukur latensi dari saat permintaan dikirim hingga token pertama diterima, untuk API streaming (ConverseStream dan InvokeModelWithResponseStream). Anda dapat menggunakan metrik ini untuk mengatur alarm CloudWatch yang memantau degradasi latensi dan menetapkan garis dasar SLA, tanpa instrumentasi sisi klien. EstimatedTPMQuotaUsage melacak perkiraan konsumsi kuota Tokens Per Minute (TPM) Anda, termasuk token penulisan cache dan pengali pengurangan output, di semua API inferensi (Converse, InvokeModel, ConverseStream, dan InvokeModelWithResponseStream). Anda dapat menggunakan metrik ini untuk menyetel alarm proaktif sebelum mencapai batas kuota, melacak konsumsi kuota di seluruh model, dan meminta kenaikan kuota lebih lanjut sebelum penggunaan dibatasi tarif.
Kedua metrik ini didukung di semua region Bedrock komersial untuk model yang tersedia melalui profil inferensi lintas region dan inferensi dalam region, diperbarui setiap menit untuk permintaan yang berhasil diselesaikan. Model-model ini tersedia di CloudWatch Anda secara langsung; Anda hanya membayar untuk inferensi model yang Anda gunakan, tanpa perlu perubahan API atau persetujuan khusus.
Untuk mempelajari selengkapnya tentang TimeToFirstToken dan EstimatedTpmQuotAuse, lihat halaman dokumentasi kami tentang Pemantauan Amazon Bedrock.