Evaluasi Model Amazon Bedrock LLM-as-a-judge sekarang tersedia secara umum

Dikirim di: 20 Mar 2025

Kemampuan LLM-as-a-judge Evaluasi Model Amazon Bedrock kini tersedia secara umum. Evaluasi Model Amazon Bedrock memungkinkan Anda mengevaluasi, membandingkan, dan memilih model yang tepat untuk kasus penggunaan Anda. Anda dapat memilih LLM sebagai juri dari beberapa yang tersedia di Bedrock untuk memastikan Anda memiliki kombinasi yang tepat antara model evaluator dan model yang dievaluasi. Anda dapat memilih metrik kualitas seperti kebenaran, kelengkapan, serta gaya dan nada profesional, serta metrik AI yang bertanggung jawab seperti bahaya dan penolakan jawaban. Anda dapat mengevaluasi semua model yang tersedia di Amazon Bedrock, termasuk model nirserver, model Bedrock Marketplace yang kompatibel dengan Converse API, model yang disesuaikan dan disuling, model yang diimpor, dan model router. Anda juga dapat membandingkan hasil berbagai pekerjaan evaluasi.

*Benar-benar baru - lebih banyak fleksibilitas!* Kini, Anda dapat mengevaluasi model atau sistem apa pun yang di-host di mana saja dengan membawa respons inferensi Anda sendiri yang telah diambil ke dalam set data prompt untuk pekerjaan evaluasi (“bawa respons inferensi Anda sendiri“). Respons ini dapat berasal dari model Amazon Bedrock atau dari model atau aplikasi mana pun yang di-host di luar Amazon Bedrock, sehingga Anda dapat melewati pemanggilan model Amazon Bedrock dalam pekerjaan evaluasi, dan memungkinkan Anda untuk menggabungkan semua langkah peralihan aplikasi Anda ke dalam respons akhir Anda.

Dengan LLM-as-a-judge, Anda bisa mendapatkan kualitas evaluasi seperti manusia dengan biaya lebih rendah, sekaligus menghemat waktu berminggu-minggu.

Untuk mempelajari lebih lanjut, kunjungi halaman Evaluasi Amazon Bedrock dan dokumentasi. Untuk memulai, masuk ke Konsol AWS atau gunakan API Amazon Bedrock.