Evaluasi Model Amazon Bedrock LLM-as-a-judge sekarang tersedia secara umum

Dikirim di: 20 Mar 2025

Kemampuan LLM-as-a-judge dari Evaluasi Model Amazon Bedrock sekarang tersedia secara umum. Evaluasi Model Amazon Bedrock memungkinkan Anda mengevaluasi, membandingkan, dan memilih model terbaik untuk kasus penggunaan Anda. Anda dapat memilih LLM sebagai juri Anda dari beberapa yang tersedia di Bedrock untuk memastikan Anda memiliki kombinasi yang tepat dari model evaluator dan model yang sedang dievaluasi. Anda juga dapat memilih metrik kualitas yang dikurasi seperti ketepatan, kelengkapan, serta gaya dan nada profesional, serta metrik AI yang bertanggung jawab seperti tindakan merugikan dan penolakan jawaban. Anda dapat mengevaluasi semua model yang tersedia di Amazon Bedrock, termasuk model nirserver, model Bedrock Marketplace yang kompatibel dengan Converse API, model yang disesuaikan dan didistilasi, model impor, dan router model. Anda juga dapat membandingkan hasil di seluruh pekerjaan evaluasi.

*Baru - lebih fleksibel!* Hari ini, Anda dapat mengevaluasi model atau sistem apa pun yang di-hosting di mana saja dengan membawa respons inferensi Anda sendiri yang telah diambil ke dalam set data prompt input Anda untuk pekerjaan evaluasi (“bawa respons inferensi Anda sendiri”). Respons ini dapat berasal dari model Amazon Bedrock atau dari model atau aplikasi apa pun yang di-hosting di luar Amazon Bedrock, memungkinkan Anda untuk melewati pemanggilan model Amazon Bedrock dalam pekerjaan evaluasi, juga untuk memasukkan semua langkah perantara aplikasi Anda ke dalam respons akhir Anda.

Dengan LLM-as-a-judge, Anda bisa mendapatkan kualitas evaluasi seperti manusia dengan biaya lebih rendah, sekaligus menghemat waktu berminggu-minggu.

Untuk mempelajari lebih lanjut, kunjungi halaman Evaluasi dan dokumentasi Amazon Bedrock. Untuk memulai, masuk ke Konsol AWS atau gunakan API Amazon Bedrock.