Amazon Bedrock RAG dan Evaluasi Model sekarang mendukung metrik khusus
Evaluasi Amazon Bedrock memungkinkan Anda mengevaluasi model fondasi dan sistem retrieval augmented generation (RAG), baik yang di-host di Amazon Bedrock atau deployment multicloud dan on-premise. Evaluasi Bedrock menawarkan evaluasi berbasis manusia, evaluasi terprogram seperti BERTScore, F1, dan metrik kecocokan tepat lainnya, serta LLM sebagai juri untuk evaluasi model dan RAG. Untuk evaluasi model dan RAG dengan LLM sebagai juri, pelanggan dapat memilih dari daftar lengkap metrik bawaan seperti kebenaran, kelengkapan, kesetiaan (deteksi halusinasi), serta metrik AI yang bertanggung jawab seperti penolakan jawaban, bahaya, dan stereotip. Namun, ada kalanya mereka ingin mendefinisikan metrik ini secara berbeda, atau membuat metrik baru yang relevan dengan kebutuhan mereka. Misalnya, pelanggan dapat menentukan metrik yang mengevaluasi kepatuhan respons aplikasi pada suara merek tertentu, atau mereka ingin mengklasifikasikan respons menurut rubrik kategori khusus.
Sekarang, Evaluasi Amazon Bedrock menawarkan kemampuan kepada pelanggan untuk membuat dan menggunakan kembali metrik khusus untuk evaluasi model dan RAG yang didukung oleh LLM sebagai juri. Pelanggan dapat menulis prompt juri mereka sendiri, menentukan skala peringkat kategoris atau numerik mereka sendiri, dan menggunakan variabel bawaan untuk memasukkan data dari set data atau respons GenAI mereka ke dalam prompt juri selama runtime untuk sepenuhnya menyesuaikan aliran data dalam evaluasi. Pelanggan dapat terinspirasi untuk membuat templat/rubrik prompt juri baru dengan templat quickstart yang disediakan atau mereka dapat membuatnya sendiri dari awal.
Untuk memulai, buka konsol Amazon Bedrock atau gunakan API Bedrock. Untuk informasi selengkapnya, lihat panduan pengguna.