การประเมินโมเดลและ RAG ของ Amazon Bedrock รองรับตัวชี้วัดที่กำหนดเองแล้ว
การประเมินผลของ Amazon Bedrock ทำให้คุณสามารถประเมินโมเดลพื้นฐานและระบบการดึงข้อมูลเพื่อการสร้างแบบเสริม (RAG) ไม่ว่าจะโฮสต์บน Amazon Bedrock หรือการนำไปใช้จริงแบบหลายคลาวด์และแบบในองค์กร การประเมินผลของ Bedrock นำเสนอการประเมินผลโดยมนุษย์ การประเมินผลเชิงโปรแกรม เช่น BERTScore, F1 และตัวชี้วัดการจับคู่แบบแม่นยำอื่น ๆ รวมไปถึง LLM-as-a-Judge สำหรับทั้งการประเมินโมเดลและ RAG สำหรับทั้งการประเมินโมเดลและ RAG ด้วย LLM-as-a-Judge ลูกค้าสามารถเลือกจากรายการตัวชี้วัดในตัวที่มีอยู่มากมาย เช่น ความถูกต้อง ความสมบูรณ์ ความซื่อสัตย์ (การตรวจจับผลลัพธ์เพี้ยน) รวมไปถึงตัวชี้วัด AI ที่มีความรับผิดชอบ เช่น การปฏิเสธคำตอบ ความเป็นอันตราย และการเหมารวม แต่ก็มีบางครั้งที่ลูกค้าต้องการกำหนดตัวชี้วัดเหล่านี้แตกต่างออกไป หรือสร้างตัวชี้วัดใหม่ที่เกี่ยวข้องกับความต้องการของตัวเอง ตัวอย่างเช่น ลูกค้าอาจกำหนดตัวชี้วัดที่ประเมินการยึดตามเสียงแบรนด์โดยเฉพาะในการตอบสนองของแอปพลิเคชัน หรือลูกค้าต้องการจำแนกประเภทคำตอบตามรูบริกหมวดหมู่ที่กำหนดเอง
ขณะนี้ การประเมินผลของ Amazon Bedrock มอบความสามารถให้กับลูกค้าในการสร้างและใช้ตัวชี้วัดที่กำหนดเองอีกครั้งสำหรับทั้งการประเมินโมเดลและ RAG ที่ขับเคลื่อนโดย LLM-as-a-Judge ลูกค้าสามารถเขียนพร้อมท์ตัดสินของตนเอง กำหนดขนาดการจัดอันดับประเภทหรือตัวเลขของตนเอง และใช้ตัวแปรในตัวเพื่อใส่ข้อมูลจากชุดข้อมูลหรือการตอบสนองโดย GenAI ลงในพร้อมท์ตัดสินในระหว่างรันไทม์ เพื่อปรับแต่งการไหลของข้อมูลในการประเมินอย่างเต็มที่ ลูกค้าสามารถหาแรงบันดาลใจในการสร้างเทมเพลต/รูบริกพร้อมท์ตัดสินใหม่ด้วยเทมเพลตเริ่มต้นแบบเร่งด่วนที่มีให้ หรือสามารถสร้างของตัวเองได้จากศูนย์
หากต้องการเริ่มต้นใช้งาน ให้ไปที่คอนโซล Amazon Bedrock หรือใช้ Bedrock API สำหรับข้อมูลเพิ่มเติม โปรดดูคู่มือผู้ใช้