LLM-as-a-Judge ของการประเมินโมเดลบน Amazon Bedrock พร้อมใช้งานโดยทั่วไปแล้ว
ตอนนี้ ความสามารถ LLM-as-a-Judge ของการประเมินโมเดลบน Amazon Bedrock พร้อมใช้งานโดยทั่วไปแล้ว การประเมินโมเดลบน Amazon Bedrock ทำให้คุณสามารถประเมิน เปรียบเทียบ และเลือกโมเดลที่เหมาะสำหรับกรณีการใช้งานของคุณได้ คุณสามารถเลือก LLM เป็นตัวตัดสินได้จากหลายรายการที่มีให้บน Bedrock เพื่อให้แน่ใจว่าคุณมีโมเดลของผู้ประเมินและโมเดลที่กำลังประเมินอยู่ร่วมกันอย่างเหมาะสม คุณสามารถเลือกตัวชี้วัดคุณภาพ เช่น ความถูกต้อง ความสมบูรณ์ และโทนกับสไตล์ที่เป็นมืออาชีพ ตลอดจนตัวชี้วัด AI ที่มีความรับผิดชอบ เช่น ความเป็นอันตรายและการปฏิเสธคำตอบ คุณสามารถประเมินโมเดลที่มีอยู่ทั้งหมดบน Amazon Bedrock ได้ รวมถึงโมเดลที่ไม่ต้องใช้เซิร์ฟเวอร์, โมเดล Bedrock Marketplace ที่เข้ากันได้กับ Converse API, โมเดลที่ปรับแต่งและที่มีขนาดเล็กลง, โมเดลที่นำเข้า และเราเตอร์โมเดล คุณยังสามารถเปรียบเทียบผลลัพธ์ของงานการประเมินต่าง ๆ ได้อีกด้วย
*ใหม่เอี่ยม พร้อมความยืดหยุ่นมากขึ้น!* วันนี้ คุณสามารถประเมินโมเดลหรือระบบใดก็ได้ที่โฮสต์ ณ ที่ใดก็ได้ โดยการนำการตอบสนองการอนุมานของคุณเองที่คุณดึงมาไว้แล้วเข้าสู่ชุดข้อมูลพร้อมท์อินพุตของคุณสำหรับงานการประเมิน (“นำการตอบสนองการอนุมานของคุณเองมาใช้”) การตอบสนองเหล่านี้อาจมาจากโมเดล Amazon Bedrock หรือจากโมเดลหรือแอปพลิเคชันใด ๆ ที่โฮสต์นอก Amazon Bedrock ก็ได้ ทำให้คุณสามารถหลีกเลี่ยงการเรียกใช้โมเดล Amazon Bedrock ในงานการประเมิน และทำให้คุณสามารถรวมขั้นตอนระหว่างกลางทั้งหมดของแอปพลิเคชันคุณเข้ากับการตอบสนองขั้นสุดท้ายได้
เมื่อใช้ LLM-as-a-Judge คุณจะได้รับคุณภาพการประเมินที่เหมือนกับมนุษย์โดยมีต้นทุนที่ต่ำลง พร้อมทั้งประหยัดเวลาหลายสัปดาห์
หากต้องการเรียนรู้เพิ่มเติม โปรดไปที่หน้าการประเมินและเอกสารประกอบ Amazon Bedrock หากต้องการเริ่มต้นใช้งาน ให้ลงชื่อเข้าใช้คอนโซล AWS หรือใช้ Amazon Bedrock API