การประเมิน Amazon Bedrock
ประเมินโมเดลพื้นฐานรวมถึงโมเดลที่กำหนดเองและนำเข้า เพื่อค้นหาโมเดลที่เหมาะกับความต้องการของคุณ คุณยังสามารถประเมินขั้นตอนการดึงข้อมูลหรือเวิร์กโฟลว์ RAG แบบครบวงจรในฐานความรู้ Amazon Bedrock
ภาพรวม
Amazon Bedrock มีเครื่องมือประเมินสำหรับคุณเพื่อเร่งการนำแอปพลิเคชัน AI ช่วยสร้างมาใช้ ประเมิน เปรียบเทียบ และเลือกรูปแบบพื้นฐานสำหรับกรณีการใช้งานของคุณด้วยการประเมินโมเดล เตรียมแอปพลิเคชัน RAG ของคุณที่สร้างขึ้นบนฐานความรู้ Amazon Bedrock สำหรับการผลิตโดยการประเมินฟังก์ชันการดึงหรือดึงข้อมูลและสร้าง

ประเภทการประเมินผล
ประเมินเวิร์กโฟลว์ RAG แบบครบวงจรของคุณในฐานความรู้ Amazon Bedrock
ใช้การดึงข้อมูลและสร้างการประเมินเพื่อประเมินความสามารถในการสร้างเสริมการดึงข้อมูลแบบครบวงจร (RAG) ของแอปพลิเคชันของคุณ ตรวจสอบให้แน่ใจว่าเนื้อหาที่สร้างขึ้นนั้นถูกต้อง สมบูรณ์ จำกัดผลลัพธ์เพี้ยน และปฏิบัติตามหลักการ AI ที่มีความรับผิดชอบ เพียงเลือกโมเดลการสร้างเนื้อหาและ LLM ที่จะใช้เป็นตัวตัดสินโดยใช้ฐานความรู้ Amazon Bedrock อัปโหลดชุดข้อมูลพร้อมท์ที่กำหนดเอง และเลือกเมตริกที่สำคัญที่สุดสำหรับการประเมินของคุณ

ตรวจสอบให้แน่ใจว่าดึงข้อมูลได้ครบถ้วนและเกี่ยวข้องจากฐานความรู้ของ Amazon Bedrock
ใช้การประเมินการดึงข้อมูลในการประเมินฐานความรู้ Amazon Bedrock เพื่อประเมินการตั้งค่าการจัดเก็บและการดึงข้อมูลของฐานความรู้ Amazon Bedrock ของคุณ ตรวจสอบให้แน่ใจว่าเนื้อหาที่ดึงมามีความเกี่ยวข้องและครอบคลุมคำถามของผู้ใช้ทั้งหมด เพียงเลือกฐานความรู้และ LLM ที่จะใช้เป็นผู้ตัดสิน อัปโหลดชุดข้อมูลพร้อมท์ที่กำหนดเองของคุณ และเลือกตัววัดที่สำคัญที่สุดสำหรับการประเมินของคุณ

ประเมิน FM เพื่อเลือกอันที่ดีที่สุดสำหรับกรณีการใช้งานของคุณ
การประเมินโมเดล Amazon Bedrock ช่วยให้คุณสามารถใช้การประเมินอัตโนมัติและการประเมินโดยมนุษย์เพื่อเลือก FM สำหรับกรณีการใช้งานเฉพาะ การประเมินโมเดลอัตโนมัติ (ทางโปรแกรม) จะใช้ชุดข้อมูลที่ได้รับการคัดสรรและกำหนดเอง และมีมาตรวัดที่กำหนดไว้ล่วงหน้า รวมถึงความแม่นยำ ความทนทาน และความเป็นพิษ สำหรับเมตริกส่วนตัว คุณสามารถใช้ Amazon Bedrock เพื่อตั้งค่าเวิร์กโฟลว์การประเมินโดยมนุษย์ด้วยขั้นตอนที่รวดเร็วเพียงไม่กี่ขั้นตอน ด้วยการประเมินโดยมนุษย์ คุณสามารถนำชุดข้อมูลของคุณเองและกำหนดตัวชี้วัดที่กำหนดเอง เช่น ความเกี่ยวข้อง สไตล์ และการจัดแนวกับลักษณะของแบรนด์ เวิร์กโฟลว์การประเมินโดยมนุษย์สามารถใช้พนักงานของคุณเองในฐานะผู้ตรวจสอบหรือคุณสามารถมีส่วนร่วมกับทีมที่จัดการโดย AWS เพื่อดำเนินการประเมินโดยมนุษย์ โดยที่ AWS จ้างผู้ประเมินที่มีทักษะและจัดการเวิร์กโฟลว์อย่างสมบูรณ์ในนามของคุณ คุณยังสามารถใช้ LLM ในฐานผู้ตัดสินพื่อให้การประเมินคุณภาพสูงบนชุดข้อมูลของคุณด้วยตัววัดต่าง ๆ เช่น ความถูกต้อง ความสมบูรณ์ ความซื่อสัตย์ (ผลลัพธ์เพี้ยน) รวมถึงตัววัด AI ที่มีความรับผิดชอบ เช่น การปฏิเสธคำตอบและความเป็นอันตราย

เปรียบเทียบผลลัพธ์ในงานการประเมินหลายงานเพื่อตัดสินใจได้เร็วขึ้น
ใช้ฟีเจอร์การเปรียบเทียบในการประเมินเพื่อดูผลลัพธ์ของการเปลี่ยนแปลงใด ๆ ที่คุณทำกับพร้อมท์ โมเดลที่กำลังประเมิน หรือฐานความรู้ในระบบ RAG ของคุณ
