การประเมิน Amazon Bedrock

ประเมินโมเดลพื้นฐานรวมถึงโมเดลที่กำหนดเองและนำเข้า เพื่อค้นหาโมเดลที่เหมาะกับความต้องการของคุณ คุณยังสามารถประเมินขั้นตอนการดึงข้อมูลหรือเวิร์กโฟลว์ RAG แบบครบวงจรในฐานความรู้ Amazon Bedrock

ภาพรวม

Amazon Bedrock มีเครื่องมือประเมินสำหรับคุณเพื่อเร่งการนำแอปพลิเคชัน AI ช่วยสร้างมาใช้ ประเมิน เปรียบเทียบ และเลือกรูปแบบพื้นฐานสำหรับกรณีการใช้งานของคุณด้วยการประเมินโมเดล เตรียมแอปพลิเคชัน RAG ของคุณที่สร้างขึ้นบนฐานความรู้ Amazon Bedrock สำหรับการผลิตโดยการประเมินฟังก์ชันการดึงหรือดึงข้อมูลและสร้าง

ภาพหน้าจอ UI

ประเภทการประเมินผล

ใช้ LLM ในฐานะผู้ตัดสินเพื่อประเมินผลลัพธ์ของโมเดลโดยใช้ชุดข้อมูลพร้อมท์ที่กำหนดเองของคุณที่มีตัววัดต่าง ๆ เช่น ความถูกต้อง ความสมบูรณ์ และความเป็นอันตราย

ประเมินผลลัพธ์ของโมเดลโดยใช้อัลกอริทึมและตัววัดภาษาธรรมชาติแบบดั้งเดิม เช่น คะแนน BERT, F1 และเทคนิคการจับคู่ที่แน่นอนอื่น ๆ โดยใช้ชุดข้อมูลพร้อมท์ในตัวหรือใช้ชุดของตัวเอง

ประเมินผลลัพธ์ของโมเดลกับพนักงานของคุณเองหรือให้ AWS จัดการการประเมินของคุณเกี่ยวกับการตอบสนองต่อชุดข้อมูลพร้อมท์ที่กำหนดเองของคุณด้วยตัววัดในตัวหรือแบบกำหนดเอง

ประเมินคุณภาพการเรียกค้นฐานความรู้ Amazon Bedrock ของคุณด้วยพร้อมท์และตัววัดที่กำหนดเอง เช่น ความเกี่ยวข้องของบริบทและการครอบคลุมบริบท

ประเมินเนื้อหาที่สร้างขึ้นของเวิร์กโฟลว์ RAG แบบครบวงจรด้วยฐานความรู้ของ Amazon Bedrock จากพร้อมท์และตัววัดที่กำหนดเองของคุณ เช่น ความสมบูรณ์ ความถูกต้อง และความครบถ้วน

ประเมินเวิร์กโฟลว์ RAG แบบครบวงจรของคุณในฐานความรู้ Amazon Bedrock

ใช้การดึงข้อมูลและสร้างการประเมินเพื่อประเมินความสามารถในการสร้างเสริมการดึงข้อมูลแบบครบวงจร (RAG) ของแอปพลิเคชันของคุณ ตรวจสอบให้แน่ใจว่าเนื้อหาที่สร้างขึ้นนั้นถูกต้อง สมบูรณ์ จำกัดผลลัพธ์เพี้ยน และปฏิบัติตามหลักการ AI ที่มีความรับผิดชอบ เพียงเลือกโมเดลการสร้างเนื้อหาและ LLM ที่จะใช้เป็นตัวตัดสินโดยใช้ฐานความรู้ Amazon Bedrock อัปโหลดชุดข้อมูลพร้อมท์ที่กำหนดเอง และเลือกเมตริกที่สำคัญที่สุดสำหรับการประเมินของคุณ

ภาพหน้าจอ UI

ตรวจสอบให้แน่ใจว่าดึงข้อมูลได้ครบถ้วนและเกี่ยวข้องจากฐานความรู้ของ Amazon Bedrock

ใช้การประเมินการดึงข้อมูลในการประเมินฐานความรู้ Amazon Bedrock เพื่อประเมินการตั้งค่าการจัดเก็บและการดึงข้อมูลของฐานความรู้ Amazon Bedrock ของคุณ ตรวจสอบให้แน่ใจว่าเนื้อหาที่ดึงมามีความเกี่ยวข้องและครอบคลุมคำถามของผู้ใช้ทั้งหมด เพียงเลือกฐานความรู้และ LLM ที่จะใช้เป็นผู้ตัดสิน อัปโหลดชุดข้อมูลพร้อมท์ที่กำหนดเองของคุณ และเลือกตัววัดที่สำคัญที่สุดสำหรับการประเมินของคุณ

ภาพหน้าจอ UI

ประเมิน FM เพื่อเลือกอันที่ดีที่สุดสำหรับกรณีการใช้งานของคุณ

การประเมินโมเดล Amazon Bedrock ช่วยให้คุณสามารถใช้การประเมินอัตโนมัติและการประเมินโดยมนุษย์เพื่อเลือก FM สำหรับกรณีการใช้งานเฉพาะ การประเมินโมเดลอัตโนมัติ (ทางโปรแกรม) จะใช้ชุดข้อมูลที่ได้รับการคัดสรรและกำหนดเอง และมีมาตรวัดที่กำหนดไว้ล่วงหน้า รวมถึงความแม่นยำ ความทนทาน และความเป็นพิษ สำหรับเมตริกส่วนตัว คุณสามารถใช้ Amazon Bedrock เพื่อตั้งค่าเวิร์กโฟลว์การประเมินโดยมนุษย์ด้วยขั้นตอนที่รวดเร็วเพียงไม่กี่ขั้นตอน ด้วยการประเมินโดยมนุษย์ คุณสามารถนำชุดข้อมูลของคุณเองและกำหนดตัวชี้วัดที่กำหนดเอง เช่น ความเกี่ยวข้อง สไตล์ และการจัดแนวกับลักษณะของแบรนด์ เวิร์กโฟลว์การประเมินโดยมนุษย์สามารถใช้พนักงานของคุณเองในฐานะผู้ตรวจสอบหรือคุณสามารถมีส่วนร่วมกับทีมที่จัดการโดย AWS เพื่อดำเนินการประเมินโดยมนุษย์ โดยที่ AWS จ้างผู้ประเมินที่มีทักษะและจัดการเวิร์กโฟลว์อย่างสมบูรณ์ในนามของคุณ คุณยังสามารถใช้ LLM ในฐานผู้ตัดสินพื่อให้การประเมินคุณภาพสูงบนชุดข้อมูลของคุณด้วยตัววัดต่าง ๆ เช่น ความถูกต้อง ความสมบูรณ์ ความซื่อสัตย์ (ผลลัพธ์เพี้ยน) รวมถึงตัววัด AI ที่มีความรับผิดชอบ เช่น การปฏิเสธคำตอบและความเป็นอันตราย

ภาพหน้าจอ UI

เปรียบเทียบผลลัพธ์ในงานการประเมินหลายงานเพื่อตัดสินใจได้เร็วขึ้น

ใช้ฟีเจอร์การเปรียบเทียบในการประเมินเพื่อดูผลลัพธ์ของการเปลี่ยนแปลงใด ๆ ที่คุณทำกับพร้อมท์ โมเดลที่กำลังประเมิน หรือฐานความรู้ในระบบ RAG ของคุณ

ภาพหน้าจอ UI