เลือกค่ากำหนดคุกกี้ของคุณ

เราใช้คุกกี้ที่จำเป็นและเครื่องมือที่คล้ายคลึงกันซึ่งจำเป็นในการให้บริการเว็บไซต์และบริการต่างๆ ของเรา เราใช้คุกกี้ประสิทธิภาพเพื่อรวบรวมสถิติที่ไม่ระบุชื่อ เพื่อให้เราเข้าใจว่าลูกค้าใช้เว็บไซต์ของเราอย่างไร และทำการปรับปรุง คุณไม่สามารถปิดใช้งานคุกกี้ที่จำเป็นได้ แต่คุณสามารถคลิก “ปรับแต่ง” หรือ “ปฏิเสธ” เพื่อปฏิเสธคุกกี้ประสิทธิภาพ

หากคุณยอมรับ AWS และบุคคลที่สามที่ได้รับการอนุมัติจะใช้คุกกี้เพื่อมอบคุณสมบัติของเว็บไซต์ที่มีประโยชน์ จดจำการตั้งค่าของคุณ และแสดงเนื้อหาที่เกี่ยวข้อง รวมถึงการโฆษณาที่เกี่ยวข้อง หากต้องการยอมรับหรือปฏิเสธคุ้กกี้ที่ไมจำเป็นทั้งหมด คลิก “ยอมรับ” หรือ “ปฏิเสธ” หากต้องการตัดสินใจโดยละเอียด โปรดคลิก “ปรับแต่ง”

การประเมิน Amazon Bedrock

ประเมินโมเดลพื้นฐานรวมถึงโมเดลที่กำหนดเองและนำเข้า เพื่อค้นหาโมเดลที่เหมาะกับความต้องการของคุณ คุณยังสามารถประเมินขั้นตอนการดึงข้อมูลหรือเวิร์กโฟลว์ RAG แบบครบวงจรในฐานความรู้ Amazon Bedrock

ภาพรวม

Amazon Bedrock มีเครื่องมือประเมินสำหรับคุณเพื่อเร่งการนำแอปพลิเคชัน AI ช่วยสร้างมาใช้ ประเมิน เปรียบเทียบ และเลือกรูปแบบพื้นฐานสำหรับกรณีการใช้งานของคุณด้วยการประเมินโมเดล เตรียมแอปพลิเคชัน RAG ของคุณสำหรับการผลิตที่สร้างขึ้นบน Amazon Bedrock Knowledge Bases หรือระบบ RAG แบบกำหนดเองของคุณ โดยประเมินฟังก์ชันดึงข้อมูลหรือดึงข้อมูลและสร้าง

ประเภทการประเมินผล

โมเดล: LLM ในฐานะผู้ตัดสิน

โมเดล: แบบเป็นโปรแกรม

โมเดล: อิงจากมนุษย์

RAG: การดึงข้อมูล

RAG: ดึงข้อมูลและสร้าง

ประเมินเวิร์กโฟลว์ RAG แบบครบวงจร

ใช้การดึงข้อมูลและสร้างการประเมินเพื่อประเมินความสามารถในการสร้างเสริมการดึงข้อมูลแบบครบวงจร (RAG) ของแอปพลิเคชันของคุณ ตรวจสอบให้แน่ใจว่าเนื้อหาที่สร้างขึ้นนั้นถูกต้อง สมบูรณ์ จำกัดผลลัพธ์เพี้ยน และปฏิบัติตามหลักการ AI ที่มีความรับผิดชอบ ไม่ว่าจะประเมินประสิทธิภาพของ Bedrock Knowledge Base หรือนำการตอบสนองการอนุมานของคุณเองจากระบบ RAG ที่กำหนดเองของคุณ เพียงเลือก LLM ที่จะใช้เป็นตัวตัดสินโดยใช้ Amazon Bedrock Knowledge Bases ของคุณหรือสำหรับผลลัพธ์ RAG ที่กำหนดเองของคุณ อัปโหลดชุดข้อมูลของคุณ และเลือกตัววัดที่สำคัญที่สุดสำหรับการประเมินของคุณ

ตรวจสอบให้แน่ใจว่าการดึงข้อมูลที่สมบูรณ์และเกี่ยวข้องจากระบบ RAG ของคุณ

ใช้การประเมินการดึงข้อมูล RAG เพื่อประเมินการจัดเก็บและการตั้งค่าการดึงข้อมูลของ Amazon Bedrock Knowledge Bases หรือระบบ RAG แบบกำหนดเองของคุณ ตรวจสอบให้แน่ใจว่าเนื้อหาที่ดึงมามีความเกี่ยวข้องและครอบคลุมคำถามของผู้ใช้ทั้งหมด เพียงเลือก LLM เพื่อใช้ในฐานะตัวตัดสิน เลือก Bedrock Knowledge Base เพื่อประเมินหรือรวมการดึงระบบ RAG ที่กำหนดเองของคุณในชุดข้อมูลพร้อมท์ของคุณ และเลือกตัววัดของคุณ

ประเมิน FM เพื่อเลือกอันที่ดีที่สุดสำหรับกรณีการใช้งานของคุณ

การประเมินโมเดล Amazon Bedrock ช่วยให้คุณสามารถใช้การประเมินอัตโนมัติและการประเมินโดยมนุษย์เพื่อเลือก FM สำหรับกรณีการใช้งานเฉพาะ การประเมินโมเดลอัตโนมัติ (ทางโปรแกรม) จะใช้ชุดข้อมูลที่ได้รับการคัดสรรและกำหนดเอง และมีมาตรวัดที่กำหนดไว้ล่วงหน้า รวมถึงความแม่นยำ ความทนทาน และความเป็นพิษ สำหรับเมตริกส่วนตัว คุณสามารถใช้ Amazon Bedrock เพื่อตั้งค่าเวิร์กโฟลว์การประเมินโดยมนุษย์ด้วยขั้นตอนที่รวดเร็วเพียงไม่กี่ขั้นตอน ด้วยการประเมินโดยมนุษย์ คุณสามารถนำชุดข้อมูลของคุณเองและกำหนดตัวชี้วัดที่กำหนดเอง เช่น ความเกี่ยวข้อง สไตล์ และการจัดแนวกับลักษณะของแบรนด์ เวิร์กโฟลว์การประเมินโดยมนุษย์สามารถใช้พนักงานของคุณเองในฐานะผู้ตรวจสอบหรือคุณสามารถมีส่วนร่วมกับทีมที่จัดการโดย AWS เพื่อดำเนินการประเมินโดยมนุษย์ โดยที่ AWS จ้างผู้ประเมินที่มีทักษะและจัดการเวิร์กโฟลว์อย่างสมบูรณ์ในนามของคุณ คุณยังสามารถใช้ LLM ในฐานผู้ตัดสินพื่อให้การประเมินคุณภาพสูงบนชุดข้อมูลของคุณด้วยตัววัดต่าง ๆ เช่น ความถูกต้อง ความสมบูรณ์ ความซื่อสัตย์ (ผลลัพธ์เพี้ยน) รวมถึงตัววัด AI ที่มีความรับผิดชอบ เช่น การปฏิเสธคำตอบและความเป็นอันตราย คุณสามารถประเมินโมเดล Bedrock หรือโมเดลใดก็ได้ทุกที่โดยนำการตอบสนองการอนุมานของคุณเองในชุดข้อมูลอินพุตพร้อมท์ของคุณ

เปรียบเทียบผลลัพธ์ในงานการประเมินหลายงานเพื่อตัดสินใจได้เร็วขึ้น

ใช้ฟีเจอร์การเปรียบเทียบในการประเมินเพื่อดูผลลัพธ์ของการเปลี่ยนแปลงใด ๆ ที่คุณทำกับพร้อมท์ โมเดลที่กำลังประเมิน ระบบ RAG ที่กำหนดเองของคุณหรือ Bedrock Knowledge Bases