تدعم Amazon Bedrock RAG وتقييمات النماذج الآن المقاييس المخصصة
تسمح لك تقييمات Amazon Bedrock بتقييم نماذج التأسيس وأنظمة التوليد المعزز بالاسترداد (RAG)، سواء تمت استضافتها على Amazon Bedrock أو عمليات النشر متعددة السُحب والمحلية. تقدم تقييمات Bedrock التقييمات القائمة على الإنسان والتقييمات البرمجية مثل BERTScore وF1 ومقاييس المطابقة التامة الأخرى، بالإضافة إلى نموذج LLM كمُقيِّم لكلٍ من تقييم النموذج وتقييم RAG. بالنسبة لتقييم كلٍ من النموذج وتقييم RAG باستخدام نموذج LLM كمُقيِّم، يمكن للعملاء الاختيار من قائمة واسعة من المقاييس المضمنة مثل الصحة والاكتمال والإخلاص (اكتشاف الهلوسة)، بالإضافة إلى مقاييس الذكاء الاصطناعي المسؤول مثل رفض الإجابة والضرر والنمطية. ولكن هناك أوقات يريدون فيها تحديد هذه المقاييس بشكل مختلف، أو إنشاء مقاييس جديدة ذات صلة باحتياجاتهم. على سبيل المثال، يستطيع العملاء تحديد مقياس يقيّم مدى التزام استجابة التطبيق بصوت علامتهم التجارية المحدد، أو قد يرغبون في تصنيف الردود وفقًا لنموذج تصنيف فئوي مخصص.
تقدم الآن تقييمات Amazon Bedrock للعملاء القدرة على إنشاء مقاييس مخصصة وإعادة استخدامها لكلٍ من تقييم النموذج وتقييم RAG بدعم من نموذج LLM كمُقيِّم. يستطيع العملاء كتابة أوامر المُقيّم الخاصة بهم، وتحديد مقاييس التصنيف الفئوية أو العددية الخاصة بهم، واستخدام المتغيرات المضمنة لحقن البيانات من مجموعة البيانات الخاصة بهم أو استجابات GenAI في أمر المُقيّم أثناء وقت التشغيل لتخصيص تدفق البيانات بالكامل في تقييماتهم. يمكن أن يحصل العملاء على الإلهام لإنشاء قوالب/نماذج جديدة لأوامر المُقيّم باستخدام قوالب البدء السريع المتوفرة أو يمكنهم إنشاء القوالب الخاصة بهم من الصفر.
للبدء، تفضل بزيارة وحدة تحكم Amazon Bedrock أو استخدم واجهات برمجة تطبيقات Bedrock. لمزيد من المعلومات، اطلع على دليل المستخدم.