انتقل إلى المحتوى الرئيسي

Amazon Bedrock

تقييمات Amazon Bedrock

يمكنك تقييم نماذج التأسيس، بما في ذلك النماذج المخصصة والمستوردة، للعثور على النماذج التي تناسب احتياجاتك. يمكنك أيضًا تقييم عملية الاسترجاع أو سير عمل التوليد المُعزَّز بالاسترداد (RAG) الشامل في قواعد المعرفة في Amazon Bedrock.

نظرة عامة

توفر Amazon Bedrock أدوات تقييم لك لتسريع اعتماد تطبيقات الذكاء الاصطناعي المولّد. قم بتقييم نموذج التأسيس لحالة الاستخدام ومقارنته وتحديده باستخدام ميزة تقييم النماذج (Model Evaluation). قم بإعداد تطبيقات التوليد المُعزز بالاسترداد (RAG) للإنتاج المبنية على قواعد المعرفة في Amazon Bedrock أو أنظمة التوليد المُعزز بالاسترداد (RAG) المخصصة من خلال تقييم وظائف الاسترداد والتوليد.

Missing alt text value

أنواع التقييم

استخدم "نموذج LLM كمُقيِّم" لتقييم مخرجات النموذج باستخدام مجموعات بيانات الأوامر المخصصة مع مقاييس مثل الصحة والاكتمال والضرر.

يمكنك تقييم مخرجات النموذج باستخدام خوارزميات ومقاييس اللغة الطبيعية التقليدية مثل BERT Score وF1 وتقنيات المطابقة الدقيقة الأخرى، باستخدام مجموعات بيانات الأوامر المضمنة أو بإمكانك إحضار مجموعات بيانات الخاصة.

يمكنك تقييم مخرجات النماذج عبر فريقك الداخلي أو تكليف AWS بإدارة التقييمات الخاصة بالاستجابات لمجموعات المطالبات المخصّصة لديك باستخدام مقاييس جاهزة أو مخصّصة.

يمكنك تقييم مدى جودة الاسترجاع في نظام التوليد المُعزَّز بالاسترداد (RAG) المخصّص أو في قواعد المعرفة التابعة لـ Amazon Bedrock بالاعتماد على مطالباتك ومعايير مثل ملاءمة السياق وشموليته.

يمكنك تقييم المحتوى الناتج عن سير عمل التوليد المُعزَّز بالاسترداد (RAG) الكامل لديك، سواء أُنشئ عبر مسار RAG المخصّص أو من خلال قواعد المعرفة في Amazon Bedrock. كما يمكنك استخدام التعليمات والمقاييس مثل الإخلاص (اكتشاف الهلوسة) والصواب والاكتمال.

تقييم سير العمل الشامل الخاص بالتوليد المُعزَّز بالاسترداد (RAG)

بإمكانك استخدام عمليات الاسترداد وإنشاء التقييمات لتقييم قدرة التوليد المعزز للاسترداد (RAG) لتطبيقك. تأكد من أن المحتوى الذي تم إنشاؤه صحيح وكامل ويحد من الهلوسة ويلتزم بمبادئ الذكاء الاصطناعي المسؤول. قم إما بتقييم أداء قاعدة المعرفة في Bedrock أو إحضار استجابات الاستدلال من نظام RAG المخصص. ما عليك سوى اختيار نموذج اللغة الكبير (LLM) لاستخدامه كمُقيِّم مع قواعد المعرفة في Amazon Bedrock أو للمخرجات المخصصة في نظام التوليد المعزز للاسترداد (RAG)، وتحميل مجموعة البيانات، وتحديد المقاييس الأكثر أهمية لتقييمك.
Missing alt text value

تأكد من الاسترجاع الكامل والملائم من نظام التوليد المعزز للاسترداد (RAG)

استخدم تقييمات استرداد RAG لتقييم إعدادات التخزين والاسترجاع لقواعد المعرفة في Amazon Bedrock أو نظام RAG المخصص. تأكد من أن المحتوى المسترد ملائم ويغطي استعلام المستخدم بأكمله. ما عليك سوى اختيار نموذج اللغة الكبير (LLM) لاستخدامه كقاضٍ، واختيار قاعدة المعرفة في Bedrock لتقييم أو تضمين عمليات استرداد نظام RAG المخصصة في مجموعة البيانات الأوامر، وتحديد المقاييس.
Missing alt text value

تقييم نماذج التأسيس (FMs) لتحديد النموذج الأفضل لحالة الاستخدام الخاصة بك

يتيح لك تقييم النموذج على Amazon Bedrock استخدام التقييمات التلقائية والبشرية لتحديد نماذج التأسيس (FMs) لحالة استخدام معينة. يستخدم التقييم التلقائي (البرنامجي) للنموذج مجموعات بيانات منظمة ومخصصة ويوفر مقاييس محددة مسبقًا بما في ذلك الدقة والمتانة والسمية. للحصول على مقاييس خصوصية، يمكنك استخدام Amazon Bedrock لإعداد سير عمل التقييم البشري ببضع خطوات. باستخدام التقييمات البشرية، يمكنك إعداد مجموعات البيانات الخاصة بك وتحديد المقاييس المخصصة، مثل الملاءمة والأسلوب والتوافق مع صوت العلامة التجارية. يمكن لعمليات سير عمل التقييم البشري استخدام موظفيك كمراجعين أو يمكنك إشراك فريق تديره AWS لإجراء التقييم البشري، حيث تقوم AWS بتعيين مقيّمين مهرة وإدارة سير العمل الكامل نيابة عنك. يمكنك أيضًا استخدام "نموذج LLM كمُقيِّم" لتقديم تقييمات عالية الجودة لمجموعة البيانات مع مقاييس مثل الصحة والاكتمال والإخلاص (الهلوسة)، بالإضافة إلى مقاييس الذكاء الاصطناعي المسؤول مثل رفض الإجابة والضرر. يمكنك تقييم نماذج Bedrock أو أي نموذج في أي مكان عن طريق جلب استجابات الاستدلال في مجموعة بيانات أمر الإدخال.
Missing alt text value

قارن النتائج عبر وظائف التقييم المتعددة لاتخاذ القرارات بشكل أسرع

استخدم ميزة المقارنة في التقييمات لرؤية نتائج أي تغييرات أجريتها على المطالبات، أو النماذج التي يتم تقييمها، أو أنظمة RAG المخصصة، أو قواعد المعرفة في Bedrock.
Missing alt text value