إمكانية تقييم النماذج متاحة الآن في Amazon Bedrock

أصبحت إمكانية تقييم النماذج في Amazon Bedrock التي قمنا بمعاينتها في AWS Re:Invent 2023 متاحة الآن بشكل عام. تساعدك هذه الإمكانية الجديدة على دمج الذكاء الاصطناعي المولّد في تطبيقاتك من خلال منحك القدرة على تحديد النموذج الأساسي الذي يمنحك أفضل النتائج لحالات الاستخدام الخاصة بك. كما أوضحت زميلتي Antje في مقالتها (تقييم ومقارنة أفضل النماذج الأساسية لحالات الاستخدام الخاصة بك في Amazon Bedrock):

تعتبر تقييمات النماذج أمرًا بالغ الأهمية في جميع مراحل التطوير. بصفتك مطورًا، أصبحت لديك الآن أدوات تقييم متاحة لبناء تطبيقات الذكاء الاصطناعي المولّد. يمكنك البدء بتجربة نماذج مختلفة. في البداية، يمكنك إضافة التقييمات التلقائية للنماذج. بعد ذلك، عند الاستعداد للإطلاق الأولي أو الإصدار المحدود، يمكنك دمج المراجعات البشرية للمساعدة في ضمان الجودة.

لقد تلقينا الكثير من التعليقات الرائعة والمفيدة أثناء المعاينة واستخدمناها لاستكمال ميّزات هذه الإمكانية الجديدة استعدادًا لإطلاقها اليوم – سأتحدث عنها بعد قليل. كملخص سريع، إليك الخطوات الأساسية (راجع مقالة Antje للحصول على شرح كامل):

إنشاء مهمة تقييم النموذج – حدد طريقة التقييم (تلقائيًا أو بشريًا)، وحدد أحد النماذج الأساسية المتاحة، واختر نوع المهمة، واختر مقاييس التقييم. يمكنك اختيار الدقة والمتانة والسمية للتقييم التلقائي، أو أي مقاييس مطلوبة (الود والأسلوب والالتزام بالعلامة التجارية، على سبيل المثال) للتقييم البشري. إذا اخترت تقييمًا بشريًا، يمكنك استخدام فريق العمل الخاص بك أو يمكنك اختيار فريق تديره AWS. هناك أربعة أنواع من المهام المضمنة، بالإضافة إلى نوع مخصص (غير معروض):

بعد تحديد نوع المهمة، تختار المقاييس ومجموعات البيانات التي تريد استخدامها لتقييم أداء النموذج. على سبيل المثال، إذا قمت بتحديد تصنيف النص (Text classification)، يمكنك تقييم الدقة (Accuracy) و/أو المتانة (Robustness) فيما يتعلق بمجموعة البيانات الخاصة بك أو المجموعة المضمنة:

كما ترى أعلاه، يمكنك استخدام مجموعة بيانات مضمنة، أو إعداد مجموعة بيانات جديدة بتنسيق JSON Lines (JSONL). يجب أن يتضمن كل إدخال مطالبة (prompt) ويمكن أن يتضمن فئة (category). الاستجابة المرجعية (refrenceResponse) اختيارية لجميع التقييمات البشرية ولبعض مجموعات أنواع المهام والمقاييس للتقييم التلقائي:

{
  "prompt" : "Bobigny is the capitol of",
  "referenceResponse" : "Seine-Saint-Denis",
  "category" : "Capitols"
}

يمكنك (أو خبراء الموضوع المحليين) إنشاء مجموعة بيانات تستخدم أسئلة دعم العملاء أو أوصاف المنتج أو ضمانات المبيعات الخاصة بمؤسستك وحالات الاستخدام الخاصة بك. تتضمن مجموعات البيانات المضمنة Real Tulicity و BOLD و TREX و WikiText-2 و Gigaword و BooLQ والأسئلة الطبيعية و Trivia QA ومراجعات ملابس التجارة الإلكترونية النسائية. تم تصميم مجموعات البيانات هذه لاختبار أنواع محددة من المهام والمقاييس، ويمكن اختيارها حسب الحاجة.

تشغيل مهمة تقييم النموذج – ابدأ المهمة وانتظر حتى تكتمل. يمكنك مراجعة حالة كل مهمة من مهام تقييم النموذج من وحدة التحكم، ويمكنك أيضًا الوصول إلى الحالة باستخدام وظيفة GetEvaluationJob API الجديدة:

مراجعة تقرير تقييم النموذج – احصل على التقرير وراجع أداء النموذج وفقًا للمقاييس التي حددتها سابقًا. مرة أخرى، راجع مقالة Antje لإلقاء نظرة تفصيلية على نموذج تقرير.

ميّزات جديدة مع التوفر العام

الآن، دعنا نلقي نظرة على الميّزات التي تمت إضافتها استعدادًا لإطلاق اليوم:

إدارة المهام المحسّنة – يمكنك الآن إيقاف مهمة تقييم نموذج قيد التشغيل باستخدام وحدة التحكم أو واجهة برمجة تطبيقات تقييم النماذج (API) الجديدة.

واجهة برمجة تطبيقات تقييم النماذج – يمكنك الآن إنشاء وإدارة وظائف تقييم النماذج برمجيًا. تتوفر الوظائف التالية:

CreateEvaluationJob– إنشاء مهمة تقييم النموذج وتشغيلها باستخدام المعلمات المحددة في طلب API بما في ذلك evaluationConfig و inferenceConfig.
ListEvaluationJobs– عرض قائمة مهام تقييم النموذج، مع إمكانية التصفية والفرز الاختيارية حسب وقت الإنشاء واسم وظيفة التقييم والحالة.
GetEvaluationJob– استرجاع خصائص مهمة تقييم النموذج، بما في ذلك الحالة. بعد اكتمال المهمة، سيتم تخزين نتائج التقييم في S3 URI الذي تم تحديده في outputDataConfig عند إنشاء CreateEvaluationJob.
StopEvaluationJob– إيقاف مهمة تقييم النموذج. بمجرد التوقف، لا يمكن استئناف المهمة، ويجب إنشاؤها من جديد إذا كنت ترغب في إعادة تشغيلها.

كانت واجهة برمجة تطبيقات تقييم النموذج هذه واحدة من أكثر الميّزات المطلوبة أثناء المعاينة. يمكنك استخدامها لإجراء التقييمات على نطاق واسع، ربما كجزء من نظام تطوير أو اختبار لتطبيقاتك.

الأمان المحسّن – يمكنك الآن استخدام مفاتيح KMS التي يديرها العميل لتشفير بيانات مهمة تقييم النموذج (إذا لم تستخدم هذا الخيار، فسيتم تشفير بياناتك باستخدام مفتاح مملوك لـ AWS):

الوصول إلى المزيد من النماذج – بالإضافة إلى النماذج النصّية الحالية من AI21 Labs و Amazon و Anthropic و Cohere و Meta، يمكنك الآن الوصول إلى نماذج Claude 2.1:

بعد تحديد النموذج، يمكنك تعيين تكوين الاستدلال الذي سيتم استخدامه لمهمة تقييم النموذج:

أشياء يجب معرفتها
فيما يلي بعض الأشياء التي يجب معرفتها حول إمكانية Amazon Bedrock الجديدة هذه:

التسعير – أنت تدفع مقابل الاستدلالات التي يتم إجراؤها أثناء تقييم النموذج، دون أي رسوم إضافية مقابل النتائج التي يتم إنشاؤها خوارزميًا. إذا كنت تستخدم التقييم البشري مع فريقك الخاص، فإنك تدفع مقابل الاستدلالات و0.21 دولارًا لكل مهمة مكتملة – عامل بشري يقدم تقييمًا لمطالبة واحدة واستجابات الاستدلال المرتبطة بها في واجهة مستخدم التقييم البشري. يعتمد تسعير التقييمات التي يجريها فريق عمل مُدار من AWS على مجموعة البيانات وأنواع المهام والمقاييس المهمة لتقييمك. لمزيد من المعلومات، راجع صفحة تسعير Amazon Bedrock.

المناطق – إمكانية تقييم النماذج متاحة في منطقتي AWS US East (N.Virginia) وAWS US West (Oregon).

لمعرفة المزيد عن الذكاء الاصطناعي المولّد – قم بزيارة مساحة الذكاء الاصطناعي المولّد الجديدة الخاصة بنا لمعرفة المزيد حول هذا الأمر والإعلانات الأخرى التي نصدرها اليوم!

المدوَّنة العربية

إمكانية تقييم النماذج متاحة الآن في Amazon Bedrock

بتصرّف عن المقالة الاصلية

التعلُّم

الموارد

المطورين

المساعدة