انتقل إلى المحتوى الرئيسي

ماذا يُقصد بنماذج الذكاء الاصطناعي المولّد؟

لدى نماذج الذكاء الاصطناعي المولّد جوانب قوة وجوانب قصور. اعتمادًا على متطلبات التعقيد والأداء والخصوصية والتكلفة لحالة الاستخدام الخاصة بك، قد تكون بعض النماذج خيارًا أفضل من غيرها. يستكشف هذا الدليل العوامل التي يجب مراعاتها وأفضل الممارسات لاختيار نموذج الذكاء الاصطناعي المولّد.

يمكن لنماذج الذكاء الاصطناعي المولّد إنتاج نصوص وصور وملفات صوتية ومقاطع فيديو أصلية وذات مغزى استنادًا إلى المدخلات اللغوية الطبيعية من المستخدمين. تستخدمها المؤسسات في كل شيء، بدءًا من تشغيل روبوتات المحادثة وحتى إنشاء قوالب التصميم وحل المشكلات المعقدة في علم الأحياء. توجد آلاف من نماذج الذكاء الاصطناعي المملوكة ومفتوحة المصدر، ويصدر نماذج جديدة وإصدارات محسّنة يوميًا.

على الرغم من مرونتها وتعدد استخداماتها، فإن نماذج الذكاء الاصطناعي المولّد ليست حلاً شاملاً لكل حالة استخدام. يجب على فرق الذكاء الاصطناعي اختيار وتقييم أفضل نموذج لتحسين التكلفة والأداء بعناية. تقييم النماذج أمر معقد. المعايير القياسية الشائعة مثل Helm ولوحة المتصدرين في Hugging Face تقدم فقط صورة عامة عن أداء نموذج ذكاء اصطناعي معين في مهام اللغة الطبيعية الشائعة. يجب على فرق الذكاء الاصطناعي اعتماد إستراتيجيات مختلفة لتقييم مخرجات النموذج عند إدخال بيانات مخصصة، ثم اختيار الإستراتيجية التي تناسب احتياجاتهم على أفضل نحو.

كيف تُقيَّم نماذج الذكاء الاصطناعي المولّد لحالات الاستخدام المختلفة؟

فيما يلي بعض العوامل التي يجب مراعاتها عند اختيار نموذج الذكاء الاصطناعي المناسب لحالة استخدامك.

النمط

يشير النمط إلى نوع البيانات الذي يعالجه النموذج: التضمينات أو الصور (الرؤية) أو النص. بعض النماذج أحادي الوسائط ويمكنها معالجة نوع بيانات واحد بكفاءة. البعض الآخر متعدد الوسائط ويمكنه دمج أنواع بيانات متعددة لكنه قد يكون أكثر ملاءمة لنوع واحد أكثر من الآخرين. على سبيل المثال، تعد نماذج مثل Claude أو Llama 3.1 أو Titan Text G1 مناسبة للمهام النصية، في حين أن Stable Diffusion XL وTitan Image Generator v2 أكثر ملاءمة لمهام الرؤية. وبالمثل، يُفضل نموذج Titan Multimodic Embeddings G1 لترجمة أي صورة أو نص مُدخل إلى تضمين يحتوي على المعنى الدلالي لكل من الصورة والنص في نفس المساحة الدلالية.

حجم النموذج

حجم النموذج هو عدد المعلمات أو المتغيرات في التكوين الداخلية للنموذج. يمكن أن يختلف من عدة ملايين إلى 100 مليار أو أكثر، حيث تحتوي معظم النماذج على ما بين 10 و100 مليار معلمة. يحدد حجم النموذج بشكل مباشر قدرة النموذج على التعلم من البيانات. تعمل النماذج التي تحتوي على المزيد من المعلمات بشكل أفضل لأنها تستطيع فهم البيانات الجديدة بعمق. ومع ذلك، فإن تخصيصها وتشغيلها أكثر تكلفة.

زمن الاستجابة للاستدلال

يعد وقت استجابة الاستدلال عمومًا مصدر قلق في سيناريوهات الوقت الفعلي حيث قد يتوقع مستخدمو تطبيق الذكاء الاصطناعي استجابات فورية. إنه إجمالي الوقت الذي يستغرقه النموذج لمعالجة الإدخالات وإرجاع المخرجات بناءً على طول الإدخال. قد تتمتع نماذج الذكاء الاصطناعي المولّد ذات البنيات المعقدة بسرعات استدلال أبطأ من النماذج الأصغر. ومع ذلك، يختلف وقت استجابة الاستدلال اعتمادًا على كل من المطالبات المتوقعة وأداء النموذج. قد يؤدي أيضًا إضافة عدد متزايد من الرموز المميزة (مثل الأحرف وعلامات الترقيم وما إلى ذلك) في إدخال المستخدم النهائي إلى زيادة وقت الاستجابة.

نافذة السياق

نافذة السياق الخاصة بنموذج الذكاء الاصطناعي التوليدي هي عدد الرموز التي يمكنه «تذكرها» للسياق في أي وقت. يحتفظ النموذج الذي يحتوي على نافذة سياق أكبر بقدر أكبر من المحادثة السابقة ويوفر إجابات أكثر صلة. وبالتالي، تُفضل نوافذ السياق الأكبر للمهام المعقدة مثل تلخيص المستندات الطويلة أو تشغيل المحادثات متعددة الأدوار.

اعتبارات التسعير

تشمل تكاليف تشغيل النماذج تكاليف الاستخدام للنماذج الخاصة وتكاليف الحوسبة والذاكرة. يمكن أن تختلف النفقات التشغيلية من نموذج إلى آخر بناءً على أعباء العمل. تضمن موازنة التكاليف مقابل الفوائد حصولك على أفضل قيمة لاستثمارك. على سبيل المثال، يؤدي تشغيل Claude 2 أو Command R+ إلى فرض رسوم على أساس الاستخدام نظرًا لأنها نماذج خاصة، في حين أن نشر Llama 2 7B له تكاليف حسابية أقل. ومع ذلك، إذا كانت النماذج الاحتكارية توفر دقة أو كفاءة أفضل بكثير لمهمتك، فقد تكون تكلفتها المضافة مبررة.

جودة الاستجابة

يمكنك تقييم جودة استجابة نموذج الذكاء الاصطناعي باستخدام عدة مقاييس، مثل

  • الدقة - عدد المرات التي تكون فيها استجابات النموذج صحيحة
  • الصلة - مدى ملاءمة الاستجابات للإدخال المحدد. 
  • المتانة - مدى نجاح النموذج في التعامل مع المدخلات المضللة عمدًا المصممة لإرباكه.
  • السمية - النسبة المئوية للمحتوى غير المناسب أو التحيزات في مخرجات النموذج.

تُقاس المقاييس عادةً مقابل خط أساس مُهيّأ مسبقًا. يُعَدّ من أفضل الممارسات تقييم جودة الاستجابة لعددٍ قليل من النماذج المختلفة باستخدام مجموعة بيانات الإدخال نفسها، ثم اختيار النموذج الذي يقدّم أعلى جودة استجابة.

ما هي عملية اختيار نموذج الذكاء الاصطناعي المولّد؟

يتطلب اختيار الذكاء الاصطناعي المولّد أولاً تحديد المتطلبات المحددة لتطبيق الذكاء الاصطناعي. تأكد من فهمك لتوقعات المستخدم ومتطلبات معالجة البيانات واعتبارات النشر وغيرها من التفاصيل الدقيقة المتعلقة بمجال عملك. بعد ذلك، يمكنك التخلص من نماذج الذكاء الاصطناعي المختلفة من خلال إجراء اختبارات الجودة حتى تجد أفضل نموذج يناسب متطلباتك.

الخطوة 1 - إعداد قائمة مختصرة لاختيار النموذج الأولي

ابدأ العملية من خلال وضع قائمة مختصرة لحوالي 20 نموذجًا من بين الآلاف التي تناسب متطلباتك. الاختيار بين النماذج مفتوحة المصدر والنماذج الخاصة يمثل نصف العمل المنجز. بعد تحديد ذلك، يمكنك تضييق القائمة أكثر من خلال تقييم النماذج استنادًا إلى معايير أساسية مثل النمط وحجم النموذج، وإطار السياق، وغيرها، كما ورد في القسم السابق.

نماذج الذكاء الاصطناعي المولّد مفتوحة المصدر مقابل نماذج الذكاء الاصطناعي الخاصة

توفر النماذج مفتوحة المصدر المرونة وتسمح للفرق بضبط النموذج بدقة أو إعادة تدريبه بالكامل على البيانات الخاصة. يمكن أن يكون هذا ذا قيمة خاصة في الصناعات المتخصصة حيث لا تعمل نماذج الأغراض العامة بشكل جيد في حالات الاستخدام المتخصصة. على سبيل المثال، قد تفضل شركة تأمين كبيرة تدريب نموذج مفتوح المصدر على البيانات المخصصة بدلاً من استخدام النماذج الخاصة الموجَّهة لقطاع التمويل والتي لا تلبّي متطلباتها الخاصة بشكلٍ كافٍ.

ومع ذلك، تتطلب النماذج مفتوحة المصدر اعتبارات إضافية. قد تؤدي إلى مخاطر أمنية وقانونية، ما يتطلب من المؤسسات فرض تدابير الامتثال الخاصة بها وفحص شروط الترخيص بدقة. أما النماذج الخاصة، فعادةً ما تُقدّم ميزات أمان مدمجة، وتعويضات قانونية تتعلق ببيانات التدريب والمخرجات، وضمانات للامتثال، ما يقلّل العبء التشغيلي على الشركات التي تُعطي الأولوية لتخفيف المخاطر.

الخطوة 2 - فحص المخرجات وتضييق القائمة بشكل أكبر

في هذه الخطوة، هدفك هو تحديد أفضل 3 نماذج للذكاء الاصطناعي المولّد الأنسب لحالة استخدامك. أولاً، حدد مجموعة فرعية من مطالبات الاختبار التي تطابق حالة الاستخدام الخاصة بك. ثم افحص مخرجات كل نموذج بصريًا بحثًا عن المطالبات المحددة. ابحث عن المخرجات بمزيد من التفاصيل التي تتوافق بشكل أفضل مع مدخلاتك. حدد المراكز الثلاثة الأولى التي تولد المخرجات الأكثر صلة وتفصيلاً ودقة.

يعد Amazon SageMaker Clarify هو الأنسب لهذه المرحلة. قيِّم نماذج التأسيس (FM) تلقائيًا لحالة استخدام الذكاء الاصطناعي المولّد باستخدام مقاييس مثل الدقة والمتانة والسمّية لدعم مبادرة الذكاء الاصطناعي المسؤول.

الخطوة 3 - التقييم المعياري وفقًا لحالة الاستخدام

يمكنك الآن تقييم نماذج الذكاء الاصطناعي المختارة بعناية بمزيد من التفصيل، استنادًا إلى مطالبات ومخرجات محددة مسبقًا لمجموعة بيانات الاختبار لديك. العامل الرئيسي هنا هو وجود مجموعة بيانات اختبار شاملة تغطي جميع جوانب حالة الاستخدام الخاصة بك مع عدة أشكال مختلفة. يجب أن يكون لديك أيضًا مخرج مثالي مقابل لتقييم أي نموذج إحصائيًا من حيث قرب مخرجاته من مخرجك المثالي.

توفر Amazon Bedrock أدوات تقييم لتقييم نموذج الذكاء الاصطناعي ومقارنته وتحديده لحالة الاستخدام الخاصة بك باستخدام تقييم النماذج.

هناك ثلاثة نُهُج تقييم يمكنك اتباعها.

النهج البرمجي

قيّم مخرجات النموذج باستخدام خوارزميات اللغة الطبيعية التقليدية ومقاييس مثل BERT Score وF1 وتقنيات المطابقة التامة الأخرى. تتيح لك Amazon Bedrock تحقيق ذلك باستخدام مجموعات بيانات الأوامر مضمنة، أو يمكنك إحضار مجموعات البيانات الخاصة بك.

النهج القائم على إشراك العنصر البشري

اطلب من المقيمين البشريين — سواء كانوا أعضاء فريقك، أو مجموعة عينة من المستخدمين النهائيين، أو مقيِّمي ذكاء اصطناعي محترفين — تقييم مخرجات النماذج الثلاثة جميعها بناءً على مقاييس نموذج محددة مسبقًا. يمكنهم مقارنة المخرجات يدويًا بالمخرجات المثالية، أو إذا كانت حالة الاستخدام فضفاضة جدًا، فيمكنهم تقييم المخرجات وتمييزها بناءً على أفضل تقدير لديهم.
باستخدام Amazon Bedrock، يمكنك تقييم مخرجات النماذج بمساعدة فريقك، أو ترك مهمة التقييم لإدارة AWS، حيث يتم تحليل الاستجابات لمجموعات بيانات من المطالبات المخصّصة باستخدام مقاييس مثل الملاءمة، والأسلوب، ومدى التوافق مع هوية العلامة التجارية، أو باستخدام المقاييس المدمجة.

نموذج آخر للذكاء الاصطناعي كمقيّم

في هذا النهج، يقيم نموذج آخر للذكاء الاصطناعي مخرجات النماذج الثلاثة بطريقة غير متحيزة. يعمل هذا بشكل أفضل في حالات الاستخدام التي تكون فيها المخرجات محددة جيدًا ويمكن قياس مدى تشابهها مع المخرجات المثالية إحصائيًا. يتيح لك Amazon Bedrock تقييم مخرجات النماذج باستخدام نموذج ذكاء اصطناعي آخر في وضع نموذج LLM كمُقيِّم. يمكنك تطبيق مجموعات بيانات المطالبات المخصصة باستخدام مقاييس كالدقة، والشمولية، والسمّية، إضافةً إلى مقاييس الذكاء الاصطناعي المسؤول مثل رفض الإجابة والتأثير الضار.

الخطوة 4 - الاختيار النهائي

استخدم بيانات التقييم إلى جانب تحليل التكلفة والأداء لاختيار النموذج النهائي. باستخدام Amazon Bedrock، يمكنك استخدام ميزة المقارنة في التقييمات للاطلاع على نتائج أي تغييرات أجريتها على مطالباتك والنماذج التي يتم تقييمها. اعرض جميع تحليلاتك في مكان واحد وحدد النموذج الذي يوفر أفضل توازن بين الأداء والتكلفة والمخاطر المرتبطة ويستخدم الموارد بكفاءة.

يتطلب اختيار نموذج الذكاء الاصطناعي المولّد المناسب لحالة الاستخدام الخاصة بك نهجًا منظمًا يوازن بين القدرات التقنية واحتياجات العمل والقيود التشغيلية. يكمن الأمر الأساسي في مواءمة قرارك مع المتطلبات المحددة لنموذج الاستخدام لديك. قم بتقييم النماذج بعناية استنادًا إلى عوامل مثل النمط والحجم اعتبارات معالجة البيانات واعتبارات النشر. في نهاية المطاف، يعزز النموذج الصحيح الكفاءة والابتكار ويوفر أساسًا قابلاً للتطوير للتطورات المستقبلية القائمة على الذكاء الاصطناعي في مؤسستك.