ما هو التجهيز الزائد؟

يعد الإفراط في التجهيز سلوكًا غير مرغوب فيه للتعلم الآلي يحدث عندما يعطي نموذج التعلم الآلي تنبؤات دقيقة لبيانات التدريب ولكن ليس للبيانات الجديدة. عندما يستخدم علماء البيانات نماذج التعلم الآلي لعمل تنبؤات، فإنهم يقومون أولاً بتدريب النموذج على مجموعة بيانات معروفة. بعد ذلك، بناءً على هذه المعلومات، يحاول النموذج التنبؤ بنتائج مجموعات البيانات الجديدة. يمكن أن يعطي نموذج overfit تنبؤات غير دقيقة ولا يمكن أن يعمل بشكل جيد لجميع أنواع البيانات الجديدة.

لماذا تحدث المطابقة الزائدة؟

يُمكنك الحصول على تنبؤات دقيقة فقط إذا كان نموذج تعلم الآلة يُعمَّم على جميع أنواع البيانات داخل مجاله. تحدث المطابقة الزائدة عندما يتعذر على النموذج التعميم ولكنه يتناسب بشكل وثيق مع مجموعة بيانات التدريب. تحدث المطابقة الزائدة نتيجةً لعدة أسباب، مثل:
•    حجم بيانات التدريب صغير جدًا ولا يحتوي على عينات بيانات كافية لتمثيل جميع قيم بيانات الإدخال الممكنة بدقة.
تحتوي بيانات التدريب على كميات كبيرة من المعلومات غير ذات الصلة، تسمى البيانات الصاخبة.
•    يجري تدريب النموذج لفترة طويلة جدًا على مجموعة عينة واحدة من البيانات.
• تعقيد النموذج مرتفع، ولذلك يتعلم الصخب الموجود داخل بيانات التدريب.

أمثلة على المطابقة الزائدة
فلنفترض حالة استخدام يتعين فيها على نموذج تعلم الآلة تحليل الصور وتحديد الصور التي يوجد بها كلاب. إذا تم تدريب نموذج تعلم الآلة على مجموعة بيانات يحتوي أغلبها على صور تظهر فيها كلاب في حدائق، فقد يتعلم النموذج "استخدام العشب" كميزة للتصنيف وقد لا يتعرف على كلب موجود داخل الغرفة.
مثال آخر على المطابقة الزائدة هو خوارزمية تعلم آلة تتوقع الأداء الأكاديمي ونتائج التخرج للطالب الجامعي من خلال تحليل عدة عوامل مثل دخل الأسرة والأداء الأكاديمي السابق والمؤهلات الأكاديمية للآباء. ومع ذلك، فإن بيانات الاختبار تشمل فقط المرشحين من جنس معين أو مجموعة عرقية معينة. في هذه الحالة، تتسبب المطابقة الزائدة في انخفاض دقة تنبؤ الخوارزمية للمرشحين ذوي الجنس أو العرق خارج مجموعة بيانات الاختبار.

كيف تكتشف المطابقة الزائدة؟

أفضل طريقة للكشف عن النماذج الزائدة هي اختبار نماذج تعلم الآلة على المزيد من البيانات مع تمثيل شامل لقيم وأنواع بيانات الإدخال المحتملة. عادةً، يتم استخدام جزء من بيانات التدريب كبيانات اختبار للتحقق من المطابقة الزائدة. معدل الخطأ المرتفع في بيانات الاختبارات يشير إلى المطابقة الزائدة. يرد أدناه أسلوب واحد لاختبار المطابقة الزائدة.
التحقق المتقاطع بطريقة K-fold
التحقق المتقاطع هو أحد طرق الاختبار المستخدمة عمليًا. في هذه الطريقة، يقسم علماء البيانات مجموعة التدريب إلى عدد K من المجموعات الفرعية متساوية الحجم أو مجموعات عينات تسمى الطيات. تتكون عملية التدريب من سلسلة من التكرارات. أثناء كل تكرار، الخطوات هي:
1.    الاحتفاظ بمجموعة فرعية واحدة كبيانات التحقق وتدريب نموذج تعلم الآلة على مجموعات K-1 الفرعية المتبقية.
2.    مراقبة كيفية أداء النموذج على عينة التحقق.
3.    تسجيل أداء النموذج بناءً على جودة بيانات الإخراج.


تتكرر التكرارات إلى أن يتم اختبار النموذج في كل مجموعة عينات. يمكنك بعد ذلك حساب متوسط الدرجات عبر جميع التكرارات للحصول على التقييم النهائي للنموذج التنبؤي.

كيف يمكنك منع المطابقة الزائدة؟

يمكنك منع المطابقة الزائدة عن طريق تنويع وتوسعة مجموعة بيانات التدريب الخاصة بك أو استخدام إستراتيجيات علوم بيانات أخرى، مثل تلك الواردة أدناه.
التوقف المبكر
يؤدي التوقف المبكر إلى إيقاف مرحلة التدريب مؤقتًا قبل أن يتلّم نموذج تعلم الآلة على الصخب الموجود في البيانات. ومع ذلك، فإن الحصول على التوقيت المناسب أمر مهم؛ وإلا فإن النموذج سيظل يعطي نتائج دقيقة.
التنقيح
يمكنك تحديد العديد من الميزات أو المعلمات التي تؤثر على التنبؤ النهائي عند إنشاء نموذج. يحدد اختيار الميزة - أو التنقيح - أهم الميزات داخل مجموعة التدريب ويزيل الميزات التي بلا صلة. على سبيل المثال، للتنبؤ بما إذا كانت الصورة حيوانًا أو إنسانًا، يمكنك إلقاء نظرة على معلمات الإدخال المختلفة مثل شكل الوجه وموضع الأذن وبنية الجسم إلخ. يمكنك إعطاء الأولوية لشكل الوجه وتجاهل شكل العينين.
التنظيم
التنظيم عبارة عن مجموعة من تقنيات التدريب/التحسين التي تهدف إلى تقليل المطابقة الزائدة. تحاول هذه الطرق القضاء على تلك العوامل التي لا تؤثر على نتائج التنبؤ من خلال تصنيف الميزات بناءً على الأهمية. على سبيل المثال، تطبق الحسابات الرياضية قيمة جزائية على السمات ذات التأثير الأدنى. لنفترض وجود نموذج إحصائي يحاول التنبؤ بأسعار المساكن في المدينة خلال 20 عامًا. يعطي التنظيم قيمةً جزائيةً أقل لسمات مثل النمو السكاني ومتوسط الدخل السنوي ولكن يعطي قيمةً جزائيةً أعلى لمتوسط درجة الحرارة السنوية للمدينة.
التجميع
عملية التجميع تقوم بجمع التنبؤات من عدة خوارزميات تعلم آلة منفصلة. تسمى بعض النماذج بالمتعلمين الضعفاء لأن نتائجها غالبًا ما تكون غير دقيقة. أساليب التجميع تقوم بالجمع بين كل المتعلمين الضعفاء للحصول على نتائج أكثر دقة. تستخدم نماذج متعددة لتحليل بيانات العينة واختيار النتائج الأكثر دقة. الأسلوبان الرئيسان للتجميع هما التعبئة والتعزيز. يقوم التعزيز بتدريب نماذج تعلم آلة مختلفة واحدًا تلو الآخر للحصول على النتيجة النهائية، بينما تقوم التعبئة بالتدريب بطريقة متوازية.
زيادة البيانات
زيادة البيانات هي تقنية تعلم آلة تقوم بتغيير بيانات العينة قليلاً في كل مرة يقوم فيها النموذج بمعالجتها. يُمكنك القيام بذلك عن طريق تغيير بيانات الإدخال بطرق بسيطة. عند القيام بذلك بطريقة معتدلة، فإن زيادة البيانات تجعل مجموعات التدريب تبدو فريدةً للنموذج وتمنع النموذج من تعلم خصائصها. على سبيل المثال، تطبيق عمليات التحويل مثل الترجمة والتنقل والتدوير على صور الإدخال.

 

ما المقصود بالمطابقة الناقصة؟

المطابقة الناقصة هو نوع آخر من الأخطاء التي تحدث عندما يتعذر على النموذج تحديد علاقة ذات معنى بين بيانات الإدخال وبيانات الإخراج. يمكنك الحصول على نماذج ذات مطابقة ناقصة إذا لم يتم تدريبها لفترة زمنية مناسبة على عدد كبير من نقاط البيانات.
المطابقة الناقصة مقابل المطابقة الزائدة
تتضمن نماذج المطابقة الناقصة تحيزًا كبيرًا؛ فهي تعطي نتائج غير دقيقة لكل من بيانات التدريب ومجموعة الاختبار. ومن ناحية أخرى، تتضمن نماذج المطابقة الزائدة تباينًا كبيرًا؛ فهي تعطي نتائج دقيقةً لمجموعة التدريب ولكن ليس لمجموعة الاختبار. المزيد من تدريب النموذج ينتج عنه تحيز أقل ولكن يمكن أن يزيد من التباين. يهدف علماء البيانات إلى إيجاد المكان المنشود بين المطابقة الناقصة والمطابقة الزائدة عند استخدام نموذج. يمكن للنموذج ذي المطابقة الجيدة أن يحدد بسرعة الاتجاه السائد لمجموعات البيانات المرئية وغير المرئية.

كيف تقلل AWS من أخطاء المطابقة الزائدة في نماذج تعلم الآلة؟

يُمكنك استخدام Amazon SageMaker في بناء نماذج تعلم الآلة وتدريبها ونشرها لأي حالة استخدام مع البنية الأساسية المُدارة بالكامل والأدوات وتدفقات سير العمل. يحتوي Amazon SageMaker على ميزة مضمنة تُسمى Amazon SageMaker Debugger والتي تحلل تلقائيًا البيانات التي تم إنشاؤها أثناء التدريب مثل المدخلات والمخرجات وعمليات التحويل. ونتيجةً لذلك، يُمكنه الكشف عن المطابقة الزائدة وغير ذلك من حالات عدم الدقة والإبلاغ عنها بدون تدخل يدوي.

على سبيل المثال، يمكنك:

  • إيقاف عملية التدريب تلقائيًا عند تحقيق الدقة المطلوبة.
  • تسجيل مقاييس التدريب في الوقت الفعلي.
  • تلقي تنبيهات عند اكتشاف المطابقة الزائدة.

تقليل وقت وتكلفة تدريب نماذج التعلم الآلي. ابدأ استخدام تعلم الآلة على AWS من خلال إنشاء حساب مجاني اليوم!

الخطوات التالية للتجهيز الزائد من AWS

التحقق من الموارد الإضافية المتعلقة بالمنتج
خدمات تعلّم الآلة المجانية على AWS 
تسجيل الاشتراك للحصول على حساب مجاني

تمتع بالوصول الفوري إلى الطبقة المجانية من AWS. 

تسجيل الاشتراك 
بدء إنشاء وحدة تحكم

البدء في بناء وحدة التحكم في إدارة AWS.

تسجيل الدخول