ما المقصود بالانحدار الخطي؟
الانحدار الخطي هو أسلوب لتحليل البيانات يتوقع قيمة بيانات غير المعروفة باستخدام قيمة بيانات أخرى ذات صلة ومعروفة. يقوم بعمل نموذج رياضي للمتغير غير المعروف أو التابع والمتغير المعروف أو المستقل كمعادلة خطية. على سبيل المثال، افترض أن لديك بيانات حول نفقاتك ودخلك خلال العام الماضي. تقوم أساليب الانحدار الخطي بتحليل هذه البيانات وتقرر أن نفقاتك تبلغ نصف دخلك. ثم تقوم بحساب نفقات مستقبلية غير معروفة عن طريق تقسيم الدخل المستقبلي المعروف إلى نصفين.
ما سبب أهمية الانحدار الخطي؟
نماذج الانحدار الخطي هي نماذج بسيطة نسبيًا وتوفر صيغةً رياضيةً سهلة التفسير ينشأ عنها تنبؤات. الانحدار الخطي هو أسلوب إحصائي راسخ يُطبق بسهولة على البرمجيات والحوسبة. تستخدمه الشركات في تحويل البيانات الأولية بشكل موثوق ومتوقع إلى ذكاء أعمال ورؤى قابلة للتنفيذ. في كثير من المجالات، يستخدم العلماء ومن بينهم علماء الأحياء والعلوم السلوكية والبيئية والاجتماعية الانحدار الخطي في إجراء تحليل أولي للبيانات والتنبؤ بالاتجاهات المستقبلية. تستخدم العديد من أساليب علم البيانات، مثل تعلم الآلة والذكاء الاصطناعي، الانحدار الخطي لحل المشكلات المعقدة.
ما كيفية عمل الانحدار الخطي؟
أسلوب الانحدار الخطي البسيط يحاول بالأساس عمل رسم بياني خطي بين اثنين من متغيرات البيانات، x وy. وكمتغير مستقل، يتم رسم x على المحور الأفقي. تسمى المتغيرات المستقلة أيضًا المتغيرات التوضيحية أو متغيرات التنبؤ. يتم رسم المتغير التابع، y، على المحور الرأسي. يمكنك أيضًا الرجوع إلى قيم y كمتغيرات استجابة أو متغيرات متوقعة.
خطوات في الانحدار الخطي
في هذه النظرة العامة، تأمل أبسط صيغة لمعادلة الرسم البياني الخطي بين y و x؛ وهي المعادلة y=c*x+m، حيث يكون c وm ثابتين لكل القيم الممكنة لـ x وy. ولذلك، على سبيل المثال، افترض أن مجموعة بيانات الإدخال لـ (x، y) كانت (1،5)، و(2،8)، و(3،11). لتحديد طريقة الانحدار الخطي، يمكنك اتخاذ الخطوات التالية:
- رسم خط مستقيم، وقياس الارتباط بين 1 و5.
- الاستمرار في تغيير اتجاه الخط المستقيم للقيم الجديدة (2،8) و(3،11) حتى تتناسب جميع القيم.
- تحديد معادلة الانحدار الخطي بالمعادلة y=3*x+2.
- استقراء أو توقع أن y هي 14 عندما تكون x
ما الانحدار الخطي في تعلم الآلة؟
في تعلم الآلة، تقوم برامج الكمبيوتر المسماة الخوارزميات بتحليل مجموعات البيانات الكبيرة والعمل بطريقة رجعية من تلك البيانات لحساب معادلة الانحدار الخطي. يقوم علماء البيانات أولاً بتدريب الخوارزمية على مجموعات البيانات المعروفة أو المسماة ثم استخدام الخوارزمية للتنبؤ بالقيم غير المعروفة. بيانات الحياة الواقعية تكون أكثر تعقيدًا من المثال السابق. هذا هو السبب في أن تحليل الانحدار الخطي يجب أن يقوم رياضيًا بتعديل أو تحويل قيم البيانات لتحقيق الفرضيات الأربع التالية.
العلاقة الخطية
يجب أن توجد علاقة خطية بين المتغيرات المستقلة والتابعة. لتحديد هذه العلاقة، يقوم علماء البيانات بإنشاء مخطط انتشاري، مجموعة عشوائية من قيم x و y، لمعرفة ما إذا كانت تقع على طول خط مستقيم. إذا لم يكن الأمر كذلك، فيمكنك تطبيق الدوال غير الخطية مثل الجذر التربيعي أو اللوغاريتم لإنشاء علاقة خطية بين المتغيرين رياضيًا.
الاستقلال المتبقي
يستخدم علماء البيانات القيم المتبقية لقياس دقة التنبؤ. القيمة المتبقية هي الفرق بين البيانات المرصودة والقيمة المتوقعة. يجب ألا يكون للقيم المتبقية نمط يمكن التعرف عليه بينهما. على سبيل المثال، لا تريد أن تزداد القيم المتبقية بشكل أكبر بمرور الوقت. يمكنك استخدام اختبارات رياضية مختلفة، مثل اختبار Durbin-Watson لتحديد الاستقلال المتبقي. يمكنك استخدام بيانات وهمية لاستبدال أي شكل من أشكال البيانات، مثل البيانات الموسمية.
الحياة الطبيعية
تحدد أساليب الرسم البياني مثل مخططات Q-Q ما إذا كانت القيم المتبقية موزعة بشكل طبيعي. يجب أن تقع القيم المتبقية على طول خط قطري في وسط الرسم البياني. إذا لم يتم تسوية القيم المتبقية، يمكنك اختبار البيانات للقيم المتطرفة العشوائية أو القيم غير النموذجية. يمكن أن تؤدي إزالة القيم المتطرفة أو إجراء تحويلات غير خطية إلى حل المشكلة.
تماثل التفاوت
يفترض تماثل التفاوت أن القيم المتبقية لها تباين ثابت أو انحراف معياري عن المتوسط ثابت لكل قيمة x. إذا لم يكن الأمر كذلك، فقد لا تكون نتائج التحليل دقيقة. إذا لم تتحقق هذه الفرضية، فقد تضطر إلى تغيير المتغير التابع. ونظرًا لأن التباين يحدث بشكل طبيعي في مجموعات البيانات الكبيرة، فمن المنطقي تغيير مقياس المتغير التابع. على سبيل المثال، بدلاً من استخدام حجم السكان للتنبؤ بعدد محطات الإطفاء في المدينة، قد يُستخدم حجم السكان للتنبؤ بعدد محطات الإطفاء لكل شخص.
ما أنواع الانحدار الخطي؟
بعض أنواع تحليل الانحدار تكون أكثر ملاءمةً من غيرها من حيث التعامل مع مجموعات البيانات المعقدة. وفيما يلي بعض الأمثلة.
الانحدار الخطي البسيط
يُعرف الانحدار الخطي البسيط من خلال الدالة الخطية التالية:
Y= β0*X + β1 + ε
حيث β0 وβ1 ثابتان غير معروفين يمثلان منحنى الانحدار، بينما ε (epsilon) تمثل مدة الخطأ.
يمكنك استخدام الانحدار الخطي البسيط في نمذجة العلاقة بين اثنين من المتغيرات، مثل:
- هطول الأمطار وناتج المحاصيل
- العمر والطول عند الأطفال
- درجة الحرارة وزيادة حجم الزئبق المعدني في ميزان الحرارة
الانحدار الخطي المتعدد
في تحليل الانحدار الخطي المتعدد، تحتوي مجموعة البيانات على متغير تابع وعدة متغيرات مستقلة. تتغير دالة خط الانحدار الخطي لتشمل المزيد من العوامل على النحو التالي:
Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε
مع زيادة عدد متغيرات التنبؤ، تزداد ثوابت β أيضًا في المقابل.
يقوم الانحدار الخطي المتعدد بإعداد نماذج تتضمن عدة متغيرات وتأثيرها على النتيجة كما يلي:
- هطول الأمطار، ودرجة الحرارة، واستخدام الأسمدة على عوائد المحاصيل
- النظام الغذائي وممارسة الرياضة على أمراض القلب
- زيادة الأجور والتضخم على معدلات قروض الإسكان
الانحدار اللوجستي
يستخدم علماء البيانات الانحدار اللوجستي لقياس احتمالية وقوع حدث. التوقع هو قيمة بين 0 و1، حيث يشير 0 إلى حدث من غير المحتمل حدوثه، ويشير 1 إلى أقصى احتمال لحدوثه. تستخدم المعادلات اللوجستية الدوال اللوغاريتمية لحساب خط الانحدار.
فيما يلي بعض الأمثلة:
- احتمال الفوز أو الخسارة في مباراة رياضية
- احتمال اجتياز الاختبار أو فشله
- احتمال أن تكون الصورة فاكهة أو حيوان
كيف تساعدك AWS في حل مشكلات الانحدار الخطي؟
Amazon SageMaker هي خدمة مُدارة بالكامل تساعدك في إعداد نماذج تعلم الآلة عالية الجودة (ML) وبناءها وتدريبها ونشرها بسرعة. Amazon SageMaker Autopilot هو حل تعلم آلة تلقائي عام يختص بمشكلات التصنيف والانحدار، مثل الكشف عن الاحتيال، وتحليل الاضطراب، والتسويق المستهدف.
Amazon Redshift، مستودع بيانات سحابي سريع الاستخدام على نطاق واسع، يتكامل بالأساس مع Amazon SageMaker for ML. مع Amazon Redshift ML، يمكنك استخدام جمل SQL بسيطة لإنشاء وتدريب نماذج تعلم الآلة من بياناتك في Amazon Redshift. يمكنك بعد ذلك استخدام هذه النماذج في حل جميع أنواع مشكلات الانحدار الخطي.
ابدأ استخدام Amazon SageMaker JumpStart أو قم بإنشاء حساب AWS اليوم.