افتراضات الانحدار الخطي: 5 افتراضات مع أمثلة

نشرت: 2020-12-22

يُستخدم الانحدار لقياس علاقات السبب والنتيجة وتحديدها. تحليل الانحدار هو أسلوب إحصائي يستخدم لفهم حجم واتجاه العلاقة السببية المحتملة بين النمط المرصود والمتغيرات المفترضة التي تؤثر على النمط المرصود المحدد.

على سبيل المثال ، إذا كان هناك انخفاض بنسبة 20٪ في سعر أحد المنتجات ، على سبيل المثال ، مرطب ، فمن المرجح أن يشتريه الناس ، ومن المرجح أن تزداد المبيعات.

هنا ، النمط الملحوظ هو زيادة في المبيعات (يسمى أيضًا المتغير التابع). المتغير المفترض أن يؤثر على المبيعات هو السعر (ويسمى أيضًا المتغير المستقل).

جدول المحتويات

ما هو الانحدار الخطي؟

الانحدار الخطي هو تقنية إحصائية تحدد حجم واتجاه التأثير على المتغير التابع الموضح بواسطة المتغيرات المستقلة. يستخدم الانحدار الخطي بشكل شائع في التحليل التنبئي.

يوضح الانحدار الخطي جانبين مهمين من المتغيرات ، وهما كالتالي:

  • هل مجموعة المتغيرات المستقلة تفسر المتغير التابع بشكل كبير؟
  • ما هي المتغيرات الأكثر أهمية في شرح المتغير التابع المتاح؟ بأي طريقة تؤثر على المتغير التابع؟ عادة ما يتم تحديد التأثير من خلال حجم وعلامة معاملات بيتا في المعادلة.

الآن ، دعونا نلقي نظرة على افتراضات الانحدار الخطي ، والتي تعتبر ضرورية لفهمها قبل تشغيل نموذج الانحدار الخطي.

اقرأ المزيد: نموذج التسجيل الخطي وكيف يعمل؟

افتراضات الانحدار الخطي

علاقة خطية

أحد أهم الافتراضات هو أنه يقال إن العلاقة الخطية موجودة بين المتغيرات التابعة والمستقلة. إذا حاولت ملاءمة علاقة خطية في مجموعة بيانات غير خطية ، فلن تلتقط الخوارزمية المقترحة الاتجاه كرسم بياني خطي ، مما يؤدي إلى نموذج غير فعال. وبالتالي ، من شأنه أن يؤدي إلى تنبؤات غير دقيقة.

كيف يمكنك تحديد ما إذا كان الافتراض قد تم الوفاء به؟

الطريقة البسيطة لتحديد ما إذا كان هذا الافتراض قد تم تحقيقه أم لا هي عن طريق إنشاء مخطط مبعثر x مقابل y. إذا كانت نقاط البيانات تقع على خط مستقيم في الرسم البياني ، فهناك علاقة خطية بين المتغيرات التابعة والمستقلة ، ويصمد الافتراض.

ماذا تفعل إذا انتهكت هذا الافتراض؟

إذا لم توجد علاقة خطية بين المتغير التابع والمستقل ، فقم بتطبيق تحويل غير خطي مثل اللوغاريتمي أو الأسي أو الجذر التربيعي أو المقلوب إما إلى المتغير التابع أو المتغير المستقل أو كليهما.

لا يوجد ارتباط تلقائي أو استقلال

القيم المتبقية (شروط الخطأ) مستقلة عن بعضها البعض. بمعنى آخر ، لا يوجد ارتباط بين شروط الخطأ المتتالية لبيانات السلاسل الزمنية. إن وجود الارتباط في مصطلحات الخطأ يقلل بشكل كبير من دقة النموذج. إذا كانت مصطلحات الخطأ مترابطة ، فإن الخطأ المعياري المقدر يحاول تفريغ الخطأ المعياري الحقيقي.

كيفية تحديد ما إذا كان الافتراض قد استوفى؟

قم بإجراء اختبار إحصائي Durbin-Watson (DW). يجب أن تقع القيم بين 0-4. إذا كانت DW = 2 ، فلا يوجد ارتباط تلقائي ؛ إذا كانت DW تقع بين 0 و 2 ، فهذا يعني أن هناك علاقة إيجابية. إذا كانت DW تقع بين 2 و 4 ، فهذا يعني أن هناك علاقة سلبية. طريقة أخرى هي رسم رسم بياني مقابل القيم المتبقية مقابل الوقت ورؤية الأنماط في القيم المتبقية.

ماذا تفعل إذا انتهكت هذا الافتراض؟

إذا تم انتهاك الافتراض ، ففكر في الخيارات التالية:

  • للارتباط الإيجابي ، ضع في اعتبارك إضافة تأخيرات إلى المتغير التابع أو المستقل أو كليهما.
  • للارتباط السلبي ، تحقق لمعرفة ما إذا كان أي من المتغيرات مفرطة في الاختلاف.
  • للارتباط الموسمي ، ضع في اعتبارك إضافة بعض المتغيرات الموسمية إلى النموذج.

لا علاقة خطية متعددة

لا ينبغي ربط المتغيرات المستقلة. في حالة وجود علاقة خطية متعددة بين المتغيرات المستقلة ، فمن الصعب التنبؤ بنتيجة النموذج. من حيث الجوهر ، من الصعب شرح العلاقة بين المتغير التابع والمتغير المستقل. بمعنى آخر ، من غير الواضح أي المتغيرات المستقلة تفسر المتغير التابع.

تميل الأخطاء المعيارية إلى التضخيم مع المتغيرات المرتبطة ، وبالتالي توسيع فترات الثقة مما يؤدي إلى تقديرات غير دقيقة.

كيفية تحديد ما إذا كان الافتراض قد استوفى؟

استخدم مخطط التبعثر لتصور الارتباط بين المتغيرات. طريقة أخرى لتحديد VIF (عامل تضخم التباين). يشير VIF <= 4 إلى عدم وجود علاقة خطية متعددة ، بينما يشير VIF> = 10 إلى علاقة خطية متعددة خطيرة.

ماذا تفعل إذا انتهكت هذا الافتراض؟

قلل الارتباط بين المتغيرات إما عن طريق تحويل أو دمج المتغيرات المرتبطة.

يجب أن تقرأ: أنواع نماذج الانحدار في ML

اللواط

تعني المثلية الجنسية أن القيم المتبقية لها تباين ثابت في كل مستوى من مستويات x. يُعرف غياب هذه الظاهرة باسم عدم التجانس. تنشأ التغايرية عمومًا في وجود القيم المتطرفة والقيم المتطرفة.

كيفية تحديد ما إذا كان الافتراض قد استوفى؟

قم بإنشاء مخطط مبعثر يُظهر القيمة المتبقية مقابل القيمة المجهزة. إذا كانت نقاط البيانات موزعة بالتساوي بدون نمط بارز ، فهذا يعني أن القيم المتبقية لها تباين ثابت (مثلي الجنس). خلاف ذلك ، إذا شوهد نمط على شكل قمع ، فهذا يعني أن البقايا لم يتم توزيعها بالتساوي ويصور تباينًا غير ثابت (مغايرة المرونة).

ماذا تفعل إذا انتهكت هذا الافتراض؟

  • تحويل المتغير التابع
  • أعد تعريف المتغير التابع
  • استخدم الانحدار المرجح

التوزيع الطبيعي لشروط الخطأ

الافتراض الأخير الذي يحتاج إلى التحقق من الانحدار الخطي هو التوزيع الطبيعي لشروط الخطأ. إذا كانت مصطلحات الخطأ لا تتبع التوزيع الطبيعي ، فقد تصبح فترات الثقة واسعة جدًا أو ضيقة.

كيفية تحديد ما إذا كان الافتراض قد استوفى؟

تحقق من الافتراض باستخدام مخطط QQ (Quantile-Quantile). إذا كانت نقاط البيانات على الرسم البياني تشكل خطًا قطريًا مستقيمًا ، يتم استيفاء الافتراض.

يمكنك أيضًا التحقق من الحالة الطبيعية لمصطلحات الخطأ باستخدام الاختبارات الإحصائية مثل اختبار Kolmogorov-Smironov أو Shapiro-Wilk.

ماذا تفعل إذا انتهكت هذا الافتراض؟

  • تحقق مما إذا كانت القيم المتطرفة لها تأثير على التوزيع. تأكد من أنها قيم حقيقية وليست أخطاء في إدخال البيانات.
  • قم بتطبيق التحويل غير الخطي في شكل سجل أو جذر تربيعي أو مقلوب على المتغيرين التابعين أو المستقلين أو كليهما.

خاتمة

الاستفادة من القوة الحقيقية للانحدار من خلال تطبيق التقنيات التي تمت مناقشتها أعلاه لضمان عدم انتهاك الافتراضات. من الممكن بالفعل فهم تأثير المتغيرات المستقلة على المتغير التابع إذا تم استيفاء جميع افتراضات الانحدار الخطي.

يعد مفهوم الانحدار الخطي عنصرًا لا غنى عنه في علوم البيانات وبرامج التعلم الآلي.

إذا كنت مهتمًا بمعرفة المزيد حول نماذج الانحدار والمزيد من التعلم الآلي ، فراجع IIIT-B & upGrad's دبلوم PG في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة والمهام ، وحالة خريجي IIIT-B ، وأكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع كبرى الشركات.

لماذا اللواط مطلوب في الانحدار الخطي؟

تصف المثلية الجنسية مدى تشابه البيانات أو مدى انحرافها عن المتوسط. هذا افتراض مهم يجب القيام به لأن الاختبارات الإحصائية البارامترية حساسة للاختلافات. لا تؤدي التغاير المرونة إلى التحيز في تقديرات المعامل ، ولكنها تقلل من دقتها. مع دقة أقل ، من المرجح أن تكون تقديرات المعامل بعيدة عن القيمة السكانية الصحيحة. لتجنب ذلك ، فإن المثلية هي افتراض حاسم يجب تأكيده.

ما نوعا تعدد الخط في الانحدار الخطي؟

البيانات والخط متعدد الخطي الهيكلي هما النوعان الأساسيان من العلاقة الخطية المتعددة. عندما نصنع مصطلحًا نموذجيًا من مصطلحات أخرى ، نحصل على علاقة خطية هيكلية متعددة. بمعنى آخر ، بدلاً من التواجد في البيانات نفسها ، فهو نتيجة للنموذج الذي نقدمه. في حين أن العلاقات الخطية المتعددة للبيانات ليست من صنع نموذجنا ، فهي موجودة في البيانات نفسها. تعد العلاقة الخطية المتعددة للبيانات أكثر شيوعًا في التحقيقات القائمة على الملاحظة.

ما هي عيوب استخدام اختبار t للاختبارات المستقلة؟

توجد مشكلات في تكرار القياسات بدلاً من الاختلافات عبر تصميمات المجموعة عند استخدام اختبارات t للعينة المزدوجة ، مما يؤدي إلى تأثيرات ترحيل. نظرًا لوجود أخطاء من النوع الأول ، لا يمكن استخدام اختبار t لإجراء مقارنات متعددة. سيكون من الصعب رفض الفرضية الصفرية عند إجراء اختبار t مزدوج على مجموعة من العينات. يعد الحصول على الموضوعات لعينة البيانات جانبًا مستهلكًا للوقت ومكلفًا في عملية البحث.