العلاقة الخطية المتعددة في تحليل الانحدار: كل ما تحتاج إلى معرفته
نشرت: 2020-12-23جدول المحتويات
مقدمة
يحاول الانحدار تحديد شخصية وقوة العلاقة بين متغير تابع وسلسلة من المتغيرات المستقلة الأخرى. يساعد في تقييم قوة العلاقة بين المتغيرات المختلفة وعمل نموذج للعلاقات المستقبلية بينهما. تشير "العلاقة الخطية المتعددة" في الانحدار إلى المتنبئ الذي يرتبط بالمتنبئات الأخرى ،
ما هي العلاقة الخطية المتعددة؟
عندما تكون الارتباطات بين متغيرين أو أكثر من متغيرات التوقع عالية ، تحدث العلاقة الخطية المتعددة في الانحدار. بكلمات بسيطة ، يمكن استخدام متغير توقع ، يسمى أيضًا المتنبئ متعدد الخطوط ، للتنبؤ بالمتغير الآخر. يؤدي هذا إلى إنشاء معلومات زائدة عن الحاجة ، مما يؤدي إلى تحريف النتائج في نموذج الانحدار.
من الأمثلة على المتنبئين متعدد الخطوط سعر بيع السيارة وعمرها أو وزن الشخص أو ارتفاعه أو الدخل السنوي وسنوات التعليم.
يعد حساب معاملات الارتباط أسهل طريقة لاكتشاف العلاقة الخطية المتعددة لجميع أزواج قيم التوقع. إذا كان r ، فإن معامل الارتباط هذا هو بالضبط +1 أو -1 ، فإنه يسمى تعدد الخط المثالي. إذا كان معامل الارتباط بالضبط أو قريبًا من +1 أو -1 ، فيجب تجاهل أحد المتغيرات من النموذج فقط في حالة ما إذا كان ذلك ممكنًا.
من النادر وجود بيانات تجريبية ، ولكن من الشائع جدًا أن تبرز الخطية المتعددة رأسها القبيح عندما يتعلق الأمر بالدراسات القائمة على الملاحظة. يمكن أن يؤدي إلى تقدير غير موثوق به وغير مستقر للانحدار عند وجود الحالة. بمساعدة تحليل النتيجة ، يمكن التدخل في بعض المشاكل الأخرى مثل:
- عادةً ما تكون إحصائية t صغيرة جدًا ، وستكون فترات الثقة للمعامل واسعة. هذا يعني أنه من الصعب رفض فرضية العدم.
- قد يكون هناك تغيير في الحجم و / أو علامة في معاملات الانحدار الجزئي حيث يتم تمريرها من عينة إلى أخرى.
- يمكن أن تكون الأخطاء المعيارية كبيرة ، وقد يكون تقدير معامل الانحدار الجزئي غير دقيق.
- يصبح من الصعب قياس التأثير على المتغيرات التابعة بواسطة المتغيرات المستقلة بسبب العلاقة الخطية المتعددة.
اقرأ: أنواع نماذج الانحدار في التعلم الآلي

لماذا يعتبر Multicollinearity مشكلة؟
يمكن أن يؤدي التغيير في متغير واحد إلى تغيير في بقية المتغيرات ، والذي يحدث عندما ترتبط المتغيرات المستقلة ارتباطًا وثيقًا. لذلك ، فإن النموذج يؤدي إلى نتيجة متذبذبة بشكل ملحوظ. نظرًا لأن نتائج النموذج ستكون غير مستقرة ومتغيرة للغاية ، حتى عند حدوث تغيير بسيط في البيانات ، فإن هذا سيشكل المشكلات التالية:
- سيكون تقدير المعامل غير مستقر وسيكون من الصعب تفسير النموذج. أي أنه لا يمكنك التنبؤ بمقياس الاختلافات في المخرجات حتى لو كان أحد العوامل الخاصة بك لتوقع التغييرات بمقدار وحدة واحدة.
- سيكون من الصعب تحديد قائمة المتغيرات المهمة للنموذج إذا كانت تعطي نتائج مختلفة في كل مرة.
- يمكن أن يكون سبب التجاوز بسبب الطبيعة غير المستقرة للنموذج. ستلاحظ أن الدقة قد انخفضت بشكل ملحوظ إذا قمت بتطبيق نفس النموذج على عينة أخرى من البيانات مقارنة بالدقة التي حصلت عليها مع مجموعة بيانات التدريب الخاصة بك.
بالنظر إلى الموقف ، قد لا يكون الأمر مزعجًا بالنسبة للطراز الخاص بك إذا حدثت مشاكل علاقة خطية متداخلة معتدلة فقط. ومع ذلك ، يُقترح دائمًا حل المشكلة في حالة وجود مشكلة خطيرة في العلاقة الخطية المتداخلة.
ما هو سبب تعدد الخطوط الخطية؟
هناك نوعان:

- العلاقة الخطية الهيكلية المتعددة في الانحدار: ينتج هذا عادةً عن الباحث أو أنت أثناء إنشاء متغيرات توقع جديدة.
- العلاقة الخطية المتعددة المستندة إلى البيانات في الانحدار: يحدث هذا بشكل عام بسبب التجارب المصممة بشكل سيئ ، أو طرق جمع البيانات التي لا يمكن معالجتها ، أو بيانات المراقبة البحتة. في حالات قليلة ، يمكن أن تكون المتغيرات شديدة الارتباط بسبب جمع البيانات من الدراسات القائمة على الملاحظة بنسبة 100٪ ، ولا يوجد خطأ من جانب الباحث. لهذا السبب ، يُقترح دائمًا إجراء التجارب كلما كان ذلك ممكنًا عن طريق تعيين مستوى متغير المتنبئ مسبقًا.
اقرأ أيضًا: أفكار وموضوعات مشروع الانحدار الخطي

قد تشمل الأسباب الأخرى أيضًا
- نقص البيانات. في حالات قليلة ، يمكن أن يساعد جمع كمية كبيرة من البيانات في حل المشكلة.
- المتغيرات المستخدمة على أنها دمية قد يتم استخدامها بشكل غير صحيح. على سبيل المثال ، قد يفشل الباحث في إضافة متغير وهمي لكل فئة أو استبعاد فئة واحدة.
- النظر في متغير في الانحدار ، وهو مزيج من المتغيرات الأخرى في الانحدار - على سبيل المثال ، النظر في "إجمالي دخل الاستثمار" عندما يكون الدخل من ادخار الفائدة + الدخل من السندات والأسهم.
- بما في ذلك متغيرين متطابقين تقريبًا أو كليًا. على سبيل المثال ، دخل السندات / الادخار ودخل الاستثمار ، والوزن بالكيلوغرام ، والوزن بالجنيه.
للتحقق مما إذا كانت العلاقات الخطية المتعددة قد حدثت أم لا
يمكنك رسم مصفوفة ارتباط جميع المتغيرات المستقلة. بدلاً من ذلك ، يمكنك استخدام VIF ، أي عامل تضخم التباين لكل متغير مستقل. يقيس العلاقة الخطية المتعددة في مجموعة الانحدار المتعدد من المتغيرات. تتناسب قيمة VIF مع الارتباط بين هذا المتغير والباقي. هذا يعني أنه كلما زادت قيمة VIF ، زاد الارتباط.
كيف يمكننا حل مشكلة العلاقة الخطية المتعددة؟
- اختيار المتغير: أسهل طريقة هي إزالة بعض المتغيرات التي ترتبط ارتباطًا وثيقًا ببعضها البعض وترك فقط المتغيرات الأكثر أهمية في المجموعة.
- تحويل المتغير: الطريقة الثانية هي التحويل المتغير ، والذي سيقلل من الارتباط وسيظل قادرًا على الحفاظ على الميزة.
- تحليل المكون الرئيسي: عادةً ما يستخدم تحليل المكون الرئيسي لتقليل بُعد البيانات عن طريق تحليل البيانات إلى عدد من العوامل المستقلة. لديها الكثير من التطبيقات مثل حساب النموذج يمكن تبسيطه عن طريق تقليل عوامل التنبؤ في العدد.
قراءة ذات صلة: الانحدار الخطي في التعلم الآلي
خاتمة
قبل بناء نموذج الانحدار ، يجب عليك دائمًا التحقق من مشكلة العلاقة الخطية المتعددة. للنظر في كل متغير مستقل بسهولة ، يوصى بـ VIF لمعرفة ما إذا كان لديهم ارتباط كبير بالباقي. يمكن أن تساعد مصفوفة الارتباط في اختيار العوامل المهمة عندما لا تكون متأكدًا من المتغيرات التي يجب عليك تحديدها. كما أنه يساعد في فهم سبب ارتفاع قيمة VIF لبعض المتغيرات.
إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.
ما المقصود بمصطلح الانحدار الترتيبي في التعلم الآلي؟
الانحدار الترتيبي هو نوع من تحليل الانحدار ينتمي إلى عائلة تحليل الانحدار. يحلل الانحدار الترتيبي البيانات ويشرح العلاقة بين متغير تابع واحد ومتغيرين مستقلين أو أكثر كدراسة تنبؤية. يُستخدم الانحدار الترتيبي للتنبؤ بالمتغير التابع عندما تكون هناك فئات عديدة "مرتبة" وعوامل مستقلة. بعبارة أخرى ، فإنه يسمح للمتغيرات التابعة ذات المستويات المرتبة المختلفة بالتفاعل مع واحد أو أكثر من المتغيرات المستقلة بسهولة أكبر.
هل يؤثر وجود العلاقات الخطية المتعددة على أشجار القرار؟
إذا كانت هناك سمتان مرتبطتان بشكل كبير في نموذج معين للتعلم الآلي ، فإن شجرة القرار ستختار مع ذلك واحدة منها فقط أثناء التقسيم. إذا كانت البيانات منحرفة أو غير متوازنة ، فإن الشجرة الواحدة تؤدي إلى نهج جشع ، ولكن طرق التعلم المجمعة مثل الغابات العشوائية والأشجار المعززة للتدرج تجعل التنبؤ منيعًا للخطوات المتعددة. نتيجة لذلك ، لا تتأثر الغابات العشوائية وأشجار القرار بالعلاقات الخطية المتعددة.
كيف يختلف الانحدار اللوجستي عن الانحدار الخطي؟
في بعض الجوانب ، يختلف الانحدار الخطي عن الانحدار اللوجستي. ينتج الانحدار المنطقي ملاحظات ونتائج منفصلة ، لكن الانحدار الخطي ينتج مخرجات مستمرة ومستمرة. في الانحدار الخطي ، يتم حساب متوسط الخطأ التربيعي ، ولكن في الانحدار اللوجستي ، يتم حساب الحد الأقصى لتقدير الاحتمالية. أخيرًا ، الهدف من الانحدار الخطي هو تحديد أفضل خط لمطابقة البيانات ، لكن الانحدار اللوجستي يظل متقدمًا من خلال ملاءمة البيانات لمنحنى السيني.