الانحدار اللوجستي في R: اشتقاق المعادلة [بمثال]
نشرت: 2020-07-28في هذه المقالة ، سنناقش أحد المفاهيم الأكثر شيوعًا وتحديًا في التعلم الآلي ، وهو الانحدار اللوجستي. ستجد ما هو الانحدار اللوجستي واشتقاق معادلة الانحدار اللوجستي في هذه المقالة التفصيلية.
لقد شاركنا أيضًا مثالًا على الانحدار اللوجستي في R لفهم المفهوم بسهولة كبيرة. ومع ذلك ، تأكد من أنك تعرف كل الأفكار جيدًا بشكل معقول قبل العمل على المثال. سيكون من المفيد إذا كنت معتادًا على الانحدار الخطي لأن كلا المفهومين مترابطان.
جدول المحتويات
ما هو الانحدار اللوجستي؟
يتنبأ الانحدار اللوجستي بنتيجة ثنائية وفقًا لمجموعة من المتغيرات المستقلة. إنها خوارزمية تصنيف تتنبأ باحتمالية حدوث حدث باستخدام وظيفة تسجيل البيانات وتركيب البيانات لها. يختلف الانحدار اللوجستي عن الانحدار الخطي لأنه يمكن أن يتنبأ باحتمالية نتيجة يمكن أن يكون لها قيمتان فقط. لا يعد استخدام الانحدار الخطي مناسبًا عندما يكون لديك متغير ثنائي للأسباب التالية:
- قد يتنبأ الانحدار الخطي بقيم خارج النطاق المطلوب
- قد لا يوزع الانحدار المنافعين عبر خط واحد متوقع
لا ينتج الانحدار اللوجستي خطًا كما يفعل الانحدار الخطي. يوفر منحنى لوجستيًا يتراوح بين 0 وقيمة أكثر من 1.
تعلم دورات علوم البيانات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.
تحقق من: R Project Ideas
اشتقاق معادلة الانحدار اللوجستي
يمكننا اشتقاق معادلة الانحدار اللوجستي من معادلة الانحدار الخطي. يندرج الانحدار اللوجستي ضمن فئة خوارزميات glm (النموذج الخطي المعمم). قدم Nelder و Wedderburn هذا النموذج في عام 1972 كطريقة لاستخدام الانحدار الخطي لحل المشكلات التي لم يكن بإمكانه حلها من قبل. لقد اقترحوا فئة من النماذج المنفصلة وأضافوا الانحدار اللوجستي كنموذج خاص.
نعلم أن معادلة النموذج الخطي المعمم هي كالتالي:
ز (ه <ص) = أ + ب س 1
g () تعني وظيفة الارتباط ، E (y) تعني توقع المتغير المستهدف ، و RHS (الجانب الأيمن) هو المتنبئ الخطي. وظيفة الارتباط "تربط" توقع y مع المتنبئ الخطي.
لنفترض أن لدينا بيانات 100 عميل ، ونحن بحاجة إلى توقع ما إذا كان العميل سيشتري منتجًا معينًا أم لا. نظرًا لأن لدينا متغير نتيجة قاطع ، يجب علينا استخدام الانحدار اللوجستي.
سنبدأ بمعادلة الانحدار الخطي:
ز (ص) = س + (الدخل) - (1)
هنا ، احتفظنا بالمتغير المستقل كـ "دخل" لسهولة الفهم.
ينصب تركيزنا على احتمال المتغير التابع الناتج (هل يشتري العميل أم لا؟). كما ناقشنا بالفعل ، g () هي وظيفة الارتباط الخاصة بنا ، وهي تستند إلى احتمالية النجاح (p) واحتمال الفشل (1-p). يجب أن يكون لدى p الصفات التالية:
- يجب أن تكون p دائمًا موجبة
- يجب أن تكون p دائمًا أقل من أو تساوي 1
الآن ، سنشير إلى g () بـ "p" ونشتق معادلة الانحدار اللوجستي.
نظرًا لأن الاحتمال دائمًا موجب ، فسنغطي المعادلة الخطية في صورتها الأسية ونحصل على النتيجة التالية:
ع = exp (0+ (الدخل)) = هـ ((0+ (الدخل)) - (2)
سيتعين علينا قسمة p على رقم أكبر من p لجعل الاحتمال أقل من 1:
p = exp (0+ (الدخل)) / (0+ (الدخل)) + 1 = e (0+ (الدخل)) / (0+ (الدخل)) + 1 - (3)
باستخدام مكافئ. (1) و (2) و (3) ، يمكننا تعريف p على النحو التالي:
ع = ey / 1 + ey - (4)
هنا ، p هو احتمال النجاح ، لذا يجب أن يكون 1-p هو احتمال الفشل:
ف = 1 - ف = 1 - (ey / 1 + ey) - (5)
دعنا الآن نقسم (4) على (5):
ع / 1 - ع = ey
إذا أخذنا قطع الأشجار من كلا الجانبين ، نحصل على ما يلي:
تسجيل الدخول (ع / 1 - ع) = ص
هذه هي وظيفة الارتباط. عندما نعوض بقيمة y التي حددناها سابقًا ، نحصل على:
تسجيل الدخول (ع / 1 - ع) = س + (الدخل)
وهناك لدينا ، معادلة الانحدار اللوجستي. نظرًا لأنه يوفر احتمال نتيجة ، تظل قيمتها دائمًا بين 0 وأعلى 1.
اقرأ عن: 9 أفكار ومواضيع مثيرة للاهتمام لمشروع الانحدار الخطي للمبتدئين
مثال على الانحدار اللوجستي في R.
في حالتنا الخاصة بالانحدار اللوجستي في R ، نستخدم بيانات من UCLA (جامعة كاليفورنيا ، لوس أنجلوس). هنا ، يتعين علينا إنشاء نموذج يتنبأ بفرص الحصول على الاعتراف وفقًا للبيانات المتوفرة لدينا. لدينا أربعة متغيرات ، بما في ذلك المعدل التراكمي ودرجة GRE ورتبة الكلية الجامعية للطالب والاعتراف.
df <- read.csv (“https://stats.idre.ucla.edu/stat/data/binary.csv”)
شارع (مدافع)
## "data.frame": 400 سابق. من 4 متغيرات:
## $ admit: int 0 1 1 1 0 1 1 0 1 0…
## $ gre: int 380660800640520760560400540700…
## $ المعدل التراكمي: العدد 3.61 3.67 4 3.19 2.93 3 2.98 3.08 3.39 3.92 ...
## الترتيب: دولي 3 3 1 4 4 2 1 2 3 2 ...
المتغيرات إما عدد أو عدد صحيح:
المجموع (is.na (df))
## [1] 0
نجد أيضًا أنه لا توجد قيم فارغة ، وهناك أحداث للرفض أكثر من القبول لأن متوسط حد المتغير أصغر من 0.5.
يجب عليك التأكد من أن النظام يوزع الاعترافات بشكل مناسب في كل فئة من فئات الرتب. لنفترض أن رتبة واحدة تحتوي على 5 مرفوضات فقط (أو تقبل المعلومات) ، فلن تضطر بالضرورة إلى استخدام هذا التصنيف في تحليلك.

xtabs (~ قبول + الترتيب ، البيانات = df)
## مرتبة
## قبول 1 2 3 4
## 0 28 97 93 55
## 1 33 54 28 12
لنقم بتشغيل وظيفتنا الآن:
رتبة df $ <- as.factor (رتبة df $)
تسجيل الدخول <- glm (اعترف ~ gre + gpa + رتبة ، بيانات = df ، عائلة = "ذي الحدين")
ملخص (لوجيت)
##
## يتصل:
## glm (الصيغة = قبول ~ gre + gpa + رتبة ، الأسرة = "ذات الحدين" ،
## البيانات = df)
##
## الإنحراف المتبقي:
## الحد الأدنى 1Q الوسيط 3Q كحد أقصى
## -1.6268 -0.8662 -0.6388 1.1490 2.0790
##
## المعاملات:
## تقدير الأمراض المنقولة جنسياً. خطأ z قيمة Pr (> | z |)
## (اعتراض) -3.989979 1.139951 -3.500 0.000465 ***
## gre 0.002264 0.001094 2.070 0.038465 *
## gpa 0.804038 0.331819 2.423 0.015388 *
## الترتيب 2 -0.675443 0.316490 -2.134 0.032829 *
## الترتيب 3 -1.340204 0.345306 -3.881 0.000104 ***
## المرتبة 4 -1.551464 0.417832 -3.713 0.000205 ***
## -
## Signif. الرموز: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 "1
##
## (تم اعتبار معامل التشتت للأسرة ذات الحدين 1)
##
## الانحراف الفارغ: 499.98 على 399 درجة من الحرية
## الانحراف المتبقي: 458.52 على 394 درجة من الحرية
## AIC: 470.52.8
##
## عدد مرات تكرار درجات فيشر: 4
لا بد أنك لاحظت أننا قمنا بتحويل متغير الرتبة إلى عامل من عدد صحيح قبل تشغيل الوظيفة. تأكد من أنك تفعل الشيء نفسه.
النتيجة النهائية:
لنفترض أن المعدل التراكمي للطالب هو 3.8 ، ودرجة GRE تبلغ 790 ، ودرس في كلية من المرتبة الأولى. دعنا نجد فرصه في الحصول على قبول في المستقبل باستخدام نموذجنا:
x <- data.frame (gre = 790، gpa = 3.8، الترتيب = عامل مثل (1))
p <- توقع (logit، x)
ص
## 1
## 0.85426
يتوقع نموذجنا أن الصبي لديه فرصة 85٪ للحصول على الاعتراف في المستقبل.
اقرأ أيضًا: أفكار مشروع التعلم الآلي
افكار اخيرة
هذا كل شيء لهذه المقالة. نحن على ثقة من أنك قد وجدت ذلك مفيدًا للغاية. إذا كان لديك أي أسئلة أو أفكار حول الانحدار اللوجستي والمواضيع ذات الصلة ، فيرجى مشاركتها في قسم التعليقات أدناه.
إذا كنت مهتمًا بالتعرف على R ، وكل شيء عن علم البيانات ، فراجع برنامج IIIT-B & upGrad's Executive PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، وجهاً لوجه مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.
كيف يختلف الانحدار اللوجستي والانحدار الخطي عن بعضهما البعض؟
الهدف من الانحدار الخطي هو تحديد أفضل خط مناسب ، لكن الانحدار اللوجستي يذهب خطوة واحدة إلى الأمام ويلائم قيم الخط مع المنحنى السيني. يتمثل الاختلاف الرئيسي بين هاتين الطريقتين في أن الانحدار اللوجستي يتم تطبيقه عندما يكون المتغير التابع ثنائيًا. عندما يكون المتغير التابع مستمرًا ويكون خط الانحدار خطيًا ، يتم استخدام الانحدار الخطي. بينما يتم استخدام تقنية المربعات الصغرى العادية لتقدير الانحدار الخطي ، يتم استخدام طريقة تقدير الاحتمالية القصوى لتقدير الانحدار اللوجستي. ناتج الانحدار الخطي مستمر ، لكن ناتج الانحدار اللوجستي ليس له سوى عدد محدود من القيم المحتملة المنفصلة.
متى يكون استخدام الانحدار اللوجستي مفيدًا؟
يتم توقع المتغير التابع الفئوي باستخدام الانحدار اللوجستي. عندما يمكن قياس البيانات التي لدينا على مقياس لانهائي ، يمكننا تطبيق الانحدار اللوجستي. لتقدير احتمالية حدوث ما ، يعد تحليل الانحدار اللوجستي مفيدًا. يساعد في تحديد احتمال أي فئتين. يمكن فقط توقع نتائج التصنيف والاحتمال باستخدام الانحدار اللوجستي. يمكن استخدامه لحل مجموعة متنوعة من مشكلات التصنيف مثل اكتشاف البريد العشوائي والتنبؤ بمرض السكري وتشخيص السرطان وما إلى ذلك.
ما هي حدود استخدام الانحدار اللوجستي؟
1. نظرًا لأن الانحدار اللوجستي له سطح قرار خطي ، فلا يمكنه معالجة المشكلات غير الخطية.
2. خوارزمية الانحدار اللوجستي حساسة للقيم المتطرفة.
3. نظرًا لأن كلا من القياس والتطبيع هما معياران أساسيان للانحدار اللوجستي ، فقد يستغرق إعداد البيانات وقتًا طويلاً.
4. في حالة وجود ميزة تفصل تمامًا بين فئتين ، لا يمكن تدريب النموذج بعد الآن. هذا يسمى "الانفصال الكامل".
5. إذا كان عدد الملاحظات أقل من عدد الميزات ، فلا ينبغي تطبيق الانحدار اللوجستي لأنه قد يؤدي إلى التخصيص الزائد.
6. عيب آخر هو أن كل نقطة بيانات في الانحدار اللوجستي يجب أن تكون مستقلة عن جميع نقاط البيانات الأخرى. عندما ترتبط الملاحظات ، يميل النموذج إلى المبالغة في تقدير أهمية تلك الملاحظات.