الانحدار في استخراج البيانات: أنواع مختلفة من تقنيات الانحدار [2022]
نشرت: 2021-01-01التعلم الخاضع للإشراف هو تعلم تقوم فيه بتدريب خوارزمية التعلم الآلي باستخدام البيانات التي تم تصنيفها بالفعل. هذا يعني أن الإجابة الصحيحة معروفة بالفعل لجميع بيانات التدريب. بعد التدريب ، يتم تزويدها بمجموعة جديدة من البيانات غير المعروفة والتي تقوم خوارزمية التعلم الخاضعة للإشراف بتحليلها ، ثم تنتج نتيجة صحيحة بناءً على بيانات التدريب المسمى.
التعلم غير الخاضع للإشراف هو المكان الذي يتم فيه تدريب الخوارزمية باستخدام المعلومات ، والتي لا يُعرف التصنيف الصحيح لها. هنا يجب على الآلة بشكل أساسي تجميع المعلومات معًا وفقًا للأنماط المختلفة ، أو أي ارتباطات دون تدريب على أي بيانات مسبقًا.
الانحدار هو شكل من أشكال تقنية التعلم الآلي الخاضعة للإشراف والتي تحاول التنبؤ بأي سمة ذات قيمة مستمرة. يحلل العلاقة بين متغير الهدف (تابع) ومتغير توقعه (مستقل). يعد الانحدار أداة مهمة لتحليل البيانات يمكن استخدامها لنمذجة السلاسل الزمنية والتنبؤ وغير ذلك.
يتضمن الانحدار عملية تركيب منحنى أو خط مستقيم على نقاط بيانات مختلفة. يتم ذلك بطريقة تجعل المسافات بين المنحنى ونقاط البيانات هي الحد الأدنى.
على الرغم من أن الانحدار الخطي واللوجستي هما النوعان الأكثر شيوعًا ، إلا أن هناك العديد من أنواع الانحدار الأخرى التي يمكن تطبيقها اعتمادًا على أدائها في مجموعة معينة من البيانات. تختلف هذه الأنواع المختلفة بسبب عدد ونوع جميع المتغيرات التابعة وأيضًا على نوع منحنى الانحدار المتكون.
راجع: الفرق بين علم البيانات واستخراج البيانات
جدول المحتويات
الانحدارالخطي
يشكل الانحدار الخطي علاقة بين متغير الهدف (التابع) ومتغير واحد أو أكثر من المتغيرات المستقلة باستخدام خط مستقيم أفضل ملاءمة.
تمثلها المعادلة:
ص = أ + ب * س + ه ،
حيث a هو التقاطع ، b هو ميل خط الانحدار و e هو الخطأ. X و Y هما المتنبئان والمتغيرات المستهدفة على التوالي. عندما يتكون X من أكثر من متغير (أو ميزات) ، يُطلق عليه الانحدار الخطي المتعدد.
يتم الحصول على أفضل خط ملائم باستخدام طريقة المربع الأقل. تقلل هذه الطريقة من مجموع مربعات الانحرافات من كل نقطة من نقاط البيانات إلى خط الانحدار. لا يتم إلغاء المسافات الموجبة والسالبة هنا حيث يتم تربيع جميع الانحرافات.
الانحدار متعدد الحدود
في الانحدار متعدد الحدود ، تكون قوة المتغير المستقل أكثر من 1 في معادلة الانحدار. فيما يلي مثال:
ص = أ + ب * س ^ 2
في هذا الانحدار بالذات ، فإن أفضل خط مناسب ليس خطًا مستقيمًا كما هو الحال في الانحدار الخطي. ومع ذلك ، فهو منحنى مناسب لجميع نقاط البيانات.
يمكن أن يؤدي تطبيق الانحدار متعدد الحدود إلى الإفراط في التوفيق عندما تميل إلى تقليل أخطائك عن طريق جعل المنحنى أكثر تعقيدًا. ومن ثم ، حاول دائمًا ملاءمة المنحنى بتعميمه على المشكلة.
الانحدار اللوجستي
يُستخدم الانحدار اللوجستي عندما يكون المتغير التابع ذا طبيعة ثنائية (صواب أو خطأ ، 0 أو 1 ، نجاح أو فشل). هنا تتراوح القيمة المستهدفة (Y) من 0 إلى 1 ويتم استخدامها بشكل شائع لمشاكل نوع التصنيف. لا يتطلب الانحدار اللوجستي أن يكون للمتغيرات التابعة والمستقلة علاقة خطية ، كما هو الحال في الانحدار الخطي.

قراءة : أفكار مشاريع استخراج البيانات
انحدار ريدج
Ridge Regression هي تقنية تستخدم لتحليل بيانات الانحدار المتعددة التي لديها مشكلة الخطية المتعددة. العلاقة الخطية المتعددة هي وجود علاقة خطية تقريبًا بين أي متغيرين مستقلين.
يحدث عندما تكون تقديرات المربعات الصغرى ذات تحيز منخفض ، ولكن لها تباين كبير ، لذا فهي مختلفة تمامًا عن القيمة الحقيقية. وبالتالي ، بإضافة درجة من التحيز إلى قيمة الانحدار المقدرة ، يتم تقليل الأخطاء المعيارية بشكل كبير عن طريق تنفيذ انحدار التلال.
انحدار لاسو
A S S O المصطلح "LASSO" يرمز إلى L A S S O إنه نوع من الانحدار الخطي يستخدم الانكماش . في هذا ، يتم إسقاط (أو تقليص) جميع نقاط البيانات باتجاه نقطة مركزية ، تسمى أيضًا المتوسط. يعتبر إجراء لاسو أكثر ملاءمة للنماذج البسيطة والمتفرقة التي تحتوي على معلمات أقل نسبيًا. هذا النوع من الانحدار مناسب أيضًا للنماذج التي تعاني من الخطية المتعددة (تمامًا مثل سلسلة التلال).
احصل على شهادة علوم البيانات من أفضل الجامعات في العالم. انضم إلى برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.
خاتمة
يسمح لك تحليل الانحدار بشكل أساسي بمقارنة تأثيرات أنواع مختلفة من متغيرات الميزات المقاسة على نطاق واسع من المقاييس. مثل التنبؤ بأسعار المنازل بناءً على المساحة الإجمالية ، والمنطقة ، والعمر ، والأثاث ، وما إلى ذلك. تفيد هذه النتائج إلى حد كبير الباحثين في السوق أو محللي البيانات للتخلص من أي ميزات غير مجدية وتقييم أفضل مجموعة من الميزات لبناء نماذج تنبؤية دقيقة.
إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع دبلوم PG في IIIT-B & upGrad في علوم البيانات والذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1- على - 1 مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.
ما هو الانحدار الخطي؟
يؤسس الانحدار الخطي العلاقة بين المتغير المستهدف أو المتغير التابع ومتغير واحد أو أكثر من متغير مستقل. عندما يكون لدينا أكثر من متنبئ في معادلتنا ، يصبح الانحدار المتعدد.
تعتبر طريقة التربيع الصغرى هي أفضل طريقة لتحقيق أفضل خط ملائم حيث تعمل هذه الطريقة على تقليل مجموع مربعات الانحرافات من كل نقطة من نقاط البيانات إلى خط الانحدار.
ما هي تقنيات الانحدار ولماذا هناك حاجة إليها؟
هذه هي التقنيات لتقدير أو توقع العلاقات بين المتغيرات. تم العثور على العلاقة بين متغيرين ، أحدهما هو الهدف والآخر هو متغير التوقع (المعروف أيضًا باسم متغيري x و y).
يمكن استخدام تقنيات مختلفة مثل الخطية واللوجستية والمتدرجة ومتعددة الحدود واللاسو والتلال لتحديد هذه العلاقة. يتم ذلك لإنشاء تنبؤات باستخدام مجموعات البيانات ورسم الرسوم البيانية بينها.
كيف تختلف تقنية الانحدار الخطي عن تقنية الانحدار اللوجستي؟
يكمن الاختلاف بين هاتين الطريقتين في نوع المتغير التابع. إذا كان المتغير التابع مستمرًا ، فسيتم استخدام الانحدار الخطي ، بينما إذا كان المتغير التابع فئويًا ، فسيتم استخدام الانحدار اللوجستي.
كما يوحي الاسم أيضًا ، يتم تحديد الخط الخطي أو المستقيم في التقنية الخطية. بينما ، في التقنية اللوجستية ، يتم تحديد منحنى S على أنه المتغير المستقل هو متعدد الحدود. النتائج في حالة الخطية مستمرة بينما ، في حالة التقنية اللوجستية ، يمكن أن تكون النتائج في فئات مثل True أو False ، 0 أو 1 ، إلخ.