انحدار شجرة القرار: ما تحتاج إلى معرفته في عام 2022

نشرت: 2021-01-03

بادئ ذي بدء ، نموذج الانحدار هو نموذج يعطي كمخرجات قيمة رقمية عند إعطاء بعض قيم الإدخال التي تكون أيضًا رقمية. هذا يختلف عما يفعله نموذج التصنيف. يصنف بيانات الاختبار إلى فئات أو مجموعات مختلفة تشارك في بيان مشكلة معين.

يمكن أن يكون حجم المجموعة صغيرًا مثل 2 وكبيرًا يصل إلى 1000 أو أكثر. هناك العديد من نماذج الانحدار مثل الانحدار الخطي والانحدار متعدد المتغيرات وانحدار ريدج والانحدار اللوجستي وغير ذلك الكثير.

تنتمي نماذج انحدار شجرة القرار أيضًا إلى مجموعة نماذج الانحدار هذه. سيقوم النموذج التنبئي إما بتصنيف أو توقع قيمة رقمية تستخدم القواعد الثنائية لتحديد القيمة الناتجة أو الهدف.

نموذج شجرة القرار ، كما يوحي الاسم ، هو نموذج يشبه الشجرة له أوراق وأغصان وعقد.

جدول المحتويات

المصطلحات التي يجب تذكرها

قبل الخوض في الخوارزمية ، إليك بعض المصطلحات المهمة التي يجب أن تكون على دراية بها.

1- العقدة الجذرية: وهي أعلى نقطة يبدأ منها الانقسام.

2- التقسيم: عملية تقسيم عقدة واحدة إلى عدة عقد فرعية.

3- العقدة الطرفية أو العقدة الطرفية: تسمى العقد التي لا تنقسم أكثر بالعقد الطرفية.

4-التقليم: عملية إزالة العقد الفرعية.

5- العقدة الأصلية: العقدة التي تنقسم إلى عقد فرعية.

6- عقدة الطفل: هي العقد الفرعية التي ظهرت من العقدة الأم.

قراءة: دليل خوارزمية شجرة القرار

كيف يعمل؟

تقسم شجرة القرار مجموعة البيانات إلى مجموعات فرعية أصغر. تنقسم ورقة القرار إلى فرعين أو أكثر يمثلون قيمة السمة قيد الفحص. العقدة العلوية في شجرة القرار هي أفضل متنبئ يسمى عقدة الجذر. ID3 هي الخوارزمية التي تبني شجرة القرار.

إنها تستخدم نهجًا من أعلى إلى أسفل ويتم إجراء الانقسامات بناءً على الانحراف المعياري. لمراجعة سريعة فقط ، الانحراف المعياري هو درجة توزيع أو تشتت مجموعة من نقاط البيانات من قيمتها المتوسطة.

يحدد التباين العام لتوزيع البيانات. تعني القيمة الأعلى للتشتت أو التباين أن الانحراف المعياري الأكبر يشير إلى الانتشار الأكبر لنقاط البيانات من القيمة المتوسطة. نستخدم الانحراف المعياري لقياس اتساق العينة.

إذا كانت العينة متجانسة تمامًا ، فإن انحرافها المعياري هو صفر. وبالمثل ، كلما كانت درجة عدم التجانس أعلى ، كلما زاد الانحراف المعياري. متوسط ​​العينة وعدد العينات المطلوبة لحساب الانحراف المعياري.

نستخدم دالة رياضية - معامل الانحراف الذي يقرر متى يجب أن يتوقف الانقسام. يتم حسابه بقسمة الانحراف المعياري على متوسط ​​جميع العينات.

ستكون القيمة النهائية هي متوسط ​​العقد الطرفية. لنفترض ، على سبيل المثال ، إذا كان شهر نوفمبر هو العقدة التي تنقسم إلى رواتب مختلفة على مدار السنوات في شهر نوفمبر (حتى 2021). لعام 2022 ، سيكون راتب شهر نوفمبر هو متوسط ​​جميع الرواتب تحت عقدة نوفمبر.

الانتقال إلى الانحراف المعياري لفئتين أو سمات (مثل المثال أعلاه ، يمكن أن يعتمد الراتب على أساس الساعة أو على أساس شهري).

لإنشاء شجرة قرار دقيقة ، يجب أن يكون الهدف هو العثور على السمات التي تعود عند الحساب وإرجاع أعلى تقليل للانحراف المعياري. بكلمات بسيطة ، الفروع الأكثر تجانسا.

تغطي عملية إنشاء شجرة قرار للانحدار أربع خطوات مهمة.

1. أولاً ، نحسب الانحراف المعياري للمتغير المستهدف. اعتبر المتغير المستهدف هو الراتب كما في الأمثلة السابقة. مع المثال المطبق ، سنحسب الانحراف المعياري لمجموعة قيم الراتب.

2. في الخطوة 2 ، يتم تقسيم مجموعة البيانات إلى سمات مختلفة. عند الحديث عن السمات ، نظرًا لأن القيمة المستهدفة هي الراتب ، يمكننا التفكير في السمات المحتملة مثل - الأشهر ، والساعات ، ومزاج الرئيس ، والتعيين ، والسنة في الشركة ، وما إلى ذلك. ثم يتم حساب الانحراف المعياري لكل فرع باستخدام الصيغة أعلاه. يتم طرح الانحراف المعياري الذي تم الحصول عليه من الانحراف المعياري قبل الانقسام. النتيجة في متناول اليد تسمى تقليل الانحراف المعياري.

الخروج: أنواع الشجرة الثنائية

3. بمجرد حساب الفرق كما هو مذكور في الخطوة السابقة ، فإن أفضل سمة هي تلك التي تكون قيمة تقليل الانحراف المعياري لها أكبر. هذا يعني أن الانحراف المعياري قبل الانقسام يجب أن يكون أكبر من الانحراف المعياري قبل الانقسام. في الواقع ، يتم أخذ تعديل الاختلاف وبالتالي العكس بالعكس ممكن أيضًا.

4. يتم تصنيف مجموعة البيانات بأكملها بناءً على أهمية السمة المحددة. على الفروع غير الورقية ، تستمر هذه الطريقة بشكل متكرر حتى تتم معالجة جميع البيانات المتاحة. الآن ضع في اعتبارك أن الشهر تم تحديده كأفضل سمة تقسيم بناءً على قيمة تقليل الانحراف المعياري. لذلك سيكون لدينا 12 فرعًا لكل شهر. سيتم تقسيم هذه الفروع أيضًا لتحديد أفضل سمة من مجموعة السمات المتبقية.

5. في الواقع ، نحن نطلب بعض معايير التشطيب. لهذا ، نستخدم معامل الانحراف أو السيرة الذاتية لفرع يصبح أصغر من عتبة معينة مثل 10٪. عندما نحقق هذا المعيار نوقف عملية بناء الشجرة. نظرًا لعدم حدوث مزيد من الانقسام ، ستكون القيمة التي تقع ضمن هذه السمة هي متوسط ​​جميع القيم الموجودة ضمن تلك العقدة.

يجب أن تقرأ: تصنيف شجرة القرار

تطبيق

يمكن تنفيذ انحدار شجرة القرار باستخدام لغة Python ومكتبة scikit-Learn. يمكن العثور عليها تحت sklearn.tree.DecisionTreeRegressor.

بعض المعلمات الهامة هي كما يلي

1. المعيار: لقياس جودة الانقسام. يمكن أن تكون القيمة "mse" أو متوسط ​​الخطأ التربيعي ، "friedman_mse" ، و "mae" أو متوسط ​​الخطأ المطلق. القيمة الافتراضية هي MSE.

2.العمق الأقصى: يمثل أقصى عمق للشجرة. القيمة الافتراضية هي بلا.

3. max_features: يمثل عدد الميزات التي يجب البحث عنها عند تحديد أفضل تقسيم. القيمة الافتراضية هي بلا.

4.splitter: تُستخدم هذه المعلمة لاختيار الانقسام عند كل عقدة. القيم المتاحة هي "الأفضل" و "العشوائية". القيمة الافتراضية هي الأفضل.

مثال من وثائق sklearn

>>> من sklearn.datasets استيراد load_diabetes

>>> من sklearn.model_selection استيراد cross_val_score

>>> من sklearn.tree استيراد DecisionTreeRegressor

>>> X ، y = load_diabetes (return_X_y = True )

>>> Regressor = DecisionTreeRegressor (random_state = 0)

>>> cross_val_score (regressor ، X ، y ، cv = 10)

... # دكتست: + تخطي

...

مجموعة ([- 0.39 ... ، -0.46 ... ، 0.02 ... ، 0.06 ... ، -0.50 ... ،

0.16 ... ، 0.11 ... ، -0.73 ... ، -0.30 ... ، -0.00…])

خاتمة

تم تصميم هيكل برنامج Data Science لتسهيل أن تصبح موهبة حقيقية في مجال علوم البيانات ، مما يسهل عليك الحصول على أفضل صاحب عمل في السوق. سجل اليوم لتبدأ رحلة مسار التعلم مع upGrad!

إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع دبلوم PG في IIIT-B & upGrad في علوم البيانات والذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1- على - 1 مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

ما هو تحليل الانحدار في التعلم الآلي؟

الانحدار هو مجموعة من الخوارزميات الرياضية المستخدمة في التعلم الآلي للتنبؤ بنتيجة مستمرة بناءً على قيمة واحد أو أكثر من متغيرات التوقع. تحت مظلة التعلم الآلي الخاضع للإشراف ، يعد تحليل الانحدار موضوعًا أساسيًا. إنه يساعد ببساطة في فهم العلاقات بين المتغيرات. يتعرف على تأثير متغير واحد ونشاطه على المتغير الآخر. يتم استخدام كل من خصائص الإدخال وتسميات الإخراج لتدريب خوارزمية الانحدار.

ما هو المقصود من الخطية المتعددة في التعلم الآلي؟

العلاقة الخطية المتعددة هي حالة تكون فيها المتغيرات المستقلة في مجموعة البيانات أكثر ارتباطًا ببعضها البعض أكثر من المتغيرات الأخرى. في نموذج الانحدار ، يشير هذا إلى أنه يمكن توقع متغير مستقل واحد من متغير مستقل آخر. من حيث تأثير المتغيرات المستقلة في نموذج ما ، يمكن أن تؤدي العلاقة الخطية المتعددة إلى فترات ثقة أوسع ، مما يؤدي إلى احتمالية أقل موثوقية. لا ينبغي أن يكون في مجموعة البيانات لأنه يعبث بترتيب المتغير الأكثر تأثيراً.

ما المقصود بالتعلم الآلي؟

عندما تكون مجموعة البيانات المقدمة صاخبة ، يتم استخدام التعبئة ، وهو شكل من أشكال استراتيجية التعلم الجماعي التي تقلل التباين. تجميع Bootstrap هو مرادف آخر للتعبئة. التعبئة هي عملية اختيار عينة عشوائية من البيانات من مجموعة التدريب مع الاستبدال - أي أنه يمكن التقاط نقاط البيانات الفردية عدة مرات. في التعلم الآلي ، تعد خوارزمية الغابة العشوائية في الأساس امتدادًا لعملية التعبئة.