وظيفة انحدار شجرة القرار ، المصطلحات ، التنفيذ [بمثال]
نشرت: 2020-12-24بادئ ذي بدء ، نموذج الانحدار هو نموذج يعطي كمخرجات قيمة رقمية عند إعطاء بعض قيم الإدخال التي تكون أيضًا رقمية. هذا يختلف عما يفعله نموذج التصنيف. يصنف بيانات الاختبار إلى فئات أو مجموعات مختلفة تشارك في بيان مشكلة معين.
يمكن أن يكون حجم المجموعة صغيرًا مثل 2 وكبيرًا يصل إلى 1000 أو أكثر. هناك العديد من نماذج الانحدار مثل الانحدار الخطي والانحدار متعدد المتغيرات وانحدار ريدج والانحدار اللوجستي وغير ذلك الكثير. تنتمي نماذج انحدار شجرة القرار أيضًا إلى مجموعة نماذج الانحدار هذه.
سيقوم النموذج التنبئي إما بتصنيف أو توقع قيمة رقمية تستخدم القواعد الثنائية لتحديد القيمة الناتجة أو الهدف. نموذج شجرة القرار ، كما يوحي الاسم ، هو نموذج يشبه الشجرة له أوراق وأغصان وعقد.
تعلم دورة التعلم الآلي عبر الإنترنت من أفضل الجامعات في العالم. احصل على درجة الماجستير أو برنامج PGP التنفيذي أو برامج الشهادات المتقدمة لتسريع مسار حياتك المهنية.
قراءة: أفكار مشروع التعلم الآلي
جدول المحتويات
المصطلحات التي يجب تذكرها
قبل الخوض في الخوارزمية ، إليك بعض المصطلحات المهمة التي يجب أن تكون على دراية بها.

- عقدة الجذر: هي العقدة العليا التي يبدأ منها الانقسام.
- الانقسام: عملية تقسيم عقدة واحدة إلى عدة عقد فرعية.
- العقدة الطرفية أو العقدة الطرفية: تسمى العقد التي لا تنقسم أكثر بالعقد الطرفية.
- التقليم: عملية إزالة العقد الفرعية.
- العقدة الأصلية: العقدة التي تنقسم إلى عقد فرعية.
- العقدة الفرعية: العقد الفرعية التي ظهرت من العقدة الأصلية.
كيف يعمل؟
تقسم شجرة القرار مجموعة البيانات إلى مجموعات فرعية أصغر. تنقسم ورقة القرار إلى فرعين أو أكثر يمثلون قيمة السمة قيد الفحص. العقدة العلوية في شجرة القرار هي أفضل متنبئ يسمى عقدة الجذر. ID3 هي الخوارزمية التي تبني شجرة القرار.
إنها تستخدم نهجًا من أعلى إلى أسفل ويتم إجراء الانقسامات بناءً على الانحراف المعياري. لمراجعة سريعة فقط ، الانحراف المعياري هو درجة توزيع أو تشتت مجموعة من نقاط البيانات من قيمتها المتوسطة. يحدد التباين العام لتوزيع البيانات.
تعني القيمة الأعلى للتشتت أو التباين أن الانحراف المعياري الأكبر يشير إلى الانتشار الأكبر لنقاط البيانات من القيمة المتوسطة. نستخدم الانحراف المعياري لقياس اتساق العينة. إذا كانت العينة متجانسة تمامًا ، فإن انحرافها المعياري هو صفر.
وبالمثل ، كلما كانت درجة عدم التجانس أعلى ، كلما زاد الانحراف المعياري. متوسط العينة وعدد العينات المطلوبة لحساب الانحراف المعياري. نستخدم دالة رياضية - معامل الانحراف الذي يقرر متى يجب أن يتوقف الانقسام. يتم حسابه بقسمة الانحراف المعياري على متوسط جميع العينات.
مصدر
ستكون القيمة النهائية هي متوسط العقد الطرفية. لنفترض ، على سبيل المثال ، إذا كان شهر نوفمبر هو العقدة التي تنقسم إلى رواتب مختلفة على مدار السنوات في شهر نوفمبر (حتى 2020). لعام 2021 ، سيكون راتب شهر نوفمبر هو متوسط جميع الرواتب تحت عقدة نوفمبر.
الانتقال إلى الانحراف المعياري لفئتين أو سمات (مثل المثال أعلاه ، يمكن أن يعتمد الراتب إما على أساس الساعة أو على أساس شهري). ستبدو الصيغة كما يلي:
مصدر
حيث P (c) هو احتمال حدوث السمة c ، S (c) هو الانحراف المعياري المقابل للسمة c. تعتمد طريقة تقليل الانحراف المعياري على انخفاض الانحراف المعياري بعد انقسام مجموعة البيانات.
لإنشاء شجرة قرار دقيقة ، يجب أن يكون الهدف هو العثور على السمات التي تعود عند الحساب ، وإرجاع أعلى تقليل للانحراف المعياري. بكلمات بسيطة ، الفروع الأكثر تجانسا.

تغطي عملية إنشاء شجرة قرار للانحدار أربع خطوات مهمة.
1. أولاً ، نحسب الانحراف المعياري للمتغير المستهدف. اعتبر المتغير المستهدف هو الراتب كما في الأمثلة السابقة. مع المثال المطبق ، سنحسب الانحراف المعياري لمجموعة قيم الراتب.
2. في الخطوة 2 ، يتم تقسيم مجموعة البيانات إلى سمات مختلفة. عند الحديث عن السمات ، نظرًا لأن القيمة المستهدفة هي الراتب ، يمكننا التفكير في السمات المحتملة مثل - الأشهر ، والساعات ، ومزاج الرئيس ، والتعيين ، والسنة في الشركة ، وما إلى ذلك. ثم يتم حساب الانحراف المعياري لكل فرع باستخدام الصيغة أعلاه. يتم طرح الانحراف المعياري الذي تم الحصول عليه من الانحراف المعياري قبل الانقسام. النتيجة في متناول اليد تسمى تقليل الانحراف المعياري.
3. بمجرد حساب الفرق كما هو مذكور في الخطوة السابقة ، فإن أفضل سمة هي تلك التي تكون قيمة تقليل الانحراف المعياري لها أكبر. هذا يعني أن الانحراف المعياري قبل الانقسام يجب أن يكون أكبر من الانحراف المعياري قبل الانقسام. في الواقع ، يتم أخذ تعديل الاختلاف وبالتالي العكس بالعكس ممكن أيضًا.
4. يتم تصنيف مجموعة البيانات بأكملها بناءً على أهمية السمة المحددة. على الفروع غير الورقية ، تستمر هذه الطريقة بشكل متكرر حتى تتم معالجة جميع البيانات المتاحة. الآن ضع في اعتبارك أن الشهر تم تحديده كأفضل سمة تقسيم بناءً على قيمة تقليل الانحراف المعياري. لذلك سيكون لدينا 12 فرعًا لكل شهر. سيتم تقسيم هذه الفروع أيضًا لتحديد أفضل سمة من مجموعة السمات المتبقية.
5. في الواقع ، نحن نطلب بعض معايير التشطيب. لهذا ، نستخدم معامل الانحراف أو السيرة الذاتية لفرع يصبح أصغر من عتبة معينة مثل 10٪. عندما نحقق هذا المعيار نوقف عملية بناء الشجرة. نظرًا لعدم حدوث مزيد من الانقسام ، ستكون القيمة التي تقع ضمن هذه السمة هي متوسط جميع القيم الموجودة ضمن تلك العقدة.
تطبيق
يمكن تنفيذ انحدار شجرة القرار باستخدام لغة Python ومكتبة scikit-Learn. يمكن العثور عليها تحت sklearn.tree.DecisionTreeRegressor.
فيما يلي بعض المعلمات المهمة:
- المعيار: لقياس جودة الانقسام. يمكن أن تكون القيمة "mse" أو متوسط الخطأ التربيعي ، "friedman_mse" ، و "mae" أو متوسط الخطأ المطلق. القيمة الافتراضية هي MSE.
- max_depth: يمثل أقصى عمق للشجرة. القيمة الافتراضية هي بلا.
- max_features: يمثل عدد الميزات التي يجب البحث عنها عند تحديد أفضل تقسيم. القيمة الافتراضية هي بلا.
- التقسيم: تستخدم هذه المعلمة لاختيار الانقسام عند كل عقدة. القيم المتاحة هي "الأفضل" و "العشوائية". القيمة الافتراضية هي الأفضل.
تحقق من: أسئلة مقابلة التعلم الآلي
مثال من وثائق sklearn
>>> من sklearn.datasets استيراد load_diabetes
>>> من sklearn.model_selection استيراد cross_val_score
>>> من sklearn.tree استيراد DecisionTreeRegressor
>>> X ، y = load_diabetes (return_X_y = True )
>>> Regressor = DecisionTreeRegressor (random_state = 0)
>>> cross_val_score (regressor ، X ، y ، cv = 10)

... # دكتست: + تخطي
...
مجموعة ([- 0.39 ... ، -0.46 ... ، 0.02 ... ، 0.06 ... ، -0.50 ... ،
0.16 ... ، 0.11 ... ، -0.73 ... ، -0.30 ... ، -0.00…])
ماذا بعد؟
أيضًا ، إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع برنامج IIIT-B & upGrad's Executive PG في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، حالة خريجي IIIT-B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع كبرى الشركات.