خوارزمية الغابة العشوائية: متى يتم استخدامها وكيفية استخدامها؟ [مع إيجابيات وسلبيات]

نشرت: 2020-12-24

يشمل علم البيانات مجموعة واسعة من الخوارزميات القادرة على حل المشكلات المتعلقة بالتصنيف. عادةً ما توجد الغابة العشوائية في الجزء العلوي من التسلسل الهرمي للتصنيف. تتضمن الخوارزميات الأخرى - آلة ناقلات الدعم ، ومصنف التحيز الساذج ، وأشجار القرار.

قبل التعرف على خوارزمية Random Forest ، دعنا أولاً نفهم العمل الأساسي لأشجار القرار وكيف يمكن دمجها لتشكيل غابة عشوائية.

جدول المحتويات

أشجار القرار
الحاجة إلى خوارزمية الغابة العشوائية
متى تستخدم Random Forest ومتى تستخدم النماذج الأخرى؟
كيف أعرف عدد الأشجار التي يجب أن أستخدمها؟
هل يمكن استخدام القيمة p لـ Random Forest؟
تكييس
أهمية الميزة
Hyperparameters
مزايا وعيوب خوارزمية الغابة العشوائية
خاتمة
ما هي سلبيات استخدام خوارزميات الغابة العشوائية؟
كيف تعمل خوارزمية الغابة العشوائية؟
كيف تختلف شجرة القرار عن الغابة العشوائية؟

أشجار القرار

تندرج خوارزمية شجرة القرار ضمن فئة خوارزميات التعلم الخاضع للإشراف. الهدف من شجرة القرار هو التنبؤ بفئة أو قيمة المتغير المستهدف بناءً على القواعد التي تم تطويرها أثناء عملية التدريب. بدءًا من جذر الشجرة ، نقارن قيمة سمة الجذر بنقطة البيانات التي نرغب في تصنيفها وعلى أساس المقارنة نقفز إلى العقدة التالية.

للمضي قدمًا ، دعنا نناقش بعض المصطلحات المهمة وأهميتها في التعامل مع أشجار القرار.

عقدة الجذر : هي العقدة العلوية للشجرة ، حيث يحدث الانقسام لتشكيل المزيد من العقد المتجانسة.
تقسيم نقاط البيانات: يتم تقسيم نقاط البيانات بطريقة تقلل من الانحراف المعياري بعد الانقسام.
كسب المعلومات : اكتساب المعلومات هو تقليل الانحراف المعياري الذي نرغب في تحقيقه بعد الانقسام. يعني المزيد من تقليل الانحراف المعياري المزيد من العقد المتجانسة.
الانتروبيا : الانتروبيا هو عدم انتظام موجود في العقدة بعد حدوث الانقسام. مزيد من التجانس في العقدة يعني أقل إنتروبيا.

قراءة: أسئلة مقابلة شجرة القرار

الحاجة إلى خوارزمية الغابة العشوائية

خوارزمية شجرة القرار عرضة للتركيب الزائد ، أي الدقة العالية في بيانات التدريب والأداء الضعيف لبيانات الاختبار. طريقتان شائعتان لمنع فرط تجهيز البيانات هما التقليم والغابات العشوائية. يشير التقليم إلى تقليل حجم الشجرة دون التأثير على الدقة الكلية للشجرة.

الآن دعونا نناقش خوارزمية Random Forest.

تتمثل إحدى الميزات الرئيسية للغابات العشوائية في قدرتها على استخدامها في كل من التصنيف وكذلك في مشاكل الانحدار.

كما يوحي اسمها ، تتكون الغابة من خلال الجمع بين عدة أشجار. وبالمثل ، تجمع خوارزمية الغابة العشوائية بين العديد من خوارزميات التعلم الآلي (أشجار القرار) للحصول على دقة أفضل. وهذا ما يسمى أيضًا التعلم الجماعي. يساعد الارتباط المنخفض هنا بين النماذج على توليد دقة أفضل من أي تنبؤات فردية. حتى إذا كانت بعض الأشجار تولد تنبؤات خاطئة ، فإن الغالبية منها ستنتج تنبؤات حقيقية وبالتالي تزداد الدقة الكلية للنموذج.

يمكن تنفيذ خوارزميات الغابة العشوائية في كل من Python و R مثل خوارزميات التعلم الآلي الأخرى.

متى تستخدم Random Forest ومتى تستخدم النماذج الأخرى؟

أولًا ، علينا أن نقرر ما إذا كانت المشكلة خطية أم غير خطية. بعد ذلك ، إذا كانت المشكلة خطية ، فيجب علينا استخدام الانحدار الخطي البسيط في حالة وجود ميزة واحدة فقط ، وإذا كانت لدينا ميزات متعددة ، فيجب علينا استخدام الانحدار الخطي المتعدد. ومع ذلك ، إذا كانت المشكلة غير خطية ، فيجب علينا انحدار متعدد الحدود أو SVR أو Decision Tree أو Random

غابة. ثم باستخدام تقنيات مناسبة للغاية لتقييم أداء النموذج مثل التحقق من صحة k-Fold أو Grid Search أو XGBoost ، يمكننا استنتاج النموذج الصحيح الذي يحل مشكلتنا.

كيف أعرف عدد الأشجار التي يجب أن أستخدمها؟

لأي مبتدئ ، أنصح بتحديد عدد الأشجار المطلوبة بالتجربة. عادةً ما يستغرق الأمر وقتًا أقل من استخدام التقنيات في الواقع لمعرفة أفضل قيمة من خلال تعديل نموذجك وضبطه. من خلال تجربة عدة قيم للمعلمات الفوقية مثل عدد الأشجار. ومع ذلك ، يمكن استخدام تقنيات مثل التحقق من صحة الغلاف k-Fold Cross-Validation و Grid Search ، وهي طرق قوية لتحديد القيمة المثلى للمعلمة الفائقة ، مثل عدد الأشجار هنا.

هل يمكن استخدام القيمة p لـ Random Forest؟

هنا ، ستكون القيمة p ضئيلة في حالة Random Forest لأنها نماذج غير خطية.

تكييس

تعتبر أشجار القرار حساسة للغاية للبيانات التي يتم تدريبهم عليها ، وبالتالي فهي عرضة للتركيب الزائد. ومع ذلك ، تستفيد Random Forest من هذه المشكلة وتسمح لكل شجرة بأخذ عينات عشوائية من مجموعة البيانات للحصول على هياكل شجرية مختلفة. تُعرف هذه العملية باسم التعبئة.

لا يعني التعبئة إنشاء مجموعة فرعية من بيانات التدريب. هذا يعني ببساطة أننا ما زلنا نغذي الشجرة ببيانات التدريب ولكن بالحجم N. بدلاً من البيانات الأصلية ، نأخذ عينة من الحجم N (نقاط البيانات N) مع الاستبدال.

أهمية الميزة

تسمح لنا خوارزميات الغابة العشوائية بتحديد أهمية ميزة معينة وتأثيرها على التنبؤ. يحسب النتيجة لكل ميزة بعد التدريب ويقيسها بطريقة يضيفها تلخيصها إلى واحدة. يمنحنا هذا فكرة عن الميزة التي يجب إسقاطها لأنها لا تؤثر على عملية التنبؤ بأكملها. مع ميزات أقل ، من غير المرجح أن يقع النموذج فريسة للتركيب الزائد.

Hyperparameters

يؤدي استخدام المعلمات الفائقة إما إلى زيادة القدرة التنبؤية للنموذج أو جعل النموذج أسرع.

بادئ ذي بدء ، فإن المعلمة n_estimator هي عدد الأشجار التي تبنيها الخوارزمية قبل أخذ متوسط التنبؤ. تعني القيمة العالية لـ n_estimator زيادة الأداء مع التنبؤ العالي. ومع ذلك ، فإن قيمتها العالية تقلل أيضًا من الوقت الحسابي للنموذج.

معلمة تشعبية أخرى هي max_features ، وهي العدد الإجمالي للميزات التي يأخذها النموذج في الاعتبار قبل الانقسام إلى عقد لاحقة.

علاوة على ذلك ، min_sample_leaf هو الحد الأدنى لعدد الأوراق المطلوبة لتقسيم العقدة الداخلية.

أخيرًا ، يتم استخدام random_state لإنتاج مخرجات ثابتة عند اختيار قيمة محددة لـ random_state جنبًا إلى جنب مع نفس المعلمات التشعبية وبيانات التدريب.

مزايا وعيوب خوارزمية الغابة العشوائية

Random Forest هي خوارزمية متعددة الاستخدامات قادرة على حل مهام التصنيف والانحدار.
أيضًا ، من السهل فهم المعلمات الفائقة المتضمنة ، وعادةً ما تؤدي قيمها الافتراضية إلى تنبؤ جيد.
تحل Random Forest مشكلة التجهيز الزائد الذي يحدث في أشجار القرار.
أحد قيود Random Forest هو أن العديد من الأشجار يمكن أن تجعل معالجة الخوارزمية بطيئة مما يجعلها غير فعالة للتنبؤ ببيانات الوقت الفعلي.

اقرأ أيضًا: أنواع خوارزمية التصنيف

خاتمة

تعد خوارزمية Random Forest خوارزمية قوية للغاية وذات دقة عالية. إن تطبيقه الواقعي في مجالات الخدمات المصرفية الاستثمارية وسوق الأوراق المالية ومواقع التجارة الإلكترونية يجعلها خوارزمية قوية للغاية للاستخدام. ومع ذلك ، يمكن تحقيق أداء أفضل باستخدام خوارزميات الشبكة العصبية ، لكن هذه الخوارزميات ، في بعض الأحيان ، تميل إلى التعقيد وتستغرق وقتًا أطول لتطويرها.

إذا كنت مهتمًا بمعرفة المزيد حول شجرة القرار ، التعلم الآلي ، فراجع IIIT-B & upGrad's دبلوم PG في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة و المهام ، وحالة خريجي IIIT-B ، وأكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع كبرى الشركات.

ما هي سلبيات استخدام خوارزميات الغابة العشوائية؟

Random Forest هي خوارزمية تعلم آلي متطورة. يتطلب الكثير من موارد المعالجة لأنه يولد الكثير من الأشجار للعثور على النتيجة. بالإضافة إلى ذلك ، بالمقارنة مع الخوارزميات الأخرى مثل طريقة شجرة القرار ، فإن هذه التقنية تستغرق الكثير من وقت التدريب. عندما تكون البيانات المقدمة خطية ، فإن الانحدار العشوائي للغابات لا يعمل بشكل جيد.

كيف تعمل خوارزمية الغابة العشوائية؟

تتكون الغابة العشوائية من العديد من أشجار القرار المختلفة ، على غرار الطريقة التي تتكون بها الغابة من العديد من الأشجار. يتم تحديد نتائج طريقة الغابة العشوائية في الواقع من خلال تنبؤات أشجار القرار. تقلل طريقة الغابة العشوائية أيضًا من فرص البيانات أكثر من الملاءمة. يستخدم تصنيف الغابة العشوائية استراتيجية تجميعية للحصول على النتيجة المرجوة. يتم تدريب أشجار القرار المختلفة باستخدام بيانات التدريب. تشتمل مجموعة البيانات هذه على ملاحظات وخصائص يتم اختيارها عشوائيًا بعد تقسيم العقد.

كيف تختلف شجرة القرار عن الغابة العشوائية؟

الغابة العشوائية ليست أكثر من مجموعة من أشجار القرار ، مما يجعل فهمها أمرًا معقدًا. تعد قراءة الغابة العشوائية أكثر صعوبة من قراءة شجرة القرار. عند مقارنتها بأشجار القرار ، تتطلب الغابة العشوائية وقت تدريب أطول. ومع ذلك ، عند التعامل مع مجموعة بيانات ضخمة ، يفضل استخدام مجموعة التفرعات العشوائية. يعد التجهيز الزائد أكثر شيوعًا في أشجار القرار. من غير المرجح أن يحدث فرط في الغابات العشوائية لأنها تستخدم العديد من الأشجار.