تصنيف شجرة القرار: كل ما تحتاج إلى معرفته

نشرت: 2020-05-29

جدول المحتويات

مقدمة

يمكن إجراء العديد من المقارنات من الطبيعة إلى حياتنا الحقيقية ؛ تصادف أن تكون الأشجار واحدة من أكثرها تأثيرًا. لقد أثرت الأشجار في مجال كبير من التعلم الآلي. أنها تغطي كلا من التصنيف الأساسي والانحدار. عند تحليل أي قرار ، يمكن استخدام مصنف شجرة القرار لتمثيل عملية صنع القرار.

لذلك ، في الأساس ، تصادف أن تكون شجرة القرار جزءًا من التعلم الآلي الخاضع للإشراف حيث تتم معالجة البيانات عن طريق تقسيم البيانات باستمرار ، مع الأخذ في الاعتبار معلمة معينة.

مما تتكون أشجار القرار؟

الجواب على السؤال مباشر. تتكون أشجار القرار من ثلاثة أشياء أساسية ، والتشابه مع كل منها يمكن رسمه إلى شجرة حقيقية. كل ثلاثة منهم مدرجون أدناه:

  1. العقد: هذا هو المكان الذي يتم فيه اختبار القيمة. في العقدة ، يتم تمرير قيمة سمة معينة ، ويتم فحصها واختبارها مقابل القيم لاتخاذ قرار.
  2. الحواف / الفروع: يتوافق هذا الجزء مع نتيجة أي نتيجة اختبار. الحواف / الفروع مسؤولة أيضًا عن ربط عقدتين أو أوراق مختلفة.
  3. العقد الورقية: هذه هي العقد التي توجد عادة في المحطات. العقد الورقية هي المسؤولة عن توقع النتيجة.

تصنيف شجرة القرار

يمكن تصنيف أشجار القرار على نطاق واسع إلى فئتين ، وهما أشجار التصنيف وأشجار الانحدار.

1. أشجار التصنيف

أشجار التصنيف هي تلك الأنواع من أشجار القرار التي تستند إلى الإجابة على أسئلة "نعم" أو "لا" واستخدام هذه المعلومات للتوصل إلى قرار. لذا ، فإن الشجرة ، التي تحدد ما إذا كان الشخص لائقًا أم غير لائق عن طريق طرح مجموعة من الأسئلة ذات الصلة واستخدام الإجابات للوصول إلى حل قابل للتطبيق ، هي نوع من شجرة التصنيف.

عادة ما يتم إنشاء هذه الأنواع من الأشجار من خلال استخدام عملية تسمى التقسيم العودي الثنائي. تتضمن طريقة التقسيم العودي الثنائي تقسيم البيانات إلى وحدات أو أقسام منفصلة ، ثم يتم تقسيم هذه الأقسام إلى كل فرع من فروع مصنف شجرة القرار .

2. أشجار الانحدار

الآن ، يختلف نوع الانحدار لشجرة القرار عن نوع تصنيف شجرة القرار في جانب واحد. البيانات التي تم إدخالها إلى الشجرتين مختلفة تمامًا. تتعامل أشجار التصنيف مع البيانات ، وهي غير ملحوظة ، بينما تتعامل أشجار قرار الانحدار مع نوع البيانات المستمر. من الأمثلة الجيدة على أشجار الانحدار سعر المنزل أو المدة التي سيبقى فيها المريض عادةً في المستشفى.

تعرف على المزيد: الانحدار الخطي في التعلم الآلي

كيف يتم إنشاء أشجار القرار؟

يتم إنشاء أشجار القرار من خلال أخذ مجموعة البيانات التي يجب تدريب النموذج عليها (تعد أشجار القرار جزءًا من التعلم الآلي الخاضع للإشراف). يجب تقسيم مجموعة بيانات التدريب هذه بشكل مستمر إلى مجموعات فرعية أصغر من البيانات. تُستكمل هذه العملية من خلال إنشاء شجرة اقتران يتم إنشاؤها بشكل تدريجي جنبًا إلى جنب في عملية تفكيك البيانات. بعد انتهاء الآلة من التعلم ، ينتهي إنشاء شجرة قرار بناءً على مجموعة بيانات التدريب التي تم توفيرها ، ثم تُعاد هذه الشجرة إلى المستخدم.

الفكرة المركزية وراء استخدام شجرة القرار هي فصل البيانات إلى منطقتين أساسيتين ، المنطقة ذات الكثافة السكانية (الكتلة) أو المنطقة ، وهي مناطق فارغة (أو متفرقة).

يعمل تصنيف شجرة القرار على مبدأ أولي للتقسيم. إنه ينتصر على المكان الذي سيتم فيه تنظيم أي مثال جديد تم إدخاله في الشجرة ، بعد اجتياز سلسلة من الاختبارات ، وإعطائه تصنيفًا للفصل. تتم مناقشة خوارزمية فرق تسد بالتفصيل أدناه:

فرق تسد

من الواضح أن مُصنِّف شجرة القرار مبني ومبني من خلال الاستفادة من طريقة الكشف عن مجريات الأمور المعروفة باسم التقسيم العودي ، والمعروف أيضًا باسم خوارزمية التقسيم والقهر. يقسم البيانات إلى مجموعات أصغر ويستمر في القيام بذلك. حتى يتم تحديد أن البيانات داخل كل مجموعة فرعية متجانسة ، أو إذا كان المستخدم قد حدد معيار إيقاف آخر ، فسيؤدي ذلك إلى وضع حد لهذه الخوارزمية.

كيف يعمل مصنف شجرة القرار ؟

  1. تُستخدم خوارزمية فرق تسد لإنشاء مصنف شجرة قرار . من خلال استخدام الخوارزمية ، نبدأ دائمًا من جذر الشجرة ونقسم مجموعة البيانات أيضًا لتقليل عدم اليقين في القرار النهائي.
  2. يحدث أن تكون عملية تكرارية. لذلك ، نكرر هذه العملية في كل عقدة. تتكرر هذه العملية حتى الوقت الذي لا نمتلك فيه عقد النقاء الذي نرغب فيه.
  3. بشكل عام ، لتجنب الإفراط في التجهيز ، نضع حدًا للنقاء المطلوب تحقيقه. هذا يعني أن النتيجة النهائية قد لا تكون نقية بنسبة 100٪.

أساسيات خوارزمية فرق تسد:

  1. يأتي أولاً اختيار أو اختيار اختبار لعقدة الجذر. ثم تبدأ عملية تكوين الفروع. تم تصميم الفروع مع مراعاة كل نتيجة محتملة للتجربة التي تم تحديدها.
  2. يأتي بعد ذلك تقسيم مثيلات البيانات إلى مجموعات فرعية أصغر. سيكون لكل فرع لصق خاص به ، وهو متصل بالعقدة.
  3. يجب تكرار هذه العملية بعد ذلك لكل فرع باستخدام الحالات التي تأتي إلى الفرع المعني.
  4. يجب إيقاف هذه العملية العودية إذا كانت جميع الحالات تنتمي إلى نفس الفئة.

مزايا استخدام تصنيف شجرة القرار

  1. لا يتطلب مبلغًا هائلاً من المال للبناء.
  2. إنها عملية سريعة لتصنيف السجلات الجديدة أو غير المعروفة.
  3. يمكن تفسيره بسهولة شديدة ، خاصة إذا كانت الشجرة صغيرة الحجم.
  4. دقة التنبؤ باستخدام مصنف شجرة القرار قابلة للمقارنة مع طرق أخرى للتنبؤ أو التصنيف.
  5. كما أن لديها القدرة على استبعاد الميزات غير المهمة. تتم عملية إزالة الميزات غير ذات الصلة تلقائيًا.

قراءة: كيف تصنع شجرة قرار مثالية؟

عيوب استخدام مصنف شجرة القرار

  1. يعد تركيب مجموعة البيانات أمرًا سهلاً للغاية في هذه الحالة.
  2. حدود القرار لها قيود. يمكن أن تكون موازية فقط للمحاور التي تحتوي على السمات.
  3. غالبًا ما تحتوي النماذج القائمة على أشجار القرار على انقسامات منحازة لها عدد هائل من المستويات.
  4. يمكن أن يكون لأي تغييرات صغيرة يتم إجراؤها على مجموعة البيانات تأثير كبير على المنطق الذي يحكم القرار.
  5. يصعب فهم أشجار الجعة لأنها في بعض الأحيان قد تشعر بأنها غير بديهية للغاية.

اقرأ أيضًا: أشجار القرار في التعلم الآلي

تعلم دورات علوم البيانات من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

خاتمة

تكون أشجار القرار مفيدة بينما نواجه مشاكل لا يمكن معالجتها بحلول خطية. من الملاحظات ، لوحظ أن النماذج المستندة إلى الأشجار يمكنها بسهولة تعيين اللاخطية للمدخلات والقضاء بشكل فعال على المشكلة المطروحة. تعتمد الأساليب المتطورة مثل إنشاء الغابات العشوائية وتعزيز التدرج على مصنف شجرة القرار نفسه.

تعتبر أشجار القرار أداة فعالة يمكن استخدامها في العديد من مجالات الحياة الواقعية مثل الهندسة الطبية الحيوية وعلم الفلك والتحكم في النظام والأدوية والفيزياء وما إلى ذلك. وهذا يجعل تصنيف شجرة القرار أداة حاسمة ولا غنى عنها للتعلم الآلي.

هل تميل أشجار القرار إلى التجاوز؟

تقوم أشجار القرار بتجزئة البيانات المعقدة إلى أشكال أبسط. يحاول تصنيف شجرة القرار تقسيم البيانات حتى يتعذر تقسيمها بشكل أكبر. ثم يتم إنشاء مخطط واضح لجميع المحتويات الممكنة ، مما يساعد في إجراء مزيد من التحليل. بينما تعطينا الشجرة الضخمة ذات الوصلات العديدة مسارًا مستقيمًا ، إلا أنها قد تولد مشكلة أيضًا عند اختبار البيانات. يؤدي هذا التضفير المفرط إلى فرط التجهيز ، حيث تتسبب العديد من الانقسامات في نمو الشجرة بشكل هائل. في مثل هذه الحالات ، يتم اختراق القدرة التنبؤية لشجرة القرار ، وبالتالي تصبح غير سليمة. التقليم هو تقنية تستخدم للتعامل مع فرط التجهيز ، حيث تتم إزالة المجموعات الفرعية الزائدة.

هل تحتاج أشجار القرار إلى التطبيع؟

أشجار القرار هي خوارزمية التعلم الآلي الأكثر شيوعًا المستخدمة لتصنيف وانحدار البيانات. تقوم هذه الآلية الخاضعة للإشراف بتقسيم البيانات لكل مجموعة فرعية في مجموعات مختلفة حتى تصل إلى العقدة الورقية ، حيث لا يمكن تقسيمها أكثر. نظرًا لأنه سيتم تقسيم هذه البيانات إلى فئات بناءً على السمات المقدمة ، فسيتم تقسيمها بالتساوي. إنه ينقل أن كلا من البيانات التي مرت بالتطبيع والبيانات التي لم يكن لها نفس عدد الانقسامات. لذلك ، فإن التطبيع ليس شرطًا أساسيًا لنماذج الشجرة القائمة على القرار.

كيفية لصق أشجار القرار؟

تعتبر أشجار القرار آلية موثوقة لتصنيف البيانات والتنبؤ بالحلول. يتطلب الربط في شجرة القرار الدقة ؛ خطأ طفيف واحد يمكن أن يضر بسلامة شجرة القرار. يحدث الربط في شجرة القرار باستخدام التقسيم العودي. يبدأ تقسيم البيانات بتكوين مجموعات فرعية من البيانات من خلال السمات المخصصة لها. يتم تقسيم البيانات بشكل متكرر في التكرار حتى تعتبر البيانات المقسمة في كل عقدة قديمة في التنبؤ بالحلول. يمكن أن تكون المجموعة الفرعية مشابهة لقيمة المتغير الهدف أيضًا. يجب أن يكون الربط منهجيًا ومتكررًا لتحقيق دقة جيدة.