أكثر 10 خوارزميات شيوعًا لاستخراج البيانات يجب أن تعرفها

نشرت: 2019-12-02

التنقيب في البيانات هو عملية العثور على الأنماط والتكرار في مجموعات البيانات الكبيرة وهو مجال من مجالات علوم الكمبيوتر. تُستخدم تقنيات وخوارزميات استخراج البيانات على نطاق واسع في الذكاء الاصطناعي وعلوم البيانات. هناك العديد من الخوارزميات ولكن دعونا نناقش أفضل 10 خوارزميات في قائمة خوارزميات استخراج البيانات.

جدول المحتويات

أفضل 10 خوارزميات لاستخراج البيانات
- 1. خوارزمية C4.5
- 2. خوارزمية K- يعني
- 3. دعم آلات المتجهات
- 4. خوارزمية Apriori
- 5. خوارزمية تعظيم التوقع
- 6. خوارزمية PageRank
- 7. خوارزمية Adaboost
- 8. خوارزمية kNN
- 9. خوارزمية بايز ساذجة
- 10. خوارزمية CART
خاتمة
ما هي حدود استخدام خوارزمية CART لاستخراج البيانات؟
ماذا تعني كلمة "K" بالضبط في خوارزمية k-mean؟
في خوارزمية KNN ، ما المقصود بالنقص المناسب؟

أفضل 10 خوارزميات لاستخراج البيانات

1. خوارزمية C4.5

C4.5 هي واحدة من أفضل خوارزميات التنقيب عن البيانات وقد طورها روس كوينلان. يستخدم C4.5 لإنشاء مصنف في شكل شجرة قرار من مجموعة من البيانات التي تم تصنيفها بالفعل. يشير المصنف هنا إلى أداة التنقيب عن البيانات التي تأخذ البيانات التي نحتاج إلى تصنيفها وتحاول التنبؤ بفئة البيانات الجديدة.

سيكون لكل نقطة بيانات سماتها الخاصة. تطرح شجرة القرار التي تم إنشاؤها بواسطة C4.5 سؤالاً حول قيمة السمة واعتمادًا على هذه القيم ، يتم تصنيف البيانات الجديدة. تمت تسمية مجموعة بيانات التدريب باستخدام lasses مما يجعل C4.5 خوارزمية تعلم خاضعة للإشراف. من السهل دائمًا تفسير وشرح أشجار القرار مما يجعل C4.5 سريعًا وشائعًا مقارنة بخوارزميات التنقيب عن البيانات الأخرى.

لا يشترط وجود خبرة في الترميز. 360 درجة الدعم الوظيفي. دبلوم PG في التعلم الآلي والذكاء الاصطناعي من IIIT-B وما فوق.

2. خوارزمية K- يعني

واحدة من أكثر خوارزميات التجميع شيوعًا ، تعمل k-mean عن طريق إنشاء عدد من المجموعات من مجموعة من الكائنات بناءً على التشابه بين الكائنات. قد لا يكون مضمونًا أن أعضاء المجموعة سيكونون متشابهين تمامًا ، لكن أعضاء المجموعة سيكونون أكثر تشابهًا مقارنةً بالأعضاء غير المنتمين إلى المجموعة. وفقًا للتطبيقات القياسية ، تعد k-mean خوارزمية تعلم غير خاضعة للإشراف لأنها تتعلم الكتلة من تلقاء نفسها دون أي معلومات خارجية.

3. دعم آلات المتجهات

فيما يتعلق بالمهام ، تعمل آلة متجه الدعم (SVM) بشكل مشابه لخوارزمية C4.5 فيما عدا أن SVM لا تستخدم أي أشجار قرار على الإطلاق. يتعلم SVM مجموعات البيانات ويحدد المستوى الفائق لتصنيف البيانات إلى فئتين. الطائرة الفائقة هي معادلة لخط يبدو مثل " y = mx + b". يبالغ SVM لعرض بياناتك على أبعاد أعلى. بمجرد الإسقاط ، حدد SVM أفضل مستوى مفرط لفصل البيانات إلى فئتين.

4. خوارزمية Apriori

تعمل خوارزمية Apriori من خلال تعلم قواعد الارتباط. قواعد الارتباط هي تقنية لاستخراج البيانات تُستخدم لتعلم الارتباطات بين المتغيرات في قاعدة البيانات. بمجرد معرفة قواعد الارتباط ، يتم تطبيقها على قاعدة بيانات تحتوي على عدد كبير من المعاملات. تُستخدم خوارزمية Apriori لاكتشاف أنماط مثيرة للاهتمام والعلاقات المتبادلة ، وبالتالي يتم التعامل معها على أنها نهج تعليمي غير خاضع للإشراف. يعتقد أن الخوارزمية عالية الكفاءة ، فهي تستهلك الكثير من الذاكرة ، وتستخدم مساحة كبيرة على القرص وتستغرق الكثير من الوقت.

5. خوارزمية تعظيم التوقع

يتم استخدام تعظيم التوقعات (EM) كخوارزمية تجميع ، تمامًا مثل خوارزمية k-mean لاكتشاف المعرفة. تعمل خوارزمية EM في التكرارات لتحسين فرص رؤية البيانات المرصودة. بعد ذلك ، يقوم بتقدير معلمات النموذج الإحصائي بمتغيرات غير ملحوظة ، وبالتالي إنشاء بعض البيانات المرصودة. تعد خوارزمية تعظيم التوقعات (EM) مرة أخرى تعلمًا غير خاضع للإشراف لأننا نستخدمها دون تقديم أي معلومات عن الفصل الدراسي

6. خوارزمية PageRank

يشيع استخدام PageRank بواسطة محركات البحث مثل Google. إنها خوارزمية تحليل الارتباط التي تحدد الأهمية النسبية لكائن مرتبط داخل شبكة من الكائنات. تحليل الارتباط هو نوع من تحليل الشبكة الذي يستكشف الارتباطات بين الكائنات. يستخدم بحث Google هذه الخوارزمية من خلال فهم الروابط الخلفية بين صفحات الويب.

إنها إحدى الطرق التي يستخدمها Google لتحديد الأهمية النسبية لصفحة الويب وترتيبها أعلى على محرك بحث Google. تعد علامة PageRank التجارية مملوكة لشركة Google وحصلت جامعة ستانفورد على براءة اختراع خوارزمية PageRank. يتم التعامل مع نظام ترتيب الصفحات باعتباره نهجًا تعليميًا غير خاضع للإشراف لأنه يحدد الأهمية النسبية فقط من خلال مراعاة الروابط ولا يتطلب أي مدخلات أخرى.

7. خوارزمية Adaboost

AdaBoost هي خوارزمية تعزيز تستخدم لبناء مصنف. المصنف هو أداة تنقيب عن البيانات تأخذ البيانات وتتنبأ بفئة البيانات بناءً على المدخلات. خوارزمية التعزيز هي خوارزمية تعلم جماعية تدير خوارزميات تعلم متعددة وتجمع بينها.

تأخذ خوارزميات التعزيز مجموعة من المتعلمين الضعفاء وتجمعهم لتكوين متعلم قوي واحد. المتعلم الضعيف يصنف البيانات بدقة أقل. أفضل مثال على الخوارزمية الضعيفة هو خوارزمية جدعة القرار والتي هي أساسًا شجرة قرار من خطوة واحدة. Adaboost هو تعلم خاضع للإشراف مثالي لأنه يعمل في التكرارات وفي كل تكرار ، فهو يدرب المتعلمين الأضعف بمجموعة البيانات المصنفة. Adaboost هي خوارزمية بسيطة ومباشرة جدًا للتنفيذ.

بعد أن يحدد المستخدم عدد الجولات ، فإن كل تكرار متتالي من AdaBoost يعيد تعريف الأوزان لكل من أفضل المتعلمين. هذا يجعل Adaboost طريقة فائقة الأناقة لضبط المصنف تلقائيًا. Adaboost مرن ومتعدد الاستخدامات وأنيق لأنه يمكن أن يتضمن معظم خوارزميات التعلم ويمكن أن يأخذ مجموعة كبيرة ومتنوعة من البيانات.

قراءة: الأمثلة الأكثر شيوعًا للتنقيب في البيانات

8. خوارزمية kNN

kNN هي خوارزمية تعلم كسول تستخدم كخوارزمية تصنيف. لن يفعل المتعلم الكسول أي شيء أثناء عملية التدريب باستثناء تخزين بيانات التدريب. يبدأ المتعلمون الكسالى في التصنيف فقط عندما يتم تقديم بيانات جديدة غير مسماة كمدخلات. من ناحية أخرى ، فإن C4.5 و SVN و Adaboost هم متعلمون شغوفون يبدأون في بناء نموذج التصنيف أثناء التدريب نفسه. نظرًا لأنه يتم إعطاء kNN مجموعة بيانات تدريب مصنفة ، يتم التعامل معها كخوارزمية تعلم خاضعة للإشراف.

9. خوارزمية بايز ساذجة

لا تعد Naive Bayes خوارزمية واحدة على الرغم من أنه يمكن رؤيتها تعمل بكفاءة كخوارزمية واحدة. Naive Bayes عبارة عن مجموعة من خوارزميات التصنيف مجتمعة. الافتراض الذي تستخدمه عائلة الخوارزميات هو أن كل سمة من سمات البيانات التي يتم تصنيفها مستقلة عن جميع الميزات الأخرى المقدمة في الفصل. يتم تزويد Naive Bayes بمجموعة بيانات تدريب مصنفة لإنشاء الجداول. لذلك يتم التعامل معها على أنها خوارزمية تعلم خاضعة للإشراف.

شهادة متقدمة في علوم البيانات ، أكثر من 250 شريك توظيف ، أكثر من 300 ساعة من التعلم ، 0٪ EMI

10. خوارزمية CART

يرمز CART إلى أشجار التصنيف والانحدار. إنها خوارزمية تعلم شجرة القرار التي تعطي أشجار الانحدار أو التصنيف كمخرجات. في CART ، سيكون لعقد شجرة القرار فرعين على وجه التحديد. تمامًا مثل C4.5 ، يعد CART أيضًا مصنفًا. يتم إنشاء نموذج شجرة الانحدار أو التصنيف باستخدام مجموعة بيانات تدريبية معنونة يقدمها المستخدم. ومن ثم يتم التعامل معها على أنها تقنية تعلم خاضعة للإشراف

خاتمة

إذن فهذه هي أهم 10 بيانات من قائمة خوارزميات استخراج البيانات. نأمل أن يلقي هذا المقال بعض الضوء على أساس هذه الخوارزميات.

إذا كنت مهتمًا بمعرفة المزيد عن علوم البيانات ، فراجع IIIT-B و upGrad's Executive PG Program in Data Science المصمم للمهنيين العاملين لتحسين مهاراتهم دون ترك وظائفهم. تقدم الدورة التدريبية وجهًا لوجه مع مرشدين في الصناعة وخيار Easy EMI وحالة خريجي IIIT-B وغير ذلك الكثير. تحقق من لمعرفة المزيد.

ما هي حدود استخدام خوارزمية CART لاستخراج البيانات؟

ليس هناك شك في أن CART هي من بين أفضل خوارزميات التنقيب عن البيانات المستخدمة ولكن لها بعض العيوب. يصبح هيكل الشجرة غير مستقر في حالة حدوث تغيير طفيف في مجموعة البيانات ، مما يتسبب في تباين بسبب البنية غير المستقرة. إذا لم تكن الفصول الدراسية متوازنة ، فسيتم إنشاء الأشجار غير الملائمة بواسطة متعلمي شجرة القرار. لهذا السبب ، يوصى بشدة بموازنة مجموعة البيانات قبل ملاءمتها بشجرة القرار.

ماذا تعني كلمة "K" بالضبط في خوارزمية k-mean؟

أثناء استخدام خوارزمية k-mean لعملية التنقيب عن البيانات ، سيتعين عليك العثور على رقم مستهدف وهو "k" وهو عدد النقط الوسطى التي تحتاجها في مجموعة البيانات. في الواقع ، تحاول هذه الخوارزمية تجميع بعض النقاط غير المسماة في عدد 'k' من المجموعات. لذلك ، تشير "k" إلى عدد المجموعات التي تحتاجها في النهاية.

في خوارزمية KNN ، ما المقصود بالنقص المناسب؟

كما يوحي الاسم ، يعني عدم الملائمة عندما يكون النموذج غير مناسب أو بعبارة أخرى ، غير قادر على التنبؤ بالبيانات بدقة. يعتمد التجاوز أو النقصان على قيمة "K" التي تختارها. يؤدي اختيار قيم صغيرة لـ "K" في حالة وجود مجموعة بيانات كبيرة إلى زيادة فرصة التخصيص الزائد.