أهم 9 خوارزميات لعلوم البيانات يجب على كل عالم بيانات معرفتها

نشرت: 2020-02-13

الخوارزمية عبارة عن مجموعة من القواعد أو التعليمات التي يتبعها برنامج كمبيوتر لتنفيذ العمليات الحسابية أو أداء وظائف أخرى لحل المشكلات. نظرًا لأن علم البيانات يدور حول استخراج معلومات مفيدة لمجموعات البيانات ، فهناك عدد لا يحصى من الخوارزميات المتاحة لحل الغرض.

يمكن أن تساعد خوارزميات علوم البيانات في تصنيف الافتراضات والتنبؤ بها وتحليلها واكتشافها وما إلى ذلك. وتشكل الخوارزميات أيضًا أساس مكتبات التعلم الآلي مثل scikit-Learn. لذلك ، من المفيد أن يكون لديك فهم قوي لما يجري تحت السطح.

تعلم برامج علوم البيانات من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

قراءة: خوارزميات التعلم الآلي لعلوم البيانات

جدول المحتويات

خوارزميات علوم البيانات شائعة الاستخدام

1. التصنيف

يتم استخدامه لمتغيرات الهدف المنفصلة ، ويكون الناتج في شكل فئات. التجميع والارتباط وشجرة القرار هي الطريقة التي يمكن بها معالجة بيانات الإدخال للتنبؤ بالنتيجة. على سبيل المثال ، قد يتم تصنيف مريض جديد على أنه "مريض" أو "صحي" باستخدام نموذج التصنيف.

2. الانحدار

يستخدم الانحدار للتنبؤ بمتغير مستهدف وكذلك لقياس العلاقة بين المتغيرات المستهدفة المستمرة بطبيعتها. إنها طريقة مباشرة لرسم "الخط الأنسب" على قطعة أرض لميزة واحدة أو مجموعة من الميزات ، على سبيل المثال x ، والمتغير الهدف ، y.

يمكن استخدام الانحدار لتقدير كمية الأمطار بناءً على الارتباط السابق بين بارامترات الغلاف الجوي المختلفة. مثال آخر هو توقع سعر المنزل بناءً على ميزات مثل المنطقة والمكان والعمر وما إلى ذلك.

دعونا نفهم الآن إحدى اللبنات الأساسية لخوارزميات علم البيانات - الانحدار الخطي.

3. الانحدار الخطي

يمكن إعطاء المعادلة الخطية لمجموعة البيانات ذات السمات N على النحو التالي: y = b 0 + b 1 .x 1 + b 2 .x 2 + b 3 .x 3 + ... ..b n .x n ، حيث تكون b 0 هي بعض ثابت.

بالنسبة للبيانات أحادية المتغير (y = b 0 + b 1 .x) ، الهدف هو تقليل الخسارة أو الخطأ إلى أصغر قيمة ممكنة للمتغير المرتجع. هذا هو الغرض الأساسي من دالة التكلفة. إذا افترضت أن b 0 يساوي صفرًا وأدخلت قيمًا مختلفة لـ b 1 ، فستجد أن دالة تكلفة الانحدار الخطي محدبة الشكل.

تساعد الأدوات الرياضية في تحسين المعلمتين ، b 0 و b 1 ، وتقليل دالة التكلفة. واحد منهم يناقش على النحو التالي.

4. طريقة المربعات الصغرى

في الحالة أعلاه ، b 1 هو وزن x أو ميل الخط ، و b 0 هو التقاطع. علاوة على ذلك ، فإن جميع القيم المتوقعة لـ y تقع على الخط. وتسعى طريقة المربعات الصغرى إلى تقليل المسافة بين كل نقطة ، على سبيل المثال (x i ، y i ) ، القيم المتوقعة.

لحساب قيمة b 0 ، أوجد متوسط ​​جميع قيم x i وضربها في b 1 . ثم اطرح حاصل الضرب من المتوسط ​​لكل y i . أيضًا ، يمكنك تشغيل رمز في Python بقيمة b 1 . ستكون هذه القيم جاهزة للتوصيل بوظيفة التكلفة ، وسيتم تقليل قيمة الإرجاع إلى أدنى حد للخسائر والأخطاء. على سبيل المثال ، بالنسبة إلى b 0 = -34.671 و b 1 = 9.102 ، ستُرجع دالة التكلفة بالشكل 21.801.

5. نزول متدرج

عندما تكون هناك ميزات متعددة ، كما هو الحال في حالة الانحدار المتعدد ، يتم التعامل مع الحساب المعقد بطرق مثل النسب المتدرج. إنها خوارزمية تحسين تكرارية مطبقة لتحديد الحد الأدنى المحلي لوظيفة ما. تبدأ العملية بأخذ قيمة أولية لـ b 0 و b 1 وتستمر حتى يصبح ميل دالة التكلفة صفرًا.

لنفترض أن عليك الذهاب إلى بحيرة تقع في أدنى نقطة في الجبل. إذا كانت الرؤية لديك معدومة وكنت واقفًا على قمة الجبل ، فستبدأ من نقطة تميل فيها الأرض إلى النزول. بعد اتخاذ الخطوة الأولى واتباع مسار الهبوط ، من المحتمل أن تصل إلى البحيرة.

في حين أن وظيفة التكلفة هي أداة تسمح لنا بتقييم المعلمات ، فإن خوارزمية نزول التدرج يمكن أن تساعد في تحديث معلمات النموذج والتدريب عليها. الآن ، دعنا نلقي نظرة عامة على بعض الخوارزميات الأخرى لعلوم البيانات.

6. الانحدار اللوجستي

في حين أن تنبؤات الانحدار الخطي هي قيم مستمرة ، فإن الانحدار اللوجستي يعطي تنبؤات منفصلة أو ثنائية. بمعنى آخر ، تنتمي النتائج في المخرجات إلى فئتين بعد تطبيق دالة التحويل. على سبيل المثال ، يمكن استخدام الانحدار اللوجستي للتنبؤ بما إذا كان الطالب قد نجح أو فشل أو ما إذا كانت ستمطر أم لا. اقرأ المزيد عن الانحدار اللوجستي.

7. K- يعني العنقدة

إنها خوارزمية تكرارية تقوم بتعيين نقاط بيانات مماثلة في مجموعات. للقيام بالشيء نفسه ، فإنه يحسب النقطتين الوسطى من مجموعات k ويجمع البيانات على أساس أقل مسافة من النقطه الوسطى. تعرف على المزيد حول تحليل الكتلة في استخراج البيانات.

8. K- أقرب الجار (KNN)

تمر خوارزمية KNN عبر مجموعة البيانات بأكملها للعثور على أقرب مثيلات k عندما تكون النتيجة مطلوبة لمثيل بيانات جديد. يحدد المستخدم قيمة k المراد استخدامها.

9. تحليل المكونات الرئيسية (PCA)

تقلل خوارزمية PCA من عدد المتغيرات من خلال التقاط أقصى تباين في البيانات في نظام جديد من "المكونات الرئيسية". هذا يجعل من السهل استكشاف البيانات وتصورها.

تغليف

يمكن أن تكون معرفة خوارزميات علوم البيانات الموضحة أعلاه مفيدة للغاية إذا كنت قد بدأت للتو في هذا المجال. يمكن أن يكون فهم التفاصيل الدقيقة مفيدًا أيضًا أثناء أداء وظائف علم البيانات اليومية.

إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع برنامج IIIT-B & upGrad التنفيذي PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1 - على - 1 مع موجهين في الصناعة ، أكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

ما هي بعض النقاط التي يجب أن نأخذها في الاعتبار قبل اختيار خوارزمية علوم البيانات لـ ML؟

تحقق من الخطية أسهل طريقة للقيام بذلك هي ملاءمة خط مستقيم أو إجراء انحدار لوجستي أو SVM والبحث عن الأخطاء المتبقية. يشير الخطأ الأكبر إلى أن البيانات ليست خطية وأن التقنيات المعقدة مطلوبة لتلائمها.

تعد خوارزميات الانحدار الساذجة والخطية واللوجيستية سهلة الإنشاء والتنفيذ. تتطلب SVM ، الذي يتطلب تعديل المعلمات ، والشبكات العصبية ذات وقت التقارب السريع ، والغابات العشوائية قدرًا كبيرًا من الوقت لتدريب البيانات. نتيجة لذلك ، حدد اختيارك بناءً على وتيرتك المفضلة.

لإنشاء تنبؤات جديرة بالثقة ، يوصى عادةً بجمع كمية كبيرة من البيانات. ومع ذلك ، فإن توافر البيانات كثيرا ما يمثل مشكلة. إذا كانت بيانات التدريب مقيدة أو كانت مجموعة البيانات تحتوي على عدد أقل من الملاحظات وعدد أكبر من الميزات ، مثل الجينات أو البيانات النصية ، فاستخدم الخوارزميات ذات التحيز العالي / التباين المنخفض ، مثل الانحدار الخطي أو SVM الخطي.

ما هي الخوارزميات المرنة والمقيدة؟

نظرًا لأنهم ينشئون مجموعة متنوعة محدودة من أشكال وظائف التعيين ، يُقال إن بعض الخوارزميات مقيدة. الانحدار الخطي ، على سبيل المثال ، هو أسلوب محدود لأنه يمكنه فقط إنشاء وظائف خطية مثل الخطوط.

يقال إن بعض الخوارزميات مرنة لأنها يمكن أن تخلق نطاقًا أكبر من أشكال وظائف التعيين. KNN مع k = 1 متعدد الاستخدامات للغاية ، على سبيل المثال ، لأنه يأخذ في الاعتبار كل نقطة بيانات إدخال أثناء إنشاء وظيفة إخراج التعيين.

إذا كانت الوظيفة قادرة على التنبؤ بقيمة استجابة لملاحظة معينة قريبة من قيمة الاستجابة الحقيقية ، فإن هذا يوصف بأنه دقته. إن الأسلوب القابل للتفسير بدرجة كبيرة (النماذج التقييدية مثل الانحدار الخطي) يعني أنه يمكن فهم كل متنبئ فردي ، بينما تعطي النماذج المرنة دقة أعلى على حساب القابلية المنخفضة للتفسير.

ما هي خوارزمية Naive Bayes؟

إنها خوارزمية تصنيف تعتمد على نظرية بايز وافتراض استقلالية المتنبئ. بعبارات بسيطة ، ينص مصنف Naive Bayes على أن وجود ميزة واحدة في فئة لا علاقة لها بوجود أي ميزة أخرى. نموذج Naive Bayes سهل البناء ومفيد بشكل خاص لمجموعات البيانات الكبيرة. بسبب بساطتها ، تشتهر Naive Bayes بهزيمة حتى أقوى خوارزميات التصنيف.