أهم 10 أفكار لمشاريع مجموعات بيانات تعلم الآلة للمبتدئين [2022]

نشرت: 2021-01-04

يعد العثور على مجموعات بيانات التعلم الآلي أمرًا عنيدًا بالفعل ، ولكن لا يجب أن يكون كذلك! في هذه المقالة ، شاركنا مجموعات بيانات متعددة يمكنك استخدامها لمشاريع التعلم الآلي. لقد شاركنا أيضًا تفاصيل حول ما تحتويه كل مجموعة بيانات بالإضافة إلى ارتباط إليها. تتضمن قائمتنا مجموعات بيانات من مجالات مختلفة وأحجام مختلفة حتى تتمكن من اختيار واحدة وفقًا لاهتماماتك وخبراتك.

بصرف النظر عن ذلك ، فقد شاركنا أفكار مشروع لمجموعات بيانات مختلفة أيضًا حتى تتمكن من بدء العمل في مشروع على الفور. سيساعدك العمل في المشاريع على اختبار معرفتك بخوارزميات التعلم الآلي. هيا بنا نبدأ:

جدول المحتويات

أفكار مشاريع مجموعات بيانات تعلم الآلة

1. مجموعة بيانات البريد الإلكتروني لشركة Enron

تحتوي مجموعة البيانات هذه على حوالي 5،00،000 بريد إلكتروني لأكثر من 150 مستخدم. كل رسائل البريد الإلكتروني هذه تخص شركة تسمى Enron ، ومعظم رسائل البريد الإلكتروني الموجودة في مجموعة البيانات هذه من فريق الإدارة العليا. إذا كنت ترغب في العمل في مشروع معالجة اللغة الطبيعية ، فعليك أن تبدأ من هنا.

تحظى مجموعة بيانات البريد الإلكتروني الخاصة بشركة Enron بشعبية كبيرة لمشاريع البرمجة اللغوية العصبية ، وستتعلم الكثير من ذلك. يمكنك إنشاء نموذج تجميع للوسائل K واستخدامها لتحديد أي أنشطة احتيالية من خلال نصوص رسائل البريد الإلكتروني. K-mean clustering عبارة عن خوارزمية ML غير خاضعة للإشراف وتفصل العناصر إلى مقدار k من المجموعات وفقًا لأوجه التشابه بينها.

ارتباط بمجموعة البيانات

2. مجموعة بيانات صورة فليكر

Flickr هي خدمة استضافة للصور مع ملايين المستخدمين حول العالم. تحتوي مجموعة البيانات هذه على 30000 صورة مع تسميات توضيحية مختلفة. يمكنك استخدام مجموعة البيانات هذه لإنشاء منشئ تسميات توضيحية للصور. مجموعة البيانات هذه مشهورة جدًا بتحليل الصور ووصف الصورة من خلال النص.

يمكنك إنشاء نموذج CNN (شبكة عصبية تلافيفية) يقوم بتحليل الصور وإنشاء تسمية توضيحية وفقًا للميزات التي تحددها في صورة معينة. يمكنك تدريب النموذج من خلال آلاف التعليقات المتوفرة في مجموعة البيانات. يمنحك إنشاء منشئ التسميات التوضيحية خبرة كبيرة في تعلم أعمال تحليل الصور وكيف يمكنك استخدامها في حالات العالم الحقيقي.

ارتباط بمجموعة البيانات

3. مجموعة بيانات Iris (مستوى المبتدئين)

إذا لم تكن قد عملت في مشروع تعلم الآلة من قبل ، فعليك أن تبدأ من هنا. مجموعة بيانات Iris هي خيار شائع بين طلاب ML بسبب بساطتها وحجمها. يحتوي على معلومات عن الأنواع الثلاثة من القزحية (زهرة) مثل حجمها الكباري والبتلة.

اسم آخر لمجموعة البيانات هذه هو مجموعة بيانات قزحية فيشر بسبب أصلها. استخدم رونالد فيشر مجموعة البيانات هذه في ورقته البحثية عام 1936.

تحتوي مجموعة بيانات Iris على أربعة أعمدة تحتوي على 150 صفًا. يمكنك إنشاء نموذج تصنيف باستخدام مجموعة البيانات هذه. يفصل نموذج التصنيف العناصر إلى فئات مختلفة وفقًا لسماتها ، ويمكن أن يساعدك إنشاء واحدة في معرفة الفرق بين التعلم غير الخاضع للإشراف والتعلم الخاضع للإشراف أيضًا.

ارتباط بمجموعة البيانات

4. مجموعة بيانات مرض باركنسون

يمكن الوصول إلى مجموعة بيانات مرض باركنسون بين الطلاب الذين يرغبون في استخدام التعلم الآلي في المجال الطبي. وهي من بين أفضل مجموعات البيانات لمشاريع التعلم الآلي للقطاع الطبي حيث تحتوي على 195 حالة إلى جانب 23 سمة.

مرض باركنسون هو اضطراب يصيب الجهاز العصبي ويؤثر على الحركة الأساسية. تعد الحركة البطيئة وفقدان التوازن والتصلب من أبرز أعراض هذا المرض. يمكنك استخدام مجموعة البيانات هذه لإنشاء نموذج يفصل المرضى عن الأشخاص الأصحاء من خلال تحليل أعراضهم وصفاتهم لتحديد ما إذا كانوا مصابين بمرض باركنسون أم لا.

أصبح استخدام التعلم الآلي في قطاع الرعاية الصحية أكثر شيوعًا كل يوم. لذلك إذا كنت مهتمًا باستخدام خبرتك في التعلم الآلي في هذا القطاع ، فيجب أن تبدأ من هنا. يمكنك أن تستلهم من هذه التطبيقات للتعلم الآلي في مجال الرعاية الصحية .

ارتباط بمجموعة البيانات

5. مجموعة بيانات عملاء المول

تحتوي مجموعة البيانات هذه على معلومات حول الأشخاص الذين يزورون مركزًا تجاريًا. يحتوي على متغيرات متعددة مثل معرفات العملاء والدخل السنوي والأعمار ودرجات الإنفاق والجنس. قسمت مجموعة البيانات العملاء إلى فئات مختلفة وفقًا لسلوكياتهم وميولهم.

يمكنك استخدام مجموعة البيانات هذه لإنشاء نموذج تصنيف يفصل العملاء وفقًا لجنسهم أو درجة الإنفاق أو الدخل السنوي. تعد مجموعة البيانات هذه مثالية لمشروع تقسيم العملاء ، وهو تطبيق شائع للذكاء الاصطناعي والتعلم الآلي في الأعمال التجارية.

تستخدم الشركات تقسيم العملاء لابتكار استراتيجيات تسويقية وتحسين إعلاناتها. سيساعدك العمل في هذا المشروع في فهم كيفية استخدام خوارزميات التعلم الآلي لتقسيم العملاء بدقة.

ارتباط بمجموعة البيانات

قراءة : أفكار مشروع بايثون

6. مجموعة بيانات Uber Rides

هذا من بين أفضل مجموعات بيانات التعلم الآلي لمشاريع التصور. تحتوي مجموعة بيانات Uber Rides على معلومات حول رحلات uber التي تمت بين أبريل 2014 وسبتمبر 2014. تم إجراء حوالي 4.5 مليون رحلة في ذلك الوقت ، لذا فإن مجموعة البيانات ضخمة جدًا. تحتوي مجموعة البيانات على معلومات عن المواقع المتعلقة بتلك الرحلات وغيرها من البيانات ذات الصلة.

يمكنك استخدام البيانات الموجودة في مجموعة البيانات هذه لإنشاء تصور جميل للبيانات. تساعد تصورات البيانات في اكتساب رؤى قيمة من مجموعات كبيرة من البيانات. بصرف النظر عن ذلك ، تساعد تصورات البيانات في اتخاذ قرارات أفضل وفقًا للرؤى المكشوفة. يمكنك أن تستلهم من مشاريع تصور البيانات هذه لتبدأ.

ارتباط بمجموعة البيانات

7. اتجاهات جوجل وبياناتها

Google Trends هي أداة تسمح لك بتحليل عمليات بحث Google والعثور على الموضوعات الشائعة التي يبحث عنها الأشخاص في Google. إنها أداة مجانية لكنها قوية ويمكن أن توفر لك الكثير من البيانات حول أنماط واتجاهات بحث الأشخاص.

تتيح لك Google Trends العثور على عدد عمليات البحث عن كلمة رئيسية معينة والمصطلحات ذات الصلة التي تم إجراؤها لفترة زمنية محددة. يمكنك أيضًا استخدامه للحصول على بيانات خاصة بمجموعة سكانية.

إذا كنت تخطط لاستخدام التعلم الآلي لتحليل البيانات ، فهذه مجموعة بيانات هائلة للبدء. يمكنك الحصول على أكبر قدر من البيانات التي تريدها حول أي موضوع تريده. تعد Google Trends ممتازة للمبتدئين الذين لم يعملوا في العديد من مشاريع التعلم الآلي.

ارتباط بمجموعة البيانات

8. مجموعة البيانات الحركية

إذا كنت مهتمًا باستخدام الذكاء الاصطناعي للتعرف على التفاعلات البشرية ، فهذه هي مجموعة البيانات المناسبة لك. يعد تحليل تصرفات الإنسان وتفاعلاته جزءًا حيويًا من رؤية الكمبيوتر ، وهو مجال الذكاء الاصطناعي الذي يدرس الصور ومقاطع الفيديو. سيساعدك أن تصبح بارعًا في رؤية الكمبيوتر في العمل على تحديد الأشياء والتعرف على الوجه والتطبيقات الأخرى ذات الصلة.

تحتوي مجموعة البيانات هذه على ما يقرب من 650 ألف مقطع فيديو لها تفاعلات بشرية-بشرية (مثل العناق والمصافحة) بالإضافة إلى تفاعلات الكائن البشري (مثل العزف على الجيتار). يحتوي على 700 فئة حركة حيث يحتوي كل فصل على 600 مقطع على الأقل. يحتوي كل مقطع على تعليق توضيحي بشري إلى جانب فصل دراسي واحد. تبلغ مدة كل مقطع فيديو في مجموعة البيانات هذه حوالي 10 ثوانٍ.

ارتباط بمجموعة البيانات

قراءة: أفكار مشروع التعلم الآلي

9. بيانات GTSRB

يرمز GTSRB إلى المعيار القياسي للتعرف على إشارات المرور الألمانية ، وهو مشروع رائع لإجراء تصنيف متعدد الطبقات. تحتوي مجموعة البيانات هذه على أكثر من 50 ألف صورة مع معلومات عنها. تحتوي مجموعة البيانات أيضًا على 40 فئة ، وأحداث إشارات المرور الحقيقية في مجموعة البيانات هذه فريدة بداخلها.

إنها من بين أفضل مجموعات البيانات لمشاريع التعلم الآلي عندما تفكر في حالات استخدامها. يمكنك دراسة تصنيف الصور وإنشاء إطار عمل لتصنيف إشارات المرور المختلفة.

يمكن أن يكون تصنيف إشارات المرور جزءًا مهمًا من مركبة ذاتية القيادة (سيارة ذاتية القيادة) ، لذلك إذا كنت مهتمًا بتطبيقات الذكاء الاصطناعي في قطاع السيارات ، فيجب أن تعمل في هذا المشروع.

يمكنك البدء بقسم صغير من مجموعة البيانات هذه إذا لم تكن لديك خبرة كبيرة في العمل على مشروعات تعلم الآلة.

ارتباط بمجموعة البيانات

10. مجموعة بيانات منازل بوسطن

تعد Boston Housing Dataset من بين مجموعات البيانات الأكثر شيوعًا لمشاريع التعلم الآلي. إنها مناسبة لمشاريع التعرف على الأنماط وهي طريقة رائعة لممارسة معرفتك بتعلم الآلة. تحتوي مجموعة البيانات هذه على معلومات دائرة التعداد الأمريكية التي جمعت معلومات عن المساكن في منطقة بوسطن الجماعية ولديها حوالي 500 حالة. في مجموعة البيانات ، هناك 14 متغيرًا ، بما في ذلك معدل الجريمة للفرد ، ومتوسط ​​عدد الغرف في المنزل ، وغيرها.

نظرًا لوجود عدد قليل جدًا من الحالات (506 على وجه الدقة) ، فهي مناسبة لمتخصصي التعلم الآلي والطلاب الجدد. يمكنك استخدام مجموعة البيانات هذه لإنشاء نموذج يتنبأ بأسعار المنازل في تلك المنطقة وفقًا للبيانات التي وجدتها.

يمكنك تدريب النموذج على أسعار المنازل الموجودة في مجموعة البيانات هذه ثم استخدامه للتنبؤ بالأسعار المستقبلية وفقًا لظروف منطقة معينة. باستخدام مجموعة البيانات هذه ، يمكنك العمل على العديد من أفكار المشاريع المماثلة للانحدار والعقارات.

ارتباط بمجموعة البيانات

حان الوقت للعمل على مشروعات التعلم الآلي

الآن بعد أن أصبح لديك قائمة واسعة من مجموعات البيانات لمشاريع التعلم الآلي ، يمكنك الآن البدء في العمل على واحدة. نأمل أن تكون قد وجدت هذه القائمة مفيدة.

إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.

ما هي مجموعات البيانات في التعلم الآلي؟

في التعلم الآلي واستخراج البيانات ، تكون مجموعة البيانات عبارة عن مجموعة من الأمثلة. إنها مجموعة مصنفة من الأمثلة المستخدمة في التعلم الآلي أو لتطبيق الأساليب الإحصائية. يمكن أن يكون المثال ملاحظة واحدة أو مجموعة كاملة من الملاحظات. من الأسهل دائمًا تحديد الأنماط في مجموعة البيانات. البيانات عبارة عن مجموعة من الأمثلة. إنه قلب التعلم الآلي واستخراج البيانات. من الأسهل دائمًا العثور على أنماط في مجموعة البيانات.

ما هي أنواع مجموعات البيانات؟

مجموعات البيانات لها أنواع مختلفة: أ. مجموعات بيانات السلاسل الزمنية - تصف مجموعة بيانات من فترة زمنية معينة وتعتبر مجموعة بيانات السلاسل الزمنية. ب. مجموعات البيانات ذات المقطع العرضي - تصف مجموعات البيانات التي هي مجموعة من الملاحظات من عناصر مختلفة ولكنها متشابهة في نفس الفترة الزمنية. ج. مجموعات البيانات المختلطة - يصف هذا مجموعات البيانات التي هي مزيج من السلاسل الزمنية ومجموعة البيانات عبر القطاعات. د. مجموعات بيانات المكونات - تصف مجموعة من مجموعات البيانات التي تُستخدم لحل مشكلة معينة. ه. مجموعات بيانات المعاملات تصف مجموعة من مجموعات البيانات التي تُستخدم للعثور على الأنماط والارتباطات والعلاقات بين الكيانات المختلفة. F. مجموعات بيانات الرسم البياني - تصف مجموعة من مجموعة البيانات التي تُستخدم لرسم رسم بياني أو تعيين العناصر في الشبكة.

ما المقصود بتدريب مجموعات البيانات واختبارها في التعلم الآلي؟

مجموعة بيانات التدريب هي مجموعة الأمثلة المستخدمة لتدريب نموذج. تُستخدم مجموعة البيانات هذه لبناء دالة رياضية أو نموذج f (x) الذي يرسم بيانات الإدخال x لإخراج y. تختلف مجموعات بيانات الاختبار عن مجموعة بيانات التدريب. مجموعة بيانات الاختبار عبارة عن مجموعة من الأمثلة غير المستخدمة لتدريب المصنف المستخدم لتقييم أداء المصنف. نظرًا لأنه تم تدريب المصنف على أمثلة التدريب ، فإن أداء المصنف على مجموعة بيانات الاختبار غير معروف تمامًا.