أفضل مجموعات البيانات لمشاريع التعلم الآلي: كل ما تحتاج إلى معرفته

نشرت: 2020-03-20

جدول المحتويات

مقدمة
ما هو التعلم الآلي؟
- فئات التعلم الآلي
  - التعلم تحت الإشراف
  - تعليم غير مشرف عليه
  - تعزيز التعلم
ما هي مجموعات البيانات للتعلم الآلي؟
- 1. مجموعة بيانات التدريب
- 2. مجموعة بيانات التحقق من الصحة
- 3. اختبار مجموعة البيانات
تحضير مجموعات البيانات للتعلم الآلي
- جمع البيانات
- معالجة البيانات
  - تنسيق
  - تنظيف
  - أخذ العينات
- هندسة الميزات
- تقسيم البيانات
مجموعات بيانات التعلم الآلي عبر الإنترنت
خاتمة
ما هي مجموعة البيانات للتعلم الآلي؟
ما هي مجموعة بيانات التحقق في التعلم الآلي؟
ما هي بعض مجموعات البيانات الشائعة المستخدمة في التعلم الآلي؟

مقدمة

يعد التعلم الآلي من أقوى التقنيات المستخدمة اليوم. إنه فرع مهم جدًا من الذكاء الاصطناعي يستخدم في جعل أجهزة الكمبيوتر أكثر ذكاءً - مما يمنحها القدرة على التعلم دون تدخل بشري. هذا يجعل التعلم الآلي أداة حيوية للتعامل مع البيانات. نظرًا لاستخدام البيانات حرفيًا في كل مكان ، بدءًا من اتخاذ القرارات التجارية وحتى تنسيق تجارب العملاء ، فإن التعلم الآلي يجعل من السهل تحديد الأنماط المخفية داخل هذه المجموعات الضخمة من البيانات.

الأهم من ذلك ، أن مجموعات البيانات هذه هي طريقة لتنظيم أجزاء ضخمة من البيانات الأولية. باستخدام مجموعات البيانات هذه ، تتم كتابة البرامج لإنشاء تطبيقات تجعل العمليات التجارية أسهل. في هذه المقالة ، نتعرف على مجموعات البيانات المختلفة للتعلم الآلي .

ولكن قبل الدخول في ذلك ، دعونا أولاً نفهم أساسيات التعلم الآلي.

ما هو التعلم الآلي؟

التعلم الآلي مسؤول عن تشغيل أكثر الأنظمة الأساسية المفضلة لديك مثل Netflix و Facebook و Twitter و YouTube و Spotify و Google و Baidu. حتى المساعدين الصوتيين مثل Alexa و Siri يختارون الأغاني المفضلة لديك لاستخدام التعلم الآلي! تحاول كل هذه الأنظمة الأساسية استخدام البيانات المرتبطة بك. يتضمن ذلك عمليات البحث والنقرات وآرائك والصور التي تشاركها والتعليقات وردود الفعل والمشاركات. تعرف على المزيد حول أفضل تطبيقات التعلم الآلي.

يستفيد التعلم الآلي من هذه البيانات للحصول على فكرة عن تفضيلاتك. على سبيل المثال ، يستخدمه Netflix لاقتراح مسلسل تلفزيوني قد تستمتع بمشاهدته ، بناءً على المسلسل الذي شاهدته. حتى الأنظمة الأساسية مثل Amazon تستخدم التعلم الآلي لاقتراح منتجاتك ، بناءً على سجل الشراء السابق.

الجزء الأبرز في سوق التعلم الآلي هو التعلم العميق الذي قد يصل إلى مليار بحلول عام 2025.

يبدو مثيرا للإهتمام؟ دعونا ندخل في تفاصيل الموضوع.

فئات التعلم الآلي

ينقسم التعلم الآلي على نطاق واسع إلى ثلاثة أقسام - التعلم الخاضع للإشراف ، والتعلم غير الخاضع للإشراف ، والتعلم المعزز .

التعلم تحت الإشراف

في هذه العملية ، سيتعلم الكمبيوتر من مجموعة بيانات تسمى بيانات التدريب . سيتخذ قرارات ويتنبأ بالنتائج المستقبلية بناءً على ذلك. ستتعرف على مجموعات البيانات التدريبية للتعلم الآلي لاحقًا. هنا ، يتم تغذية النظام بأزواج المدخلات والمخرجات ، وأثناء العمل مع هذه الأزواج ، يتعلم كيفية تعيينها معًا. إنه يشبه وجود مجموعة من الأسئلة التي تحتوي على إجابات صحيحة موصوفة لهم.

عندما يتعلم النظام أو الخوارزمية العلاقة بين أزواج المدخلات والمخرجات ، يمكنها التنبؤ بالمخرجات عندما يتم توفير مدخلات جديدة لها. تعرف على المزيد حول أنواع التعلم الخاضع للإشراف.

تعليم غير مشرف عليه

هنا ، يبحث الكمبيوتر في مجموعات البيانات لتحديد الأنماط المخفية دون أي مساعدة. يعمل على المهام المعقدة ويكتشف النتائج من تلقاء نفسه. تعرف على المزيد حول التعلم غير الخاضع للإشراف.

تعزيز التعلم

تستخدم عملية التعلم الآلي هذه طريقة التجربة والخطأ لتحديد حل المشكلة. لذا فإن إخراج البرنامج سيعتمد على المدخلات الحالية المقدمة إليه.

الآن بعد أن أصبح لديك فهم أساسي للتعلم الآلي ، دعنا ننتقل إلى مجموعات البيانات.

ما هي مجموعات البيانات للتعلم الآلي؟

مجموعة البيانات ، كما يوحي الاسم ، هي مجموعة من البيانات . يمكن أن تكون بيانات قاعدة بيانات واحدة ، حيث يتم استخدام متغير لتمثيل الأعمدة. يمكن تمثيل صفوف هذا الجدول بواسطة عضو في مجموعة البيانات هذه.

يعد تحضير مجموعات البيانات للتعلم الآلي أمرًا مهمًا. هذا لأن الخوارزميات لا يمكن أن تعمل بشكل صحيح على البيانات الخام أو غير المهيكلة. مطلوب مجموعة بيانات مناسبة لحل المشاكل والوصول إلى القرارات. على سبيل المثال ، قد لا يحتوي تطبيق الطقس على مجموعة البيانات المناسبة التي تحتوي على البيانات المناخية للأيام أو الأسابيع القليلة الماضية. لذلك ، لن تتمكن من تقديم تنبؤات دقيقة بالطقس للأسبوع المقبل.

وبالتالي ، بدون مجموعات البيانات المناسبة للتعلم الآلي ، لن ينجح مشروع التعلم الآلي حتى مع علماء البيانات المدربين.

تُستخدم مجموعات البيانات الخاصة بالتعلم الآلي في إنشاء نماذج التعلم الآلي . تمثل هذه النماذج مشكلة في العالم الحقيقي باستخدام تعبير رياضي. لإنشاء مثل هذا النموذج ، عليك تزويده بمجموعة بيانات للتعلم والعمل.

فيما يلي أنواع مجموعات البيانات المستخدمة في التعلم الآلي:

1. مجموعة بيانات التدريب

ربما يكون هذا هو الأكثر أهمية بين مجموعات البيانات للتعلم الآلي. يتم تغذيتها إلى خوارزمية التعلم الآلي لإنشاء نموذج. تبحث الخوارزمية عن أنماط البيانات لتحديد متغيرات الإدخال. سيساعدها ذلك في الوصول إلى هدفها النهائي أو المخرجات المرجوة. ناتج مجموعة البيانات هذه عبارة عن نموذج تعلم آلي يمكنك استخدامه للتنبؤ بالنتائج.

حوالي 60٪ من مجموعة البيانات مأخوذة من مجموعة بيانات التدريب.

2. مجموعة بيانات التحقق من الصحة

يتم استخدام مجموعة بيانات التحقق في مرحلة التحقق ، أثناء إنشاء مشروع التعلم الآلي. تأتي هذه المرحلة بعد التدريب مباشرة. تعد مجموعة البيانات هذه مهمة لتقييم نموذج التعلم الآلي. يستخدم مهندسو التعلم الآلي هذه المجموعة لتعديل وضبط المعلمات الفائقة للنموذج. هذه المعلمات الفائقة هي معلمات لها قيم معينة قبل أن يبدأ البرنامج في التعلم.

لا يمكن تقدير قيمهم من البيانات. على سبيل المثال ، يمكن أن تتضمن المعلمات الفائقة عمق شجرة أو عددًا من الطبقات غير المكتشفة في الشبكة العصبية.

وفقًا للكاتبين المشهورين Max Kuhn و Kjell Johnson ، "يجب تقييم نموذج البيانات باستخدام عينات لم تُستخدم في إنشائه أو تعديله. يمنحك هذا نتيجة غير متحيزة لفعالية النموذج. عند العمل بكمية ضخمة من البيانات ، من الأفضل تخصيص بعض عينات البيانات للتقييم. مجموعة التدريب هي العينة المستخدمة لبناء النموذج ، في حين يتم استخدام عينات التحقق والاختبار لتحليل أدائه ".

3. اختبار مجموعة البيانات

تُستخدم مجموعات بيانات الاختبار الخاصة بالتعلم الآلي لفهم كيفية عمل نموذج التعلم الآلي في المستقبل. باستخدام مجموعة البيانات هذه ، ستتمكن من فهم مدى دقة نموذج البيانات الخاص بك. بعبارات بسيطة ، ستخبرك مجموعة البيانات هذه بالمقدار الذي تعلمه نموذج البيانات الخاص بك من مجموعة التدريب.

هذه المجموعات تأخذ 20٪ من البيانات. ستحتوي المجموعة على متغيرات الإدخال جنبًا إلى جنب مع المخرجات التي تم التحقق منها. ومع ذلك ، في مشاريع التعلم الآلي ، لا نستخدم بشكل عام مجموعة بيانات تدريبية في مرحلة الاختبار. وذلك لأن الخوارزمية ستكون على دراية بالمخرجات المتوقعة ، كما تعلمت من مجموعة البيانات هذه سابقًا.

بعد مرحلة الاختبار ، عادة لا يتم تعديل نموذج البيانات بعد الآن. هذا لأن المزيد من التعديل يمكن أن يؤدي إلى فرط التجهيز . يحدث التجاوز عندما يتم تدريب نموذج البيانات على الكثير من البيانات. في هذه الحالة ، يبدأ النموذج في التعلم من إدخالات البيانات غير الدقيقة في مجموعة البيانات المحددة. نتيجة لذلك ، لا يعمل بشكل صحيح على مجموعات البيانات الجديدة. إنها مثل محاولة ارتداء الجينز الضخم عندما لا تستطيع ذلك!

ولكن لكي يعمل نموذج التعلم الآلي بنجاح ، فأنت بحاجة إلى تزويده بمجموعة بيانات جيدة. بدون مجموعات بيانات للتعلم الآلي ، لن تتمكن الخوارزمية من التعلم وحل المشكلات. على سبيل المثال ، عندما لا يكون لديك الكتب والموارد المناسبة ، لا يمكنك إجراء الاختبار الذي تريده.

تحضير مجموعات البيانات للتعلم الآلي

دعنا نتعرف على الخطوات اللازمة لإنشاء مجموعات بيانات للتعلم الآلي .

جمع البيانات

تتمثل الخطوة الأولى في جمع كل البيانات ذات الصلة التي قد تحتاجها لنموذج التعلم الآلي الخاص بك. ستعتمد كمية البيانات على مدى تعقيد مشروع التعلم الآلي . سيتطلب مشروع بسيط بيانات أقل من مشروع معقد. لذا ، فأنت بحاجة إلى تحديد كل ما تحتاجه بالفعل لحل المشكلة المطروحة.

يمكن جمع البيانات بسهولة من خلال الإجابة على الأسئلة التالية:

ما نوع البيانات المتاحة لك للمشروع؟
ما هي البيانات غير المتوفرة التي تحتاجها للمشروع؟ - قد يشمل ذلك بعض قواعد البيانات أو البيانات المخزنة في الأنظمة السحابية. قد تحتاج إلى اشتقاق هذه البيانات.
ما هي البيانات التي يمكنك إزالتها من البيانات الموجودة؟ هذا يعني محو البيانات غير المرغوب فيها التي لا صلة لها بمشروعك.

عندما تكون لديك إجابات على كل هذه الأسئلة ، يمكنك البدء في جمع البيانات من مصادر مختلفة. يمكن أن تكون هذه ملفات نصية ، ملفات .csv ، تبحث في هياكل البيانات المتداخلة في ملفات JSON و XML ومستودعات البيانات.

يمكنك الآن الانتقال إلى الخطوة التالية في إنشاء مجموعات بيانات للتعلم الآلي .

معالجة البيانات

الآن بعد أن أصبح لديك جميع البيانات التي تحتاجها ، عليك معالجتها بشكل صحيح لنموذجك. طريقة المعالجة المسبقة هي تحويل مجموعات البيانات الأولية إلى مجموعات ذات مغزى قابلة للاستخدام. تتكون العملية من ثلاث خطوات أدناه:

تنسيق

لا تكون البيانات الأولية التي جمعتها كثيرًا بتنسيق مناسب لنموذج التعلم الآلي الخاص بك. قد يكون في ملف JSON أو قاعدة بيانات علائقية. تحتاج إلى تحويل هذه البيانات إلى ملف نصي أو ملف .csv حسب راحتك.

تنظيف

هذه هي العملية التي تقوم فيها بإصلاح وإزالة البيانات المفقودة وغير المرغوب فيها من مجموعة البيانات الخاصة بك. قد لا تساعد حالات البيانات هذه في حل المشكلة. بالإضافة إلى ذلك ، قد تكون هناك معلومات حساسة ضمن بعض السمات التي قد تحتاج إلى إخفاءها أو إزالتها تمامًا. هذا يجعل مجموعات البيانات الخاصة بك للتعلم الآلي أكثر فائدة.

أخذ العينات

ربما تكون قد جمعت الكثير من البيانات أكثر مما تحتاجه بالفعل للمشروع. تستهلك مجموعات البيانات الكبيرة مساحة كبيرة من الذاكرة. كما أنها تسبب أوقات تشغيل أطول وحسابات أكثر بكثير عند إدخالها في خوارزمية التعلم الآلي. لتجنب هذه المشاكل ، يجب عليك عمل عينات أصغر من البيانات المحددة التي يمكن أن يستخدمها نموذجك بسهولة. هذه العملية تسمى أخذ العينات .

هندسة الميزات

هنا ، يتم تحليل مجموعة البيانات لتحديد أفضل الميزات والأنماط التي ستساعد في حل المشكلة والتنبؤ. لذلك ، في هذه العملية ، قد تتم إزالة بعض البيانات من مجموعة بيانات كبيرة. يتم التركيز على أهم الميزات التي تناسب النموذج.

يمكن تحليل البيانات إلى أجزاء صغيرة لتحديد السمات الحاسمة. على سبيل المثال ، يمكن تقسيم بيانات المبيعات لسنة معينة إلى شهور وأيام الأسبوع. بهذه الطريقة يكون تحليل أداء المبيعات أسهل وأسرع. يساعد هذا أيضًا خوارزمية التعلم الآلي في الحساب بشكل أسرع.

تقسيم البيانات

الآن يجب تقسيم البيانات إلى ثلاث مجموعات - التدريب والاختبار والتحقق من الصحة. تحتاج إلى تقسيمها إلى 70٪ و 20٪ و 10٪ على التوالي للمجموعات. لإجراء الاختبار المناسب ، تأكد من تحديد مجموعات البيانات الفرعية غير المتداخلة فقط. مجموعات تقسيم البيانات بشكل صحيح للسماح لنموذج التعلم الآلي بالوصول إلى المخرجات المطلوبة بشكل أسرع. يمكنك تحسين نموذج البيانات لاحقًا.

حسنًا ، لقد تعلمت الآن كيفية تنظيم مجموعة بيانات لخوارزمية التعلم الآلي. ولكن ماذا لو كان لديك مشروع قادم ولم يكن لديك الوقت لبناء مجموعة البيانات الخاصة بك؟ بفضل الإنترنت ، هناك العديد من مجموعات البيانات الجاهزة للاستخدام لتختار من بينها.

مجموعات بيانات التعلم الآلي عبر الإنترنت

فيما يلي مجموعات البيانات الأكثر فائدة للتعلم الآلي على الويب:

مجموعة بيانات الإسكان في بوسطن

خيار شائع بين مجموعات البيانات للتعلم الآلي . يتم استخدامه للتعرف على الأنماط. يتكون من معلومات حول منازل بوسطن المختلفة بما في ذلك بيانات مثل عدد الغرف ومعدل الضريبة ومعدل الجريمة في المنطقة. تتكون مجموعة البيانات من 506 صفًا و 14 متغيرًا في أعمدة البيانات ، وهي جيدة للتنبؤ بأسعار المساكن.

مجموعة بيانات باركنسون

تتكون مجموعة البيانات هذه من 195 سجلاً للمرضى ، إلى جانب 23 سمة مختلفة لها قياسات طبية حيوية. يمكنك استخدام مجموعة البيانات لفصل المرضى الأصحاء عن المرضى المصابين بمرض باركنسون.

IMDB

مجموعة بيانات تتكون من 25000 مراجعة للأفلام. يستخدم هذا لتصنيف المشاعر الثنائية.

مقلد- III

هذه مجموعة بيانات متاحة بشكل مفتوح تم إنشاؤها بواسطة مختبر MIT لعلم وظائف الأعضاء الحسابي. يتكون من بيانات صحية لحوالي 40.000 مريض رعاية حرجة. يتم تضمين معلومات مثل الأدوية والاختبارات المعملية والعلامات الحيوية والتركيبة السكانية هنا.

بيركلي ديب درايف BDD100k

يعد Berkeley DeepDrive BDD100k حاليًا أكبر مجموعة بيانات مستخدمة لتطوير برامج التعلم الآلي للسيارات ذاتية القيادة. يحتوي على أكثر من 100000 مقطع فيديو للقيادة في أوقات مختلفة من اليوم في ظروف مناخية مختلفة. تستند البيانات إلى مدينتي نيويورك وسان فرانسيسكو.

مجموعة بيانات Uber Pickups

تحتوي مجموعة البيانات هذه على معلومات حول عمليات التقاط عملاء Uber من أبريل إلى سبتمبر 2014 في نيويورك. يوجد حوالي 4.5 مليون من بيانات العملاء من هذا النوع و 14 مليونًا أخرى من يناير إلى يونيو 2015. يمكنك إجراء تحليل البيانات باستخدام مجموعة البيانات هذه لجمع المزيد من المعلومات حول العملاء. يمكن أن يساعد هذا الشركات على تعزيز أعمالها بشكل كبير.

مجموعة بيانات عملاء المول

يحتوي هذا على معلومات حول الأشخاص الذين يزورون مراكز التسوق. تحتوي مجموعة البيانات على تفاصيل مثل الجنس والعمر ومعرف العميل ودرجة الإنفاق وغير ذلك الكثير. يمكن أن يكون هذا مفيدًا جدًا في التسويق المستهدف. استنادًا إلى بيانات مثل العمر ودرجة الإنفاق ، يمكن للشركات تقسيم العملاء إلى مجموعات. يمكنهم إنشاء تجارب عملاء فريدة لهذه المجموعات.

خاتمة

تمامًا مثل الكلمات والعبارات المناسبة التي تجعل القصيدة تبقى معك لفترة طويلة ، فإن مجموعة البيانات الصحيحة ضرورية لمشروع ناجح. هذا هو السبب في قيام العديد من أفضل الشركات بتعيين مهندسي بيانات لمهمة إنشاء أفضل مجموعة بيانات لنظام معين للتعلم الآلي. لذا خذ وقتك أثناء إعداد مجموعات البيانات الخاصة بك للتعلم الآلي .

إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad's في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهام ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.

ما هي مجموعة البيانات للتعلم الآلي؟

البيانات هي أهم مكون للتعلم الآلي. مجموعة البيانات هي مجموعة من المعلومات التي تُستخدم للتعلم منها. عادة ما تكون مجموعة البيانات من مصدر مختلف عن بيانات التدريب. تُستخدم هذه البيانات لتقييم مدى جودة عمل النموذج. على سبيل المثال ، لتدريب مصنف الصور ، ستستخدم صورًا من مجموعة ImageNet. من الجدير بالذكر أن الصورة قد تكون موجودة في كل من مجموعات بيانات التدريب والاختبار ، ولكن يجب أن تكون في فئات متميزة. استخدام شائع آخر لمجموعات البيانات هو تدريب خوارزمية التعرف على الصور. لتدريب الخوارزمية ، يجب أن يكون لديك عشرة آلاف صورة للقطط وعشرة آلاف صورة للكلاب. ImageNet هي إحدى مجموعات البيانات المستخدمة على نطاق واسع في الصناعة.

ما هي مجموعة بيانات التحقق في التعلم الآلي؟

في التعلم الآلي الخاضع للإشراف ، لدينا مجموعة بيانات التدريب ، والتي تتكون من عينات من المدخلات والمخرجات المرغوبة. مجموعة بيانات التحقق من الصحة هي مجموعة البيانات الثانية ، التي لم يتم تدريب معلمات النموذج / النموذج عليها. يتم تقدير معلمات النموذج / النموذج في مجموعة بيانات التدريب. تُستخدم مجموعة بيانات التحقق من الصحة لتقدير الدقة المتوقعة لنموذج التعلم الخاضع للإشراف على العينات غير المرئية ، أي عينات الاختبار. تُستخدم مجموعة بيانات التحقق لقياس أو تقدير خطأ التعميم لنموذج التعلم الخاضع للإشراف.

ما بعض مجموعات البيانات الشائعة المستخدمة في التعلم الآلي؟

هناك العديد من مجموعات البيانات التي يمكننا استخدامها لتحسين التعلم الآلي. بعضها: دخل الأسرة وبيانات المسح الديموغرافي ، مسح مكتب الإحصاء الأمريكي لأصحاب الأعمال ، أسعار سوق الأسهم ، عمر وجنس المواطنين الأمريكيين ، استخدام الطاقة في الولايات الأمريكية ، النسبة المئوية للمنازل التي تم شراؤها وبيعها واستئجارها ، علامات التجزئة على Twitter ، Facebook الإعجابات والأنشطة الأخرى للأشخاص على Facebook ، ومجموعات بيانات ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ، وحجم الشحن الشهري من الموانئ الرئيسية في الولايات المتحدة ، وما إلى ذلك. هناك العديد من مجموعات البيانات الأخرى التي يمكننا استخدامها للتعلم الآلي.