استكشاف AutoML: أفضل الأدوات المتاحة [ما تحتاج إلى معرفته]

نشرت: 2020-12-07

دورة حياة التعلم الآلي عبارة عن مجموعة من العمليات التي تشمل جمع البيانات وتنظيف البيانات وهندسة الميزات واختيار الميزات وبناء النموذج وضبط المعلمات الفائقة والتحقق من الصحة ونشر النموذج.

بينما يمكن أن يتخذ جمع البيانات العديد من الأشكال مثل الاستطلاعات اليدوية ، أو إدخال البيانات ، أو إلغاء بيانات الويب ، أو البيانات التي تم إنشاؤها أثناء التجربة ، فإن تنظيف البيانات هو المكان الذي يتم فيه تحويل البيانات إلى نموذج قياسي يمكن استخدامه خلال المراحل الأخرى من دورة الحياة .

لقد رحبت الطفرة الأخيرة في التعلم الآلي أيضًا بالعديد من الشركات لاعتماد حل قائم على الذكاء الاصطناعي لمنتجاتها الرئيسية ، وبالتالي ، فقد وصل فصل جديد من AutoML إلى السوق. يمكن أن تكون أداة رائعة لإعداد الحلول المستندة إلى الذكاء الاصطناعي بسرعة ، ولكن لا تزال هناك بعض العوامل المقلقة التي يجب معالجتها.

جدول المحتويات

ما هو AutoML؟

هذه المجموعة من الأدوات هي التي تعمل على أتمتة بعض أجزاء التعلم الآلي والتي تعد في حد ذاتها عملية آلية لتوليد تنبؤات وتصنيفات تؤدي إلى نتائج قابلة للتنفيذ. على الرغم من أنه يمكن فقط أتمتة هندسة الميزات وبناء النماذج ومراحل النشر في بعض الأحيان ، إلا أن معظم أدوات AutoML تدعم خوارزميات متعددة للتعلم الآلي وتقريبًا العديد من مقاييس التقييم.

عند بدء تشغيل مثل هذا النوع من الأدوات ، فإنه يقوم بتشغيل نفس مجموعة البيانات على جميع الخوارزميات ، ويختبر العديد من المقاييس المرتبطة بالمشكلة ، ثم يقدم بطاقة تقرير مفصلة. دعنا نستكشف بعض الأدوات الشهيرة المتوفرة في السوق والمستخدمة على نطاق واسع.

H2O.ai

أحد الحلول الرائدة في AutoML هو H2O.ai الذي يقدم حلولًا جاهزة للصناعة لمشاكل الأعمال التي لا ترميز أي شيء من البداية. يسمح هذا لأي شخص من أي مجال باستخراج رؤى ذات مغزى من البيانات دون الحاجة إلى خبرة في التعلم الآلي.

H2O هو مصدر مفتوح يدعم جميع نماذج التعلم الآلي المستخدمة على نطاق واسع والأساليب الإحصائية. تم تصميمه لتقديم حلول سريعة للعشاء حيث يتم توزيع البيانات عبر مجموعات ثم تخزينها في تنسيق عمودي في الذاكرة ، مما يسمح بعمليات القراءة المتوازية.

تحتوي الإصدارات الأحدث من هذا المشروع أيضًا على دعم GPU ، مما يجعله أكثر سرعة وكفاءة. لنلقِ نظرة على كيفية إجراء ذلك باستخدام Python (قم بتشغيل الكود في دفتر jupyter لفهم أفضل):

! pip install h2o # قم بتشغيل هذا إذا لم تكن قد قمت بتثبيته

استيراد h2o

h2o.init ()

من h2o.automl استيراد H2OAutoML

df = h2o.import_file () # قدم هنا مسار الملف

ص = 'target_label'

س = إزالة df (ص)

X_train، X_test، X_validate = df.split_frame (النسب = [. 7، .15])

model_obj = H2OAutoML (max_models = 10 ، بذرة = 10 ، الإسهاب = "info" ، nfolds = 0)

model_obj.train (x = x، y = y، training_frame = X_train، validation_frame = X_validate)

النتائج = model_obj.leaderboard

سيؤدي ذلك إلى تخزين نتائج جميع الخوارزميات التي تعرض المقاييس الخاصة بكل منها اعتمادًا على المشكلة.

قراءة: أدوات التعلم الآلي

بيكاريت

هذه مكتبة جديدة إلى حد ما تم إطلاقها هذا العام ، والتي تدعم مجموعة واسعة من ميزات AutoML ببضعة أسطر من التعليمات البرمجية. سواء كانت معالجة القيم المفقودة ، أو تحويل البيانات الفئوية إلى تنسيق قابل للتغذية ، أو ضبط المعلمات الفائقة ، أو حتى هندسة الميزات ، فإن PyCaret تقوم بأتمتة كل هذا خلف الكواليس عندما يمكنك التركيز أكثر على استراتيجيات معالجة البيانات.

إنه عبارة عن غلاف Python لجميع المكتبات وأدوات التعلم الآلي المتاحة مثل NumPy و pandas و sklearn و XGBoost وما إلى ذلك. دعونا نفهم كيف يمكنك تنفيذ مشكلة التصنيف باستخدام Pycaret:

! pip install pycaret # قم بتشغيل هذا إذا لم تكن قد قمت بتثبيته

من pycaret.datasets استيراد get_data

من استيراد pycaret.classification *

df = get_data ("مرض السكري")

الإعداد = الإعداد (السكري ، الهدف = "متغير الفئة")

قارن_models () # تعرض هذه الوظيفة ببساطة مقارنة جميع الخوارزميات!

selected_model = create_model () # قم بتمرير اسم الخوارزمية التي تريد إنشاءها

توقع_النموذج (النموذج_المختار)

final_model = finalize_model (النموذج_المختار)

save_model (final_model، 'file_name')

محملة = load_model ('file_name')

هذا كل شيء ، لقد قمت للتو بإنشاء خط أنابيب للتحول يؤدي إلى هندسة الميزات وتدريب نموذج وحفظه!

جوجل داتابريب

لقد درسنا مكتبتين تعملان على أتمتة اختيار الميزات وبناء النماذج وضبطها للحصول على أفضل النتائج ، لكننا لم نناقش كيفية أتمتة تنظيف البيانات. يمكن أتمتة هذه العملية بالتأكيد ، ولكنها تتطلب تحققًا يدويًا حول ما إذا كانت البيانات الصحيحة قد تم تمريرها أو ما إذا كانت القيم منطقية أم لا.

المزيد من البيانات هي نقطة إيجابية لبناء النموذج ، ولكن يجب أن تكون بيانات جيدة للحصول على نتائج جيدة. Google DataPrep هي أداة ذكية لإعداد البيانات تُقدم كمنصة كخدمة تتيح تنظيف البيانات المرئية للبيانات ، مما يعني أنه يمكنك تغيير البيانات دون تشفير حتى سطر واحد واختيار الخيارات فقط.

إنه يوفر واجهة مستخدم رسومية تفاعلية ، مما يجعل من السهل للغاية تحديد الخيارات لأداء الوظائف التي تريد تطبيقها. أفضل جزء في هذه الأداة هو أنها ستعرض جميع التغييرات التي تم إجراؤها على مجموعة البيانات في لوحة جانبية بالترتيب الذي تم إجراؤها به ويمكن تغيير أي خطوة. يساعد في تتبع التغييرات. سيُطلب منك اقتراحات لتقديمها ، والتي غالبًا ما تكون صحيحة.

يمكن تصدير الملف الناتج إلى التخزين المحلي أو نظرًا لأن هذه الخدمة متوفرة في Google Cloud Platform ، يمكنك نقل هذا الملف مباشرةً إلى أي حاوية تخزين Google أو جداول BigQuery حيث يمكنك أداء مهام التعلم الآلي مباشرةً في محرر الاستعلام. يمكن أن تكون النكسة الرئيسية لهذا هو تكاليفه المتكررة ، فهو ليس مشروعًا مفتوح المصدر بل هو حل صناعي كامل.

هل يمكن أن يحل هذا محل علماء البيانات؟

بالطبع لا! يعد AutoML رائعًا ويمكنه مساعدة عالم البيانات في تسريع دورة حياة معينة ، ولكن هناك حاجة دائمًا إلى مشورة الخبراء. على سبيل المثال ، سوف يستغرق الأمر وقتًا طويلاً للحصول على النموذج الصحيح لبيان مشكلة معين من AutoML الذي يدير جميع الخوارزميات بدلاً من خبير يقوم بتشغيلها على خوارزميات محددة تناسب المشكلة بشكل أفضل.

سيُطلب من علماء البيانات التحقق من صحة النتائج من هذه الأنواع من الأتمتة ومن ثم توفير حل عملي للشركات. سيجد الأشخاص الخبراء في المجال هذه الأتمتة مفيدة للغاية حيث قد لا تكون لديهم خبرة كبيرة في استخلاص الأفكار من البيانات ، ولكن هذه الأدوات ستوجههم بأفضل طريقة.

إذا كنت ترغب في إتقان التعلم الآلي وتعلم كيفية تدريب وكيل على لعب tic tac toe ، أو لتدريب روبوت محادثة ، وما إلى ذلك ، تحقق من دورة Grad's Machine Learning والذكاء الاصطناعي PG.

قيادة الثورة التكنولوجية التي يقودها الذكاء الاصطناعي

شهادة متقدمة في التعلم الآلي والحوسبة السحابية من IIT MADRAS & UPGRAD
يتعلم أكثر