التعلم الآلي باستخدام R: كل ما تحتاج إلى معرفته في عام 2022
نشرت: 2021-01-03R هي لغة برمجة قوية لها بيئة برمجية فريدة متاحة للاستخدام المجاني للحوسبة والرسومات الإحصائية. هذه الإمكانية تجعلها من بين اللغات الأكثر استخدامًا ليس فقط للحوسبة الإحصائية ولكن أيضًا لتحليل البيانات.
حدث تطوير R في أوائل التسعينيات ومنذ ذلك الحين خضعت واجهة المستخدم الخاصة به للعديد من التحسينات. كان في البداية محرر نصوص بدائيًا تحول إلى R Studio تفاعلي بعد ذلك بقليل. نُظر إلى حملتها الأخيرة مع Jupyter Notebooks على أنها خطوة مهمة في رحلتها التي استمرت ما يقرب من ثلاثة عقود.
كانت التحسينات التي تم إجراؤها على R على مر السنين بسبب المساهمات التي قدمها مجتمع مستخدمي R المنتشرة عبر طول واتساع هذا العالم. تمت إضافة العديد من الحزم القوية باستمرار إلى هذه اللغة مما جعلها لغة شائعة بين مجتمعات التعلم الآلي وعلوم البيانات في جميع أنحاء العالم. تتضمن بعض الحزم rpart و readr و MICE و caret وغيرها. سنناقش كيف تلعب بعض هذه الحزم دورًا مهمًا في تنفيذ التعلم الآلي في R.
راجع: 6 أفكار مشروع R مثيرة للاهتمام للمبتدئين
جدول المحتويات
نظرة عامة على تعلم الآلة
كما تعلم بالفعل ، يتم تصنيف خوارزميات التعلم الآلي على نطاق واسع إلى نوعين - خوارزميات التعلم الآلي الخاضع للإشراف (SML) وخوارزميات التعلم الآلي غير الخاضعة للإشراف (UML) . خوارزميات التعلم الآلي الخاضعة للإشراف هي تلك التي يتم تقديمها باستخدام المدخلات مع الملصقات ، والتي تشير إلى المخرجات المطلوبة. يتم تقسيم خوارزميات SML أيضًا إلى خوارزميات الانحدار التي لها ناتج رقمي وخوارزميات تصنيف لها مخرجات فئوية. من ناحية أخرى ، فإن خوارزميات التعلم غير الخاضعة للرقابة هي تلك التي لا تحتوي على مدخلات مصنفة. ينصب التركيز هنا على اكتشاف بنية البيانات في الإدخال غير الموسوم.
ستصادف أيضًا خوارزميات التعلم شبه الخاضعة للإشراف وخوارزميات التعلم المعزز بينما تعمق دراستك للتعلم الآلي والمشكلات التي يمكن استخدامها لحلها.

اقرأ المزيد: كل ما يجب أن تعرفه عن التعلم غير الخاضع للإشراف
هل R مناسب للتعلم الآلي؟
يعتقد الكثير من الناس أن R جيدة فقط للحوسبة الإحصائية. ومع ذلك ، سرعان ما أدركوا خطأهم. هناك العديد من الأحكام في R يمكن أن تجعل تنفيذ خوارزميات التعلم الآلي أبسط وأسرع.
R هي من بين أكثر اللغات المفضلة لمشاريع علوم البيانات. يأتي مع ميزات التصور التي يمكنك ربطها باللغات الأخرى. تساعد هذه الميزات في استكشاف البيانات بالطريقة الصحيحة قبل إرسالها إلى خوارزمية التعلم الآلي لمزيد من التطبيق وفي نفس الوقت ، تقييم نتائج خوارزمية التعلم.
حزم لتنفيذ خوارزميات التعلم الآلي في R.
1. يستخدم التضمين متعدد المتغيرات بواسطة المعادلات المتسلسلة أو حزمة MICE في الغالب لتنفيذ طريقة قادرة بشكل كافٍ على معالجة البيانات المفقودة. يقوم بإنشاء قيم استبدال متعددة تتعلق بالبيانات المفقودة. في هذه الطريقة ، يوجد نموذج منفصل يُنسب إلى كل متغير غير مكتمل أو مفقود أو يتم تعيينه.

يمكنك الآن ربطه بسهولة بالمواصفات المشروطة بالكامل. يمكن استخدام الفئران لتعيين مزيج من البيانات الفئوية الثنائية ، والمستمرة ، والفئوية ، وغير المرتبة. يمكنه إسناد البيانات ذات المستويين في شكل مستمر واستخدام الإسناد السلبي للحفاظ على الاتساق المطلوب. يتم فحص جودة الإسناد من خلال تنفيذ عدة مخططات تشخيصية.
2. تُستخدم الحزمة rpart لأداء التجزئة العودية في أشجار القرار ، والتصنيف ، وخوارزميات الانحدار. يتم تنفيذ هذا الإجراء في خطوتين بسيطتين. نتيجة هذا الإجراء شجرة ثنائية. يتم رسم النتائج ، التي يتم تحقيقها بمساعدة rpart ، عن طريق استدعاء وظيفة الرسم. يمكن استخدام rpart لإجراء التصنيف وكذلك الانحدار. يساعد في فهم التباين الذي يستخدم المتغيرات المستقلة للتأثير على المتغيرات التابعة.
3. ترى حزمة أو نهج الغابة العشوائية إنشاء العديد من أشجار القرار. يتم تغذية كل واحدة من هذه الأشجار بملاحظات. يتم تحديد الناتج النهائي من خلال النتيجة التي تظهر بشكل شائع مع الملاحظات المختلفة.
4. حزمة علامة الإقحام هي اختصار للتدريب على التصنيف والانحدار. يتم استخدامه لجعل النمذجة التنبؤية أبسط بكثير مما هي عليه عادة. يمكنك استخدام علامة الإقحام لإجراء تجارب محكومة لتحديد المعلمات المثلى. تتضمن بعض الأدوات التي يمكنك الوصول إليها عند استخدام هذه الحزمة ضبط النموذج والمعالجة المسبقة للبيانات واختيار الميزات وتقسيم البيانات وغيرها.

5. يمكنك استخدام الحزمة e1071 لتنفيذ Support Vector Machines (SVM) و Naive Bayes و Bagged Clustering و Fourier Transform من بين خوارزميات التعلم الآلي الأخرى. تعد SVM واحدة من أفضل ميزات e1071. يسمح للمستخدمين بالعمل على البيانات التي لا يمكن فصلها عن البُعد المتاح لهم. يحتاج المستخدمون إلى أبعاد لإجراء الانحدار أو التصنيف على أبعاد أعلى من تلك المعطاة.
6. تعد حزمة nnet إضافة للغة R التي تعد الأساس لإنشاء مصنفات الشبكة العصبية. يمكنك إنشاء طبقة واحدة فقط من العقد باستخدام هذه الحزمة. إنه يبسط جميع الخطوات التي تشكل جزءًا من عملية إنشاء الشبكة العصبية ، بما في ذلك إعداد البيانات وتقييم دقة النموذج والتنبؤات.
معرفة المزيد: أفضل لغات البرمجة للتعلم الآلي
خاتمة
في هذه المدونة ، ناقشنا العلاقة بين R والتعلم الآلي وكيف يمكن استخدام لغة البرمجة هذه لتنفيذ العديد من خوارزميات التعلم الآلي.
إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.