أفضل 7 مكتبات R في علوم البيانات يجب أن تستخدمها الآن
نشرت: 2020-02-12عندما يتعلق الأمر باختيار المكتبات والحزم لعلوم البيانات ، فإن Python هو الاسم الأول الذي يتبادر إلى الذهن. ومع ذلك ، هناك لغة أخرى أصبحت العنصر الأساسي المفضل لمجتمع Data Science - لغة البرمجة R. تعرف على مدى أهمية Python & R لمجتمع علوم البيانات.
R هي لغة برمجة ، واحدة من أكثر اللغات المطلوبة للتعلم في عام 2020. نظرًا لتصميمها مع التركيز على الحوسبة الإحصائية ، فإن واجهتها وهيكلها مناسبان للغاية لمهام الحوسبة الإحصائية والعلمية. السبب وراء زيادة شعبية R هو أنه يحتوي على بناء جملة سهل الفهم ويأتي مزودًا بأداة RStudio الرائعة والعديد من حزم R. يمكن استخدام حزم R هذه الخاصة بعلوم البيانات لأداء مهام مختلفة في علوم البيانات (ML) ، بما في ذلك معالجة البيانات وتصور البيانات وبناء النماذج وغير ذلك الكثير.
بدون مزيد من اللغط ، دعنا نلقي نظرة على بعض أفضل حزم R الخاصة بعلوم البيانات!
جدول المحتويات
أفضل مكتبات R لعلوم البيانات
1. Dplyr
Dplyr هي مكتبة R الأكثر ملاءمة لمعالجة البيانات. إنه يشتمل على خمس وظائف تسمح لك بحل بعض تحديات معالجة البيانات الأكثر شيوعًا. هذه الوظائف الخمس هي:
- mutate () - يتم استخدامه لإضافة متغيرات جديدة هي وظائف للمتغيرات الحالية
- حدد () - يستخدم لاختيار المتغيرات حسب أسمائها.
- عامل التصفية () - يُستخدم لاختيار الحالات بناءً على قيمها.
- تلخيص () - يتم استخدامه لتقليل القيم المتعددة في ملخص واحد.
- ترتيب () - يستخدم لتغيير ترتيب / تسلسل الصفوف
هذه الوظائف الخمس هي كل ما تحتاجه لأداء مجموعة كبيرة من مهام معالجة البيانات. باستخدام Dplyr ، يمكنك استخدام نفس رمز R للعمل مع إطارات البيانات المحلية وأيضًا مع جداول قاعدة البيانات البعيدة.
2. ggplot2
ggplot2 هي أداة R مصممة بشكل صريح لإنشاء رسومات من خلال تطبيق معايير القواعد النحوية للرسومات. باستخدام ggplot2 ، يمكنك إنتاج تصورات رسومية عالية الجودة من خلال التعبير عن العلاقات بين سمات البيانات وتمثيلها الرسومي.
كل ما عليك القيام به هو إدخال البيانات في نظام ggplot2 وإصدار أوامر له بكيفية عمل متغيرات للجماليات والأساسيات الرسومية التي يجب استخدامها - سيهتم ggplot2 بكل شيء آخر.
بينما تأتي الأداة محملة بمجموعة من الوظائف البديهية وسهلة الاستخدام نسبيًا ، يمكنك دائمًا اللجوء إلى مجتمع RStudio و Stack Overflow لطلب المساعدة لأي مشكلات ومشكلات ggplot2. تعرف على المزيد حول تصور البيانات في لغة برمجة R.
3. Esquisse
Esquisse هي أداة أخرى ممتازة لتصور البيانات في R. إنها على الأرجح أداة التصور الأبسط والأكثر مباشرة التي تقدم واحدة من أفضل ميزات Tableau إلى R - السحب والإفلات الشهير!
تم بناء Esquisse أعلى نظام ggplot2. لذلك ، يمكنك بسهولة استكشاف البيانات في بيئة Esquisse من خلال إنشاء الرسوم البيانية ggplot2. بالإضافة إلى ذلك ، يمكنك تشغيل وظيفة Esquisse الإضافية عبر قائمة RStudio. باستخدام ggplot2 ، يكون إنشاء المؤامرات أسهل بكثير لأنك لست بحاجة إلى كتابة تعليمات برمجية معقدة. يمكنك إنشاء أي أنماط تصور ، من الرسوم البيانية الشريطية والمنحنيات ، إلى المخططات المبعثرة والرسوم البيانية ، وكذلك تصدير الرسم البياني أو استرداد الرمز الذي ينشئ الرسم البياني.
4. MLR
إذا كنت تبحث عن أداة R لمهام التعلم الآلي ، فإن MLR هي فقط الأداة التي تحتاجها. تم تصميم حزمة R هذه بشكل صريح للتعلم الآلي. وبالتالي ، فهو يشمل تقريبًا جميع خوارزميات التعلم الآلي الأساسية التي تحتاجها لأداء مجموعة واسعة من مهام ML.
يوفر إطار عمل MLR طرقًا خاضعة للإشراف مثل التصنيف والانحدار وتحليل البقاء ، جنبًا إلى جنب مع أساليب التقييم والتحسين المقابلة ، بالإضافة إلى الأساليب غير الخاضعة للإشراف مثل التجميع. هيكلها بحيث يمكنك تمديدها بنفسك أو الخروج عن طرق الراحة المطبقة وإنشاء تجاربك أو الخوارزميات المعقدة الخاصة بك.

5. لامعة
إذا كان التعاون هو ما تريده ، فإن Shiny هي حزمة R المناسبة لك. يجمع Shiny بين القوة الحسابية لـ R وتفاعل الويب الحديث. أفضل جزء - التطبيقات اللامعة سهلة الكتابة والتطوير لأنك لا تتطلب أي مهارات تطوير ويب خاصة.
يتيح لك Shiny التفاعل والتواصل مع فريقك على نفس النظام الأساسي لمزيد من الشفافية والتعاون. إنها الأداة المثالية لإنشاء تطبيقات ويب تفاعلية مباشرة من R. يمكنك إما استضافة تطبيقات قائمة بذاتها على صفحة ويب ، أو يمكنك تضمينها في مستندات R Markdown. ليس ذلك فحسب ، يتيح لك Shiny أيضًا إنشاء لوحات معلومات تفاعلية. إنها معبأة بمجموعة واسعة من أدوات الإدخال المدمجة. بمجرد إنشاء تطبيقاتك اللامعة ، يمكنك توسيعها باستخدام أدوات html ، وسمات CSS ، وإجراءات JavaScript.
6. Lubridate
Lubridate هي مكتبة R مذهلة تتجادل في البيانات. الهدف الأساسي من هذه الحزمة المعينة هو جعل التعامل مع الأوقات والتواريخ الممتدة سريعًا وسهلاً. يحتوي على بنية متسقة لا تُنسى تجعل العمل مع التواريخ سريعًا وفعالًا. أي شيء يجب القيام به باستخدام حساب البيانات ، يمكنك بسهولة تحقيق ذلك باستخدام Lubridate.
يسمح Lubridate بالتحليل السهل والسريع لأوقات التاريخ ويوفر وظائف بسيطة للحصول على مكونات التاريخ والوقت وتعيينها مثل السنة () والشهر () واليوم () والساعة () والدقيقة () والثانية () . يمكن لـ Lubridate أيضًا توسيع نوع العمليات الحسابية التي يمكنك إجراؤها باستخدام كائنات التاريخ والوقت من خلال تقديم ثلاث فئات جديدة للمدى الزمني:
- المدد - يقيس مقدار الوقت الدقيق بين نقطتين
- الفترات - يمكنه تتبع أوقات الساعة بدقة على الرغم من السنوات الكبيسة والثواني الكبيسة والتوقيت الصيفي
- الفترات الزمنية - هو ملخص أولي لمعلومات الوقت بين نقطتين.
احصل على دورات في علوم البيانات من أفضل الجامعات في العالم. انضم إلى برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.
7. RCrawler
RCrawler هي مكتبة R تُستخدم أساسًا لتتبع الويب المستند إلى المجال وكشط المحتوى. يمكنه الزحف إلى الصفحات وتحليلها وتخزينها واستخراج المحتويات وإنتاج البيانات التي يمكن تنفيذها مباشرة لتطبيقات التنقيب عن محتوى الويب. شيء واحد يجب مراعاته أثناء استخدام هذه الأداة هو أنه نظرًا لأن عملية الزحف تتم بواسطة عدة عمليات أو عقد متزامنة على التوازي ، فمن الأفضل استخدام الإصدار 64 بت من R.
باستخدام Rcrawler ، يمكنك دراسة بنية موقع الويب عن طريق إنشاء تمثيل شبكي للارتباطات التشعبية الداخلية والخارجية للموقع (العقد والحواف).
خاتمة
هذه 7 مكتبات R استثنائية لعلوم البيانات. ومع ذلك ، هناك العديد والعديد من مكتبات R الأخرى التي تخدم أغراض علوم البيانات الأخرى بما في ذلك Plotly و Rcharts و Rbokeh و Rvest و RMySQL و StringR و Broom و SnowballC و Swirl و DataScienceR ، على سبيل المثال لا الحصر.
إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع دبلوم PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، وجهاً لوجه مع موجهو الصناعة ، أكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.
هل المكتبة والحزمة في R شيئان مختلفان؟
الحزمة ليست أكثر من مساحة اسم. داخل العبوة ، هناك حزم فرعية. تحتوي المكتبة على مجموعة من إمكانيات التعليمات البرمجية ذات الصلة التي تتيح لك القيام بمجموعة متنوعة من الأنشطة دون الحاجة إلى كتابة التعليمات البرمجية الخاصة بك. الحزمة عبارة عن مجموعة من وظائف R والبيانات والتعليمات البرمجية التي تم إنشاؤها في لغة البرمجة R. المكتبة هي الموقع حيث يتم حفظ الحزم.
لماذا تعتبر Dplyr مكتبة R مفيدة جدًا؟
تعد حزمة Dplyr طريقة رائعة لتحسين سير عملك. يسهل تحليل البيانات ومعالجتها من خلال تسريع العملية وتنظيفها وتبسيطها. يعد Dplyr أسرع بكثير من الوظائف التقليدية الأخرى. يسهل الوصول المباشر إلى قواعد البيانات الخارجية وتحليلها معالجة كميات هائلة من البيانات. يمكننا تجنب ازدحام مساحة العمل الخاصة بنا بالكائنات الوسيطة باستخدام تسلسل الوظائف. الكود سهل الكتابة والفهم. الصيغة بسيطة أيضًا.
ما هي الشبكة في لغة البرمجة R؟
مستوحى من رسومات Trellis ، Lattice هو حل قوي وأنيق لتصور البيانات عالي المستوى لـ R. تم تصميمه مع وضع البيانات متعددة المتغيرات في الاعتبار ، ويتيح التكييف البسيط لإنشاء مخططات "صغيرة متعددة". Lattice قادرة على التعامل مع معظم متطلبات الرسومات التقليدية مع كونها مرنة أيضًا بما يكفي لتلبية معظم المتطلبات غير القياسية.