تصور البيانات في برمجة R: أفضل التصورات للمبتدئين للتعلم
نشرت: 2020-01-22لقد سمع أي شخص مشارك في تحليل البيانات عن تصور البيانات وتعامل معه. إذا كنت مبتدئًا ، فتعلم كل شيء عن تصور البيانات هنا. يعد تصور البيانات جزءًا مهمًا من تحليل البيانات ويشير إلى التمثيل المرئي للبيانات في شكل رسم بياني أو مخطط أو شريط أو أي تنسيق آخر. بشكل أساسي ، الغرض من تصور البيانات هو تمثيل أو تصوير العلاقة بين البيانات والصور.
جعل صعود البيانات الضخمة من الإلزامي لعلماء البيانات ومحللي البيانات تبسيط الرؤى التي تم الحصول عليها من خلال العروض المرئية لسهولة الفهم. نظرًا لأن علماء ومحللي البيانات يعملون الآن بكميات كبيرة من مجموعات البيانات المعقدة والضخمة ، أصبح تصور البيانات أكثر أهمية من أي وقت مضى. يوفر تصور البيانات ملخصًا مرئيًا أو مصورًا للبيانات الموجودة ، مما يسهل على متخصصي علوم البيانات والبيانات الضخمة تحديد الأنماط والاتجاهات المخفية داخل البيانات.
بفضل تصور البيانات ، لا يحتاج المحترفون في مجالات علوم البيانات والبيانات الضخمة إلى تصفح آلاف الصفوف والأعمدة في جدول بيانات على نطاق واسع - يمكنهم الرجوع إلى التصور لفهم مكان تكمن جميع المعلومات ذات الصلة في مجموعة البيانات.
على الرغم من أن لدينا العديد من أدوات تصور البيانات المستقلة والأنيقة مثل Tableau و QlikView و d3.js ، إلا أننا سنتحدث اليوم عن تصور البيانات في لغة البرمجة R. R هي أداة ممتازة لتصور البيانات لأنها تأتي مع العديد من الوظائف والمكتبات الداخلية التي تغطي جميع احتياجات تصور البيانات تقريبًا.
في هذا المنشور ، سنناقش أدوات 8 R Data Visualization التي يستخدمها علماء ومحللو البيانات في جميع أنحاء العالم!
جدول المحتويات
أفضل 8 أدوات لتصور البيانات
1. مخطط شريطي
الجميع على دراية بالمخططات الشريطية التي تم تدريسها في المدارس والكليات. في تصور بيانات R باستخدام مخطط شريطي ، يظل المفهوم والهدف كما هو - وهو إظهار مقارنة بين متغيرين أو أكثر. تصور المخططات الشريطية المقارنة بين الإجمالي التراكمي عبر مجموعات مختلفة. الصيغة القياسية لإنشاء مخطط شريطي في R هي:
barplot (H، xlab، ylab، main، names.arg، col)
هناك العديد من الأنواع المختلفة للمخططات الشريطية التي تخدم أغراضًا فريدة. في حين أن المخططات الشريطية الأفقية والعمودية هي التنسيقات القياسية ، يمكن لـ R إنشاء أشرطة أفقية ورأسية في المخطط. إلى جانب ذلك ، يقدم R أيضًا مخططًا شريطيًا مكدسًا يتيح لك تقديم متغيرات مختلفة لكل فئة. في R ، يتم استخدام barplot () لإنشاء مخططات شريطية.
2. الرسم البياني
تعمل المدرجات التكرارية بشكل أفضل مع الدقة أو الأرقام الموجودة في R. هذا التمثيل يقسم البيانات إلى صناديق (فواصل) ويصور التوزيع التكراري لهذه الصناديق. يمكنك تعديل الصناديق ومعرفة تأثيرها على نمط التصور. الصيغة القياسية لإنشاء مدرج تكراري باستخدام R هي:
اصمت (v ، main ، xlab ، xlim ، ylim ، breakks ، col ، border)
توفر الرسوم البيانية تقدير احتمالية لمتغير ، أي الفترة الزمنية قبل اكتمال المشروع. يمثل كل شريط في الرسم البياني ارتفاع عدد القيم الموجودة في هذا النطاق. تستخدم لغة R وظيفة Hist () لإنشاء الرسوم البيانية.
مصدر
3. مربع مؤامرة
يصور مخطط الصندوق خمسة أرقام ذات دلالة إحصائية بما في ذلك الحد الأدنى ، والمئين الخامس والعشرين ، والمتوسط ، والمئين الخامس والسبعين ، والحد الأقصى. على الرغم من أن مخطط الصندوق يشترك في العديد من أوجه التشابه مع المخطط الشريطي ، إلا أن مخطط المربع يوفر تصورًا للبيانات المتغيرة الفئوية والمستمرة ، بدلاً من التركيز فقط على البيانات الفئوية. الصيغة القياسية لإنشاء boxplot في R هي:
boxplot (x ، data ، notch ، varwidth ، names ، main)
يقوم R بإنشاء مخططات مربعة باستخدام وظيفة boxplot (). يمكن أن تأخذ هذه الوظيفة أي عدد من المتجهات الرقمية ، ورسم مخطط مربع لكل متجه. تعد مخططات الصندوق هي الأنسب لتصور انتشار البيانات وبالتالي استنباط الاستدلالات بناءً عليها.
تعلم دورات علوم البيانات من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.
4. مؤامرة مبعثر
تصور مخططات التبعثر نقاط عديدة في المستوى الديكارتي ، حيث تمثل كل نقطة قيم متغيرين. يمكنك اختيار متغير واحد في المحور الأفقي والمتغير الثاني في المحور الرأسي. وظيفة مخطط التبعثر هي تتبع متغيرين مستمرين بمرور الوقت. في R ، تُستخدم الدالة plot () لإنشاء مخطط مبعثر. الصيغة القياسية لإنشاء مخطط مبعثر في R هي:
المؤامرة (x، y، main، xlab، ylab، xlim، ylim، axes)
تعد المخططات المبعثرة رائعة للحالات التي ترغب فيها في تجنب المعلومات الخاطئة في التصور. هذه هي الأنسب لفحص البيانات البسيط.

5. Correlogram
مخطط الارتباط ، أو مصفوفة الارتباط ، تحلل العلاقة بين كل زوج من المتغيرات الرقمية في مجموعة البيانات. يوفر نظرة عامة سريعة على مجموعة البيانات الكاملة. يمكن أن تبرز Correlograms أيضًا مقدار الارتباط بين مجموعات البيانات في نقاط زمنية مختلفة.
في R ، تعتبر حزمة GGally مثالية لبناء مخططات مترابطة. لإنشاء مخطط ارتباط تقليدي (باستخدام مخطط مبعثر ومعامل ارتباط وتوزيع متغير) ، يمكنك استخدام دالة ggpairs (). حزمة أخرى رائعة لإنشاء مخططات مترابطة هي حزمة corrgram. في هذه الحزمة ، يمكنك اختيار ما تريد عرضه (مخطط مبعثر ، مخطط دائري ، نص ، قطع ناقص ، إلخ) في الجزء العلوي والسفلي والقطري من التمثيل. لإنشاء مخطط ارتباط باستخدام حزمة corrgram مثل:
corrgram (x، order =، panel =، lower.panel =، upper.panel =، text.panel =، diag.panel =)
مصدر
6. خريطة الحرارة
الخرائط الحرارية عبارة عن تمثيلات بيانية للبيانات يتم فيها تمثيل القيم الفردية الموجودة في المصفوفة عبر ألوان مختلفة. تسمح لك الخرائط الحرارية بإجراء تحليل بيانات استكشافي بعدين كمحور ، وشدة اللون تصور البعد الثالث. في R ، يتم استخدام وظيفة Heatmap () لإنشاء خرائط حرارية. قبل إنشاء خريطة حرارية ، يجب عليك تحويل مجموعة البيانات إلى تنسيق مصفوفة باستخدام الكود التالي:
> خريطة الحرارة (مثل مصفوفة (mtcars))
توجد ثلاثة خيارات لإنشاء خرائط حرارية تفاعلية بلغة R:
- plotly - باستخدام الرسم البياني ، يمكنك تحويل أي خريطة حرارية تم إنشاؤها باستخدام ggplot2 إلى خريطة حرارية تفاعلية.
- d3heatmap - تستخدم هذه الحزمة نفس بناء الجملة مثل وظيفة R heatmap () الأساسية لعمل خرائط حرارية تفاعلية.
- خريطة الحرارة - هذا هو الأكثر قابلية للتخصيص من بين جميع حزم R. يسمح لك باختيار العديد من أنواع خيارات التخصيص المختلفة.
7. بينينغ السداسي
يعتبر Hexagon binning نوعًا من المدرج التكراري ثنائي المتغير الأنسب لتصور الهيكل في مجموعات البيانات ذات n كبير. المفهوم الأساسي هنا هو:
- شبكة منتظمة من السداسيات تضع النقاط على المستوى XY فوق المجموعة [النطاق (x) ، النطاق (y)].
- يتم حساب عدد النقاط التي تقع في كل سداسي وتخزينها داخل بنية بيانات.
- يتم رسم الأشكال السداسية التي تحتوي على عدد> 0 إما باستخدام منحدر لوني أو بتغيير نصف قطر الشكل السداسي بما يتناسب مع الأعداد.
قراءة: أنواع مختلفة من علماء البيانات
تعد الخوارزمية التي تعمل هنا سريعة وفعالة في عرض بنية مجموعات البيانات مع n ≥ 106. في R ، تحتوي حزمة hexbin على مجموعة متنوعة من الوظائف لإنشاء الصناديق السداسية ومعالجتها والتخطيط لها. تدمج هذه الحزمة مفهوم binning الأساسي السداسي مع العديد من الوظائف الأخرى لتنفيذ تجانس ثنائي المتغير ، وإيجاد متوسط تقريبي ثنائي المتغير ، ودراسة الفرق بين مجموعتين من الصناديق على نفس المقياس.
8. مؤامرة الفسيفساء
في برمجة R ، يكون مخطط الفسيفساء مفيدًا أثناء تصور البيانات من جدول الطوارئ أو جدول التردد ثنائي الاتجاه. إنه تمثيل رسومي لجدول طوارئ ثنائي الاتجاه يمثل العلاقة بين متغيرين فئويين أو أكثر. تُنشئ مؤامرة الفسيفساء R مستطيلاً حيث يمثل الارتفاع القيمة النسبية. الصيغة القياسية لإنشاء مؤامرة الفسيفساء في R هي:
mosaicplot (x، color = NULL، main = "Title")
بشكل أساسي ، تعد مؤامرة الفسيفساء امتدادًا متعدد الأبعاد لمخطط العمود الفقري الذي يلخص الاحتمالات الشرطية للتواجد المشترك للقيم الفئوية في قائمة السجلات التي لها نفس الطول. يساعد على تصور البيانات من متغيرين نوعيين أو أكثر.
قراءة: راتب علوم البيانات والتحليلات
تغليف
مع استمرار جميع قطاعات الصناعة في الاعتماد على البيانات الضخمة للترويج للأعمال والتسويق القائمة على البيانات ، سترتفع أهمية تصور البيانات أيضًا في وقت واحد. نظرًا لأن تقنيات التصور مثل المخططات والرسوم البيانية هي أدوات أكثر فاعلية لتصور البيانات من جداول البيانات التقليدية والتقارير القديمة ، فإن أدوات تصور البيانات R تكتسب شعبية بشكل مطرد في دوائر علوم البيانات والبيانات الضخمة.
إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع دبلوم PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، وجهاً لوجه مع موجهو الصناعة ، أكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.
أيهما يجب أن أتعلمه- R أم Python؟
يعتبر كلا من Python و R سهل التعلم. تم إنشاء Python مع وضع تطوير البرامج في الاعتبار. إذا كانت لديك خبرة سابقة في Java أو C ++ ، فقد تكون Python أكثر سهولة من R. R ، من ناحية أخرى ، قد تكون أسهل قليلاً إذا كان لديك خلفية في الإحصائيات. بناء جملة Python سهل الفهم يجعل التعلم أسهل. يتمتع R بمنحنى تعليمي أعلى في البداية ، لكنه يصبح أسهل كثيرًا مع استمرار ممارسته.
هل Tableau هو أفضل أداة لتصور البيانات؟
تعد Tableau واحدة من أكثر أدوات تصور البيانات شيوعًا في السوق لسببين: إنها سهلة الاستخدام وقوية للغاية. يمكن للبرنامج استيراد البيانات من مئات المصادر وإنشاء العشرات من أنماط التصور ، بما في ذلك المخططات والخرائط وغير ذلك الكثير.
ما هي الاختلافات بين R و RStudio؟
R هي لغة برمجة للحسابات الإحصائية ، و RStudio هي بيئة برمجة إحصائية تستفيد من R. يمكنك إنشاء برنامج في R وتشغيله دون استخدام أي برنامج آخر. ومع ذلك ، لكي يعمل RStudio بفعالية ، يجب استخدامه جنبًا إلى جنب مع R.