هياكل البيانات الستة الأكثر استخدامًا في R.
نشرت: 2020-02-03بصفتك مبرمجًا ومبرمجًا ، يجب أن تكون على دراية بالحاجة إلى المتغيرات لتخزين البيانات. هذه المتغيرات محجوزة في مواقع ذاكرة مختلفة لتخزين القيم. وبالتالي ، فإن إنشاء متغير يعني الاحتفاظ ببعض المساحة في الذاكرة. هذه هي البيانات التي يتم ترتيبها بواسطة هياكل البيانات لاستخدامها بكفاءة في الكمبيوتر.
على عكس لغات البرمجة الشائعة مثل C و Java ، لا تحتوي R على متغيرات يتم الإعلان عنها كبيانات. يحتوي R على كائنات R (هياكل بيانات) التي تصبح نوع بيانات المتغير المطلوب. هناك أنواع مختلفة من هياكل البيانات في R. لكن أولاً ، دعنا نفهم ما هي هياكل البيانات!
جدول المحتويات
ما هي هياكل البيانات؟
في R ، هياكل البيانات هي أداة تحمل قيمًا متعددة. لاحظ أنه في برمجة R ، نادراً ما يتم استخدام البيانات ذات القيم الفردية. من الأفضل استخدام R لتجميع أرقام أو كلمات أو قيم متعددة من أنواع مختلفة معًا. هذا هو المكان الذي تظهر فيه هياكل البيانات في الصورة. يقومون بتجميع هذه القيم المتعددة معًا لتسهيل العمل مع كميات كبيرة من البيانات مرة واحدة.
تتكون هياكل البيانات من أنواع البيانات التي تحدد نوع البيانات المخزنة في zvalue. على سبيل المثال ، الرقم 13 هو نوع بيانات رقمي ، بينما الرقم " ثلاثة عشر " يحتوي على نوع بيانات حرف ، يسمى أيضًا سلسلة.
الآن بعد أن حصلت على هذا ، دعنا نرى أنواع هياكل البيانات المختلفة.
أنواع هياكل البيانات
من أجل جعل تحليل البيانات والعمليات سهلة وفعالة ، هناك خمسة أنواع رئيسية من هياكل البيانات في برمجة R.

دعونا نلقي نظرة على كل منهم بالتفصيل.
- المتجه
وظيفة المتجهات R هي تجميع قيم متعددة من نفس نوع البيانات. إنه النوع الأساسي من بنية البيانات في R ويتكون من جزأين: المتجهات الذرية والقوائم. فيما يلي خصائصهم المشتركة:
- نوع الوظيفة (ما هي)
- طول الوظيفة (عدد العناصر)
- سمة الوظيفة (بيانات وصفية عشوائية إضافية)
الآن ، بينما تهدف Atomic Vectors إلى تجميع نفس نوع البيانات ، يمكن للقوائم تجميع أنواع بيانات مختلفة. هناك أربعة أنواع من المتجهات الذرية:
- نوع البيانات الرقمية
- نوع بيانات صحيح
- نوع بيانات الحرف
- نوع البيانات المنطقية
يمكنك إنشاء متجهات باستخدام الوظيفة c ().
علي سبيل المثال:
إذا قمت بتشغيل الكود أعلاه ، فسيتم إنشاء متجه باسم 'thisVector' ، يحتوي على جميع الأرقام من 1 إلى 30.
لتخزين قيم الأحرف في ناقل ، سيتعين عليك استخدام علامات الاقتباس المزدوجة على النحو التالي:
بينما يمكنك تخزين أنواع مختلفة من البيانات في متجه ، يُنصح بعدم تحويل جميع القيم إلى نوع حرف.
- القوائم
كما ذكر أعلاه ، يمكن أن تحتوي القوائم على أي نوع من عناصر البيانات - سلاسل وأرقام ومتجهات وحتى قائمة أخرى. على سبيل المثال ، يمكنك إنشاء قائمة من 80 رقمًا و 30 كلمة و 42 متجهًا. الوظيفة التي سيتم استخدامها هي قائمة ().
مثال:
انتاج:
نظرًا لأن القوائم يمكن أن تحتوي على قوائم أخرى أيضًا ، فإنها تسمى أحيانًا المتجهات العودية . هذا هو سبب اختلافهم الشديد عن المتجهات الذرية.
- عوامل
ببساطة ، العامل هو نوع من المتجهات حيث يمكن تخزين القيم المحددة مسبقًا فقط. يتم استخدامه بشكل أساسي لتخزين البيانات الفئوية. يصنفون قيم الأعمدة ، مثل "ذكر" ، "أنثى" ، "صحيح" ، "خطأ" ، إلخ.
العوامل غير متجانسة بمعنى أنه يمكن تخزين كل من السلاسل والأعداد الصحيحة فيها. لإنشاء العوامل ، استخدم وظيفة العامل (). إنها مفيدة جدًا عندما يكون هناك الكثير من القيم المحتملة لمتغير معين وأنت تعرفها جميعًا.
في برمجة R ، يتم تحويل متجهات الأحرف تلقائيًا إلى متجه. يمكنك استخدام stringsAsFactors = FALSE لمنع ذلك ثم تحويل كل متجه يدويًا إلى عوامل.

- إطارات البيانات
تُستخدم بنية البيانات هذه في R لتمثيل البيانات في نموذج جدولي لتسهيل تحليل البيانات. يحتوي على متجهات متساوية الطول ، وبالتالي تشكل بنية ثنائية الأبعاد. توجد أعمدة تحتوي على قيم متغير وصفوف تحتوي على مجموعة من القيم لكل عمود.
وبطبيعة الحال ، يمكن لإطارات البيانات تخزين قيم لأنواع بيانات مختلفة. ومع ذلك ، يجب أن يحتوي كل عمود على نفس عدد العناصر. على سبيل المثال ، إذا كان العمود 1 يحتوي على 5 عناصر ، فيجب أن يحتوي العمود 2 أيضًا على 5 قيم.
إطارات البيانات لها بعض الخصائص الخاصة:
- يجب عدم ترك أي أسماء أعمدة فارغة.
- يجب أن يكون اسم كل صف فريدًا.
- يمكنك تخزين البيانات الرقمية أو العوامل أو نوع الحرف في إطار بيانات.
- يجب أن تحتوي جميع الأعمدة على نفس عدد عناصر البيانات.
يتم تخزين جميع مجموعات البيانات التي تم استيرادها في R تلقائيًا كإطارات بيانات.
- المصفوفات
تقف بنية بيانات المصفوفة في R في مكان ما بين المتجهات وإطارات البيانات. المصفوفات هي مجموعات بيانات ثنائية الأبعاد يمكن أن تحتوي على عناصر من نفس نوع البيانات فقط. يمكنك إنشاء مصفوفة باستخدام مصفوفة الوظيفة ().
التركيب اللغوي : المصفوفة (data، nrow، ncol، byrow، dimnames)
هنا،
البيانات = عناصر الإدخال كمتجه
nrow = عدد الصفوف
ncol = عدد الأعمدة
byrow = ترتيب حكيم
dimnames = أسماء الأعمدة / الصفوف
مثال:
انتاج:
على الرغم من أن العوامل تبدو وتتصرف مثل متجهات الأحرف ، إلا أنها في الواقع أعداد صحيحة. لتحويل العوامل إلى لسعات ، استخدم وظائف مثل gsub () و grepl (). سيؤدي استخدام nchar () إلى حدوث خطأ.
- المصفوفات
المصفوفات هي مصفوفات متعددة الأبعاد. المصفوفة هي حالة خاصة من المصفوفات من حيث أن لها بعدين. بينما تستخدم المصفوفات بشكل شائع ، فإن المصفوفات نادرة جدًا.
وظيفة إنشاء مصفوفة هي المصفوفة ().
اختبار ما إذا كان الكائن عبارة عن مصفوفة أو مصفوفة أمر بسيط جدًا. فقط استخدم الدالة is.matrix () أو is.array ().
تمارين
فيما يلي بعض الأسئلة التي يمكنك محاولة الإجابة عليها الآن بعد أن اكتسبت معرفة كافية بهياكل البيانات في R.
- ما هي سمات إطارات البيانات؟
- هل يمكن أن تحتوي إطارات البيانات على 0 صفوف أو أعمدة؟
- ما هي الأنواع المختلفة من النواقل الذرية في R؟
- ما هو الفرق بين المتجهات الذرية والقوائم؟
- قم بإنشاء مصفوفة 4X3 في R.
أرسل إجاباتك إلينا عبر البريد الإلكتروني أو اكتبها في التعليقات أدناه!

خاتمة
لاستخدام لغة R بشكل مناسب ، يعد الفهم اللائق لأنواع البيانات وهياكل البيانات وكيفية عملها أمرًا مهمًا. هذه العناصر هي مقدمة جميع الأنشطة في R. على سبيل المثال ، المشكلة النموذجية التي يواجهها معظم المبرمجين هي تحويلات الكائنات ، والتي يمكن التخلص منها بمعرفة جيدة بالكائنات R. من الضروري أن نلاحظ أن كل شيء في R هو كائن وأن العمليات تتم كاستدعاءات وظيفية.
يمكن فرز هياكل البيانات في R بطريقتين مختلفتين. تتمثل الطريقة الرئيسية لفرز هياكل البيانات في أبعادها التي يمكن أن تكون 1 ، 2 ، أو أبعاد n والمسار اللاحق هو بطبيعتها من العناصر التي يمكن أن تكون متجانسة أو غير متجانسة. يجب أن يكون كل عنصر من العناصر في بنية متجانسة من نوع مماثل بينما في بنية غير متجانسة ، يُسمح بالعناصر ذات الأنواع المختلفة.
بعد تعلم أساسيات هياكل البيانات في R ، ستجد البرمجة في R أسهل بكثير. هياكل البيانات هي أساسيات R. تم ذكر هياكل البيانات الستة الأكثر استخدامًا أعلاه. من المهم تذكر الخصائص المختلفة لكل نوع وتنفيذها لتحليل البيانات وتنفيذ عملياتها.
إذا كنت مهتمًا بمعرفة المزيد عن البيانات الضخمة ، فراجع دبلومة PG في تخصص تطوير البرمجيات في برنامج البيانات الضخمة المصمم للمهنيين العاملين ويوفر أكثر من 7 دراسات حالة ومشاريع ، ويغطي 14 لغة وأدوات برمجة ، وتدريب عملي عملي ورش العمل ، أكثر من 400 ساعة من التعلم الصارم والمساعدة في التوظيف مع الشركات الكبرى.
تعلم دورات تطوير البرمجيات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.