4 أنواع من البيانات: اسمية ، ترتيبية ، منفصلة ، مستمرة
نشرت: 2020-12-01جدول المحتويات
مقدمة
يدور علم البيانات حول تجربة البيانات الأولية أو المنظمة. البيانات هي الوقود الذي يمكن أن يقود الأعمال إلى المسار الصحيح أو على الأقل تقديم رؤى قابلة للتنفيذ يمكن أن تساعد في وضع إستراتيجيات للحملات الحالية ، وتنظيم إطلاق منتجات جديدة بسهولة ، أو تجربة تجارب مختلفة.
كل هذه الأشياء لها عنصر قيادة مشترك واحد وهو البيانات. نحن ندخل في العصر الرقمي حيث ننتج الكثير من البيانات. على سبيل المثال ، تنتج شركة مثل Flipkart أكثر من 2 تيرابايت من البيانات على أساس يومي.
عندما تكون لهذه البيانات أهمية كبيرة في حياتنا ، يصبح من المهم تخزينها ومعالجتها بشكل صحيح دون أي خطأ. عند التعامل مع مجموعات البيانات ، تلعب فئة البيانات دورًا مهمًا في تحديد استراتيجية المعالجة المسبقة التي ستعمل لمجموعة معينة للحصول على النتائج الصحيحة أو أي نوع من التحليل الإحصائي يجب تطبيقه للحصول على أفضل النتائج. دعنا نتعمق في بعض فئات البيانات الشائعة الاستخدام.
نوع البيانات النوعية
تصف البيانات النوعية أو الفئوية الكائن قيد الدراسة باستخدام مجموعة محدودة من الفئات المنفصلة. وهذا يعني أن هذا النوع من البيانات لا يمكن عده أو قياسه بسهولة باستخدام الأرقام وبالتالي تقسيمه إلى فئات. جنس الشخص (ذكر ، أنثى ، أو غيرهم) هو مثال جيد لهذا النوع من البيانات.
يتم استخراجها عادةً من الصوت أو الصور أو وسيط النص. مثال آخر يمكن أن يكون علامة تجارية للهواتف الذكية توفر معلومات حول التصنيف الحالي ولون الهاتف وفئة الهاتف وما إلى ذلك. يمكن تصنيف كل هذه المعلومات على أنها بيانات نوعية. هناك فئتان فرعيتان تحت هذا:
اسمى، صورى شكلى، بالاسم فقط
هذه هي مجموعة القيم التي لا تمتلك ترتيبًا طبيعيًا. دعونا نفهم هذا ببعض الأمثلة. يمكن اعتبار لون الهاتف الذكي نوع بيانات اسمي حيث لا يمكننا مقارنة لون واحد مع الألوان الأخرى.
لا يمكن القول أن "الأحمر" أكبر من "الأزرق". جنس الشخص هو نوع آخر حيث لا يمكننا التفريق بين ذكر أو أنثى أو غيرهم. فئات الهاتف المحمول سواء كانت متوسطة المدى أو شريحة الميزانية أو الهاتف الذكي المتميز هي أيضًا نوع بيانات اسمي.
قراءة: مهنة في علم البيانات
ترتيبي
هذه الأنواع من القيم لها ترتيب طبيعي مع الحفاظ على فئة القيم الخاصة بها. إذا أخذنا في الاعتبار حجم ماركة الملابس ، فيمكننا بسهولة فرزها وفقًا لبطاقة الاسم بالترتيب صغير <متوسط <كبير. يمكن أيضًا اعتبار نظام الدرجات أثناء وضع علامات على المرشحين في الاختبار نوعًا من البيانات الترتيبية حيث تكون A + بالتأكيد أفضل من الدرجة B.
تساعدنا هذه الفئات في تحديد استراتيجية التشفير التي يمكن تطبيقها على أي نوع من البيانات. يعد ترميز البيانات للبيانات النوعية أمرًا مهمًا لأن نماذج التعلم الآلي لا يمكنها التعامل مع هذه القيم بشكل مباشر وتحتاج إلى تحويلها إلى أنواع عددية لأن النماذج ذات طبيعة رياضية.
بالنسبة لنوع البيانات الاسمية حيث لا توجد مقارنة بين الفئات ، يمكن تطبيق ترميز واحد ساخن مشابه للتشفير الثنائي نظرًا لوجود عدد أقل وبالنسبة لنوع البيانات الترتيبي ، يمكن تطبيق ترميز الملصق وهو شكل من أشكال العدد الصحيح التشفير.
نوع البيانات الكمية
يحاول هذا النوع من البيانات تحديد الأشياء كمياً ويفعل ذلك من خلال مراعاة القيم الرقمية التي تجعلها قابلة للعد في الطبيعة. سعر الهاتف الذكي أو الخصم المعروض أو عدد التقييمات على المنتج أو معدل تكرار معالج الهاتف الذكي أو ذاكرة الوصول العشوائي لهذا الهاتف بعينه ، كل هذه الأشياء تندرج تحت فئة أنواع البيانات الكمية.
الشيء الرئيسي هو أنه يمكن أن يكون هناك عدد لا حصر له من القيم التي يمكن أن تتخذها الميزة. على سبيل المثال ، يمكن أن يختلف سعر الهاتف الذكي من مبلغ x إلى أي قيمة ويمكن تقسيمه بشكل أكبر بناءً على القيم الكسرية. الفئتان الفرعيتان اللتان تصفهما بوضوح هما:

منفصله
القيم العددية التي تندرج تحتها هي الأعداد الصحيحة أو الأعداد الصحيحة موضوعة تحت هذه الفئة. عدد مكبرات الصوت في الهاتف والكاميرات والنوى في المعالج وعدد الشرائح المدعومة كل هذه بعض الأمثلة على نوع البيانات المنفصلة.
مستمر
تعتبر الأعداد الكسرية قيمًا مستمرة. يمكن أن تأخذ هذه شكل تردد تشغيل المعالجات ، وإصدار android للهاتف ، وتردد wifi ، ودرجة حرارة النوى ، وما إلى ذلك.
يجب أن تقرأ: راتب عالم البيانات في الهند
هل يمكن أن يتداخل النوع الترتيبي والنوع المنفصل؟
إذا انتبهت إلى هذا ، يمكنك إعطاء الترقيم للفئات الترتيبية ، ومن ثم يجب تسميته بالنوع المنفصل أو الترتيبي؟ الحقيقة هي أنه لا يزال ترتيبيًا. والسبب في ذلك هو أنه حتى لو تم الترقيم ، فإنه لا ينقل المسافات الفعلية بين الفئات.
على سبيل المثال ، ضع في اعتبارك نظام الدرجات للاختبار. يمكن أن تكون الدرجات المعنية A و B و C و D و E ، وإذا قمنا بترقيمها من البداية ، فسيكون 1،2،3،4،5. الآن وفقًا للاختلافات العددية ، فإن المسافة بين الدرجة E والدرجة D هي نفس المسافة بين الدرجة D و C وهي ليست دقيقة جدًا لأننا نعلم جميعًا أن الدرجة C لا تزال مقبولة مقارنة بالدرجة E ولكن الوسط الاختلاف يعلن أنها متساوية.
يمكنك أيضًا تطبيق نفس الأسلوب على نموذج استطلاع حيث يتم تسجيل تجربة المستخدم على مقياس من سيئ جدًا إلى جيد جدًا. الاختلافات بين الفئات المختلفة غير واضحة وبالتالي لا يمكن قياسها بشكل مباشر.
اختبارات مختلفة
لقد ناقشنا جميع التصنيفات الرئيسية للبيانات. هذا مهم لأنه يمكننا الآن تحديد أولويات الاختبارات التي يجب إجراؤها على فئات مختلفة. من المنطقي الآن رسم رسم بياني أو مخطط تكراري للبيانات الكمية ومخطط دائري ومخطط شريطي للبيانات النوعية.
تحليل الانحدار ، حيث يتم تحليل العلاقة بين متغير تابع ومتغيرين مستقلين أو أكثر يكون ممكنًا فقط من أجل البيانات الكمية. اختبار ANOVA (تحليل التباين) قابل للتطبيق فقط على المتغيرات النوعية على الرغم من أنه يمكنك تطبيق اختبار ANOVA ثنائي الاتجاه الذي يستخدم متغير قياس واحد ومتغيرين اسميين.
بهذه الطريقة ، يمكنك تطبيق اختبار Chi-square على البيانات النوعية لاكتشاف العلاقات بين المتغيرات الفئوية.
خاتمة
في هذه المقالة ، ناقشنا كيف يمكن للبيانات التي ننتجها أن تقلب الجداول رأسًا على عقب ، وكيف يتم ترتيب فئات البيانات المختلفة وفقًا لاحتياجاتها. نظرنا أيضًا في كيفية تداخل أنواع البيانات الترتيبية مع أنواع البيانات المنفصلة.
ما هو نوع الرسم البياني المناسب لفئة البيانات التي تمت مناقشتها أيضًا جنبًا إلى جنب مع أنواع مختلفة من الاختبارات التي يمكن تطبيقها على نوع بيانات محدد واختبارات أخرى تستخدم جميع أنواع البيانات.
إذا كنت مهتمًا بتعلم علوم البيانات لتكون في مقدمة التطورات التكنولوجية السريعة ، فراجع شهادة upGrad & IIIT-B المتقدمة في علوم البيانات
لماذا علم البيانات مهم؟
تكمن أهمية علم البيانات في حقيقة أنه يجمع خبرة المجال في البرمجة والرياضيات والإحصاء لتوليد رؤى جديدة وفهم كميات كبيرة من البيانات. بالنسبة للشركات ، يعد علم البيانات موردًا مهمًا لاتخاذ قرارات تعتمد على البيانات نظرًا لأنه يصف جمع البيانات وحفظها وفرزها وتقييمها. يستخدمها خبراء الكمبيوتر ذوو الخبرة العالية بشكل متكرر. عندما نسأل أنفسنا عن سبب أهمية علم البيانات ، تكمن الإجابة لأن قيمة البيانات تستمر في الزيادة. هناك طلب كبير على علم البيانات لأنه يوضح كيف تغير البيانات الرقمية المؤسسات وتمكنها من اتخاذ خيارات أكثر استنارة وأساسية.
ما هو نطاق علم البيانات؟
يمكن العثور على علم البيانات في أي مكان تقريبًا هذه الأيام. يتضمن ذلك المعاملات عبر الإنترنت مثل مشتريات Amazon وموجزات الوسائط الاجتماعية مثل Facebook / Instagram وتوصيات Netflix وحتى قدرات التعرف على الإصبع والوجه التي توفرها الهواتف الذكية. يغطي Data Science العديد من الأفكار التكنولوجية المتطورة ، مثل الذكاء الاصطناعي وإنترنت الأشياء (IoT) والتعلم العميق ، على سبيل المثال لا الحصر. نما تأثير علم البيانات بشكل كبير بسبب تقدمه والتقدم التقني ، مما أدى إلى توسيع نطاقه. من خلال تعلم علم البيانات ، يمكنك اختيار ملف التعريف الوظيفي الخاص بك من بين العديد من الخيارات ، ومعظم هذه الوظائف ذات رواتب جيدة. عدد قليل من ملفات تعريف الوظائف هذه هي محلل بيانات ، وعالم بيانات ، ومهندس بيانات ، وعالم ومهندس تعلم الآلة ، ومطور ذكاء الأعمال ، ومهندس بيانات ، وإحصائي ، وما إلى ذلك.
كيف تختلف البيانات الاسمية عن البيانات الترتيبية؟
تتضمن البيانات الاسمية الأسماء أو الخصائص التي تحتوي على فئتين أو أكثر ، وليس للفئات أي ترتيب متأصل. بمعنى آخر ، لا تحتوي هذه الأنواع من البيانات على أي ترتيب أو ترتيب طبيعي. يشبه نوع البيانات الترتيبي النوع الاسمي ، لكن التمييز بين الاثنين هو ترتيب واضح في البيانات. بشكل عام ، تحتوي البيانات الترتيبية على بعض الترتيب ، لكن البيانات الاسمية ليست كذلك. يمكن التعبير عن جميع بيانات الترتيب ، مثل مقاييس ليكرت ، ومقاييس براز بريستول ، وأي مقاييس أخرى مصنفة بين 0 و 10 ، باستخدام البيانات الترتيبية.