4 种数据类型:名义型、有序型、离散型、连续型
已发表: 2020-12-01目录
介绍
数据科学就是对原始数据或结构化数据进行试验。 数据是推动企业走上正确道路的燃料,或者至少提供可操作的见解,可以帮助制定当前的活动战略、轻松组织新产品的发布或尝试不同的实验。
所有这些东西都有一个共同的驱动组件,那就是数据。 我们正在进入产生大量数据的数字时代。 例如,像 Flipkart 这样的公司每天产生超过 2TB 的数据。
当这些数据在我们的生活中如此重要时,正确地存储和处理这些数据就变得很重要,而不会出现任何错误。 在处理数据集时,数据类别在确定哪种预处理策略适用于特定集合以获得正确结果或应应用哪种类型的统计分析以获得最佳结果方面起着重要作用。 让我们深入了解一些常用的数据类别。
定性数据类型
定性或分类数据使用一组有限的离散类来描述正在考虑的对象。 这意味着这种类型的数据不能用数字轻松地计算或测量,因此需要分类。 一个人的性别(男性、女性或其他人)是这种数据类型的一个很好的例子。
这些通常是从音频、图像或文本媒体中提取的。 另一个示例可以是智能手机品牌,它提供有关当前评级、手机颜色、手机类别等的信息。 所有这些信息都可以归类为定性数据。 在此之下有两个子类别:
标称
这些是不具有自然顺序的一组值。 让我们通过一些例子来理解这一点。 智能手机的颜色可以被视为一种名义数据类型,因为我们无法将一种颜色与其他颜色进行比较。
不可能说“红色”大于“蓝色”。 一个人的性别是另一种我们无法区分男性、女性或其他人的性别。 手机类别无论是中端、预算段还是高端智能手机也是名义数据类型。
阅读:数据科学职业
序数
这些类型的值具有自然排序,同时保持它们的值类别。 如果我们考虑一个服装品牌的大小,那么我们可以很容易地根据他们的名称标签按照小 < 中 < 大的顺序对它们进行排序。 在测试中标记候选人时的评分系统也可以被视为一种序数数据类型,其中 A+ 绝对优于 B 级。
这些类别帮助我们决定可以将哪种编码策略应用于哪种类型的数据。 定性数据的数据编码很重要,因为机器学习模型不能直接处理这些值,需要将其转换为数值类型,因为模型本质上是数学模型。
对于类别之间没有比较的标称数据类型,可以应用one-hot编码,考虑到数量较少,类似于二进制编码,对于序数数据类型,可以应用整数形式的标签编码编码。
定量数据类型
这种数据类型试图量化事物,它通过考虑使其本质上可数的数值来做到这一点。 智能手机的价格、提供的折扣、产品的评分数量、智能手机的处理器频率或特定手机的内存,所有这些都属于定量数据类型的范畴。
关键是一个特征可以有无数个值。 例如,智能手机的价格可以从 x 金额变化到任何值,并且可以根据分数值进一步细分。 清楚地描述它们的两个子类别是:

离散的
属于的数值是整数或整数被置于此类别下。 电话中的扬声器数量、摄像头、处理器中的内核、支持的模拟程序数量所有这些都是离散数据类型的一些示例。
连续
小数被视为连续值。 这些可以采用处理器的工作频率、手机的安卓版本、wifi 频率、内核温度等形式。
必读:印度数据科学家的薪水
Ordinal 和 Discrete 类型可以重叠吗?
如果注意这一点,可以给序数类编号,那么应该叫离散型还是序数? 事实是它仍然是序数。 这样做的原因是即使完成了编号,它也不能传达类之间的实际距离。
例如,考虑一个测试的评分系统。 相应的等级可以是 A、B、C、D、E,如果我们从头开始编号,则为 1、2、3、4、5。 现在根据数值差异,E级和D级之间的距离与D级和C级之间的距离一样,这不是很准确,因为我们都知道C级与E级相比仍然可以接受,但中等差异表明它们是平等的。
您还可以将相同的技术应用于调查表,其中用户体验以非常差到非常好的等级记录。 各个类别之间的差异尚不清楚,因此无法直接量化。
不同的测试
我们已经讨论了数据的所有主要分类。 这很重要,因为现在我们可以优先考虑要在不同类别上执行的测试。 现在可以为定量数据绘制直方图或频率图,为定性数据绘制饼图和条形图。
回归分析,其中分析一个因变量和两个或多个自变量之间的关系仅适用于定量数据。 ANOVA 检验(方差分析)检验仅适用于定性变量,尽管您可以应用使用一个测量变量和两个名义变量的双向 ANOVA 检验。
通过这种方式,您可以对定性数据应用卡方检验来发现分类变量之间的关系。
结论
在这篇文章中,我们讨论了我们产生的数据如何能够将表格颠倒过来,各种类别的数据如何根据需要进行排列。 我们还研究了序数数据类型如何与离散数据类型重叠。
还讨论了哪种类型的图适合哪种类型的数据以及可应用于特定数据类型的各种类型的测试以及使用所有类型数据的其他测试。
如果您对学习数据科学以走在快节奏技术进步的前沿感到好奇,请查看 upGrad 和 IIIT-B 的数据科学高级认证
为什么数据科学很重要?
数据科学的意义在于它汇集了编程、数学和统计领域的专业知识,以产生新的见解并理解大量数据。 对于公司而言,数据科学是制定数据驱动决策的重要资源,因为它描述了数据的收集、保存、排序和评估。 经验丰富的计算机专家经常使用它。 当我们问自己为什么数据科学如此重要时,答案就在于数据的价值不断增加。 数据科学的需求量很大,因为它展示了数字数据如何改变组织并使他们能够做出更明智和必要的选择。
数据科学的范围是什么?
如今,几乎在任何地方都可以找到数据科学。 这包括亚马逊购买等在线交易、Facebook/Instagram 等社交媒体订阅源、Netflix 推荐,甚至智能手机提供的手指和面部识别功能。 数据科学涵盖了众多前沿技术理念,例如人工智能、物联网 (IoT) 和深度学习等。 数据科学的影响由于其进步和技术进步而显着增长,扩大了其范围。 通过学习数据科学,您可以从许多选项中选择您的工作档案,并且这些工作中的大多数都是高薪的。 其中一些工作概况是数据分析师、数据科学家、数据工程师、机器学习科学家和工程师、商业智能开发人员、数据架构师、统计学家等。
名义数据与有序数据有何不同?
名义数据包括包含两个或多个类别的名称或特征,并且类别没有固有的顺序。 换句话说,这些类型的数据没有任何自然排名或顺序。 序数数据类型类似于标称数据类型,但两者之间的区别在于数据中的明显排序。 总的来说,序数数据有一定的顺序,但名义数据没有。 所有排名数据,例如李克特量表、布里斯托尔粪便量表以及任何其他评分在 0 到 10 之间的量表,都可以使用序数数据表示。