每个数据科学家都应该知道的 7 个数据挖掘功能
已发表: 2020-11-17目录
介绍
数据挖掘在大数据中具有广泛的应用,可以预测和表征数据。 功能是发现数据科学的趋势。 一般来说,数据挖掘分为以下几类:
- 描述性数据挖掘:它提供有关数据的某些知识,例如计数、平均值。 它提供了有关数据内部正在发生的事情的信息,而没有任何先前的想法。 它展示了数据中的共同特征。 简而言之,您将了解数据库中存在的数据的一般属性。
- 预测数据挖掘:这有助于开发人员理解未明确可用的特征。 比如下个季度的业务分析预测与前几个季度的表现。 通常,预测分析利用先前可用的数据来预测或推断特征。
下面列出了数据挖掘的功能
- 类/概念描述:表征和区分
- 分类
- 预言
- 关联分析
- 聚类分析
- 异常值分析
- 演化与偏差分析
1. 类/概念描述:表征和区分
数据与类或概念相关联,因此它们可以与结果相关联。 例如,新的 iPhone 型号发布了三个变体,以根据目标客户的需求(如 Pro、Pro max 和 Plus)来满足他们的需求。
数据表征
当您总结数据的一般特征时,称为数据表征。 它为目标类别生成特征规则,例如我们的 iPhone 买家。 我们可以使用简单的 SQL 查询收集数据并执行 OLAP 函数来概括数据。
面向属性的归纳技术也用于以最少的用户交互来概括或表征数据。 广义数据以表格、饼图、折线图、条形图和图形等多种形式呈现。 数据之间的多维关系以一种称为目标类特征规则的规则呈现。
数据歧视
它比较两个类之间的数据。 通常,它将目标类映射到预定义的组或类。 它使用一组称为判别规则的规则将类的特征与预定义的类进行比较和对比。 数据鉴别中使用的方法类似于数据表征。
2.分类
它使用数据模型来预测数据的趋势。 例如,我们的网上银行或移动应用程序根据我们的支出模式显示的支出图表。 这有时用于定义我们获得新贷款的风险。
它使用 IF-THEN、决策树、数学公式或神经网络等方法来预测或分析模型。 它使用训练数据来生成新实例,以与现有实例进行比较。
阅读:数据科学职业
3. 预测
预测在数据中查找缺失的数值。 它使用回归分析来查找不可用的数据。 如果缺少类标签,则使用分类完成预测。 预测因其在商业智能中的重要性而广受欢迎。 有两种方法可以预测数据:

- 使用预测分析预测不可用或缺失的数据
- 使用先前构建的类模型预测类标签。
这是一种预测技术,可以让我们在未来深处发现价值。 我们需要拥有庞大的过去值数据集来预测未来趋势。
4.关联分析
它涉及数据的两个或多个属性。 它发现数据和绑定它们的规则之间的关系。 它在零售业中得到广泛应用。 亚马逊在底部显示的建议“购买此商品的客户也购买了..”是关联分析的实时示例。
它将经常交易的属性关联在一起。 他们找出所谓的关联规则,并广泛用于购物篮分析。 有两个项目可以关联属性。 一个是置信度,表示两者关联在一起的概率,另一个是支持度,它说明了过去发生的关联。
例如,如果买手机是带耳机的:支持是2%,信心是40%。 这意味着 2% 的客户购买带有耳机的手机。 40% 的置信度是相同关联再次发生的概率。
阅读:印度的数据挖掘项目
5. 聚类分析
无监督分类称为聚类分析。 它类似于对数据进行分组的分类。 与分类不同,在聚类分析中,类标签是未知的。 数据根据聚类算法进行分组。
类似地分组在一个集群下的对象。 一个集群和另一个集群之间会有很大的不同。 进行分组以最大化类内相似性并最小化类内相似性。 聚类应用于机器学习、图像处理、模式识别和生物信息学等许多领域。
6.异常值分析
当出现无法归入任何类的数据时,我们使用异常值分析。 将出现对任何其他类或通用模型具有不同属性的数据。 这些突出的数据称为异常值。 它们通常被认为是噪声或异常,对这些异常值的分析称为异常值挖掘。
这些异常值在许多应用程序中可能是有价值的关联,尽管它们通常作为噪声被丢弃。 它们也被称为异常或意外,这对于识别它们很重要。 异常值是使用找到概率的统计测试来识别的。 异常值的其他名称是:
- 离经叛道者
- 异常情况
- 不和谐
- 异常情况
7. 演化与偏差分析
通过进化分析,我们得到了与时间相关的数据聚类。 我们可以发现一段时间内行为的趋势和变化。 通过这种独特的分析,我们可以找到时间序列数据、周期性和趋势相似性等特征。
另请阅读:印度数据科学家的薪水
结论
从空间科学到零售营销,整体数据挖掘和功能发现了许多应用。
如果您对学习数据科学以走在快节奏的技术进步的前沿感到好奇,请查看 upGrad 和 IIIT-B 的数据科学执行 PG 计划。
功能在数据挖掘中意味着什么?
数据挖掘是从海量数据集中收集信息、检测模式和发现联系的过程。 数据挖掘中的功能用于定义数据科学家将在数据挖掘活动中发现的模式类型。 数据挖掘操作分为描述性和预测性两种类型。 描述性挖掘任务描述数据库数据的一般特征。 预测性挖掘任务通过对当前数据进行推断来产生预测。 根据数据挖掘过程选择功能。
数据模型是什么意思?
数据模型是信息域中各种数据组件之间的逻辑相互关系和数据流的表示。 它还描述了如何存储和访问数据的过程。 数据模型通过适当地表达信息系统要求并为这些要求创建答案来增强通信、业务和技术开发。 数据模型有助于描述需要哪些数据以及数据科学家应以何种格式将其用于各种业务活动。
异常值分析会发生什么?
异常值分析是一种称为“异常值挖掘”的数据挖掘任务。 数据科学家可以使用它来检测各种情况下的欺诈行为,包括意外的信用卡或电信使用、医疗保健分析以检测对医疗的奇怪反应以及营销以发现客户的购买习惯。 数据科学专业人员可以通过多种方法找到异常值。 所有这些策略都使用各种方法来发现与数据集的其余部分不同的值。