分类算法简介:概念和各种类型

已发表: 2020-04-13

分类算法可帮助您将数据划分为不同的类别。 就像您想在打包时对事物进行排序一样,分类算法可以帮助您对数据进行分类。 在本文中,我们将了解什么是分类算法、分类算法的类型、本主题的一些基本概念以及它们是如何工作的。

目录

分类是什么意思?

为了预测目标类别,当我们使用我们的训练数据集来获得边界条件时,我们称之为过程分类。 您可以实现多种类型的目标类。 例如,假设您想根据您拥有的客户数据预测您的客户是否会购买特定产品。 在这种情况下,目标类将是“是”或“否”。

另一方面,您可能希望根据蔬菜的重量、大小或颜色对蔬菜进行分类。 在这种情况下,可用的目标类可能是 Spinach、Tomato、Onion、Potato 和 Cabbage。 您也可以执行性别分类,其中目标类是女性和男性。

让我们通过考虑第三个示例来稍微了解分类算法的工作原理。 我们可以将头发长度作为特征参数,尽管这只是为了这个例子。 我们可以通过使用分类算法来训练我们的模型,并让它通过给定的特征参数(即头发长度)来确定边界条件来区分女性和男性。

分类的基本概念

在我们开始进一步讨论分类算法之前,您必须熟悉几个定义。 这样,您以后就可以避免任何混淆:

特征

它是我们一次观察到的特定现象的个体可测量属性。

分类器

分类器是将模型的输入数据映射到特定类别的算法。

分类模型

分类模型必须得出我们在训练期间给予模型的输入值。 这些模型预测我们提供给它们的新数据的类别(类标签)。

多标签分类

多标签分类是当我们将每个样本映射到多个类别的一组目标标签时。 例如,一个书包可以同时装书、午餐盒和钢笔。

多类分类

多类分类是指我们将每个样本仅分配给一个目标标签。 它发生在我们有两个以上的班级时。 例如,汽车可能正在移动或静止,但不能同时移动。

二进制分类

二进制分类是当我们只有两个可能的类时。 例如,一个人的性别可以是男性或女性。

分类算法的类型

以下是所有类型的分类算法:

  • 内核估计

(K-最近邻)

  • 线性分类器

(逻辑回归、Fisher 线性判别和朴素贝叶斯分类器)

  • 二次分类器
  • 神经网络
  • 学习向量量化
  • 支持向量机

(最小二乘支持向量机)

现在让我们讨论一些基本类型的分类算法:

了解更多:带有用例示例的机器学习算法类型

K最近邻

K最近邻,也称为KNN,是一种解决回归和分类问题的流行算法。 它根据 k 邻居的投票对新案例进行分类。 我们使用距离函数确定 k 最近邻。 最流行的距离函数是欧几里得,但也有其他选项,例如曼哈顿和汉明。

要了解 KNN,您可以看一个现实生活中的示例。 假设你想和一个你没有太多信息的人交朋友。 为了更好地了解他们,您首先要与他们的朋友和同事交谈,以了解他们的喜好。 这就是 KNN 算法的工作原理。

在使用 k-最近邻算法时,请确保您对变量进行标准化,因为较高范围的变量会产生偏差。 此外,KNN 算法在计算上非常昂贵。

决策树

决策树可帮助您根据一系列选择预测可能的结果。 它是一种监督学习算法,使用具有连续和分类因变量的各种特征。

例如,假设您想出去为自己买水果,但您注意到天气多云。 现在,你有两个选择,你可能去,也可能不去。 如果你去,可能会下雨,然后你不得不空手而归。 另一方面,如果不下雨,您可以购买需要购买的水果。 这是一个包含多个变量的简单示例,但您明白了。

另请阅读: R 中的决策树

逻辑回归

逻辑回归不是回归算法。 逻辑回归根据一组特定的自变量估计离散值。 换句话说,它通过使用 logit 函数来预测事件的机会。 这就是为什么它也有 logit 回归的名称。

因为逻辑回归是为分类而设计的,所以它是专家的热门选择。 此外,它是了解各种自变量对可能结果的影响的最合适的算法。 它的缺点是它仅适用于可预测的二进制变量,并假设其数据不包含任何缺失值。

支持向量机

在支持向量机中,每个特征的值都是特定坐标的值,每个项目都是 n 维空间中的一个点。 在这里,“n”代表您拥有的功能数量。

假设您有两个特征,头发长度和高度。 在这种情况下,我们首先将这些变量绘制在二维空间中,每个点都有两个坐标。 我们称这些坐标为支持向量; 这就是为什么这个算法被称为支持向量机。

在我们绘制这些点之后,我们会找到一条线,将数据分成两个明显分类的组。 这一行是分类器,我们会根据我们的测试数据在最终结果中所在的那一侧来创建类。

结论性想法

在这篇博客中,我们试图尽可能全面地解释分类算法。 如果您想了解有关此主题的更多信息,我们建议您访问我们的博客,其中包含此类有价值的文章。

您还可以访问我们的机器学习课程目录以了解有关此主题的更多信息。 我们相信你会发现一些有用的东西。

如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭,该文凭专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

为未来的职业做准备

机器学习和人工智能的 PG 文凭
了解更多@升级