机器学习的线性判别分析：你需要知道什么？

已发表: 2020-05-22

近年来技术的进步使联网设备能够处理大量数据。然而，在处理如此大量的数据时，数据的存储和安全仍然是一个大问题。这就是为什么以正确的方式处理数据非常重要的原因。这通常是一项耗时的任务。

这就是数据降维技术（如线性判别分析或 LDA ）发挥作用的地方。这些技术可以帮助您以更好的方式处理数据集，同时确保数据安全和隐私。我们在这篇博客中的重点将是讨论线性判别分析数据降维技术。让我们从讨论降维开始。

什么是降维？

如果您了解它所基于的概念的背景，您将能够更好地理解线性判别分析技术。当您处理多维数据时，您的数据具有许多相互关联的特征。如果我们在二维或三维中绘制多维数据，我们正在使用降维技术。

一种也非常常用来替代降维的替代方法是使用直方图、散点图和箱线图等来绘制数据。这些图表可用于在给定的一组原始数据中查找模式。然而，图表并不能以普通人容易理解的方式呈现数据。此外，具有很多特征的数据需要多个图表来识别该数据集中的模式。

数据降维技术（例如 LDA）通过使用二维或三个维度绘制数据来帮助克服这些问题。这将使您能够更明确地呈现数据，即使对于那些没有技术背景的人来说，这也是有意义的。

阅读： 25 个机器学习面试问题和答案

什么是线性判别分析？

它是最常用的降维技术之一。它用于机器学习以及与模式分类有关的应用程序。 LDA 有一个非常特定的目的，即将高维空间中存在的特征投影到低维空间中。

这样做是为了消除常见的维度问题并降低维度成本和资源。 Ronald A Fisher 因1936 年原始概念的发展而受到赞誉——Fisher 的判别分析或线性判别。最初，线性判别是一种两类技术。多级版本后来出现。

线性判别分析是一种有监督的分类方法，用于创建机器学习模型。这些基于降维的模型用于应用程序中，例如营销预测分析和图像识别等。稍后我们将讨论应用程序。

那么我们究竟在寻找 LDA 什么？这种降维技术有助于发现两个领域 - 可用于解释组与对象之间关系的参数 - 有助于分离组的分类指导模型。这就是为什么 LDA 被广泛用于对不同群体的品种进行建模的原因。因此，您可以使用这种技术来使用两个或两个以上的类来分配变量。

线性判别分析的扩展

LDA 被认为是可用于分类的最简单和最有效的方法之一。由于该方法非常简单易懂，因此我们有一些变体以及可用的扩展。其中一些包括：

1. 正则化判别分析或 RDA

RDA 用于将正则化引入方差或协方差估计。这样做是为了缓和变量对 LDA 的影响。

2. 二次判别分析或 QDA

在 QDA 中，不同的类别使用自己的方差估计。如果输入变量的数量比平时多，每个类都使用其协方差估计。

3.灵活的判别分析或FDA

FDA 使用具有非线性组合的输入。样条曲线就是一个很好的例子。

了解： Python 项目的想法和主题

常见的 LDA 应用

LDA 可用于多种应用。它可以用于任何可以转化为分类问题的问题。常见的例子包括速度识别、面部识别、化学、微阵列数据分类、图像检索、生物识别和生物信息学等等。让我们讨论其中的一些。

1.人脸识别

在计算机视觉中，人脸识别被认为是最流行的应用之一。人脸识别是通过使用大量像素值来表示人脸来进行的。 LDA 用于减少特征的数量，为使用分类方法做好准备。新尺寸是用于创建模板的像素值的组合。

2.客户识别

如果您想根据客户购买产品的可能性来识别客户，您可以使用 LDA 来收集客户特征。您可以识别并选择那些描述那些显示出较高购买产品机会的客户群的特征。

3. 医疗

LDA 可用于将疾病分为不同的类别，例如严重、轻度或中度。有几个患者参数将用于执行此分类任务。这种分类允许医生定义治疗的速度。

另请阅读：初学者的 15 个有趣的机器学习项目创意

结论

LDA 是一种简单且易于理解的技术，通常用于分类 ML 模型。 PCA 和逻辑回归是我们可用的其他降维技术。但是当涉及到特殊的分类问题时，LDA 优于其他两个。

如果您有兴趣了解有关机器学习的更多信息，请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭，该文凭专为工作专业人士设计，提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

什么是线性判别分析？

线性判别分析 (LDA) 是一种分类算法，用于学习有助于将一组样本与所有其他组区分开来的基本特征。作为应用 LDA 算法的结果，我们得到了一个新的特征集，可用于预测组成员。例如，假设您收集 IP 地址，并且想弄清楚它们属于哪个国家/地区。您有一组样本 IP 地址的训练集，您可以非常准确地识别原产国。如果您有一个新的 IP 地址，并且想知道它来自哪个国家/地区，您可以将其提供给 LDA，它会将其分配给概率最高的类别。

线性判别分析有哪些应用？

线性判别分析 (LDA) 是监督学习框架中的一组技术。 LDA 是一种方法，其中因变量在特征空间中是线性可分的。 LDA 用于市场营销、金融和其他领域，以执行许多分类任务，例如客户分析和欺诈检测。例如，假设我们想要找到一个独立变量的线性组合，它可以分隔两组数据点。 LDA 找到在特征空间中的两组数据点之间产生最大分离的自变量的线性组合。

什么是降维？

降维是指一组用于减少数据集中变量数量的技术。最常见的降维技术是主成分分析（PCA）。由于其简单、数学优雅和高统计特性，PCA 是最流行的降维技术。 PCA 用于通过识别包含最大方差和最少错误的轴来降低数据集的维数。