機器學習的線性判別分析:你需要知道什麼?
已發表: 2020-05-22近年來技術的進步使聯網設備能夠處理大量數據。 然而,在處理如此大量的數據時,數據的存儲和安全仍然是一個大問題。 這就是為什麼以正確的方式處理數據非常重要的原因。 這通常是一項耗時的任務。
這就是數據降維技術(如線性判別分析或 LDA )發揮作用的地方。 這些技術可以幫助您以更好的方式處理數據集,同時確保數據安全和隱私。 我們在這篇博客中的重點將是討論線性判別分析數據降維技術。 讓我們從討論降維開始。
目錄
什麼是降維?
如果您了解它所基於的概念的背景,您將能夠更好地理解線性判別分析技術。 當您處理多維數據時,您的數據具有許多相互關聯的特徵。 如果我們在二維或三維中繪製多維數據,我們正在使用降維技術。
一種也非常常用來替代降維的替代方法是使用直方圖、散點圖和箱線圖等來繪製數據。 這些圖表可用於在給定的一組原始數據中查找模式。 然而,圖表並不能以普通人容易理解的方式呈現數據。 此外,具有很多特徵的數據需要多個圖表來識別該數據集中的模式。
數據降維技術(例如 LDA)通過使用二維或三個維度繪製數據來幫助克服這些問題。 這將使您能夠更明確地呈現數據,即使對於那些沒有技術背景的人來說,這也是有意義的。
閱讀: 25 個機器學習面試問題和答案

什麼是線性判別分析?
它是最常用的降維技術之一。 它用於機器學習以及與模式分類有關的應用程序。 LDA 有一個非常特定的目的,即將高維空間中存在的特徵投影到低維空間中。
這樣做是為了消除常見的維度問題並降低維度成本和資源。 Ronald A Fisher 因1936 年原始概念的發展而受到讚譽——Fisher 的判別分析或線性判別。 最初,線性判別是一種兩類技術。 多級版本後來出現。
線性判別分析是一種有監督的分類方法,用於創建機器學習模型。 這些基於降維的模型用於應用程序中,例如營銷預測分析和圖像識別等。 稍後我們將討論應用程序。
那麼我們究竟在尋找 LDA 什麼? 這種降維技術有助於發現兩個領域 - 可用於解釋組與對象之間關係的參數 - 有助於分離組的分類指導模型。 這就是為什麼 LDA 被廣泛用於對不同群體的品種進行建模的原因。 因此,您可以使用這種技術來使用兩個或兩個以上的類來分配變量。
線性判別分析的擴展
LDA 被認為是可用於分類的最簡單和最有效的方法之一。 由於該方法非常簡單易懂,因此我們有一些變體以及可用的擴展。 其中一些包括:

1. 正則化判別分析或 RDA
RDA 用於將正則化引入方差或協方差估計。 這樣做是為了緩和變量對 LDA 的影響。
2. 二次判別分析或 QDA
在 QDA 中,不同的類別使用自己的方差估計。 如果輸入變量的數量比平時多,每個類都使用其協方差估計。
3.靈活的判別分析或FDA
FDA 使用具有非線性組合的輸入。 樣條曲線就是一個很好的例子。
了解: Python 項目的想法和主題
常見的 LDA 應用
LDA 可用於多種應用。 它可以用於任何可以轉化為分類問題的問題。 常見的例子包括速度識別、面部識別、化學、微陣列數據分類、圖像檢索、生物識別和生物信息學等等。 讓我們討論其中的一些。
1.人臉識別
在計算機視覺中,人臉識別被認為是最流行的應用之一。 人臉識別是通過使用大量像素值來表示人臉來進行的。 LDA 用於減少特徵的數量,為使用分類方法做好準備。 新尺寸是用於創建模板的像素值的組合。

2.客戶識別
如果您想根據客戶購買產品的可能性來識別客戶,您可以使用 LDA 來收集客戶特徵。 您可以識別並選擇那些描述那些顯示出較高購買產品機會的客戶群的特徵。
3. 醫療
LDA 可用於將疾病分為不同的類別,例如嚴重、輕度或中度。 有幾個患者參數將用於執行此分類任務。 這種分類允許醫生定義治療的速度。
另請閱讀:初學者的 15 個有趣的機器學習項目創意
結論
LDA 是一種簡單且易於理解的技術,通常用於分類 ML 模型。 PCA 和邏輯回歸是我們可用的其他降維技術。 但是當涉及到特殊的分類問題時,LDA 優於其他兩個。
如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。
什麼是線性判別分析?
線性判別分析 (LDA) 是一種分類算法,用於學習有助於將一組樣本與所有其他組區分開來的基本特徵。 作為應用 LDA 算法的結果,我們得到了一個新的特徵集,可用於預測組成員。 例如,假設您收集 IP 地址,並且想弄清楚它們屬於哪個國家/地區。 您有一組樣本 IP 地址的訓練集,您可以非常準確地識別原產國。 如果您有一個新的 IP 地址,並且想知道它來自哪個國家/地區,您可以將其提供給 LDA,它會將其分配給概率最高的類別。
線性判別分析有哪些應用?
線性判別分析 (LDA) 是監督學習框架中的一組技術。 LDA 是一種方法,其中因變量在特徵空間中是線性可分的。 LDA 用於市場營銷、金融和其他領域,以執行許多分類任務,例如客戶分析和欺詐檢測。 例如,假設我們想要找到一個獨立變量的線性組合,它可以分隔兩組數據點。 LDA 找到在特徵空間中的兩組數據點之間產生最大分離的自變量的線性組合。
什麼是降維?
降維是指一組用於減少數據集中變量數量的技術。 最常見的降維技術是主成分分析(PCA)。 由於其簡單、數學優雅和高統計特性,PCA 是最流行的降維技術。 PCA 用於通過識別包含最大方差和最少錯誤的軸來降低數據集的維數。