機器學習的 10 大降維技術

已發表: 2020-08-07

每一秒,世界都會產生前所未有的數據量。 由於數據已成為所有行業的企業和組織的重要組成部分,因此必須對其進行適當的處理、分析和可視化,以便從大型數據集中提取有意義的見解。 然而,有一個問題——更多並不總是意味著高效和準確。 我們每秒產生的數據越多,分析和可視化數據以得出有效推論的難度就越大。

這就是降發揮作用的地方。

目錄

什麼是降維?

簡單來說,降維是指對數據特徵集進行降維的技術。 通常,機器學習數據集(特徵集)包含數百列(即特徵)或點數組,在三維空間中創建一個巨大的球體。 通過應用降,您可以將列數減少或減少到可量化的計數,從而將三維球體轉換為二維對象(圓)。

現在問題來了,當您可以直接將數據集輸入到 ML 算法中並讓它自己解決所有問題時,為什麼還要減少數據集中的列?

維數災難要求應用降

維度的詛咒

維度災難是當您處理(分析和可視化)高維空間中不存在於低維空間中的數據時出現的一種現象。

詛咒維數

資源

特徵集中的特徵或因素(又名變量)的數量越多,就越難以可視化訓練集並對其進行處理。 另一個需要考慮的關鍵點是大多數變量通常是相關的。 因此,如果您考慮特徵集中的每個變量,您將在訓練集中包含許多冗餘因素。

此外,您手頭的變量越多,表示示例中所有可能的特徵值組合的樣本數就越高。 當變量數量增加時,模型會變得更加複雜,從而增加過擬合的可能性。 當您在包含許多特徵的大型數據集上訓練 ML 模型時,它必然依賴於訓練數據。 這將導致過度擬合的模型無法在真實數據上表現良好。

降維的主要目的是避免過擬合。 具有相當少特徵的訓練數據將確保您的模型保持簡單——它將做出更小的假設。

除此之外,降維還有許多其他好處,例如:

  • 它消除了噪音和冗餘功能。
  • 它有助於提高模型的準確性和性能。
  • 它有助於使用不適合更實質維度的算法。
  • 它減少了所需的存儲空間量(更少的數據需要更少的存儲空間)。
  • 它壓縮了數據,從而減少了計算時間並有助於更快地訓練數據。

閱讀:什麼是線性判別分析

降維技術

降維技術可以分為兩大類:

1. 特徵選擇

特徵選擇方法旨在從原始數據集中找到輸入變量的子集(最相關的)。 特徵選擇包括三種策略,即:

  • 過濾策略
  • 包裝策略
  • 嵌入式策略

2.特徵提取

特徵提取,又稱特徵投影,將數據從高維空間轉換為具有較小維度的空間。 這種數據轉換可以是線性的,也可以是非線性的。 這種技術會找到一組較小的新變量,每個變量都是輸入變量的組合(包含與輸入變量相同的信息)。

事不宜遲,讓我們深入討論幾種常用的降維技術!

1.主成分分析(PCA)

主成分分析是主要的降維線性技術之一。 該方法以最大化低維表示中數據的方差的方式將數據直接映射到較小的維空間。

本質上,它是一種統計過程,將數據集的“ n”個坐標正交轉換為一組新的n 個坐標,稱為主成分。 這種轉換導致創建具有最大方差的第一主成分。 在與前面的分量正交(不相關)的條件下,每個後面的主分量都具有最大可能的方差。

PCA 轉換對原始變量的相對縮放很敏感。 因此,在實現 PCA 方法之前,必須首先對數據列範圍進行規範化。 要記住的另一件事是,使用 PCA 方法會使您的數據集失去其可解釋性。 因此,如果可解釋性對您的分析至關重要,那麼 PCA 不是適合您項目的降維方法。

2.非負矩陣分解(NMF)

NMF 將一個非負矩陣分解為兩個非負矩陣的乘積。 這就是使 NMF 方法在主要關注非負信號的領域(例如天文學)中成為有價值的工具的原因。 Lee & Seung 的乘法更新規則通過包括不確定性、考慮缺失數據和並行計算以及順序構造來改進 NMF 技術。

這些內含物有助於使 NMF 方法穩定且線性。 與 PCA 不同,NMF 不會消除矩陣的均值,從而產生非物理的非負通量。 因此,NMF 可以保存比 PCA 方法更多的信息。

序列 NMF 的特點是在構建過程中具有穩定的組件基礎和線性建模過程。 這使它成為天文學中的完美工具。 序列 NMF 可以保留天文學中環星結構的直接成像中的通量,例如探測系外行星和環星盤的直接成像。

3. 線性判別分析(LDA)

線性判別分析是Fisher線性判別方法的推廣,廣泛應用於統計學、模式識別和機器學習。 LDA 技術旨在找到可以表徵或區分兩類或更多類對象的特徵的線性組合。 LDA 以最大化類可分離性的方式表示數據。 雖然屬於同一類的對象通過投影並列,但來自不同類的對象排列得很遠。

4. 廣義判別分析(GDA)

廣義判別分析是利用核函數算子的非線性判別分析。 其基礎理論與支持向量機 (SVM) 非常接近,因此 GDA 技術有助於將輸入向量映射到高維特徵空間。 就像 LDA 方法一樣,GDA 也試圖通過最大化類間散點與類內散點的比率來尋找低維空間中變量的投影。

5. 缺失值比率

當您探索給定的數據集時,您可能會發現數據集中存在一些缺失值。 處理缺失值的第一步是找出它們背後的原因。 因此,您可以使用合適的方法估算缺失值或完全刪除它們。 這種方法非常適合存在一些缺失值的情況。

但是,如果缺失值太多,比如超過 50%,該怎麼辦? 在這種情況下,您可以設置閾值並使用缺失值比率方法。 閾值越高,降維就越激進。 如果變量中缺失值的百分比超過閾值,您可以刪除該變量。

通常,具有大量缺失值的數據列幾乎不包含有用的信息。 因此,您可以刪除所有缺失值高於設置閾值的數據列。

6. 低方差濾波器

正如您對缺失變量使用缺失值比率方法一樣,對於常量變量,還有低方差過濾器技術。 當數據集具有常量變量時,就不可能提高模型的性能。 為什麼? 因為它的方差為零。

在這種方法中,您也可以設置一個閾值來剔除所有常量變量。 因此,所有方差低於閾值的數據列都將被淘汰。 但是,關於低方差過濾方法,您必須記住的一件事是方差與範圍相關。 因此,在實施這種降維技術之前,標準化是必須的。

7. 高相關濾波器

如果數據集由具有許多相似模式/趨勢的數據列組成,則這些數據列很可能包含相同的信息。 此外,描述更高相關性的維度可能會對模型的性能產生不利影響。 在這種情況下,其中一個變量足以為 ML 模型提供數據。

對於這種情況,最好使用 Pearson 相關矩陣來識別顯示高相關性的變量。 確定它們後,您可以使用 VIF(Variance Inflation Factor)選擇其中之一。 您可以刪除所有具有較高值 ( VIF > 5 ) 的變量。 在這種方法中,您必須計算數值列之間的相關係數(皮爾遜積矩係數)和名義列之間的相關係數(皮爾遜卡方值)。 在這裡,所有相關係數高於設定閾值的列對都將減少為 1。

由於相關性對比例敏感,因此您必須執行列規範化。

8. 後向特徵消除

在後向特徵消除技術中,您必須從所有“n”維開始。 因此,在給定的迭代中,您可以在n 個輸入特徵上訓練特定的分類算法現在,您必須一次刪除一個輸入特徵,並在n-1 個輸入變量上訓練相同的模型n次。 然後刪除輸入變量,其消除產生的錯誤率增加最小,留下n-1 個輸入特徵。 此外,您使用n-2 個特徵重複分類,並一直持續到無法刪除其他變量為止。

每次迭代 ( k)都會創建一個基於 nk 個特徵訓練的模型,該模型的錯誤率為e(k) 在此之後,您必須選擇最大可承受錯誤率來定義使用給定 ML 算法達到分類性能所需的最少特徵數。

另請閱讀:為什麼數據分析在業務中很重要

9.前向特徵構建

前向特徵構造與後向特徵消除方法相反。 在前向特徵構造方法中,您從一個特徵開始,然後通過一次添加一個特徵來繼續進步(這是導致性能最大提升的變量)。

前向特徵構建和後向特徵消除都是時間和計算密集型的。 這些方法最適合已經具有少量輸入列的數據集。

10. 隨機森林

隨機森林不僅是優秀的分類器,而且對於特徵選擇也非常有用。 在這種降維方法中,您必須針對目標屬性仔細構建一個廣泛的樹網絡。 例如,您可以創建一大組(例如,2000 個)淺樹(例如,具有兩個級別),其中每棵樹都在屬性總數的一小部分 (3) 上進行訓練。

目的是使用每個屬性的使用統計數據來識別信息量最大的特徵子集。 如果發現一個屬性是最好的分割,它通常包含一個值得考慮的信息特徵。 當您計算隨機森林中某個屬性相對於其他屬性的使用統計得分時,它會為您提供最具預測性的屬性。

結論

總而言之,在降維方面,沒有一種技術是絕對最好的。 每個都有其怪癖和優勢。 因此,實施降維技術的最佳方法是使用系統和受控的實驗來確定哪種技術適用於您的模型,以及哪種技術在給定數據集上提供最佳性能。

如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

什麼是降維?

降維是數據挖掘中使用的一種技術,用於將高維數據映射到低維表示,以便可視化數據並找到使用傳統方法不明顯的模式。 它通常與聚類技術或分類技術結合使用,將數據投影到較低維度的空間中,以便於可視化數據和查找模式。

降維的方法有哪些?

3維降維技術很流行並被廣泛使用。 1. 主成分分析(PCA):它是一種通過將數據集變換到新的坐標係來降低數據集的維數的方法,使得數據中的最大方差由第一個坐標解釋,第二個最大方差被解釋通過第二個坐標,依此類推。 2.因子分析:它是一種從數據集中提取自變量(也稱為因子)的統計技術。 目的是簡化或減少數據集中的變量數量。 3. 對應分析:這是一種通用的方法,可以同時考慮數據集中的分類變量和連續變量。

降維的缺點是什麼?

降維的主要缺點是它不能保證原始數據的重建。 例如,在 PCA 中,在輸入空間中非常靠近的兩個數據點最終可能在輸出中彼此相距很遠。 這使得很難在輸出數據中找到輸入點。 此外,降維後的數據可能更難以解釋。 例如,在 PCA 中,您仍然可以將第一個分量視為第一個主分量,但很難為第二個或更高的分量賦予意義。 從實際的角度來看,由於這個缺點,通常在降維之後對數據集進行 k-means 聚類或其他降維技術。