機器學習中的回歸與分類:回歸和分類之間的區別

已發表: 2020-11-12

目錄

介紹

在解決數據科學問題時,採用正確的方法至關重要,這通常意味著混淆和提出正確的解決方案之間的區別。 一開始,數據科學家往往會混淆這兩者——無法找出對用正確方法解決問題很重要的小技術細節。

即使是經驗豐富的數據科學家,這些差異也很容易混淆,這使得應用正確的方法變得具有挑戰性。 在本次演講中,我們將深入探討兩種重要的數據科學算法——分類和回歸——的異同。

這兩種方法都應該是任何數據科學家解決業務問題的必備工具。 因此,關鍵的理解對於選擇正確的模型、進行適當的微調以及部署正確的解決方案來提升您的業務至關重要。

閱讀:機器學習項目理念

回歸與分類

首先,重要的相似性——回歸和分類都屬於有監督的機器學習方法。 什麼是監督機器學習方法? 它是一組機器學習算法,使用真實世界的數據集(稱為訓練數據集)來訓練模型以進行預測。

用於訓練模型的數據需要標記好且乾淨; 該模型將從訓練數據中學習自變量和預測變量之間的關係。 它與無監督機器學習方法形成對比,後者要求模型自行識別數據中的模式,從而通過檢查數據集中固有的模式來找到映射函數。

有監督的機器學習方法試圖求解映射函數 y = f(x),其中 x 指的是輸入變量,y 是映射函數。 通過求解映射函數,可以快速方便地轉移到真實世界的數據集中。

分類和回歸函數以及任何其他有監督的機器學習方法都可以做到這一點。 但是顯著的區別和回歸方法是,在回歸中,輸出變量“y”是數字和連續的(可以是整數或浮點值) ,在分類算法中,輸出變量“y”是離散的並且分類的。

因此,如果您要預測諸如工資、預期壽命、流失概率等變量,那麼這些變量將是數字的且連續的。

例如,假設一家金融機構有興趣對其貸款申請人進行分析,以評估他們違約的可能性。 數據科學家可以通過兩種主要方式解決這個問題——它可以為每個貸款申請人分配一個概率(這將是一個介於 0 和 1 之間的連續浮點數範圍),或者它只是給出一組二進制輸出——對應於通過/失敗。

兩種方法都將採用相同的輸入變量集——例如申請人的信用記錄、工資信息、人口統計、年齡、宏觀經濟狀況等。但兩種方法之間的區別在於,雖然前者對每個申請人進行評分,但這可能有助於進行相對論計算,例如一個人對抗另一個人的可能性有多大。

輸出也可用於其他分析。 但是,在後一種情況下,該算法將單個配置文件的整個數據集分類為是或否,然後可以用來判斷給予信用是否安全。 請注意,yes 和 no 類在子類中可能有相當大的變化。

但是在這裡使用分類方法,我們對找出每個子組內的變化不感興趣。 分類可用於其他目的,例如分類傳入的電子郵件是垃圾郵件還是非垃圾郵件。

另一方面,天氣預報(天氣能夠採用一系列連續值)通常需要回歸方法。 相反,如果我們只對預測是否會下雨感興趣,那麼將相同的天氣數據集放入分類系統可能會更合適。 因此,正如我們所見,用例將決定哪種算法更適合使用。

回歸算法包括線性回歸、多元回歸、支持向量模型和回歸樹等。 分類方法利用決策樹、樸素貝葉斯、邏輯回歸等。

通過了解這些方法和算法之間的區別,您將能夠更好地選擇正確的方法並將其應用於您的特定業務用例,從而幫助您快速找到正確的解決方案。

分類和回歸算法類型

讓我們深入了解回歸和分類中使用的每種算法類型。

線性回歸——在線性回歸中,兩個變量之間的關係是通過繪製一條直線的最佳擬合線來估計的。 將需要其他測量來衡量繪製的最佳擬合線的強度,例如擬合強度、方差、標準偏差、r 平方值等。 詳細了解機器學習中的回歸模型。

多項式回歸——在多項式回歸模型中,測量“幾個”輸入變量與預測變量或“輸出”變量之間的關係。 了解有關回歸模型的更多信息。

決策樹算法——在決策樹算法中,數據集在決策樹的幫助下進行分類——樹的每個節點都是一個測試用例,樹的每個節點出現的每個分支都對應一個可能的值的屬性。

閱讀:如何創建完美的決策樹?

隨機森林算法- 顧名思義,隨機森林是通過添加幾個決策樹算法而構建的。 然後,該模型聚合來自不同決策樹的輸出並得出最終預測,該預測通過對單個決策樹的多數投票進行。

決策樹給出的最終輸出比任何單個決策樹提供的更準確。 '隨機森林通常容易出現過擬合問題,但可以通過交叉驗證和其他方法進行微調

K 最近鄰- K 最近鄰是一種穩健的分類算法,其工作原理是相似的事物彼此保持非常接近。 當新變量被放入預測算法時,它會嘗試根據其與數據集的接近程度來分配給一個組。 了解有關 KNN 的更多信息。

結論

作為一名數據科學家,您需要對不同的分類和回歸方法有一個基本和基本的了解,所涉及的技術將幫助您作為一名數據科學家應用正確的工具集,提出一個合適的解決方案,這將使您受益你的事。

如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

引領人工智能驅動的技術革命

機器學習和人工智能的 PG 文憑
了解更多