機器學習中的線性回歸:你需要知道的一切

已發表: 2020-04-28

我們日常生活的各個方面都使用了不同的機器學習技術,以以數據、分析和經驗為後盾的方式找到日常問題的解決方案。 這些機器學習算法不僅在識別文本、圖像和視頻方面發揮著非常重要的作用,而且在改進醫療解決方案、網絡安全、營銷、客戶服務以及與我們日常生活有關的許多其他方面或領域方面發揮著重要作用。

主要有兩種類型的機器學習算法,所有算法都分為。 這些是有監督和無監督的機器學習算法。 我們在這篇博客中的重點將只放在有監督的機器學習算法上,尤其是線性回歸。 讓我們從了解監督機器學習算法開始。

目錄

什麼是監督學習算法?

這些機器學習算法是我們訓練來預測依賴於用戶輸入數據的成熟輸出的算法。 該算法訓練模型以在給定數據集上提供輸出。 一開始,系統可以訪問輸入和輸出數據。 系統的工作是定義將輸入映射到輸出的規則。

模型的訓練一直持續到性能達到最佳水平。 訓練結束後,系統能夠分配在訓練時沒有遇到的輸出對象。 在理想情況下,此過程非常準確,不會花費很多時間。 有兩種類型的監督學習算法,即分類和回歸。

在直接進入我們的主要討論主題之前,我們將簡要討論這兩個問題。

一、分類

這些是有監督的機器學習算法,其簡單目標是重現類分配。 對於需要數據分離的情況,通常會考慮學習技術。 它通過預測響應將數據分類。 例如,某一天的天氣預報,從相冊中識別特定類型的照片,以及從電子郵件中分離垃圾郵件。

2.回歸

學習技術用於服務於再現輸出值的目標。 換句話說,它用於我們需要將數據擬合到特定值的情況。 例如,它通常用於估算不同物品的價格。 回歸可以用來預測比你想像的更多的事情。

回歸類型

邏輯回歸和線性回歸是現代機器學習和數據科學世界中存在的兩種最重要的回歸類型。 然而,也有其他的,但它們的使用非常謹慎。 不可否認的是,我們可以對給定的數據集執行大量回歸或用於不同的情況。

每種形式的回歸都有其優點和缺點,並且適用於特定條件。 雖然我們將只關注線性攻擊,但您需要了解完整的背景才能熟悉它的工作原理。

這就是我們逐步進行討論的原因。

什麼是回歸分析?

回歸分析不過是一種預測建模方法,旨在研究自變量或預測變量與因變量或目標之間存在的關係。 這種分析用於許多不同的事情,包括時間序列建模、預測等。

例如,如果你想研究交通事故和隨意駕駛之間的關係,沒有比回歸分析更好的技術來完成這項工作。 它在分析和建模數據方面都起著非常重要的作用。 這是通過將直線或曲線擬合到不同的數據點來完成的,我們可以最小化數據點與直線或曲線的距離差異。

回歸分析需要什麼?

回歸分析用於預測變量之間的關係,只有當它們的數量為兩個或更多時。 讓我們通過一個簡單的例子來了解它是如何工作的。 假設您有一項任務,要求您在考慮現有經濟狀況的情況下,估算公司在給定時期內的銷售增長。

現在公司數據告訴你,銷售額增長大約是經濟增長的兩倍。 我們可以通過從過去和當前的信息中獲取洞察,使用這些數據來估計公司未來的銷售額增長。

在處理數據或對數據集進行預測時,使用回歸分析可以為您帶來許多好處。 它可以用來指出自變量和因變量之間的重要關係。 它用於表示來自多個自變量的因變量經驗的影響。

它允許比較屬於不同測量尺度的不同變量的影響。 這些東西在幫助數據科學家、研究人員和數據分析師基於最合適的變量集構建預測模型方面大有幫助。

閱讀:機器學習項目的想法和主題

選擇正確的回歸模型需要注意什麼?

好吧,當您只有兩種或三種技術可供選擇時,事情通常會容易得多。 但是,如果我們有這麼多可供選擇的選擇,那麼這個決定就會變得更加壓倒性。 現在你不能只選擇線性回歸,因為結果是連續的。 如果結果是二元的,或者進行邏輯回歸。 當我們為我們的問題選擇回歸模型時,還有更多的事情需要考慮。

正如我們已經提到的,有更多可用的回歸模型,然後我們就可以了解了。 那麼我們在選擇的時候需要注意什麼呢? 有幾件事很重要——數據維度、因變量和自變量的類型以及相關數據的其他屬性。 在選擇正確的回歸模型時,需要考慮以下幾個重要事項:

數據探索是構建預測模型的關鍵。 難怪它一定是您在做出選擇之前應該做的第一件事。 探索用於識別變量影響和關係的數據。

通過交叉驗證評估不同的回歸模型以進行預測。 將您的數據集分成訓練組和驗證組。 預測值和觀察值之間的均方差將提供對預測準確性的洞察。

使用 Ridge、ElasticNet 和其他回歸正則化方法為具有高多重共線性和維度的變量的數據集選擇正確的模型。

為了對不同的回歸模型及其適用性進行比較,我們可以分析參數,例如 AIC、BIC、R 平方、誤差項等。 還有一個標準,稱為 Mallow 的 Cp。 它將模型與不同的子模型進行比較以找出偏差。

如果您正在使用的數據集有許多令人費解的變量,則永遠不要使用自動模型選擇方法。 如果你這樣做,你將朝著將這些變量一次性放入模型的方向發展。

您的目標對於選擇正確的回歸模型也很重要。 無論您需要一個強大的模型、一個簡單的模型還是一個具有統計意義的模型,都取決於您的目標。

什麼是線性回歸?

讓我們更多地了解什麼是線性回歸。 它是屬於監督學習的機器學習技術之一。 機器學習技術的需求和使用的增加是線性回歸在幾個領域的使用突然高漲的背後。 你知道多層感知器層可以執行線性回歸嗎? 現在讓我們闡明已知線性回歸對其所應用的數據集所做的假設。

1. 自相關:

線性回歸做出的這個假設表明數據中幾乎沒有自相關。 當殘差以一種或另一種方式相互依賴時,就會發生自相關。

2.多重共線性:

這個假設表明數據多重共線性要么根本不存在,要么幾乎不存在。 當獨立的特徵或變量表現出某種依賴性時,就會發生多重共線性。

3.變量關係:

該模型假設特徵變量和響應變量之間存在線性關係。

您可以使用線性回歸的一些例子包括根據房屋數量估算房屋價格,根據澆水的頻率確定植物的生長情況等等。 對於所有這些實例,您已經對不同變量之間存在的關係類型有所了解。

當您使用線性回歸分析時,您可以用數據支持您的想法或假設。 當您更好地理解不同變量之間的關係時,您就可以更好地做出有力的預測。 如果您還不知道,讓我們告訴您線性回歸是一種有監督的機器學習技術以及一種統計模型。

在機器學習術語中,回歸模型就是你的機器,學習與在數據集上訓練這個模型有關,這有助於它學習變量之間的關係並使其能夠進行數據支持的預測。

線性回歸如何工作?

在我們進行分析之前,讓我們假設我們有兩種類型的團隊——一種能很好地完成工作,另一些則不能。 一個團隊不擅長它正在做的事情可能有幾個原因。 這可能是因為它沒有合適的技能組合,或者它沒有在工作中履行某些職責所需的經驗。 但是,你永遠無法確定它是什麼。

我們可以使用線性回歸來找出最適合參與特定工作的特定團隊所需的所有候選人。 這將有助於我們選擇極有可能擅長其工作的候選人。

回歸分析的目的是創建適合相關數據的趨勢曲線或線。 這有助於我們找出一個參數(自變量)與另一個參數(因變量)的關係。

首先,我們需要仔細查看不同候選人的所有屬性,並找出它們是否以某種方式相關。 如果我們發現一些相關性,我們可以繼續根據這些屬性進行預測。

通過使用趨勢曲線或線並繪製數據來完成數據中的關係探索。 曲線或線會告訴我們是否存在任何相關性。 我們現在可以使用線性回歸來反駁或接受關係。 當關係確定後,我們可以使用回歸算法來學習他的關係。 這將使我們能夠做出正確的預測。 我們將能夠更準確地預測候選人是否適合這份工作。

訓練模型的重要性

訓練線性回歸模型所涉及的過程在許多方面與訓練其他機器學習模型的過程相似。 我們需要處理訓練數據集,並以不影響模型預測新數據樣本能力的方式對其變量之間的關係進行建模。 模型經過訓練以不斷改進您的預測方程。

它是通過迭代循環遍歷給定的數據集來完成的。 每次重複此操作時,您都會同時更新梯度或成本函數指示的方向上的偏差和權重值。 當觸及錯誤閾值或隨後的訓練迭代沒有降低成本時,就達到了訓練完成的階段。

在我們開始訓練模型之前,我們需要準備一些東西。 我們需要設置所需的迭代次數以及學習率。 除此之外,我們還必須為權重設置默認值。 此外,記錄每次重複我們能夠取得的進展。

什麼是正則化?

如果我們談論比其他變體更受歡迎的線性回歸變體,那麼我們將不得不提及那些增加了正則化的變體。 正則化涉及懲罰模型中絕對值大於其他模型的權重。

進行正則化以限製過度擬合,這是模型經常做的事情,因為它過於緊密地再現了訓練數據關係。 它不允許模型按照預期的那樣概括以前從未見過的樣本。

我們什麼時候使用線性回歸?

線性回歸的強大之處在於它的簡單程度。 這意味著它可以用來找到幾乎所有問題的答案。 在使用線性回歸算法之前,您必須確保您的數據集滿足其工作所需的條件。

這些條件中最重要的是數據集變量之間存在線性關係。 這使得它們可以很容易地被繪製出來。 您需要看到預測值和實際實現值之間存在的差異是恆定的。 預測值應該仍然是獨立的,並且預測變量之間的相關性應該太接近而無法舒適。

您可以簡單地沿著一條線繪製數據,然後徹底研究其結構,以查看您的數據集是否滿足所需條件。

線性回歸使用

線性攻擊的簡單性使分子水平的解釋更容易是其最大的優勢之一。 線性回歸可以應用於所有變量具有線性關係的數據集。

企業可以使用線性回歸算法是他們的銷售數據。 假設您是一家計劃推出新產品的企業。 但是,您不確定應該以什麼價格出售該產品。 您可以通過以一些經過深思熟慮的價格點銷售產品來檢查客戶對您的產品的反應。 這將允許您概括產品銷售和價格之間的關係。 使用線性回歸,您將能夠確定客戶更有可能接受的價格點。

另請閱讀:印度的機器學習薪資

線性回歸也可用於產品採購和生產的不同階段。 這些模型廣泛應用於學術、科學和醫學領域。 例如,農民可以建立一個系統模型,使他們能夠利用環境條件為自己謀取利益。 這將幫助他們以這樣一種方式處理這些元素,使它們對作物產量和利潤造成最小的損害。

除此之外,它還可用於醫療保健、考古和勞動等領域。 是如何解釋線性模型

結論

回歸分析是一種廣泛採用的工具,它使用數學來分類可能對最終數據產生直接或間接影響的變量。 在進行分析時牢記這一點很重要! 線性回歸是數據科學家用來建立數據集變量之間線性關係的最常用算法之一,其數學模型是預測分析所必需的。

如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

線性回歸是否有任何限製或缺點?

線性回歸是一種流行的方法,用於理解因變量與一個或多個自變量之間的關係。 儘管線性回歸模型被廣泛用於開發機器學習模型,但它也有一定的局限性。 例如,這種回歸算法假設變量之間的所有關係都是線性的,這通常會產生誤導。 然後,它總是在檢查因變量與自變量的關係時考慮因變量的平均值。 其次,線性回歸總是假設數據是互斥的,即獨立於其他值,這可能是不正確的。 此外,線性回歸通常對異常值或意外數據敏感。

回歸分析流行的原因有哪些?

回歸分析是機器學習中最有用和最強大的統計技術之一。 有多種原因可以解釋其受歡迎程度。 首先,回歸分析由於其巨大的多功能性而具有廣泛的應用。 回歸分析模型的實現和解釋非常簡單,也就是說,您可以輕鬆地解釋它的工作原理並解釋結果。 了解回歸分析可以牢牢掌握機器學習統計模型。 它還可以幫助您使用 R 和 Python 等編程語言開發更高效的機器學習模型。 此外,該技術與人工神經網絡提供了出色的可集成性,可用於做出有用的預測。

企業如何將線性回歸應用於他們的優勢?

企業可以使用線性回歸來檢查並生成有用的數據洞察,以了解影響盈利能力的消費者行為。 它還可以幫助公司進行估計和評估市場趨勢。 營銷人員可以使用線性回歸來評估他們的營銷策略的有效性,包括促銷和產品定價。 金融和保險公司可以有效地評估風險並製定關鍵的業務決策。 信用卡公司可以使用線性回歸模型將違約者的風險組合降至最低。