線性回歸模型:它是什麼以及它是如何工作的?

已發表: 2020-12-16

目錄

介紹

回歸分析是數據建模和分析的重要工具; 必須找到兩個或多個變量之間的關係。 回歸有助於將數據點放置在有助於建模和分析數據的曲線中。 回歸允許在不同尺度上測量和表徵變量,以評估預測模型和數據集。

必讀:線性回歸項目理念

回歸模型

該模型涉及用於表示數據的係數值。 它包括用於估計這些係數的統計特性; 它是所有標準差、協方差和相關性的合併。 所有數據都必須可用。

回歸模型是一個線性條件,它整合了信息值 (x) 的特定排列,其答案是該組信息值 (y) 的預期輸出。 信息值 (x) 和輸出都是數字。

線性方程為每個信息值或段分配一個比例因子,稱為係數,用大寫希臘字母 Beta (B) 表示。 同樣添加了一個額外的係數,為線提供了額外的機會(例如在二維圖上遍歷),這通常稱為捕獲或傾斜係數。

例如,在一個基本回歸(一個簡單的 x 和一個簡單的 y)中,模型的類型是:

y = B0 + B1*x

在更高的測量中,當我們有多個信息 (x) 時,這條線被稱為平面或超平面。 沿著這些線描繪的是條件的類型和用於係數的特定質量(例如上述模型中的 B0 和 B1)。

討論像回歸這樣的複發模型的多面性並不出人意料。 這暗示了模型中使用的係數數量。

在係數變為零時,它充分消除了信息變量對模型的影響,並隨後消除了使用模型產生的預測的影響 (0 * x = 0)。 如果您查看正則化技術,這些技術可以通過壓縮係數的最大大小來改變學習計算以減少復發模型的多面性,從而將一些係數降低到零,則這是相關的。

回歸最好用一條直線表示,其中一個或多個變量用於建立關係。

模型背後的邏輯:

由於回歸模型使用方程 y=mx+c

其中 y= 自變量

m=斜率

c=截距給定行

為了計算多個自變量,將實施多個回歸模型。 這是創建完美功能模型的過程

  1. 導入庫- 圍繞機器學習模型的實施有一些基本參數。 第一個庫應該包括 sklearn,因為它是 python 中的官方機器學習庫。 Numpy 用於將數據轉換為數組,並訪問數據集的文件,實現了 Pandas。
  2. 加載相關數據集——它是在之前導入的 Panda 變量的幫助下完成的。
  3. 拆分變量- 指定並定義數組元素所需的自變量或因變量的數量。
  4. 測試和訓練數據的拆分——整個數據集被分解為訓練和測試域,以允許和促進從數據集中獲取的隨機值。
  5. 選擇正確的模型——適當的選擇需要一個反複試驗的過程,其中相同的數據集將隱含在其他模型中。
  6. 輸出預測- 模型將在由自變量的測試值支持的因變量上運行,這些模型的內置方法對呈現的每個值進行定性數學運算。

這將啟動線性回歸模型的實施。 如前所述,線性預測函數是為關係建模而實現的。 響應的條件均值為模型提供了移動響應的條件均值所需的預測變量。

此類預測和預測的目標是在不添加相應響應值的情況下容納其他變量; 將實施擬合模型以對該響應做出必要的預測。

線性回歸模型最適合與最小二乘法一起使用,例如,實現可能需要通過最小化偏差和成本函數的其他方式。 一般線性模型包括一個響應變量,該變量本質上是一個向量,而不是直接標量。 在建模過程中,條件線性仍然被假定為正。 它們在很大範圍內變化,但最好將它們描述為與對數正態分佈相關的偏態分佈。

閱讀:機器學習中的回歸模型類型

警告

鑑於這兩個變量是相關的,這並不排除一個導致另一個的特徵。

如果嘗試使用數據集的線性回歸方程並且它有效,則並不一定意味著該方程是完美擬合的,可能還有其他具有類似前景的迭代。 為確保該技術是真實的,請嘗試用數據點繪製一條線以找出方程的線性度。

總結

事實證明,線性回歸方法提供了一種更好、更強大的統計方法,可以增加機會並找到事件的可預測性以及兩個或多個感興趣的變量之間的關係。

如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

提及使用線性回歸模型時可能面臨的一些問題。

線性回歸有助於預測因變量的均值與獨立因素之間的關係。 這變得有問題,因為有時解決問題的唯一方法是查看因變量的極值。 另一方面,分位數回歸可用於解決此問題。 此外,線性回歸假設呈現的數據是獨立的,這在聚類問題的情況下是不正確的。

什麼是回歸中的線性相關係數?

相關係數只是簡單線性回歸中分析變量之間關係的一個方面。 事實上,它是最強大和最廣泛使用的統計分析方法之一。 皮爾遜積矩相關係數是最常用的相關係數,它基本上是一個統計量,可以告訴我們兩個變量之間的聯繫程度。 線性相關係數評估兩個變量之間線性關聯的強度。 完美的線性連接是其中一個變量的變化導致另一個變量的相同單位變化。

回歸分析對任何業務都有什麼幫助?

回歸分析可幫助組織了解其數據點所代表的內容並將業務分析方法應用於它們,以便做出更好的決策。 業務分析師和數據專業人員使用這種複雜的統計工具來消除不必要的變量並選擇最相關的變量。 組織正在使用數據驅動的決策制定,這消除了猜測或假設假設等老式技術,從而提高了工作績效。