機器學習回歸模型相關重要知識點總結
來源:機器學習研習院
回歸分析為許多機器學習算法提供了堅實的基礎。在這篇文章中,我們將總結 10 個重要的回歸問題和5個重要的回歸問題的評價指標。
1、線性回歸的假設是什么?
線性回歸有四個假設
-
線性:自變量(x)和因變量(y)之間應該存在線性關系,這意味著x值的變化也應該在相同方向上改變y值。 -
獨立性:特征應該相互獨立,這意味著最小的多重共線性。 -
正態性:殘差應該是正態分布的。 -
同方差性:回歸線周圍數據點的方差對于所有值應該相同。
2、什么是殘差,它如何用于評估回歸模型?
殘差是指預測值與觀測值之間的誤差。它測量數據點與回歸線的距離。它是通過從觀察值中減去預測值的計算機。
殘差圖是評估回歸模型的好方法。它是一個圖表,在垂直軸上顯示所有殘差,在 x 軸上顯示特征。如果數據點隨機散布在沒有圖案的線上,那么線性回歸模型非常適合數據,否則我們應該使用非線性模型。
3、如何區分線性回歸模型和非線性回歸模型?
兩者都是回歸問題的類型。兩者的區別在于他們訓練的數據。
線性回歸模型假設特征和標簽之間存在線性關系,這意味著如果我們獲取所有數據點并將它們繪制成線性(直線)線應該適合數據。
殘差圖
-
散點圖 -
假設數據是線性的,訓練一個線性模型并通過準確率進行評估。
4、什么是多重共線性,它如何影響模型性能?
當某些特征彼此高度相關時,就會發生多重共線性。相關性是指表示一個變量如何受到另一個變量變化影響的度量。
如果特征 a 的增加導致特征 b 的增加,那么這兩個特征是正相關的。如果 a 的增加導致特征 b 的減少,那么這兩個特征是負相關的。在訓練數據上有兩個高度相關的變量會導致多重共線性,因為它的模型無法在數據中找到模式,從而導致模型性能不佳。所以在訓練模型之前首先要盡量消除多重共線性。
5、異常值如何影響線性回歸模型的性能?
6、什么是 MSE 和 MAE 有什么區別?
MSE 代表均方誤差,它是實際值和預測值之間的平方差。而 MAE 是目標值和預測值之間的絕對差。
MSE 會懲罰大錯誤,而 MAE 不會。隨著 MSE 和 MAE 的值都降低,模型趨向于一條更好的擬合線。
7、L1 和 L2 正則化是什么,應該在什么時候使用?
L2 正則化或ridge 回歸增加了相當于系數大小平方的懲罰項。它會懲罰具有較高斜率值的特征。
l1 和 l2 在訓練數據較少、方差高、預測特征大于觀察值以及數據存在多重共線性的情況下都很有用。
8、異方差是什么意思?
它是指最佳擬合線周圍的數據點的方差在一個范圍內不一樣的情況。它導致殘差的不均勻分散。如果它存在于數據中,那么模型傾向于預測無效輸出。檢驗異方差的最好方法之一是繪制殘差圖。
數據內部異方差的最大原因之一是范圍特征之間的巨大差異。例如,如果我們有一個從 1 到 100000 的列,那么將值增加 10% 不會改變較低的值,但在較高的值時則會產生非常大的差異,從而產生很大的方差差異的數據點。
9、方差膨脹因子的作用是什么的作用是什么?
方差膨脹因子(vif)用于找出使用其他自變量可預測自變量的程度。
10、逐步回歸(stepwise regression)如何工作?
逐步回歸是在假設檢驗的幫助下,通過移除或添加預測變量來創建回歸模型的一種方法。它通過迭代檢驗每個自變量的顯著性來預測因變量,并在每次迭代之后刪除或添加一些特征。它運行n次,并試圖找到最佳的參數組合,以預測因變量的觀測值和預測值之間的誤差最小。
它可以非常高效地管理大量數據,并解決高維問題。
11、除了MSE 和 MAE 外回歸還有什么重要的指標嗎?
1、平均絕對誤差(MAE):
2、均方誤差(MSE):
3、均方根誤差 (RMSE):
上述指標取決于我們正在解決的問題的上下文, 我們不能在不了解實際問題的情況下,只看 MAE、MSE 和 RMSE 的值來判斷模型的好壞。
4、R2 score:
-
如果 R2 得分為 0,則意味著我們的模型與平均線的結果是相同的,因此需要改進我們的模型。 -
如果 R2 得分為 1,則等式的右側部分變為 0,這只有在我們的模型適合每個數據點并且沒有出現誤差時才會發生。 -
如果 R2 得分為負,則表示等式右側大于 1,這可能發生在 SSR > SSM 時。這意味著我們的模型比平均線最差,也就是說我們的模型還不如取平均數進行預測
5、Adjusted R2 score:
以上就是回歸問題的重要知識點和解決回歸問題使用的各種重要指標的介紹及其優缺點,希望對你有所幫助。
END
工程師必備
- 項目客服
- 培訓客服
- 平臺客服
TOP




















