穩健關聯(Robust Correlation)

?

相關性是一種統計工具,用于分析和測量兩個或多個變量之間的關系程度或關聯程度。通常有三種類型的相關性:

  • 正相關:當我們增加一個變量的值時,另一個變量的值也會分別增加,這稱為正相關。
  • 負相關:當我們增加一個變量的值時,另一個變量的值會分別減少,這稱為負相關。
  • 零相關性:當一個變量的值的變化對另一個變量沒有實質性影響時,它稱為零相關性。

Pearson 相關性:

Pearson 相關是計算相關性的最常用方法。它用 r 表示??紤]兩個變量 x 和 y,它由以下公式表示:

穩健關聯(Robust Correlation)的圖2?編輯

接近 -1 的值表示完全負相關,而 0 表示無相關性,1 表示強正相關。

Pearson 相關系數是正態分布的兩個變量之間相關性的良好估計量。但是,它不滿足穩健估計器的標準,因為它不是:

  • 抵抗:這意味著即使更改一小部分數據(即使更改量很大)也不會對估計值產生太大影響。
  • 效率穩健性:該統計數據在各種情況下都具有很高的效率,而不是在任何一種情況下。效率意味著估計值接近最佳估計值,因為我們知道數據來自哪個分布。

可以使用以下公式來衡量效率:

穩健關聯(Robust Correlation)的圖3穩健關聯(Robust Correlation)的圖4?編輯?

折彎百分比相關:

Winsorized Correlation:

像 Pearson 這樣的標準相關性有時受到極值的重要影響。Winsorized 相關通過將尾部值設置為等于某個百分位數值來解決此問題。

例如,對于 90% 的 Winsorized 相關,后 5% 的值設置為等于第 5 個百分位數對應的值,而上 5% 的值設置為等于第 95 個百分位數對應的值。然后應用標準相關性。

?

Python 實現代碼:

  • 在此實現中,我們將使用 R 圖形庫中提供的 motor trend car Road Tests 數據集。它非常受歡迎且易于獲得。此數據集包含與汽車相關的 11 個不同變量的 32 個觀測值。我們將執行這些變量(Pearson、百分比彎曲和 winsorized)之間的相關性分析并繪制它們。

以下內容為付費內容,請購買后觀看

App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP

1