數據分析 (Analytics) --置信區間 (CI)

?

置信區間 (CI) 是一個值范圍,用于估計真實總體值可能下降的位置。與其說學生的平均身高是 165 厘米,不如說我們 95% 的信心,真正的平均身高在 160 厘米到 170 厘米之間。

在深入研究置信區間之前,您應該熟悉以下內容:

解釋置信區間

假設我們抽取 50 名學生的樣本,計算 出他們平均身高的 95% 置信區間,結果是 160-170 厘米。這意味著,如果我們重復采用類似的樣本,則這些區間的 95% 將包含總體中所有學生的真實平均身高

2?

數據分析 (Analytics) --置信區間 (CI)的圖2 編輯

置信區間

Confidence level 告訴我們 true 值在計算范圍內的確定程度。如果我們必須多次重復采樣過程,我們預計這些區間的一定百分比將包括 true 值。

  • 90% 置信度:90% 的區間將包括真實的總體值。
  • 95% 置信度:95% 的區間將包括數據科學中常用的真實值。
  • 99% 置信度:99% 的區間將包含真實值,但區間會更寬。

為什么置信區間在數據科學中很重要?

  • 它們有助于衡量預測和估計中的不確定性。
  • 通過這些數據,科學家們找到了可靠的結果,而不僅僅是給出一個數字。
  • 它們廣泛用于 A/B 測試、機器學習和調查分析,我們稍后會研究這些分析以檢查結果是否有意義。

構造置信區間的步驟

要計算置信區間,請遵循以下簡單的 4 個步驟:

步驟 1:確定樣本問題。

定義要估計的總體參數,例如,學生的平均身高。選擇正確的統計數據,例如樣本均值

第 2 步:選擇置信度。

在此步驟中,我們選擇置信度,一些常見的選擇是 90%、95% 或 99%。 它代表了我們對估計的確定程度。

第 3 步:找到誤差幅度。

要找到 Margin of Error,請使用以下公式:

M一個rg我n of Error=Cr我t我c一個l V一個lue×St一個nd一個rd ErrorMargin of Error=Critical Value×Standard Error

對于小樣品,使用 Z 表或 T 表找到臨界值。首先,您選擇顯著性水平 (α),對于 95% 的置信水平,該水平通常為 0.05。然后決定您是執行單尾還是雙尾測試,其中雙尾是更常見的選擇。在此之后,您可以根據顯著性水平和測試類型在 Z 表或 T 表中查看相應的值。

標準誤差衡量樣本的變異性,通過將樣本的標準差除以樣本量的平方根來計算。將臨界值和標準誤差組合在一起,可以得到誤差幅度,它告訴您預期真實值所在的范圍。

步驟 4:指定置信區間。

要找到 Confidence Interval,我們使用以下公式:

Conf我dence 我nterv一個l=Po我nt Est我m一個te±M一個rg我n of ErrorConfidence Interval=Point Estimate±Margin of Error

現在,Point Estimate 通常是樣本的平均值或平均值。這是基于樣本數據對真實值的最佳猜測。Margin of Error (邊距誤差) 告訴您樣本數據可能與我們在上一步中計算的真實值相差多少。

因此,當您從點估計值中增加或減去誤差幅度時,您會得到一個范圍。此范圍告訴您真實值可能落在何處。

置信區間的類型

一些常見的 Confidence Interval 類型包括:

不同類型的置信度Intervals_?

數據分析 (Analytics) --置信區間 (CI)的圖4 編輯

置信區間的類型

1. 正態分布數據平均值的置信區間

當我們想根據樣本找到總體的平均值時,我們使用這種方法。

  • 如果樣本量較小(小于 30),則使用 T 分布,因為小樣本往往具有更大的可變性。
  • 如果樣本量很大(超過 30),則我們使用 Z 分布,因為大樣本往往給出更準確的估計值。

2. 比例的置信區間

在估計人口比例(如喜歡產品的人數百分比)時,使用此類型。在這里,我們使用樣本比例標準誤差臨界 Z 值來計算區間。它為我們提供了基于樣本數據的實際值可能落在何處的想法。

3. 非正態分布數據的置信區間

有時,您擁有的數據不是正態分布的,這意味著它不遵循鐘形曲線。在這種情況下,傳統的置信區間并不是最好的方法。相反,我們可以使用 bootstrap 方法。這涉及對數據進行多次重新采樣以創建不同的樣本,然后從這些重新采樣中計算置信區間。

計算置信區間

在了解了 t 檢驗和 z 檢驗之后,我們現在開始討論如何計算置信區間。 要計算置信區間,您需要兩個關鍵統計數據:

  • 平均值 (μ) — 算術平均值是數字的平均值。它被定義為 n 個數字之和除以數字計數直到 n。
    μ=1+2+3+…+nn?
  • 標準差 (σ) — 它是衡量數字分布程度的指標。它被定義為每個數字與平均值之差的平方和。
    σ=∑(xi?μ)2n

獲得這些后,您可以使用 t 分布或 z 分布計算置信區間,具體取決于樣本量,無論總體標準差是否已知。

A) 使用 t 分布

當您的樣本量較小(通常為 n < 30)并且您不知道總體標準差時,我們使用 t 分布。這在 A/B 測試等領域或處理小型數據集時很常見。

請考慮以下示例。隨機抽取 10 名 UFC 戰士的樣本并測量他們的體重。發現平均體重為 240 公斤。構建平均權重的 95% 置信區間估計值。樣品標準差為 25 kg。求所有 UFC 戰士的真實平均體重的樣本的置信區間。

分步過程:

  • 自由度 (df):
    對于 t 分布,我們首先計算自由度: df=n?1=10?1=9DF 系列=n?1=10 -1=9
  • 顯著性水平 (α):
    置信水平 (CL) 為 95%,因此顯著性水平為: α=1– CL2=1–0.952=0.025α=21–CL?=21–0.95?=0.025
  • 從 t 分布表中查找 t 值:從 df = 9 和 α = 0.025 的 t 表中,t 值為 2.262,可以使用下表找到。
(df)/(α) 0.1 0.05 0.025 ..

1.282 1.645 1.960 ..

1

3.078 6.314 12.706 ..

2

1.886 2.920 4.303 ..

:

: : : ..

8

1.397 1.860 2.306 ..

9

1.383 1.833 2.262 ..
  • 在公式中應用 t 值
    置信區間的公式為: μ±t(σn)μ±t(n?σ?)使用以下值:240±2.262×(2510)240±2.262×(10?25?)
  • 置信區間變為: (222.117,257.883)(222.117,257.883)

因此,我們有 95% 的信心認為 UFC 戰士的真實平均體重在 222.117 公斤到 257.883 公斤之間。

這可以使用 Python 的庫進行計算 ,以查找 t 值并執行必要的計算。stats 模塊提供各種統計函數、概率分布和統計檢驗。scipy.stats

import scipy.stats as stats
import math

sample_mean = 240
sample_std_dev = 25
sample_size = 10
confidence_level = 0.95

df = sample_size - 1

alpha = (1 - confidence_level) / 2

t_value = stats.t.ppf(1 - alpha, df)

margin_of_error = t_value * (sample_std_dev / math.sqrt(sample_size))

lower_limit = sample_mean - margin_of_error
upper_limit = sample_mean + margin_of_error

print(f"Confidence Interval: ({lower_limit}, {upper_limit})")

輸出:

Confidence Interval: (222.1160773511857, 257.8839226488143)

B) 使用 Z 分布

當樣本量較大 (n > 30) 或總體標準差已知時,將使用 z 分布。這在大規模調查市場研究中很常見。

請考慮以下示例。隨機抽取 50 名成年女性的樣本并測量她們的紅細胞計數。樣本均值為 4.63,RBC 計數的標準差為 0.54。為成年女性的真實平均 RBC 計數構建 95% 置信區間估計。

分步過程:

  1. 找到問題中給出的平均值和標準差
  2. 查找置信水平的 z 值
    對于 95% 置信區間,z 值為 1.960。
  3. 在公式中應用 z 值: μ±z(σn)

使用值:下表中的一些常見值:

置信區間 z 值

90%

1.645

95%

1.960

99%

2.576

置信區間變為:(4.480,4.780)

因此,我們有 95% 的信心認為成年女性的真實平均 RBC 計數在 4.480 和 4.780 之間。

現在讓我們使用 Python(統計庫)實現它

from scipy import stats
import numpy as np

sample_mean = 4.63
std_dev = 0.54
sample_size = 50
confidence_level = 0.95

standard_error = std_dev / np.sqrt(sample_size)

z_value = 1.960  

margin_of_error = z_value * (std_dev / math.sqrt(sample_size))

lower_limit = sample_mean - margin_of_error
upper_limit = sample_mean + margin_of_error

print(f"Confidence Interval: ({lower_limit:.3f}, {upper_limit:.3f})")

輸出:

Confidence Interval: (4.480, 4.780)

Confidence Interval 的一些關鍵要點是:

  • 置信區間數據科學中至關重要 ,可以發現估計的不確定性并使預測更可靠。
  • t 分布用于小樣本量 (n < 30),而 z 分布用于大樣本量 (n > 30)。
  • 置信區間通過提供范圍而不是單個點估計來幫助做出數據驅動的決策。這在 A/B 測試市場研究和機器學習中尤為重要。

常見問題 (FAQ)

1. 什么是 95% 置信區間規則?

95% 置信區間規則指出,如果我們為總體參數重復構造 95% 置信區間,我們可以預期其中 95% 的區間包含真實參數值。

2. 如果 95 個置信區間包括 1 怎么辦?

如果 95% 置信區間包括 1,則意味著我們在統計上沒有信心說真實參數值與 1 不同。換句話說,數據不夠強,無法排除 true 參數值為 1 的可能性。

3. 置信水平和置信區間有什么區別?

置信水平是置信區間包含 true 參數值的概率。置信區間是可能包含 true 參數值的值范圍。

4. 如何找到樣本量?

樣本數量是樣本中的觀測值個數。樣本量由所需的置信水平、所需的誤差幅度和數據變異性決定。

5. 什么是 5 顯著性水平?

顯著性水平是在原假設實際為真時拒絕原假設的概率。顯著性水平通常設置為 0.05,這意味著我們愿意接受 5% 的幾率出現 I 類錯誤。

?

登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP