數據分析（Analytics） --置信區間（CI）

仿真資料吧

2025年2月15日 21:55

置信區間（CI） 是一個值范圍，用于估計真實總體值可能下降的位置。與其說學生的平均身高是 165 厘米，不如說我們 95% 的信心，真正的平均身高在 160 厘米到 170 厘米之間。

在深入研究置信區間之前，您應該熟悉以下內容：

t 檢驗
z 檢驗

解釋置信區間

假設我們抽取 50 名學生的樣本，計算出他們平均身高的 95% 置信區間，結果是 160-170 厘米。這意味著，如果我們重復采用類似的樣本，則這些區間的 95% 將包含總體中所有學生的真實平均身高。

編輯

置信區間

Confidence level 告訴我們 true 值在計算范圍內的確定程度。如果我們必須多次重復采樣過程，我們預計這些區間的一定百分比將包括 true 值。

90% 置信度：90% 的區間將包括真實的總體值。
95% 置信度：95% 的區間將包括數據科學中常用的真實值。
99% 置信度：99% 的區間將包含真實值，但區間會更寬。

為什么置信區間在數據科學中很重要？

它們有助于衡量預測和估計中的不確定性。
通過這些數據，科學家們找到了可靠的結果，而不僅僅是給出一個數字。
它們廣泛用于 A/B 測試、機器學習和調查分析，我們稍后會研究這些分析以檢查結果是否有意義。

構造置信區間的步驟

要計算置信區間，請遵循以下簡單的 4 個步驟：

步驟 1：確定樣本問題。

定義要估計的總體參數，例如，學生的平均身高。選擇正確的統計數據，例如樣本均值。

第 2 步：選擇置信度。

在此步驟中，我們選擇置信度，一些常見的選擇是 90%、95% 或 99%。 它代表了我們對估計的確定程度。

第 3 步：找到誤差幅度。

要找到 Margin of Error，請使用以下公式：

M一個rg我n of Error=Cr我t我c一個l V一個lue×St一個nd一個rd ErrorMargin of Error=Critical Value×Standard Error

對于小樣品，使用 Z 表或 T 表找到臨界值。首先，您選擇顯著性水平 （α），對于 95% 的置信水平，該水平通常為 0.05。然后決定您是執行單尾還是雙尾測試，其中雙尾是更常見的選擇。在此之后，您可以根據顯著性水平和測試類型在 Z 表或 T 表中查看相應的值。

標準誤差衡量樣本的變異性，通過將樣本的標準差除以樣本量的平方根來計算。將臨界值和標準誤差組合在一起，可以得到誤差幅度，它告訴您預期真實值所在的范圍。

步驟 4：指定置信區間。

要找到 Confidence Interval，我們使用以下公式：

Conf我dence 我nterv一個l=Po我nt Est我m一個te±M一個rg我n of ErrorConfidence Interval=Point Estimate±Margin of Error

現在，Point Estimate 通常是樣本的平均值或平均值。這是基于樣本數據對真實值的最佳猜測。Margin of Error （邊距誤差）告訴您樣本數據可能與我們在上一步中計算的真實值相差多少。

因此，當您從點估計值中增加或減去誤差幅度時，您會得到一個范圍。此范圍告訴您真實值可能落在何處。

置信區間的類型

一些常見的 Confidence Interval 類型包括：

不同類型的置信度Intervals_ ?

編輯

置信區間的類型

1. 正態分布數據平均值的置信區間

當我們想根據樣本找到總體的平均值時，我們使用這種方法。

如果樣本量較小（小于 30），則使用 T 分布，因為小樣本往往具有更大的可變性。
如果樣本量很大（超過 30），則我們使用 Z 分布，因為大樣本往往給出更準確的估計值。

2. 比例的置信區間

在估計人口比例（如喜歡產品的人數百分比）時，使用此類型。在這里，我們使用樣本比例、標準誤差和臨界 Z 值來計算區間。它為我們提供了基于樣本數據的實際值可能落在何處的想法。

3. 非正態分布數據的置信區間

有時，您擁有的數據不是正態分布的，這意味著它不遵循鐘形曲線。在這種情況下，傳統的置信區間并不是最好的方法。相反，我們可以使用 bootstrap 方法。這涉及對數據進行多次重新采樣以創建不同的樣本，然后從這些重新采樣中計算置信區間。

計算置信區間

在了解了 t 檢驗和 z 檢驗之后，我們現在開始討論如何計算置信區間。 要計算置信區間，您需要兩個關鍵統計數據：

平均值（μ） — 算術平均值是數字的平均值。它被定義為 n 個數字之和除以數字計數直到 n。
μ=1+2+3+…+nn?
標準差（σ） — 它是衡量數字分布程度的指標。它被定義為每個數字與平均值之差的平方和。
σ=∑(xi?μ)2n

獲得這些后，您可以使用 t 分布或 z 分布計算置信區間，具體取決于樣本量，無論總體標準差是否已知。

A）使用 t 分布

當您的樣本量較小（通常為 n < 30）并且您不知道總體標準差時，我們使用 t 分布。這在 A/B 測試等領域或處理小型數據集時很常見。

請考慮以下示例。隨機抽取 10 名 UFC 戰士的樣本并測量他們的體重。發現平均體重為 240 公斤。構建平均權重的 95% 置信區間估計值。樣品標準差為 25 kg。求所有 UFC 戰士的真實平均體重的樣本的置信區間。

分步過程：

自由度（df）：
對于 t 分布，我們首先計算自由度： df=n?1=10?1=9DF 系列=n?1=10 -1=9
顯著性水平（α）：
置信水平（CL）為 95%，因此顯著性水平為： α=1– CL2=1–0.952=0.025α=21–CL?=21–0.95?=0.025
從 t 分布表中查找 t 值：從 df = 9 和 α = 0.025 的 t 表中，t 值為 2.262，可以使用下表找到。

（df）/（α）	0.1	0.05	0.025	..
∞	1.282	1.645	1.960	..
1	3.078	6.314	12.706	..
2	1.886	2.920	4.303	..
:	:	:	:	..
8	1.397	1.860	2.306	..
9	1.383	1.833	2.262	..

在公式中應用 t 值：
置信區間的公式為： μ±t(σn)μ±t(n?σ?)使用以下值：240±2.262×(2510)240±2.262×(10?25?)
置信區間變為： (222.117,257.883)(222.117,257.883)

因此，我們有 95% 的信心認為 UFC 戰士的真實平均體重在 222.117 公斤到 257.883 公斤之間。

這可以使用 Python 的庫進行計算，以查找 t 值并執行必要的計算。stats 模塊提供各種統計函數、概率分布和統計檢驗。scipy.stats

import scipy.stats as stats
import math

sample_mean = 240
sample_std_dev = 25
sample_size = 10
confidence_level = 0.95

df = sample_size - 1

alpha = (1 - confidence_level) / 2

t_value = stats.t.ppf(1 - alpha, df)

margin_of_error = t_value * (sample_std_dev / math.sqrt(sample_size))

lower_limit = sample_mean - margin_of_error
upper_limit = sample_mean + margin_of_error

print(f"Confidence Interval: ({lower_limit}, {upper_limit})")

輸出：

Confidence Interval: (222.1160773511857, 257.8839226488143)

B）使用 Z 分布

當樣本量較大（n > 30）或總體標準差已知時，將使用 z 分布。這在大規模調查、市場研究中很常見。

請考慮以下示例。隨機抽取 50 名成年女性的樣本并測量她們的紅細胞計數。樣本均值為 4.63，RBC 計數的標準差為 0.54。為成年女性的真實平均 RBC 計數構建 95% 置信區間估計。

分步過程：

找到問題中給出的平均值和標準差。
查找置信水平的 z 值：
對于 95% 置信區間，z 值為 1.960。
在公式中應用 z 值： μ±z(σn)

使用值：下表中的一些常見值：

置信區間	z 值
90%	1.645
95%	1.960
99%	2.576

置信區間變為：（4.480,4.780）

因此，我們有 95% 的信心認為成年女性的真實平均 RBC 計數在 4.480 和 4.780 之間。

現在讓我們使用 Python（統計庫）實現它

from scipy import stats
import numpy as np

sample_mean = 4.63
std_dev = 0.54
sample_size = 50
confidence_level = 0.95

standard_error = std_dev / np.sqrt(sample_size)

z_value = 1.960  

margin_of_error = z_value * (std_dev / math.sqrt(sample_size))

lower_limit = sample_mean - margin_of_error
upper_limit = sample_mean + margin_of_error

print(f"Confidence Interval: ({lower_limit:.3f}, {upper_limit:.3f})")