因子分析是一種統(tǒng)計(jì)方法
?
因子分析是一種統(tǒng)計(jì)方法,用于分析一組觀察到的變量之間的關(guān)系,方法是用較少數(shù)量的未觀察到的變量(稱為因子)來(lái)解釋它們之間的相關(guān)性或協(xié)方差。
目錄
什么是因子分析?
因子分析是統(tǒng)計(jì)領(lǐng)域的一種方法,也是一般線性模型 (GLM) 的一部分,用于將眾多變量壓縮為一組較小的因子。通過(guò)這樣做,它可以捕獲變量之間的最大共享方差,并將它們壓縮成一個(gè)統(tǒng)一的分?jǐn)?shù),隨后可用于進(jìn)一步分析。因子分析在幾個(gè)假設(shè)下運(yùn)行:關(guān)系的線性性、變量之間不存在多重共線性、在分析中包含相關(guān)變量以及變量和因子之間的真正相關(guān)性。雖然存在多種方法,但主成分分析在實(shí)踐中是最普遍的方法。
因子分析中的因子是什么意思?
在因子分析的上下文中,“因子”是指潛在的、未觀察到的變量或潛在結(jié)構(gòu),它表示一組觀察到的變量之間的共同變化來(lái)源。這些觀察到的變量,也稱為指標(biāo)或顯現(xiàn)變量,是在研究中直接觀察或測(cè)量的可測(cè)量變量。
如何進(jìn)行因子分析(因子分析步驟)?
因子分析是一種統(tǒng)計(jì)方法,用于描述觀察到的相關(guān)變量之間的變異性,即未觀察到的變量(稱為因子)的數(shù)量可能較少。以下是執(zhí)行因子分析所涉及的一般步驟:
1. 確定數(shù)據(jù)對(duì)因子分析的適宜性
- Bartlett 檢驗(yàn):檢查顯著性水平以確定相關(guān)矩陣是否適合用于因子分析。
- Kaiser-Meyer-Olkin (KMO) 度量:驗(yàn)證抽樣充分性。大于 0.6 的值通常被認(rèn)為是可接受的。
2. 選擇提取方法
- 主成分分析 (PCA):當(dāng)主要目標(biāo)是數(shù)據(jù)縮減時(shí)使用。
- Principal Axis Factoring (PAF):當(dāng)主要目標(biāo)是識(shí)別潛在因素時(shí)使用。
3. 因子提取
- 使用所選的提取方法確定初始因子。
- 提取特征值以確定要保留的因子數(shù)。特征值大于 1 的因子通常會(huì)保留在分析中。
- 計(jì)算初始因子載荷。
4. 確定要保留的因子數(shù)
- 碎石圖:按降序繪制特征值,以可視化圖趨于平穩(wěn)的點(diǎn)(“彎頭”),以確定要保留的因子數(shù)。
- 特征值:保留特征值大于 1 的因子。
5. 因子旋轉(zhuǎn)
- 正交旋轉(zhuǎn) (Varimax, Quartimax):假設(shè)因子不相關(guān)。
- 斜軸旋轉(zhuǎn) (Promax, Oblimin):允許對(duì)因子進(jìn)行關(guān)聯(lián)。
- 旋轉(zhuǎn)因子以獲得更簡(jiǎn)單、更易解釋的因子結(jié)構(gòu)。
- 檢查旋轉(zhuǎn)因子載荷。
6. 解釋和標(biāo)記因素
- 分析旋轉(zhuǎn)因子載荷以解釋每個(gè)因子的基本含義。
- 根據(jù)該因子上具有高載荷的變量,為每個(gè)因子分配有意義的標(biāo)簽。
7. 計(jì)算因子分?jǐn)?shù)(如果需要)
- 計(jì)算每個(gè)個(gè)體的因子分?jǐn)?shù),以表示它們?cè)诿總€(gè)因子上的值。
8. 報(bào)告和驗(yàn)證結(jié)果
- 報(bào)告最終因子結(jié)構(gòu),包括因子載荷和公因子方差。
- 使用其他數(shù)據(jù)驗(yàn)證結(jié)果,或在必要時(shí)進(jìn)行驗(yàn)證性因子分析。
因子分析示例(因子分析器):
以下是如何使用該庫(kù)在 Python 中執(zhí)行因子分析的示例 :factor_analyzer
為什么需要因子分析?
因子分析在統(tǒng)計(jì)分析中有幾個(gè)目的和目標(biāo):
- :因子分析通過(guò)識(shí)別較少數(shù)量的基礎(chǔ)因子來(lái)解釋觀察到的變量之間的相關(guān)性或協(xié)方差,從而幫助減少所考慮的變量的數(shù)量。這種簡(jiǎn)化可以使數(shù)據(jù)更易于管理且更易于解釋。
- 識(shí)別潛在結(jié)構(gòu):它允許研究人員識(shí)別可能無(wú)法直接觀察到但可以從觀察到的數(shù)據(jù)中的模式推斷出的潛在結(jié)構(gòu)或潛在因素。這些潛在的結(jié)構(gòu)可以代表理論概念,例如人格特征、態(tài)度或社會(huì)經(jīng)濟(jì)地位。
- 數(shù)據(jù)匯總:通過(guò)將來(lái)自多個(gè)變量的信息壓縮為較小的因子集,因子分析可以提供更簡(jiǎn)潔的數(shù)據(jù)摘要,同時(shí)保留盡可能多的相關(guān)信息。
- :因子分析可用于檢驗(yàn)有關(guān)數(shù)據(jù)底層結(jié)構(gòu)的假設(shè)。例如,研究人員可能對(duì)變量應(yīng)該如何相互關(guān)聯(lián)有理論預(yù)期,因子分析可以幫助評(píng)估這些預(yù)期是否得到數(shù)據(jù)的支持。
- 變量選擇: 它有助于確定哪些變量最重要或與解釋潛在因素最相關(guān)。這有助于確定變量的優(yōu)先級(jí),以便進(jìn)一步分析或開(kāi)發(fā)更簡(jiǎn)潔的模型。
- :因子分析可用作預(yù)處理步驟,通過(guò)減少預(yù)測(cè)變量之間的多重共線性和更有效地捕獲變量之間的共享方差來(lái)提高預(yù)測(cè)模型的性能。
因子分析中最常用的術(shù)語(yǔ)
在因子分析中,通常使用多個(gè)術(shù)語(yǔ)來(lái)描述分析的各種概念和組成部分。下表列出了因子分析中一些最常用的術(shù)語(yǔ):
| 術(shù)語(yǔ) | 描述 |
|---|---|
| 因素 | 表示一組相關(guān)且傾向于共存的觀測(cè)變量的潛在變量。 |
| 因子載荷 | 觀測(cè)變量與基礎(chǔ)因子之間的相關(guān)系數(shù)。 |
| 特征值 | 該值指示每個(gè)因子解釋的方差量。 |
| 社區(qū) | 每個(gè)觀測(cè)變量的方差中可由因子解釋的比例。 |
| 提取方法 | 用于從觀測(cè)變量中提取初始因子的技術(shù)(例如,主成分分析、最大似然)。 |
| 旋轉(zhuǎn) | 一種用于旋轉(zhuǎn)因子以獲得更簡(jiǎn)單、更易解釋的因子結(jié)構(gòu)(例如,Varimax、Promax)的方法。 |
| 因子矩陣 | 顯示觀測(cè)變量對(duì)提取因子的載荷的矩陣。 |
| 碎石圖 | 用于根據(jù)特征值的大小確定要保留的因子數(shù)的圖。 |
| Kaiser-Meyer-Olkin (KMO) 度量 | 抽樣充分性的度量,表示數(shù)據(jù)對(duì)因子分析的適用性。值范圍從 0 到 1,值越高表示適宜性越好。 |
| Bartlett 檢驗(yàn) | 一種統(tǒng)計(jì)檢驗(yàn),用于確定觀測(cè)變量的互相關(guān)性是否足以進(jìn)行因子分析。 |
| 因子旋轉(zhuǎn) | 旋轉(zhuǎn)因子以實(shí)現(xiàn)更簡(jiǎn)單、更易解釋的因子結(jié)構(gòu)的過(guò)程。 |
| 因子分?jǐn)?shù) | 表示每個(gè)單獨(dú)觀測(cè)值的每個(gè)因子值的分?jǐn)?shù)。 |
| 因子方差 | 每個(gè)因子解釋的觀測(cè)變量的方差量。 |
| 載荷圖 | 用于可視化觀測(cè)變量對(duì)提取因子的因子載荷的圖。 |
| 因子旋轉(zhuǎn)標(biāo)準(zhǔn) | 用于確定適當(dāng)?shù)男D(zhuǎn)方法和角度以實(shí)現(xiàn)更簡(jiǎn)單、更易解釋的因子結(jié)構(gòu)的規(guī)則或標(biāo)準(zhǔn)。 |
讓我們討論一下這些因子分析術(shù)語(yǔ)中的一些:
- 因子載荷:
- 因子載荷表示在因子分析中觀測(cè)到的變量與基礎(chǔ)因子之間的相關(guān)性。它們指示每個(gè)變量和每個(gè)因子之間關(guān)系的強(qiáng)度和方向。
- 對(duì)標(biāo)準(zhǔn)化因子載荷進(jìn)行平方得到“公因子”,它表示由因子解釋的變量中的方差比例。
- 因子載荷表示在因子分析中觀測(cè)到的變量與基礎(chǔ)因子之間的相關(guān)性。它們指示每個(gè)變量和每個(gè)因子之間關(guān)系的強(qiáng)度和方向。
- 公社性:
- 公因子方差是給定變量在所有因子中的因子載荷平方和。它衡量由所有因子共同解釋的變量中的方差比例。
- 公因子群可以解釋為變量在所考慮的因素上下文中的可靠性。
- 公因子方差是給定變量在所有因子中的因子載荷平方和。它衡量由所有因子共同解釋的變量中的方差比例。
- 偽解決方案:
- 如果變量的公因子方數(shù)超過(guò) 1.0,則表示存在偽解,這可能是由樣本量小或提取因子過(guò)多或過(guò)少等因素引起的。
- 變量的唯一性:
- 變量的唯一性表示變量的可變性減去其公因子群性。它反映了變量中未由因子考慮的方差比例。
- 特征值/特征根:
- 特征值度量每個(gè)因子所占的總樣本中的變異量。它們指示每個(gè)因子在解釋變量方差方面的重要性。
- 特征值越高,表示解釋數(shù)據(jù)的因素越重要。
- 特征值度量每個(gè)因子所占的總樣本中的變異量。它們指示每個(gè)因子在解釋變量方差方面的重要性。
- 平方載荷的提取和:
- 這些是與每個(gè)提取的因子關(guān)聯(lián)的載荷平方和。它們提供有關(guān)每個(gè)因子考慮了多少變量方差的信息。
- 因素分?jǐn)?shù):
- 因子分值表示因子分析中每個(gè)因子(列)上每個(gè)個(gè)案(行)的分值。它們是通過(guò)將每個(gè)個(gè)案在每個(gè)變量上的標(biāo)準(zhǔn)化分?jǐn)?shù)乘以相應(yīng)的因子載荷并對(duì)這些產(chǎn)品求和來(lái)計(jì)算的。
因子分析的類型
數(shù)據(jù)科學(xué)中使用的因子分析主要有兩種類型:
1. 探索性因子分析 (EFA)
探索性因子分析 (EFA) 用于揭示一組觀察變量的底層結(jié)構(gòu),而無(wú)需對(duì)有多少因子或變量與每個(gè)因子的關(guān)系施加先入為主的概念。它探討了項(xiàng)目之間復(fù)雜的相互關(guān)系,旨在對(duì)屬于統(tǒng)一概念或結(jié)構(gòu)的項(xiàng)目進(jìn)行分組。
- 研究人員不對(duì)因素之間的關(guān)系做出先驗(yàn)假設(shè),讓數(shù)據(jù)有機(jī)地揭示結(jié)構(gòu)。
- 探索性因子分析 (EFA) 有助于確定解釋觀察到的變量方差所需的因子數(shù)量,并了解變量和因子之間的關(guān)系。
2. 驗(yàn)證性因子分析 (CFA)
驗(yàn)證性因子分析 (CFA) 是一種結(jié)構(gòu)性更強(qiáng)的方法,它根據(jù)先前的理論知識(shí)或預(yù)期來(lái)檢驗(yàn)關(guān)于觀察到的變量和潛在因素之間關(guān)系的具體假設(shè)。它使用結(jié)構(gòu)方程建模技術(shù)來(lái)測(cè)試測(cè)量模型,其中假設(shè)觀察到的變量加載到特定因子上。
- 驗(yàn)證性因子分析 (CFA) 評(píng)估假設(shè)模型與實(shí)際數(shù)據(jù)的擬合度,檢查觀察到的變量與建議的因子結(jié)構(gòu)的一致性。
- 此方法允許評(píng)估觀測(cè)變量和未觀測(cè)因子之間的關(guān)系,并且可以適應(yīng)測(cè)量誤差。
- 研究人員在進(jìn)行分析之前假設(shè)變量和因素之間的關(guān)系,并根據(jù)經(jīng)驗(yàn)數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試以確定其有效性。
總之,探索性因子分析 (EFA) 更具探索性和靈活性,允許數(shù)據(jù)決定因子結(jié)構(gòu),而驗(yàn)證性因子分析 (CFA) 更具驗(yàn)證性,測(cè)試關(guān)于觀察到的變量如何與潛在因子相關(guān)的特定假設(shè)。這兩種方法都是了解數(shù)據(jù)底層結(jié)構(gòu)的寶貴工具,各有優(yōu)勢(shì)和應(yīng)用。
因子提取方法的類型
下面討論了一些因子提取類型方法:
-
- PCA 是一種廣泛使用的因子提取方法。
- 它旨在提取導(dǎo)致觀測(cè)變量中最大可能方差的因子。
- 計(jì)算因子權(quán)重以提取連續(xù)因子,直到無(wú)法提取出更有意義的方差。
- 提取后,通常會(huì)旋轉(zhuǎn)因子模型以進(jìn)行進(jìn)一步分析,以提高可解釋性。
- 典型因子分析:
- 這種方法也稱為 Rao 的規(guī)范因子分解,計(jì)算的模型與 PCA 類似,但使用主軸方法。
- 它查找與觀測(cè)變量具有最高典型相關(guān)性的因子。
- 典型因子分析不受數(shù)據(jù)任意重新縮放的影響,因此它對(duì)某些數(shù)據(jù)轉(zhuǎn)換具有魯棒性。
- 公因子分析:
- 也稱為主因子分析 (PFA) 或主軸因子分解 (PAF)。
- 此方法旨在確定解釋一組變量之間的常見(jiàn)方差(相關(guān)性)所需的最少因子。
- 與 PCA 不同,公因子分析側(cè)重于捕獲共享方差,而不是總體方差。
因子分析的假設(shè)
讓我們仔細(xì)看看因子分析的假設(shè),如下所示:
- 線性:假定變量和因子之間的關(guān)系是線性的。
- 多元正態(tài)性:數(shù)據(jù)集中的變量應(yīng)服從多元正態(tài)分布。
- 無(wú)多重共線性:變量不應(yīng)彼此高度相關(guān),因?yàn)楦叨嘀毓簿€性會(huì)影響因子分析結(jié)果的穩(wěn)定性和可靠性。
- 足夠的樣本量:因子分析通常需要足夠的樣本量才能產(chǎn)生可靠的結(jié)果。樣本量的充足性可能取決于模型的復(fù)雜性和變量與個(gè)案的比率等因素。
- 同源性:變量的方差在因子的不同水平上應(yīng)大致相等。
- 唯一性:每個(gè)變量都應(yīng)該具有因子無(wú)法解釋的唯一方差。此假設(shè)在公因子分析中尤為重要。
- Independent Observations:數(shù)據(jù)集中的觀測(cè)值應(yīng)彼此獨(dú)立。
- 因子分值的線性性:假設(shè)觀測(cè)變量和潛在因子之間的關(guān)系是線性的,即使觀測(cè)變量彼此之間可能不是線性關(guān)系。
- 區(qū)間或比率尺度:因子分析通常假設(shè)變量是在區(qū)間或比率尺度上測(cè)量的,而不是在名義或順序尺度上測(cè)量的。
違反這些假設(shè)可能會(huì)導(dǎo)致參數(shù)估計(jì)有偏差和對(duì)結(jié)果的不準(zhǔn)確解釋。因此,在進(jìn)行因子分析之前評(píng)估這些假設(shè)的數(shù)據(jù)非常重要,如果不滿足這些假設(shè),則考慮可能的補(bǔ)救措施或替代方法。
常見(jiàn)問(wèn)題解答 : 因子分析
1. 因子分析的步驟有哪些?
- 收集數(shù)據(jù):選擇反映您正在研究的領(lǐng)域的相關(guān)變量。
- 清理數(shù)據(jù):確保您的數(shù)據(jù)質(zhì)量高,并準(zhǔn)備好進(jìn)行分析。
- 查找隱藏模式:提取解釋變量之間關(guān)系的基礎(chǔ)因素。
- 使其更易于理解:簡(jiǎn)化因素以使其解釋更清晰。
- 用圖表解釋它的含義: 弄清楚這些因素代表什么以及它們與您的研究問(wèn)題有何關(guān)系。
- 仔細(xì)檢查您的工作:確保您的發(fā)現(xiàn)是可靠的,并且可以被其他人復(fù)制。
2. 因子分析是什么意思?
因子分析不是分析一堆單獨(dú)的數(shù)據(jù)點(diǎn),而是幫助您識(shí)別少量的基本趨勢(shì),這些趨勢(shì)可以解釋數(shù)據(jù)中的大部分變化。
3. 什么是因子分析的示例?
將學(xué)生調(diào)查數(shù)據(jù)想象成高維空間中的一堆點(diǎn),每個(gè)維度代表一個(gè)變量(睡眠質(zhì)量、工作量等)。單獨(dú)分析所有這些維度可能很麻煩。
4. 因子分析的 3 個(gè)目的是什么?
- 簡(jiǎn)化您的數(shù)據(jù):想象一個(gè)巨大的毛線球 – 這就是您的復(fù)雜數(shù)據(jù)。因子分析解開(kāi)了它,揭示了構(gòu)成整個(gè)事物的少量核心線程(因子)。
- 查找隱藏的連接:除了更少的線程之外,因子分析還揭示了這些核心線程是如何秘密連接的。它發(fā)現(xiàn)了解釋為什么某些變量一起移動(dòng)的隱藏模式。
- 了解更大的圖景:通過(guò)查看這些隱藏的聯(lián)系,您可以了解數(shù)據(jù)中起作用的潛在力量。它可以幫助您從真正影響結(jié)果的 “什么” (變量) 轉(zhuǎn)變?yōu)?“為什么” (因素)。
?
因子分析示例(因子分析器):
以下是如何使用該庫(kù)在 Python 中執(zhí)行因子分析的示例 :factor_analyzer
以下內(nèi)容為付費(fèi)內(nèi)容,請(qǐng)購(gòu)買后觀看
工程師必備
- 項(xiàng)目客服
- 培訓(xùn)客服
- 平臺(tái)客服
TOP





















