因子分析是一種統(tǒng)計(jì)方法

?

因子分析是一種統(tǒng)計(jì)方法,用于分析一組觀察到的變量之間的關(guān)系,方法是用較少數(shù)量的未觀察到的變量(稱為因子)來(lái)解釋它們之間的相關(guān)性或協(xié)方差。

因子分析簡(jiǎn)介?

因子分析是一種統(tǒng)計(jì)方法的圖2 編輯

什么是因子分析?

因子分析是統(tǒng)計(jì)領(lǐng)域的一種方法,也是一般線性模型 (GLM) 的一部分,用于將眾多變量壓縮為一組較小的因子。通過(guò)這樣做,它可以捕獲變量之間的最大共享方差,并將它們壓縮成一個(gè)統(tǒng)一的分?jǐn)?shù),隨后可用于進(jìn)一步分析。因子分析在幾個(gè)假設(shè)下運(yùn)行:關(guān)系的線性性、變量之間不存在多重共線性、在分析中包含相關(guān)變量以及變量和因子之間的真正相關(guān)性。雖然存在多種方法,但主成分分析在實(shí)踐中是最普遍的方法。

因子分析中的因子是什么意思?

在因子分析的上下文中,“因子”是指潛在的、未觀察到的變量或潛在結(jié)構(gòu),它表示一組觀察到的變量之間的共同變化來(lái)源。這些觀察到的變量,也稱為指標(biāo)或顯現(xiàn)變量,是在研究中直接觀察或測(cè)量的可測(cè)量變量。

如何進(jìn)行因子分析(因子分析步驟)?

因子分析是一種統(tǒng)計(jì)方法,用于描述觀察到的相關(guān)變量之間的變異性,即未觀察到的變量(稱為因子)的數(shù)量可能較少。以下是執(zhí)行因子分析所涉及的一般步驟:

1. 確定數(shù)據(jù)對(duì)因子分析的適宜性

  • Bartlett 檢驗(yàn):檢查顯著性水平以確定相關(guān)矩陣是否適合用于因子分析。
  • Kaiser-Meyer-Olkin (KMO) 度量:驗(yàn)證抽樣充分性。大于 0.6 的值通常被認(rèn)為是可接受的。

2. 選擇提取方法

  • 主成分分析 (PCA):當(dāng)主要目標(biāo)是數(shù)據(jù)縮減時(shí)使用。
  • Principal Axis Factoring (PAF):當(dāng)主要目標(biāo)是識(shí)別潛在因素時(shí)使用。

3. 因子提取

  • 使用所選的提取方法確定初始因子。
  • 提取特征值以確定要保留的因子數(shù)。特征值大于 1 的因子通常會(huì)保留在分析中。
  • 計(jì)算初始因子載荷。

4. 確定要保留的因子數(shù)

  • 碎石圖:按降序繪制特征值,以可視化圖趨于平穩(wěn)的點(diǎn)(“彎頭”),以確定要保留的因子數(shù)。
  • 特征值:保留特征值大于 1 的因子。

5. 因子旋轉(zhuǎn)

  • 正交旋轉(zhuǎn) (Varimax, Quartimax):假設(shè)因子不相關(guān)。
  • 斜軸旋轉(zhuǎn) (Promax, Oblimin):允許對(duì)因子進(jìn)行關(guān)聯(lián)。
  • 旋轉(zhuǎn)因子以獲得更簡(jiǎn)單、更易解釋的因子結(jié)構(gòu)。
  • 檢查旋轉(zhuǎn)因子載荷。

6. 解釋和標(biāo)記因素

  • 分析旋轉(zhuǎn)因子載荷以解釋每個(gè)因子的基本含義。
  • 根據(jù)該因子上具有高載荷的變量,為每個(gè)因子分配有意義的標(biāo)簽。

7. 計(jì)算因子分?jǐn)?shù)(如果需要)

  • 計(jì)算每個(gè)個(gè)體的因子分?jǐn)?shù),以表示它們?cè)诿總€(gè)因子上的值。

8. 報(bào)告和驗(yàn)證結(jié)果

  • 報(bào)告最終因子結(jié)構(gòu),包括因子載荷和公因子方差。
  • 使用其他數(shù)據(jù)驗(yàn)證結(jié)果,或在必要時(shí)進(jìn)行驗(yàn)證性因子分析。

因子分析示例(因子分析器):

以下是如何使用該庫(kù)在 Python 中執(zhí)行因子分析的示例 :factor_analyzer

 
     

為什么需要因子分析?

因子分析在統(tǒng)計(jì)分析中有幾個(gè)目的和目標(biāo):

  1. 降維:因子分析通過(guò)識(shí)別較少數(shù)量的基礎(chǔ)因子來(lái)解釋觀察到的變量之間的相關(guān)性或協(xié)方差,從而幫助減少所考慮的變量的數(shù)量。這種簡(jiǎn)化可以使數(shù)據(jù)更易于管理且更易于解釋。
  2. 識(shí)別潛在結(jié)構(gòu):它允許研究人員識(shí)別可能無(wú)法直接觀察到但可以從觀察到的數(shù)據(jù)中的模式推斷出的潛在結(jié)構(gòu)或潛在因素。這些潛在的結(jié)構(gòu)可以代表理論概念,例如人格特征、態(tài)度或社會(huì)經(jīng)濟(jì)地位。
  3. 數(shù)據(jù)匯總:通過(guò)將來(lái)自多個(gè)變量的信息壓縮為較小的因子集,因子分析可以提供更簡(jiǎn)潔的數(shù)據(jù)摘要,同時(shí)保留盡可能多的相關(guān)信息。
  4. 假設(shè)檢驗(yàn):因子分析可用于檢驗(yàn)有關(guān)數(shù)據(jù)底層結(jié)構(gòu)的假設(shè)。例如,研究人員可能對(duì)變量應(yīng)該如何相互關(guān)聯(lián)有理論預(yù)期,因子分析可以幫助評(píng)估這些預(yù)期是否得到數(shù)據(jù)的支持。
  5. 變量選擇: 它有助于確定哪些變量最重要或與解釋潛在因素最相關(guān)。這有助于確定變量的優(yōu)先級(jí),以便進(jìn)一步分析或開(kāi)發(fā)更簡(jiǎn)潔的模型。
  6. 改進(jìn)預(yù)測(cè)模型:因子分析可用作預(yù)處理步驟,通過(guò)減少預(yù)測(cè)變量之間的多重共線性和更有效地捕獲變量之間的共享方差來(lái)提高預(yù)測(cè)模型的性能。

因子分析中最常用的術(shù)語(yǔ)

在因子分析中,通常使用多個(gè)術(shù)語(yǔ)來(lái)描述分析的各種概念和組成部分。下表列出了因子分析中一些最常用的術(shù)語(yǔ):

術(shù)語(yǔ) 描述
因素 表示一組相關(guān)且傾向于共存的觀測(cè)變量的潛在變量。
因子載荷 觀測(cè)變量與基礎(chǔ)因子之間的相關(guān)系數(shù)。
特征值 該值指示每個(gè)因子解釋的方差量。
社區(qū) 每個(gè)觀測(cè)變量的方差中可由因子解釋的比例。
提取方法 用于從觀測(cè)變量中提取初始因子的技術(shù)(例如,主成分分析、最大似然)。
旋轉(zhuǎn) 一種用于旋轉(zhuǎn)因子以獲得更簡(jiǎn)單、更易解釋的因子結(jié)構(gòu)(例如,Varimax、Promax)的方法。
因子矩陣 顯示觀測(cè)變量對(duì)提取因子的載荷的矩陣。
碎石圖 用于根據(jù)特征值的大小確定要保留的因子數(shù)的圖。
Kaiser-Meyer-Olkin (KMO) 度量 抽樣充分性的度量,表示數(shù)據(jù)對(duì)因子分析的適用性。值范圍從 0 到 1,值越高表示適宜性越好。
Bartlett 檢驗(yàn) 一種統(tǒng)計(jì)檢驗(yàn),用于確定觀測(cè)變量的互相關(guān)性是否足以進(jìn)行因子分析。
因子旋轉(zhuǎn) 旋轉(zhuǎn)因子以實(shí)現(xiàn)更簡(jiǎn)單、更易解釋的因子結(jié)構(gòu)的過(guò)程。
因子分?jǐn)?shù) 表示每個(gè)單獨(dú)觀測(cè)值的每個(gè)因子值的分?jǐn)?shù)。
因子方差 每個(gè)因子解釋的觀測(cè)變量的方差量。
載荷圖 用于可視化觀測(cè)變量對(duì)提取因子的因子載荷的圖。
因子旋轉(zhuǎn)標(biāo)準(zhǔn) 用于確定適當(dāng)?shù)男D(zhuǎn)方法和角度以實(shí)現(xiàn)更簡(jiǎn)單、更易解釋的因子結(jié)構(gòu)的規(guī)則或標(biāo)準(zhǔn)。

讓我們討論一下這些因子分析術(shù)語(yǔ)中的一些:

  1. 因子載荷
    • 因子載荷表示在因子分析中觀測(cè)到的變量與基礎(chǔ)因子之間的相關(guān)性。它們指示每個(gè)變量和每個(gè)因子之間關(guān)系的強(qiáng)度和方向。
      • 對(duì)標(biāo)準(zhǔn)化因子載荷進(jìn)行平方得到“公因子”,它表示由因子解釋的變量中的方差比例。
  2. 公社性
    • 公因子方差是給定變量在所有因子中的因子載荷平方和。它衡量由所有因子共同解釋的變量中的方差比例。
      • 公因子群可以解釋為變量在所考慮的因素上下文中的可靠性。
  3. 偽解決方案
    • 如果變量的公因子方數(shù)超過(guò) 1.0,則表示存在偽解,這可能是由樣本量小或提取因子過(guò)多或過(guò)少等因素引起的。
  4. 變量的唯一性
    • 變量的唯一性表示變量的可變性減去其公因子群性。它反映了變量中未由因子考慮的方差比例。
  5. 特征值/特征根
    • 特征值度量每個(gè)因子所占的總樣本中的變異量。它們指示每個(gè)因子在解釋變量方差方面的重要性。
      • 特征值越高,表示解釋數(shù)據(jù)的因素越重要。
  6. 平方載荷的提取和
    • 這些是與每個(gè)提取的因子關(guān)聯(lián)的載荷平方和。它們提供有關(guān)每個(gè)因子考慮了多少變量方差的信息。
  7. 因素分?jǐn)?shù)
    • 因子分值表示因子分析中每個(gè)因子(列)上每個(gè)個(gè)案(行)的分值。它們是通過(guò)將每個(gè)個(gè)案在每個(gè)變量上的標(biāo)準(zhǔn)化分?jǐn)?shù)乘以相應(yīng)的因子載荷并對(duì)這些產(chǎn)品求和來(lái)計(jì)算的。

因子分析的類型

數(shù)據(jù)科學(xué)中使用的因子分析主要有兩種類型:

1. 探索性因子分析 (EFA)

探索性因子分析 (EFA) 用于揭示一組觀察變量的底層結(jié)構(gòu),而無(wú)需對(duì)有多少因子或變量與每個(gè)因子的關(guān)系施加先入為主的概念。它探討了項(xiàng)目之間復(fù)雜的相互關(guān)系,旨在對(duì)屬于統(tǒng)一概念或結(jié)構(gòu)的項(xiàng)目進(jìn)行分組。

  • 研究人員不對(duì)因素之間的關(guān)系做出先驗(yàn)假設(shè),讓數(shù)據(jù)有機(jī)地揭示結(jié)構(gòu)。
  • 探索性因子分析 (EFA) 有助于確定解釋觀察到的變量方差所需的因子數(shù)量,并了解變量和因子之間的關(guān)系。

2. 驗(yàn)證性因子分析 (CFA)

驗(yàn)證性因子分析 (CFA) 是一種結(jié)構(gòu)性更強(qiáng)的方法,它根據(jù)先前的理論知識(shí)或預(yù)期來(lái)檢驗(yàn)關(guān)于觀察到的變量和潛在因素之間關(guān)系的具體假設(shè)。它使用結(jié)構(gòu)方程建模技術(shù)來(lái)測(cè)試測(cè)量模型,其中假設(shè)觀察到的變量加載到特定因子上。

  • 驗(yàn)證性因子分析 (CFA) 評(píng)估假設(shè)模型與實(shí)際數(shù)據(jù)的擬合度,檢查觀察到的變量與建議的因子結(jié)構(gòu)的一致性。
  • 此方法允許評(píng)估觀測(cè)變量和未觀測(cè)因子之間的關(guān)系,并且可以適應(yīng)測(cè)量誤差。
  • 研究人員在進(jìn)行分析之前假設(shè)變量和因素之間的關(guān)系,并根據(jù)經(jīng)驗(yàn)數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試以確定其有效性。

總之,探索性因子分析 (EFA) 更具探索性和靈活性,允許數(shù)據(jù)決定因子結(jié)構(gòu),而驗(yàn)證性因子分析 (CFA) 更具驗(yàn)證性,測(cè)試關(guān)于觀察到的變量如何與潛在因子相關(guān)的特定假設(shè)。這兩種方法都是了解數(shù)據(jù)底層結(jié)構(gòu)的寶貴工具,各有優(yōu)勢(shì)和應(yīng)用。

因子提取方法的類型

下面討論了一些因子提取類型方法:

  1. 主成分分析 (PCA):
    • PCA 是一種廣泛使用的因子提取方法。
    • 它旨在提取導(dǎo)致觀測(cè)變量中最大可能方差的因子。
    • 計(jì)算因子權(quán)重以提取連續(xù)因子,直到無(wú)法提取出更有意義的方差。
    • 提取后,通常會(huì)旋轉(zhuǎn)因子模型以進(jìn)行進(jìn)一步分析,以提高可解釋性。
  2. 典型因子分析
    • 這種方法也稱為 Rao 的規(guī)范因子分解,計(jì)算的模型與 PCA 類似,但使用主軸方法。
    • 它查找與觀測(cè)變量具有最高典型相關(guān)性的因子。
    • 典型因子分析不受數(shù)據(jù)任意重新縮放的影響,因此它對(duì)某些數(shù)據(jù)轉(zhuǎn)換具有魯棒性。
  3. 公因子分析
    • 也稱為主因子分析 (PFA) 或主軸因子分解 (PAF)。
    • 此方法旨在確定解釋一組變量之間的常見(jiàn)方差(相關(guān)性)所需的最少因子。
    • 與 PCA 不同,公因子分析側(cè)重于捕獲共享方差,而不是總體方差。

因子分析的假設(shè)

讓我們仔細(xì)看看因子分析的假設(shè),如下所示:

  1. 線性:假定變量和因子之間的關(guān)系是線性的。
  2. 多元正態(tài)性:數(shù)據(jù)集中的變量應(yīng)服從多元正態(tài)分布。
  3. 無(wú)多重共線性:變量不應(yīng)彼此高度相關(guān),因?yàn)楦叨嘀毓簿€性會(huì)影響因子分析結(jié)果的穩(wěn)定性和可靠性。
  4. 足夠的樣本量:因子分析通常需要足夠的樣本量才能產(chǎn)生可靠的結(jié)果。樣本量的充足性可能取決于模型的復(fù)雜性和變量與個(gè)案的比率等因素。
  5. 同源性:變量的方差在因子的不同水平上應(yīng)大致相等。
  6. 唯一性:每個(gè)變量都應(yīng)該具有因子無(wú)法解釋的唯一方差。此假設(shè)在公因子分析中尤為重要。
  7. Independent Observations:數(shù)據(jù)集中的觀測(cè)值應(yīng)彼此獨(dú)立。
  8. 因子分值的線性性:假設(shè)觀測(cè)變量和潛在因子之間的關(guān)系是線性的,即使觀測(cè)變量彼此之間可能不是線性關(guān)系。
  9. 區(qū)間或比率尺度:因子分析通常假設(shè)變量是在區(qū)間或比率尺度上測(cè)量的,而不是在名義或順序尺度上測(cè)量的。

違反這些假設(shè)可能會(huì)導(dǎo)致參數(shù)估計(jì)有偏差和對(duì)結(jié)果的不準(zhǔn)確解釋。因此,在進(jìn)行因子分析之前評(píng)估這些假設(shè)的數(shù)據(jù)非常重要,如果不滿足這些假設(shè),則考慮可能的補(bǔ)救措施或替代方法。

常見(jiàn)問(wèn)題解答 : 因子分析

1. 因子分析的步驟有哪些?

  • 收集數(shù)據(jù):選擇反映您正在研究的領(lǐng)域的相關(guān)變量。
  • 清理數(shù)據(jù):確保您的數(shù)據(jù)質(zhì)量高,并準(zhǔn)備好進(jìn)行分析。
  • 查找隱藏模式:提取解釋變量之間關(guān)系的基礎(chǔ)因素。
  • 使其更易于理解:簡(jiǎn)化因素以使其解釋更清晰。
  • 用圖表解釋它的含義: 弄清楚這些因素代表什么以及它們與您的研究問(wèn)題有何關(guān)系。
  • 仔細(xì)檢查您的工作:確保您的發(fā)現(xiàn)是可靠的,并且可以被其他人復(fù)制。

2. 因子分析是什么意思?

因子分析不是分析一堆單獨(dú)的數(shù)據(jù)點(diǎn),而是幫助您識(shí)別少量的基本趨勢(shì),這些趨勢(shì)可以解釋數(shù)據(jù)中的大部分變化。

3. 什么是因子分析的示例?

將學(xué)生調(diào)查數(shù)據(jù)想象成高維空間中的一堆點(diǎn),每個(gè)維度代表一個(gè)變量(睡眠質(zhì)量、工作量等)。單獨(dú)分析所有這些維度可能很麻煩。

4. 因子分析的 3 個(gè)目的是什么?

  • 簡(jiǎn)化您的數(shù)據(jù):想象一個(gè)巨大的毛線球 – 這就是您的復(fù)雜數(shù)據(jù)。因子分析解開(kāi)了它,揭示了構(gòu)成整個(gè)事物的少量核心線程(因子)。
  • 查找隱藏的連接:除了更少的線程之外,因子分析還揭示了這些核心線程是如何秘密連接的。它發(fā)現(xiàn)了解釋為什么某些變量一起移動(dòng)的隱藏模式。
  • 了解更大的圖景:通過(guò)查看這些隱藏的聯(lián)系,您可以了解數(shù)據(jù)中起作用的潛在力量。它可以幫助您從真正影響結(jié)果的 “什么” (變量) 轉(zhuǎn)變?yōu)?“為什么” (因素)。

?

因子分析示例(因子分析器):

以下是如何使用該庫(kù)在 Python 中執(zhí)行因子分析的示例 :factor_analyzer

以下內(nèi)容為付費(fèi)內(nèi)容,請(qǐng)購(gòu)買后觀看

App下載
技術(shù)鄰APP
工程師必備
  • 項(xiàng)目客服
  • 培訓(xùn)客服
  • 平臺(tái)客服

TOP

1