AI高斯混合模型

AI高斯混合模型

1 在 AI 中 學(xué)習(xí)-5. AI 中的概率模型處理不確定性

人工智能 (AI) 中的學(xué)習(xí)是指系統(tǒng)通過(guò)經(jīng)驗(yàn)、數(shù)據(jù)或與環(huán)境的交互隨著時(shí)間的推移提高其任務(wù)性能的過(guò)程。

5. AI 中的概率模型處理不確定性,進(jìn)行預(yù)測(cè),并對(duì)復(fù)雜系統(tǒng)進(jìn)行建模,其中不確定性和可變性起著至關(guān)重要的作用。這些模型有助于推理、決策和從數(shù)據(jù)中學(xué)習(xí)。

假設(shè)有一組數(shù)據(jù)點(diǎn)需要根據(jù)它們的相似性分為幾個(gè)部分或集群。在機(jī)器學(xué)習(xí)中,這稱為聚類。有幾種方法可用于聚類:

? K 表示聚類

? 分層聚類

? 高斯混合模型

在本文中,將討論高斯混合模型。

2 正態(tài)分布或高斯分布

在現(xiàn)實(shí)生活中,許多數(shù)據(jù)集可以通過(guò)高斯分布(單變量或多變量)進(jìn)行建模。因此,假設(shè)這些集群來(lái)自不同的高斯分布是非常自然和直觀的。或者換句話說(shuō),它試圖將數(shù)據(jù)集建模為多個(gè)高斯分布的混合。這就是這個(gè)模型的核心思想。

在一維中,高斯分布的概率密度函數(shù)由下式給出

AI高斯混合模型的圖1

其中  μ和  σ2分別是分布的平均值和方差。對(duì)于多元(假設(shè) d 變量)高斯分布,概率密度函數(shù)由下式給出

AI高斯混合模型的圖2

這是一個(gè)μd維向量,表示分布的平均值,是 d X d 協(xié)方差矩陣。

3 高斯混合模型

假設(shè)有 K 個(gè)集群(為簡(jiǎn)單起見(jiàn),這里假設(shè)集群的數(shù)量是已知的,它是 K)。soμ 和 AI高斯混合模型的圖3 也是每個(gè) k 的估計(jì)值。如果只有一個(gè)分布,它們就會(huì)用最大似然法來(lái)估計(jì)。但是由于有 K 個(gè)這樣的集群,并且概率密度被定義為所有這些 K 分布的密度的線性函數(shù),即

AI高斯混合模型的圖4

其中 πk是 k的混合系數(shù)th分配。為了通過(guò)最大對(duì)數(shù)似然法估計(jì)參數(shù),請(qǐng)計(jì)算 p(Xμ,Σ,π)。

AI高斯混合模型的圖5

現(xiàn)在定義一個(gè)隨機(jī)變量 γk(X),使得γk(X)=ρ(k∣X)。

從貝葉斯定理

AI高斯混合模型的圖6

要使對(duì)數(shù)似然函數(shù)最大,它關(guān)于 μ、Σ和 π的導(dǎo)數(shù) p(X∣μ,Σ,π)應(yīng)為零。

因此,將 p(X∣μ,Σ,π)的 μ導(dǎo)數(shù)等同于零,并重新排列項(xiàng)。

AI高斯混合模型的圖7

同樣,分別對(duì) Σ和 pi 取導(dǎo)數(shù),可以得到以下表達(dá)式

AI高斯混合模型的圖8

AI高斯混合模型的圖9

注:AI高斯混合模型的圖10表示 k 中采樣點(diǎn)的總數(shù)th簇。這里假設(shè)總共有 N 個(gè)樣本,每個(gè)包含 d 個(gè)特征的樣本用 xi表示

因此可以清楚地看到,參數(shù)不能以封閉形式進(jìn)行估計(jì)。這就是 Expectation-Maximization 算法的好處所在。

4 期望最大化 (EM) 算法

期望最大化 (EM) 算法是一種迭代方法,用于在數(shù)據(jù)不完整、缺少一些數(shù)據(jù)點(diǎn)或具有一些隱藏變量時(shí)查找模型參數(shù)的最大似然估計(jì)。EM 為缺失的數(shù)據(jù)點(diǎn)選擇一些隨機(jī)值,并估計(jì)一組新數(shù)據(jù)。然后,這些新值通過(guò)填充缺失點(diǎn)來(lái)遞歸地用于估計(jì)更好的首次日期,直到值得到修復(fù)。

在期望最大化 (EM) 算法中,估計(jì)步長(zhǎng) (E-step) 和最大化步長(zhǎng) (M-step) 是迭代執(zhí)行的兩個(gè)最重要的步驟,用于更新模型參數(shù),直到模型收斂。

5 估算步驟 (E-step):

? 在估計(jì)步驟中,我們首先初始化模型參數(shù),如平均值 (μk)、協(xié)方差矩陣 (Σk) 和混合系數(shù) (πk)。

? 對(duì)于每個(gè)數(shù)據(jù)點(diǎn),我們使用當(dāng)前參數(shù)值計(jì)算屬于每個(gè)質(zhì)心的數(shù)據(jù)點(diǎn)的后驗(yàn)概率。這些概率通常由潛在變量 γk 表示。

? 最后 根據(jù)當(dāng)前參數(shù)值估計(jì)潛在變量的值 γ k

6 最大化步驟

? 在最大化步驟中,我們使用估計(jì)的潛在變量 γk 更新參數(shù)值

AI高斯混合模型的圖11

? 我們將通過(guò)使用相應(yīng)的潛在變量概率獲取數(shù)據(jù)點(diǎn)的加權(quán)平均值來(lái)更新集群點(diǎn)的平均值 (μk)

? 我們將使用相應(yīng)的潛在變量概率,取數(shù)據(jù)點(diǎn)與平均值之間的平方差的加權(quán)平均值,從而更新協(xié)方差矩陣 (Σk)。

? 我們將通過(guò)取每個(gè)分量的潛在變量概率的平均值來(lái)更新混合系數(shù) (πk)。

7 重復(fù) E 步和 M 步,直到收斂

? 我們?cè)诠烙?jì)步驟和最大化步驟之間迭代,直到對(duì)數(shù)似然或參數(shù)的變化低于預(yù)定義的閾值,或者直到達(dá)到最大迭代次數(shù)。

? 基本上,在估計(jì)步驟中,我們根據(jù)當(dāng)前參數(shù)值更新潛在變量。

? 但是,在最大化步驟中,我們使用估計(jì)的潛在變量更新參數(shù)值

? 這個(gè)過(guò)程會(huì)迭代重復(fù),直到我們的模型收斂。

期望最大化 (EM) 算法是一個(gè)通用框架,可以應(yīng)用于各種模型,包括高斯混合模型 (GMM)。上述步驟專門用于 GMM,但 Estimization-step 和 Maximization-step 的總體概念對(duì)于使用 EM 算法的其他模型保持不變。

8 高斯混合模型的實(shí)現(xiàn)

在此示例中,采用 iris Dataset。在 Python 中,有一個(gè) Gaussian 混合類來(lái)實(shí)現(xiàn) GMM。從 datasets 包中加載 iris 數(shù)據(jù)集。為簡(jiǎn)單起見(jiàn),請(qǐng)選取唯一的前兩列(即 sepal length 和 sepaper width 分別)。

以下內(nèi)容為付費(fèi)內(nèi)容,請(qǐng)購(gòu)買后觀看

python案例

App下載
技術(shù)鄰APP
工程師必備
  • 項(xiàng)目客服
  • 培訓(xùn)客服
  • 平臺(tái)客服

TOP

1