如何讓機(jī)器能觀察環(huán)境？模式識(shí)別綜述

何以五七越

2018年7月10日 16:57

如何讓機(jī)器能觀察環(huán)境？模式識(shí)別綜述的圖1

一、引言

模式識(shí)別是研究如何讓機(jī)器能觀察環(huán)境，并從環(huán)境背景中將感興趣的目標(biāo)提取分離、分類(lèi)的過(guò)程；給定一個(gè)模式，它的識(shí)別、分類(lèi)包含以下兩方面的任務(wù)：指導(dǎo)性分類(lèi)及非指導(dǎo)性分類(lèi)。所以識(shí)別問(wèn)題基本等價(jià)于分類(lèi)、分組的問(wèn)題，類(lèi)（組）的概念是有設(shè)計(jì)者指定的或有算法依據(jù)數(shù)據(jù)在一定的相似性準(zhǔn)則下建立的。

模式識(shí)別應(yīng)用的領(lǐng)域越來(lái)越廣，從生物學(xué)、數(shù)據(jù)挖掘、文檔分類(lèi)、文檔圖像分析、工業(yè)自動(dòng)化、多媒體數(shù)據(jù)庫(kù)檢索、語(yǔ)音識(shí)別到遠(yuǎn)程遙感等方面。而且不同的場(chǎng)景應(yīng)用的方法還有差別，這主要由數(shù)據(jù)的類(lèi)型（空間維數(shù)）、類(lèi)別信息等決定；對(duì)于一個(gè)模式識(shí)別系統(tǒng)，其速度、準(zhǔn)確性及花費(fèi)仍然是考慮的方面。

模式識(shí)別系統(tǒng)一般包含以下三個(gè)處理步驟：數(shù)據(jù)的采集、特性及決策；而問(wèn)題域就決定了傳感器、預(yù)處理技術(shù)、特性建立機(jī)制及決策模型等方面的技術(shù)。對(duì)于一個(gè)定義很好的、模式緊湊的識(shí)別問(wèn)題（如小類(lèi)內(nèi)偏差，大類(lèi)間偏差），這種情況用一個(gè)簡(jiǎn)單的決策模型就會(huì)得到較好的結(jié)果。已知的模式識(shí)別方法可分為四個(gè)大的方面：模板匹配、統(tǒng)計(jì)模式識(shí)別、語(yǔ)法及結(jié)構(gòu)匹配和神經(jīng)網(wǎng)絡(luò)，下面先對(duì)這四個(gè)方面進(jìn)行簡(jiǎn)單的闡述。

1、模板匹配

這時(shí)出現(xiàn)較早的一種方法，而且實(shí)現(xiàn)起來(lái)也較簡(jiǎn)單，匹配是個(gè)通用的操作，用于定義兩個(gè)實(shí)體間的相似性程度，一般是采用二維模板，匹配的要素一般采用像素、曲線及形狀信息，當(dāng)然在定義模板及相似性函數(shù)時(shí)要考慮到實(shí)體的姿態(tài)及比例問(wèn)題，這種方法一般不需要訓(xùn)練，實(shí)際上模板就是由訓(xùn)練集建立起來(lái)的。

這種方法的主要缺點(diǎn)是處理圖像的扭曲效果不好，如圖像投影的畸變教嚴(yán)重時(shí)。

2、統(tǒng)計(jì)

每個(gè)模式都是d維空間中的一個(gè)點(diǎn)，目標(biāo)就是選擇一些模式向量將不同的模式分配到不同的模式空間的區(qū)域上，對(duì)于每個(gè)類(lèi)別給定的訓(xùn)練集，在模式空間中建立一些分割邊界將不同的模式分到不同的類(lèi)別中，統(tǒng)計(jì)方法中，這個(gè)邊界是基于每個(gè)類(lèi)的模式的概率分布的，這點(diǎn)必須預(yù)先知道或通過(guò)學(xué)習(xí)獲得，學(xué)習(xí)就分參數(shù)化和非參數(shù)化的，前者對(duì)應(yīng)知道其分布需要估計(jì)其分布參數(shù)，這個(gè)由樣本空間可完成，而后者是采用核函數(shù)的方式進(jìn)行估計(jì)，同時(shí)分割邊界一般是基于一定準(zhǔn)則建立的，如最小均方誤差準(zhǔn)則。

3、語(yǔ)法及結(jié)構(gòu)分析

這種方法一般針對(duì)復(fù)雜模式提出的，一般將模式分為子模式一級(jí)，稱(chēng)為基元。這種方法其難點(diǎn)是基元的提取及從訓(xùn)練數(shù)據(jù)中提取語(yǔ)法、結(jié)構(gòu)規(guī)則。

4、神經(jīng)網(wǎng)絡(luò)

是一種復(fù)雜的并行的非線性系統(tǒng)，完成復(fù)雜的計(jì)算，網(wǎng)絡(luò)的最大特點(diǎn)就是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到輸入－輸出間的復(fù)雜關(guān)系，并對(duì)數(shù)據(jù)具有適應(yīng)性。網(wǎng)絡(luò)的結(jié)構(gòu)是千萬(wàn)種，但最常用的就是前饋結(jié)構(gòu)，如多層感知器及徑向基函數(shù)兩種。神經(jīng)網(wǎng)絡(luò)中的隱層可完成特性的抽取及選擇功能，所以適應(yīng)性很強(qiáng)，理論上，網(wǎng)絡(luò)模型等價(jià)于經(jīng)典的統(tǒng)計(jì)方法，實(shí)際上統(tǒng)計(jì)信息就是從樣本中獲得。

本部分主要討論統(tǒng)計(jì)模式識(shí)別的方法，從操作的一些細(xì)節(jié)上進(jìn)行討論，同時(shí)也討論的多種方法的優(yōu)缺點(diǎn)。

二、統(tǒng)計(jì)模式識(shí)別

一個(gè)模式系統(tǒng)一般工作在兩個(gè)方面：訓(xùn)練和分類(lèi)；統(tǒng)計(jì)模式識(shí)別的理論依據(jù)就是bayes理論，當(dāng)然也可采用修正的bayes理論（風(fēng)險(xiǎn)估計(jì)）；當(dāng)然bayes理論要求類(lèi)的分布情況，在已知分布情況下就可直接使用，但一般這種可能性較小，對(duì)于只是知道分布函數(shù)，但不知道參數(shù)的情況，就是估計(jì)參數(shù)的過(guò)程，而在更一般情況下，對(duì)應(yīng)分布是一點(diǎn)信息沒(méi)有，這樣可采用Parzen窗核函數(shù)估計(jì)其分布或直接基于訓(xùn)練數(shù)據(jù)建立決策邊界。

實(shí)際上多層感知器就是一個(gè)非參數(shù)的過(guò)程。統(tǒng)計(jì)模式的一種分類(lèi)方法分為指導(dǎo)性訓(xùn)練和非指導(dǎo)性訓(xùn)練；非指導(dǎo)性訓(xùn)練一般對(duì)于數(shù)據(jù)的已知信息很少，如遠(yuǎn)程的空間遙感應(yīng)用，這里一般采用聚類(lèi)的方法。另一種分類(lèi)方法是基于決策邊界是直接獲得還是間接獲得，前者一般是在幾何空間就可完成。

無(wú)論采用那種方法，訓(xùn)練集非常關(guān)鍵，主要訓(xùn)練的數(shù)據(jù)量要足夠大而且要足夠典型，這樣才能保證算法的可靠性，訓(xùn)練集的應(yīng)用上注意以下幾點(diǎn)：

- 訓(xùn)練樣本的個(gè)數(shù)應(yīng)該在10倍于特性數(shù)據(jù)維數(shù)；

- 相對(duì)于訓(xùn)練樣本，分類(lèi)器的未知參數(shù)不能過(guò)多；

- 分類(lèi)器不能出現(xiàn)過(guò)度訓(xùn)練的問(wèn)題。

又一個(gè)注意點(diǎn)就是在模式識(shí)別中并不是維數(shù)越高識(shí)別效果越好，這種現(xiàn)象稱(chēng)為維數(shù)的詛咒，這種詛咒就是隨著特性增加而分類(lèi)器的性能確惡化；當(dāng)然對(duì)于已知類(lèi)的條件概率情況下，這種詛咒是不存在的，但一般情況下這種分布是不確定知道的。

三、維數(shù)的降低

在很多情況下需要對(duì)已知的特性進(jìn)行降低處理，即在低維空間進(jìn)行分類(lèi)，如性能的考慮。主向量分析法是一種常用的方法，這種方法剔除掉次要的特性，其模式信息由主向量（協(xié)方差矩陣的主特征向量）決定；特性抽取和特性選擇是由差別的，特性抽取強(qiáng)調(diào)是空間的維數(shù)處理，如原始特性的變換和組合。而特性選擇是指從特性空間中選擇一個(gè)子空間進(jìn)行分類(lèi)，以便達(dá)到分類(lèi)誤差最小的要求。

登錄后免費(fèi)查看全文

立即登錄