如何讓機(jī)器能觀察環(huán)境?模式識(shí)別綜述

一、引言
模式識(shí)別是研究如何讓機(jī)器能觀察環(huán)境,并從環(huán)境背景中將感興趣的目標(biāo)提取分離、分類(lèi)的過(guò)程;給定一個(gè)模式,它的識(shí)別、分類(lèi)包含以下兩方面的任務(wù):指導(dǎo)性分類(lèi)及非指導(dǎo)性分類(lèi)。所以識(shí)別問(wèn)題基本等價(jià)于分類(lèi)、分組的問(wèn)題,類(lèi)(組)的概念是有設(shè)計(jì)者指定的或有算法依據(jù)數(shù)據(jù)在一定的相似性準(zhǔn)則下建立的。
模式識(shí)別應(yīng)用的領(lǐng)域越來(lái)越廣,從生物學(xué)、數(shù)據(jù)挖掘、文檔分類(lèi)、文檔圖像分析、工業(yè)自動(dòng)化、多媒體數(shù)據(jù)庫(kù)檢索、語(yǔ)音識(shí)別到遠(yuǎn)程遙感等方面。而且不同的場(chǎng)景應(yīng)用的方法還有差別,這主要由數(shù)據(jù)的類(lèi)型(空間維數(shù))、類(lèi)別信息等決定;對(duì)于一個(gè)模式識(shí)別系統(tǒng),其速度、準(zhǔn)確性及花費(fèi)仍然是考慮的方面。
模式識(shí)別系統(tǒng)一般包含以下三個(gè)處理步驟:數(shù)據(jù)的采集、特性及決策;而問(wèn)題域就決定了傳感器、預(yù)處理技術(shù)、特性建立機(jī)制及決策模型等方面的技術(shù)。對(duì)于一個(gè)定義很好的、模式緊湊的識(shí)別問(wèn)題(如小類(lèi)內(nèi)偏差,大類(lèi)間偏差),這種情況用一個(gè)簡(jiǎn)單的決策模型就會(huì)得到較好的結(jié)果。已知的模式識(shí)別方法可分為四個(gè)大的方面:模板匹配、統(tǒng)計(jì)模式識(shí)別、語(yǔ)法及結(jié)構(gòu)匹配和神經(jīng)網(wǎng)絡(luò),下面先對(duì)這四個(gè)方面進(jìn)行簡(jiǎn)單的闡述。
1、模板匹配
這時(shí)出現(xiàn)較早的一種方法,而且實(shí)現(xiàn)起來(lái)也較簡(jiǎn)單,匹配是個(gè)通用的操作,用于定義兩個(gè)實(shí)體間的相似性程度,一般是采用二維模板,匹配的要素一般采用像素、曲線及形狀信息,當(dāng)然在定義模板及相似性函數(shù)時(shí)要考慮到實(shí)體的姿態(tài)及比例問(wèn)題,這種方法一般不需要訓(xùn)練,實(shí)際上模板就是由訓(xùn)練集建立起來(lái)的。
這種方法的主要缺點(diǎn)是處理圖像的扭曲效果不好,如圖像投影的畸變教嚴(yán)重時(shí)。
2、統(tǒng)計(jì)
每個(gè)模式都是d維空間中的一個(gè)點(diǎn),目標(biāo)就是選擇一些模式向量將不同的模式分配到不同的模式空間的區(qū)域上,對(duì)于每個(gè)類(lèi)別給定的訓(xùn)練集,在模式空間中建立一些分割邊界將不同的模式分到不同的類(lèi)別中,統(tǒng)計(jì)方法中,這個(gè)邊界是基于每個(gè)類(lèi)的模式的概率分布的,這點(diǎn)必須預(yù)先知道或通過(guò)學(xué)習(xí)獲得,學(xué)習(xí)就分參數(shù)化和非參數(shù)化的,前者對(duì)應(yīng)知道其分布需要估計(jì)其分布參數(shù),這個(gè)由樣本空間可完成,而后者是采用核函數(shù)的方式進(jìn)行估計(jì),同時(shí)分割邊界一般是基于一定準(zhǔn)則建立的,如最小均方誤差準(zhǔn)則。
3、語(yǔ)法及結(jié)構(gòu)分析
這種方法一般針對(duì)復(fù)雜模式提出的,一般將模式分為子模式一級(jí),稱(chēng)為基元。這種方法其難點(diǎn)是基元的提取及從訓(xùn)練數(shù)據(jù)中提取語(yǔ)法、結(jié)構(gòu)規(guī)則。
4、神經(jīng)網(wǎng)絡(luò)
是一種復(fù)雜的并行的非線性系統(tǒng),完成復(fù)雜的計(jì)算,網(wǎng)絡(luò)的最大特點(diǎn)就是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到輸入-輸出間的復(fù)雜關(guān)系,并對(duì)數(shù)據(jù)具有適應(yīng)性。網(wǎng)絡(luò)的結(jié)構(gòu)是千萬(wàn)種,但最常用的就是前饋結(jié)構(gòu),如多層感知器及徑向基函數(shù)兩種。神經(jīng)網(wǎng)絡(luò)中的隱層可完成特性的抽取及選擇功能,所以適應(yīng)性很強(qiáng),理論上,網(wǎng)絡(luò)模型等價(jià)于經(jīng)典的統(tǒng)計(jì)方法,實(shí)際上統(tǒng)計(jì)信息就是從樣本中獲得。
本部分主要討論統(tǒng)計(jì)模式識(shí)別的方法,從操作的一些細(xì)節(jié)上進(jìn)行討論,同時(shí)也討論的多種方法的優(yōu)缺點(diǎn)。
二、統(tǒng)計(jì)模式識(shí)別
一個(gè)模式系統(tǒng)一般工作在兩個(gè)方面:訓(xùn)練和分類(lèi);統(tǒng)計(jì)模式識(shí)別的理論依據(jù)就是bayes理論,當(dāng)然也可采用修正的bayes理論(風(fēng)險(xiǎn)估計(jì));當(dāng)然bayes理論要求類(lèi)的分布情況,在已知分布情況下就可直接使用,但一般這種可能性較小,對(duì)于只是知道分布函數(shù),但不知道參數(shù)的情況,就是估計(jì)參數(shù)的過(guò)程,而在更一般情況下,對(duì)應(yīng)分布是一點(diǎn)信息沒(méi)有,這樣可采用Parzen窗核函數(shù)估計(jì)其分布或直接基于訓(xùn)練數(shù)據(jù)建立決策邊界。
實(shí)際上多層感知器就是一個(gè)非參數(shù)的過(guò)程。統(tǒng)計(jì)模式的一種分類(lèi)方法分為指導(dǎo)性訓(xùn)練和非指導(dǎo)性訓(xùn)練;非指導(dǎo)性訓(xùn)練一般對(duì)于數(shù)據(jù)的已知信息很少,如遠(yuǎn)程的空間遙感應(yīng)用,這里一般采用聚類(lèi)的方法。另一種分類(lèi)方法是基于決策邊界是直接獲得還是間接獲得,前者一般是在幾何空間就可完成。
無(wú)論采用那種方法,訓(xùn)練集非常關(guān)鍵,主要訓(xùn)練的數(shù)據(jù)量要足夠大而且要足夠典型,這樣才能保證算法的可靠性,訓(xùn)練集的應(yīng)用上注意以下幾點(diǎn):
- 訓(xùn)練樣本的個(gè)數(shù)應(yīng)該在10倍于特性數(shù)據(jù)維數(shù);
- 相對(duì)于訓(xùn)練樣本,分類(lèi)器的未知參數(shù)不能過(guò)多;
- 分類(lèi)器不能出現(xiàn)過(guò)度訓(xùn)練的問(wèn)題。
又一個(gè)注意點(diǎn)就是在模式識(shí)別中并不是維數(shù)越高識(shí)別效果越好,這種現(xiàn)象稱(chēng)為維數(shù)的詛咒,這種詛咒就是隨著特性增加而分類(lèi)器的性能確惡化;當(dāng)然對(duì)于已知類(lèi)的條件概率情況下,這種詛咒是不存在的,但一般情況下這種分布是不確定知道的。
三、維數(shù)的降低
在很多情況下需要對(duì)已知的特性進(jìn)行降低處理,即在低維空間進(jìn)行分類(lèi),如性能的考慮。主向量分析法是一種常用的方法,這種方法剔除掉次要的特性,其模式信息由主向量(協(xié)方差矩陣的主特征向量)決定;特性抽取和特性選擇是由差別的,特性抽取強(qiáng)調(diào)是空間的維數(shù)處理,如原始特性的變換和組合。而特性選擇是指從特性空間中選擇一個(gè)子空間進(jìn)行分類(lèi),以便達(dá)到分類(lèi)誤差最小的要求。
工程師必備
- 項(xiàng)目客服
- 培訓(xùn)客服
- 平臺(tái)客服
TOP




















