語音識別系列之脈沖神經(jīng)網(wǎng)絡特征工程





作者:王佳杰

引言

人工神經(jīng)網(wǎng)絡(Artificial Neural Network, ANN)中的單個人工神經(jīng)元是對生物神經(jīng)元的高度抽象、提煉和簡化,模擬了后者的若干基本性質(zhì)。得益于誤差反向傳播算法,網(wǎng)絡權(quán)重可根據(jù)設定的目標函數(shù)得到有效地調(diào)整,ANN在視覺、文本、語音等領(lǐng)域都取得了巨大的成功,各種新奇的網(wǎng)絡結(jié)構(gòu)、訓練策略層出不窮,ANN獲得了蓬勃發(fā)展,大量科研及工程人才投入之中,強力推動了學術(shù)研究及工業(yè)應用。相較而言,比ANN更仿生的脈沖神經(jīng)網(wǎng)絡(Spike Neural Network, SNN)還處于研究和應用初期,類腦芯片及相關(guān)公司屈指可數(shù),相關(guān)應用乏善可陳,但已露出了些微曙光。

語音識別系列之脈沖神經(jīng)網(wǎng)絡特征工程的圖1


一、ANN/SNN神經(jīng)元的異同

在ANN中,單個神經(jīng)元接收上層若干神經(jīng)元的輸入,加權(quán)和配以偏置,套以激活函數(shù)輸出一個值傳遞給下層神經(jīng)元。在SNN中,上層神經(jīng)元發(fā)送來的并非一個數(shù)值連續(xù)變化的標量,而是神經(jīng)脈沖時間串,提請注意的是:

(1)關(guān)于激活函數(shù): 在ANN中,默認上層神經(jīng)元都是預激活的,下層神經(jīng)元需要考慮全部有連接的上層神經(jīng)元(除非經(jīng)過后續(xù)的剪枝優(yōu)化)。但在SNN中,即便上下兩個神經(jīng)元有突觸連接,只要上層神經(jīng)元未激發(fā)脈沖,下層神經(jīng)元便不需考慮。因此,從計算效率上講,SNN精打細算,而ANN存在冗余計算。

注:Dropout隨機失活技術(shù)只是在ANN訓練階段使用,前向推理還是默認ANN中所有神經(jīng)元都參與運算。

(2)關(guān)于輸入/出值: 在ANN中,神經(jīng)元輸入/出的均為連續(xù)變化的數(shù)值,但在SNN中,根據(jù)神經(jīng)生物學的觀察和數(shù)據(jù)積累,單個神經(jīng)脈沖代表的膜電位的變化,其幅值相差不大且脈沖波形相似,因此可用二值化的0/1代替脈沖的有無。從數(shù)據(jù)存儲的角度,SNN比ANN更經(jīng)濟。由于SNN輸入/出的值均為離散二值時間序列,也省去了與權(quán)重的浮點運算操作,更加節(jié)省算量。

(3)關(guān)于偏置: ANN中神經(jīng)元計算可配以偏置,功能是調(diào)整數(shù)據(jù)的值的分布中心,但在SNN中無偏置(因此在ANN與SNN的轉(zhuǎn)換中,常要求待轉(zhuǎn)換為SNN的ANN去除偏置再訓練,本文不述)。

(4)關(guān)于權(quán)重: ANN/SNN中的權(quán)重,模擬的是生物神經(jīng)元之間連接的強度,體現(xiàn)在突觸數(shù)目(上下兩個神經(jīng)元之間不一定只有一個突觸)和釋放神經(jīng)遞質(zhì)的多寡。

(5)異/同步計算: 相比于ANN,SNN的脈沖串包含了時間維度,SNN以事件驅(qū)動的方式異步計算處理信息,而ANN執(zhí)行的是同步計算。

(6)關(guān)于訓練: 由于脈沖串的離散和不可差分特性,誤差反傳算法在SNN的訓練中不能直接應用,解決方法有ANN2SNN轉(zhuǎn)換,代理梯度等方法,本文不展開。

(7)關(guān)于信號傳遞: 在生物上,上層若個神經(jīng)元傳遞電脈沖到樹突,樹突傳遞神經(jīng)遞質(zhì)給下層神經(jīng)元是需要消耗時間的,由于神經(jīng)軸突不等長等因素也不可能做到嚴格同時到達,ANN和SNN模型實際上都忽略了傳遞過程的耗時和時間不同步。

二、SNN-KWS/ASR特征工程

將SNN應用于語音喚醒(Keyword Spotting, KWS)[1]甚或語音識別(Automatic Speech Recognition, ASR)[2],首要問題即是如何將語音,或更廣一點,音頻轉(zhuǎn)換為神經(jīng)脈沖序列(后文將這種轉(zhuǎn)換簡稱為Audio2Spike),它隸屬SNN在音頻領(lǐng)域的特征工程,決定了SNN-KWS/ASR的性能上限。

(1)物理模型

文獻[1]中SNN-KWS使用的Audio2Spike轉(zhuǎn)換方法見文獻[3],后者還附帶了Github代碼(以Python單元測試框架Unittest寫就)。該轉(zhuǎn)換方法對音頻至脈沖的生物過程建立物理模型,考慮了鼓管、前庭管、蝸孔、卵圓窗、圓窗的流體動力學基底模型,將音頻(聲壓)數(shù)據(jù)轉(zhuǎn)化為基底膜在不同位置的運動速度數(shù)據(jù),再由考慮了離子傳輸機制的毛細胞模型將運動速度數(shù)據(jù)轉(zhuǎn)換為神經(jīng)脈沖,最后由泄露積分發(fā)射(Leaky Integrate-and-Fire, LIF)神經(jīng)元模型完成鎖相。

注1:基底膜在耳蝸底窄而剛(對高頻響應好),在耳蝸頂寬而柔(對低頻響應好),此特性決定耳蝸實際上是一個分頻器,耳蝸各處毛細胞對不同頻率響應能力不同,連接毛細胞的神經(jīng)纖維形成螺旋神經(jīng)節(jié)后有序地將音調(diào)拓撲映像(Tonotopic map)轉(zhuǎn)繼到腦干中的耳蝸核。

注2:鎖相(Phase locking)是指毛細胞發(fā)射的神經(jīng)脈沖間隔,是該處最佳響應頻率周期的整數(shù)倍,或說,毛細胞發(fā)射神經(jīng)脈沖的時刻,對應聲波某個特定相位。由于動作點位啟動后存在不應期,持續(xù)約0.1~1ms,所以鎖相現(xiàn)象一般存在于1kHz以下的聲波(否則上一個脈沖還沒結(jié)束,下一個還未能發(fā)射)。對于1kHz聲波及其對應毛細胞激發(fā)的脈沖,鎖相現(xiàn)象表明動作點位啟動時間的精確度,必然高于1ms,正是這種精確度滿足了聲音定位的需求。

注3:對某一時間段內(nèi)(對應時頻圖分析方法中的某一幀),不同頻率聲波映射到耳蝸的不同位置,稱為位置編碼,而時頻塊的值的大小,或說當前幀內(nèi)該頻點的聲強,則對應發(fā)放神經(jīng)脈沖的數(shù)目。

耳蝸將機械波轉(zhuǎn)化為電脈沖的生物學過程,可詳見[4-7],四書原理插圖,內(nèi)/外毛細胞電鏡照片均十分精美,由于潛在的版權(quán)問題,此處不截圖。

基于物理模型的Audio2Spike轉(zhuǎn)換方法的問題在于:

(a)模型參數(shù)較多且均是提前設定好的固定值,每一個參數(shù)的變動對最終效果的影響位置,合理變化范圍也未知。

(b)模型轉(zhuǎn)換得到的神經(jīng)脈沖序列,與真實生物過程不一定一致,從編碼角度來說也不一定是最優(yōu)的(攜帶足夠的信息,同時脈沖個數(shù)又少)。而且也無法組織真人實驗來驗證,畢竟幾乎唯一的驗證方法是主觀的,需要借助人工耳蝸的電極播放脈沖,讓人主觀評價聽感的好壞。但人工耳蝸總不可能對健聽者植入,只可能對聽障者做實驗,即便實驗證明不真實,也缺少模型參數(shù)調(diào)整的指導方向,幾乎就是盲調(diào)。

(2)人工耳蝸物理轉(zhuǎn)錄

人工耳蝸可作為動態(tài)音頻傳感器(Dynamic Audio Sensor, DAS),記錄人工耳蝸對音頻數(shù)據(jù)的響應,將TIDIGITS音頻數(shù)據(jù)集轉(zhuǎn)錄為N-TIDIGITS脈沖數(shù)據(jù)集[8]。

注:與聽覺對應地,也存在動態(tài)視覺傳感器(Dynamic Vision Sensor, DVS),也被稱為事件相機(Event-based Camera),詳見iniVation官網(wǎng)[9]。

基于人工耳蝸物理轉(zhuǎn)錄的Audio2Spike方法的問題在于,轉(zhuǎn)錄依賴人工耳蝸,因此轉(zhuǎn)換規(guī)則受此耳蝸編碼策略所限定,且轉(zhuǎn)錄效率過低(實錄時長等于音頻時長),不利于大規(guī)模數(shù)據(jù)的快速、靈活轉(zhuǎn)換。再者,人工耳蝸電極數(shù)有限,難以得到精細的頻率分辨率。

(3)編碼算法虛擬轉(zhuǎn)換

首先,各家人工耳蝸廠商必然掌握音頻至神經(jīng)脈沖的編碼算法,且得到多年、大批聽障者的反復驗證和優(yōu)化,可以說是目前最接近真實生理編碼過程的算法,如MED-EL公司的“精細結(jié)構(gòu)”編碼策略[10],但算法細節(jié)自然是技術(shù)機密。

其次,各獨立研究組也有提出自己的編碼策略。如2020年新加坡國立大學李海洲組的Zihan Pan等人[11]在保證時空動態(tài)特征以保證分類性能的前提下,利用心理聲學的時間、頻率掩蔽效應(不可聽或不聽不影響聽感的部分不編碼),減小脈沖產(chǎn)生個數(shù)(稀疏化),從而節(jié)省能耗,且宣稱確信所提策略達到SOTA水平。但問題還在于未經(jīng)大批聽障者實驗驗證,不過要求研究組去做這種事情確實苛責了。

(4)自組織映射

2020年,李海洲的博士生吳冀彬在其博士畢業(yè)論文[12]中詳細描述了自組織映射(Self-Organizing Map, SOM)做Audio2Spike的方法,輸入是幀級別的FBank特征,訓練時SOM的神經(jīng)元相互競爭,選擇突觸權(quán)矢最接近輸入特征的神經(jīng)元,作為最佳匹配單元(Best-Matching Unit, BMU),BMU更新權(quán)矢以進一步接近輸入矢量。同時,BMU周圍的神經(jīng)元也更新,但是更新比重按距離衰減,如此形成圍繞BMU的神經(jīng)簇,此為合作。通過競爭-合作訓練機制,最終SOM中神經(jīng)元的突觸權(quán)矢服從輸入特征矢量的分布,且形成拓撲結(jié)構(gòu)。實驗結(jié)果表明基于SOM提取的神經(jīng)脈沖串,在與SNN的結(jié)合后取得了優(yōu)異的分類性能。

參考文獻:
[1] Bittar, Alexandre, and Philip N. Ganer. “Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition.” arXiv preprint arXiv:2212.01187 (2022).
[2] Wu, Jibin, et al. “Deep spiking neural networks for large vocabulary automatic speech recognition.” Frontiers in neuroscience 14 (2020): 199.
[3] Cramer, Benjamin, et al. “The Heidelberg spiking data sets for the systematic evaluation of spiking neural networks.” IEEE Transactions on Neural Networks and Learning Systems 33.7 (2020): 2744-2757.
[4] Kandel, Eric R., et al., eds. Principles of neural science. Vol. 4. New York: McGraw-hill, 2020.
[5] Purves, Dale, et al. Neuralscience. De Boeck Superieur, 2019.
[6] Luo, Liqun. Principles of neurobiology. Garland Science, 2020.
[7] Bear, Mark, Barry Connors, and Micheal A. Paradiso. Neuroscience: exploring the brain, enhanced edition: exploring the brain. Jones & Bartlett Learning, 2020.
[8] Anumula, Jithendar, et al. “Feature representation for neuromorphic audio spike streams.” Frontiers in neuroscience 12 (2018): 23.
[9] https://inivation.cn/
[10] http://www.medel.com.cn/Helps/jxjgbmc161.html
[11] Pan, Zihan, et al. “An efficient and perceptually motivated auditory neural encoding and decoding algorithm for spiking neural networks.” Frontiers in neuroscience 13 (2020): 1420.
[12] Jibin, Wu. Auditory Information Processing Using Spiking Neural Networks. Diss. National University of Singapore (Singapore), 2021.




  文章來源:21dB聲學人




登錄后免費查看全文
立即登錄
App下載
技術(shù)鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP