不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

<source id="natqe"><tr id="natqe"></tr></source>

<source id="natqe"><tr id="natqe"></tr></source>

語音識別系列之脈沖神經(jīng)網(wǎng)絡特征工程

聲學工程師小吳

2023年2月14日 17:30

瀏覽：2461

作者：王佳杰

引言

人工神經(jīng)網(wǎng)絡（Artificial Neural Network, ANN）中的單個人工神經(jīng)元是對生物神經(jīng)元的高度抽象、提煉和簡化，模擬了后者的若干基本性質(zhì)。得益于誤差反向傳播算法，網(wǎng)絡權(quán)重可根據(jù)設定的目標函數(shù)得到有效地調(diào)整，ANN在視覺、文本、語音等領(lǐng)域都取得了巨大的成功，各種新奇的網(wǎng)絡結(jié)構(gòu)、訓練策略層出不窮，ANN獲得了蓬勃發(fā)展，大量科研及工程人才投入之中，強力推動了學術(shù)研究及工業(yè)應用。相較而言，比ANN更仿生的脈沖神經(jīng)網(wǎng)絡（Spike Neural Network, SNN）還處于研究和應用初期，類腦芯片及相關(guān)公司屈指可數(shù)，相關(guān)應用乏善可陳，但已露出了些微曙光。

語音識別系列之脈沖神經(jīng)網(wǎng)絡特征工程的圖1

一、ANN/SNN神經(jīng)元的異同

在ANN中，單個神經(jīng)元接收上層若干神經(jīng)元的輸入，加權(quán)和配以偏置，套以激活函數(shù)輸出一個值傳遞給下層神經(jīng)元。在SNN中，上層神經(jīng)元發(fā)送來的并非一個數(shù)值連續(xù)變化的標量，而是神經(jīng)脈沖時間串，提請注意的是：

(1)關(guān)于激活函數(shù)： 在ANN中，默認上層神經(jīng)元都是預激活的，下層神經(jīng)元需要考慮全部有連接的上層神經(jīng)元（除非經(jīng)過后續(xù)的剪枝優(yōu)化）。但在SNN中，即便上下兩個神經(jīng)元有突觸連接，只要上層神經(jīng)元未激發(fā)脈沖，下層神經(jīng)元便不需考慮。因此，從計算效率上講，SNN精打細算，而ANN存在冗余計算。

注：Dropout隨機失活技術(shù)只是在ANN訓練階段使用，前向推理還是默認ANN中所有神經(jīng)元都參與運算。

(2)關(guān)于輸入/出值： 在ANN中，神經(jīng)元輸入/出的均為連續(xù)變化的數(shù)值，但在SNN中，根據(jù)神經(jīng)生物學的觀察和數(shù)據(jù)積累，單個神經(jīng)脈沖代表的膜電位的變化，其幅值相差不大且脈沖波形相似，因此可用二值化的0/1代替脈沖的有無。從數(shù)據(jù)存儲的角度，SNN比ANN更經(jīng)濟。由于SNN輸入/出的值均為離散二值時間序列，也省去了與權(quán)重的浮點運算操作，更加節(jié)省算量。

(3)關(guān)于偏置： ANN中神經(jīng)元計算可配以偏置，功能是調(diào)整數(shù)據(jù)的值的分布中心，但在SNN中無偏置（因此在ANN與SNN的轉(zhuǎn)換中，常要求待轉(zhuǎn)換為SNN的ANN去除偏置再訓練，本文不述）。

(4)關(guān)于權(quán)重： ANN/SNN中的權(quán)重，模擬的是生物神經(jīng)元之間連接的強度，體現(xiàn)在突觸數(shù)目（上下兩個神經(jīng)元之間不一定只有一個突觸）和釋放神經(jīng)遞質(zhì)的多寡。

(5)異/同步計算： 相比于ANN，SNN的脈沖串包含了時間維度，SNN以事件驅(qū)動的方式異步計算處理信息，而ANN執(zhí)行的是同步計算。

(6)關(guān)于訓練： 由于脈沖串的離散和不可差分特性，誤差反傳算法在SNN的訓練中不能直接應用，解決方法有ANN2SNN轉(zhuǎn)換，代理梯度等方法，本文不展開。

(7)關(guān)于信號傳遞： 在生物上，上層若個神經(jīng)元傳遞電脈沖到樹突，樹突傳遞神經(jīng)遞質(zhì)給下層神經(jīng)元是需要消耗時間的，由于神經(jīng)軸突不等長等因素也不可能做到嚴格同時到達，ANN和SNN模型實際上都忽略了傳遞過程的耗時和時間不同步。

二、SNN-KWS/ASR特征工程

將SNN應用于語音喚醒（Keyword Spotting, KWS）[1]甚或語音識別（Automatic Speech Recognition, ASR）[2]，首要問題即是如何將語音，或更廣一點，音頻轉(zhuǎn)換為神經(jīng)脈沖序列（后文將這種轉(zhuǎn)換簡稱為Audio2Spike），它隸屬SNN在音頻領(lǐng)域的特征工程，決定了SNN-KWS/ASR的性能上限。

（1）物理模型

文獻[1]中SNN-KWS使用的Audio2Spike轉(zhuǎn)換方法見文獻[3]，后者還附帶了Github代碼（以Python單元測試框架Unittest寫就）。該轉(zhuǎn)換方法對音頻至脈沖的生物過程建立物理模型，考慮了鼓管、前庭管、蝸孔、卵圓窗、圓窗的流體動力學基底模型，將音頻（聲壓）數(shù)據(jù)轉(zhuǎn)化為基底膜在不同位置的運動速度數(shù)據(jù)，再由考慮了離子傳輸機制的毛細胞模型將運動速度數(shù)據(jù)轉(zhuǎn)換為神經(jīng)脈沖，最后由泄露積分發(fā)射（Leaky Integrate-and-Fire, LIF）神經(jīng)元模型完成鎖相。

注1：基底膜在耳蝸底窄而剛（對高頻響應好），在耳蝸頂寬而柔（對低頻響應好），此特性決定耳蝸實際上是一個分頻器，耳蝸各處毛細胞對不同頻率響應能力不同，連接毛細胞的神經(jīng)纖維形成螺旋神經(jīng)節(jié)后有序地將音調(diào)拓撲映像（Tonotopic map）轉(zhuǎn)繼到腦干中的耳蝸核。

注2：鎖相（Phase locking）是指毛細胞發(fā)射的神經(jīng)脈沖間隔，是該處最佳響應頻率周期的整數(shù)倍，或說，毛細胞發(fā)射神經(jīng)脈沖的時刻，對應聲波某個特定相位。由于動作點位啟動后存在不應期，持續(xù)約0.1~1ms，所以鎖相現(xiàn)象一般存在于1kHz以下的聲波（否則上一個脈沖還沒結(jié)束，下一個還未能發(fā)射）。對于1kHz聲波及其對應毛細胞激發(fā)的脈沖，鎖相現(xiàn)象表明動作點位啟動時間的精確度，必然高于1ms，正是這種精確度滿足了聲音定位的需求。

注3：對某一時間段內(nèi)（對應時頻圖分析方法中的某一幀），不同頻率聲波映射到耳蝸的不同位置，稱為位置編碼，而時頻塊的值的大小，或說當前幀內(nèi)該頻點的聲強，則對應發(fā)放神經(jīng)脈沖的數(shù)目。

耳蝸將機械波轉(zhuǎn)化為電脈沖的生物學過程，可詳見[4-7]，四書原理插圖，內(nèi)/外毛細胞電鏡照片均十分精美，由于潛在的版權(quán)問題，此處不截圖。

基于物理模型的Audio2Spike轉(zhuǎn)換方法的問題在于：

(a)模型參數(shù)較多且均是提前設定好的固定值，每一個參數(shù)的變動對最終效果的影響位置，合理變化范圍也未知。

(b)模型轉(zhuǎn)換得到的神經(jīng)脈沖序列，與真實生物過程不一定一致，從編碼角度來說也不一定是最優(yōu)的（攜帶足夠的信息，同時脈沖個數(shù)又少）。而且也無法組織真人實驗來驗證，畢竟幾乎唯一的驗證方法是主觀的，需要借助人工耳蝸的電極播放脈沖，讓人主觀評價聽感的好壞。但人工耳蝸總不可能對健聽者植入，只可能對聽障者做實驗，即便實驗證明不真實，也缺少模型參數(shù)調(diào)整的指導方向，幾乎就是盲調(diào)。

（2）人工耳蝸物理轉(zhuǎn)錄

人工耳蝸可作為動態(tài)音頻傳感器（Dynamic Audio Sensor, DAS），記錄人工耳蝸對音頻數(shù)據(jù)的響應，將TIDIGITS音頻數(shù)據(jù)集轉(zhuǎn)錄為N-TIDIGITS脈沖數(shù)據(jù)集[8]。

注：與聽覺對應地，也存在動態(tài)視覺傳感器（Dynamic Vision Sensor, DVS），也被稱為事件相機（Event-based Camera），詳見iniVation官網(wǎng)[9]。

基于人工耳蝸物理轉(zhuǎn)錄的Audio2Spike方法的問題在于，轉(zhuǎn)錄依賴人工耳蝸，因此轉(zhuǎn)換規(guī)則受此耳蝸編碼策略所限定，且轉(zhuǎn)錄效率過低（實錄時長等于音頻時長），不利于大規(guī)模數(shù)據(jù)的快速、靈活轉(zhuǎn)換。再者，人工耳蝸電極數(shù)有限，難以得到精細的頻率分辨率。

（3）編碼算法虛擬轉(zhuǎn)換

首先，各家人工耳蝸廠商必然掌握音頻至神經(jīng)脈沖的編碼算法，且得到多年、大批聽障者的反復驗證和優(yōu)化，可以說是目前最接近真實生理編碼過程的算法，如MED-EL公司的“精細結(jié)構(gòu)”編碼策略[10]，但算法細節(jié)自然是技術(shù)機密。

其次，各獨立研究組也有提出自己的編碼策略。如2020年新加坡國立大學李海洲組的Zihan Pan等人[11]在保證時空動態(tài)特征以保證分類性能的前提下，利用心理聲學的時間、頻率掩蔽效應（不可聽或不聽不影響聽感的部分不編碼），減小脈沖產(chǎn)生個數(shù)（稀疏化），從而節(jié)省能耗，且宣稱確信所提策略達到SOTA水平。但問題還在于未經(jīng)大批聽障者實驗驗證，不過要求研究組去做這種事情確實苛責了。

（4）自組織映射

2020年，李海洲的博士生吳冀彬在其博士畢業(yè)論文[12]中詳細描述了自組織映射（Self-Organizing Map, SOM）做Audio2Spike的方法，輸入是幀級別的FBank特征，訓練時SOM的神經(jīng)元相互競爭，選擇突觸權(quán)矢最接近輸入特征的神經(jīng)元，作為最佳匹配單元（Best-Matching Unit, BMU），BMU更新權(quán)矢以進一步接近輸入矢量。同時，BMU周圍的神經(jīng)元也更新，但是更新比重按距離衰減，如此形成圍繞BMU的神經(jīng)簇，此為合作。通過競爭-合作訓練機制，最終SOM中神經(jīng)元的突觸權(quán)矢服從輸入特征矢量的分布，且形成拓撲結(jié)構(gòu)。實驗結(jié)果表明基于SOM提取的神經(jīng)脈沖串，在與SNN的結(jié)合后取得了優(yōu)異的分類性能。

參考文獻：

[1] Bittar, Alexandre, and Philip N. Ganer. “Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition.” arXiv preprint arXiv:2212.01187 (2022).

[2] Wu, Jibin, et al. “Deep spiking neural networks for large vocabulary automatic speech recognition.” Frontiers in neuroscience 14 (2020): 199.

[3] Cramer, Benjamin, et al. “The Heidelberg spiking data sets for the systematic evaluation of spiking neural networks.” IEEE Transactions on Neural Networks and Learning Systems 33.7 (2020): 2744-2757.

[4] Kandel, Eric R., et al., eds. Principles of neural science. Vol. 4. New York: McGraw-hill, 2020.

[5] Purves, Dale, et al. Neuralscience. De Boeck Superieur, 2019.

[6] Luo, Liqun. Principles of neurobiology. Garland Science, 2020.

[7] Bear, Mark, Barry Connors, and Micheal A. Paradiso. Neuroscience: exploring the brain, enhanced edition: exploring the brain. Jones & Bartlett Learning, 2020.

[8] Anumula, Jithendar, et al. “Feature representation for neuromorphic audio spike streams.” Frontiers in neuroscience 12 (2018): 23.

[9] https://inivation.cn/

[10] http://www.medel.com.cn/Helps/jxjgbmc161.html

[11] Pan, Zihan, et al. “An efficient and perceptually motivated auditory neural encoding and decoding algorithm for spiking neural networks.” Frontiers in neuroscience 13 (2020): 1420.

[12] Jibin, Wu. Auditory Information Processing Using Spiking Neural Networks. Diss. National University of Singapore (Singapore), 2021.

文章來源：21dB聲學人

登錄后免費查看全文

立即登錄

App下載

技術(shù)鄰APP
工程師必備

項目客服
培訓客服
平臺客服

TOP

<rp id="pb1rc"></rp>