聲學的未來三十年

聲學工程師小吳

2022年9月14日 10:41

瀏覽：2769 收藏：1

我經常跟從事聲學工作的朋友聊天，發現大家有一個共同的困惑，就是“以后做什么”的問題。有的路越走越寬，有的路越走越窄。比如消費電子的聲學設計，前幾年欣欣向榮，現在變得肉眼可見的擁擠。

這里結合最近幾年的思考，談談未來三十年里，聲學方向的主要機會。著重介紹我熟悉的電聲學、通信聲學、心理聲學和機器聽覺。

關于聲學發展的全面總結，請參考程建春，李曉東，楊軍三位老師編寫的《聲學學科現狀以及未來發展趨勢》一書。

聲學的精神

聲學的研究對象是各種環境里的聲音。馬大猷先生在《現代聲學理論基礎》的后記里提到，聲學的內核緊湊，但是外延很廣。我的理解是：聲學的基礎理論成型較早，后來變化不大。聲學作為應用學科發展的歷史悠久，因而充滿了實用主義的求生欲。相應的，聲學專業的同學們的就業率高，但是就業的方向有些隨機。

例如：學科下屬的超聲學、電聲學、水聲學、音樂聲學和建筑聲學等，與其說是理論上有區別，不如說是基于應用領域的劃分。這些細分學科的產出，跟果樹做個類比的話，比較像棗樹：單個水果的個頭不大，但是產量驚人。

所以，如果說聲學有什么共同精神的話，這個精神就是“為人民服務”。社會需要什么，我們就做什么。作為應用學科，聲學的未來增長主要取決于新興產業的需求。

穿越

一個來自2050年的人穿越到2020年，會有哪些發現？

要回答這個問題，我們可以想象自己作為2020年代的人，回到1990年會發生什么。一方面是物質的匱乏，另一方面是信息的獲取不便——自行車怎么這么貴？家里為什么要買縫紉機？看新聞怎么還要訂報紙？電報是什么？——過去的三十年，通過大規模生產和信息產業的進步，我們基本上解決了物質和信息的產生和流通的問題。

當一個2050年的人穿越回2020年，感受到的應該是另外一種不方便——水管為什么要找人修？燈泡為什么要自己換？真的要自己做飯么？什么是方向盤？——解決了生產和信息傳播的自動化以后，服務業的自動化成為一個新的有待開發的領域。這個方向目前受到計算機感知、認知和規劃能力的制約。到達可以使用的程度，需要的時間可能超過十年。但是，在三十年的跨度上，很有可能出現新的突破。

在此基礎上，會根據任務的不同，出現新的服務機器人序列。大小不同，適用的環境也不同。負責礦山開發的機器人可能達到百米級別；負責消防、安保、烹飪和家政的機器人跟人類有同樣尺度；而負責植物授粉的機器人只要蜜蜂尺度就夠了。但是，有一點是確定的：新一代服務機器人對環境的適應性，會遠超2020年代的機器人。

新的應用場景在不同層次上對聲學提出了新的要求。而自然界千姿百態的動物為我們提供了設計的靈感來源。

聲學與仿生學

布萊克的一首詩這樣開頭：

"一粒沙里有一個世界，

一朵花里有一個天堂。

把無窮無盡握于手掌，

永恒寧非是剎那時光。"

楊振寧引用這首詩來形容物理學與美學的關系。但是，在我看來，“一粒沙”說的是物理，“一朵花”說的則是生物。“無窮”對應于空間，而“永恒”對應于時間。生物對環境中的時間和空間信息表現出強大的處理能力，遠非現有的機器人可以匹敵，也是下一階段的研究重點。

以人耳為例。在開始博士研究之前，我做過幾年聲學工程師，負責設計麥克風（正式的名稱是“傳聲器”）。做博士前兩年，讀到人耳的生理學的時候，我先是震驚，然后懊惱，最后是欣慰。震驚是因為生物處理聲音的方式和麥克風非常不一樣，人耳的聲學前端對信號的處理和特征提取非常特別，完全顛覆了我的認知。懊惱是因為我竟然從來沒有思考過接收聲音的其它可能的方式。欣慰則是因為對未來的樂觀——總有一天，會出現同樣精密的人造系統。

聽覺的生理學讓我了解了中耳內鐙骨的每一次振動，柯蒂氏器上的每一個行波，毛細胞離子通道的每一次開合和聽神經上的每一個脈沖。這些機制述說著生物為了適應環境作出的不懈的努力。生物世界里的聽覺和發聲器官多種多樣，未來可以成為聲學研究和技術的豐富來源。

仿生學的意義，一方面是提供設計的參考，另一方面說明什么是“可行的”。

功能主義和還原論

要從仿生學角度理解復雜的聽覺系統，目前有兩個思路。它們對未來聲學具有不同的啟發意義。

第一個思路是還原論（Reductionism）。還原論尋求通過解剖學和生理學的研究，一層一層地理解聽覺系統。以人類的聽覺系統為例，外耳和中耳的研究說明了聲信號如何被放大；對內耳的研究則揭示了換能機制和特征提取的前置。這個過程很類似搭積木。還原論對工程學有啟發意義，尤其是外周系統。但是，隨著神經系統一層層接近大腦皮層，神經網絡的復雜性呈現指數級增長。與之對應，生理學越來越接近對現象的描述，談不上對工程實踐的有意義的指導。

另一個思路是功能主義（Functionalism）。功能主義尋求從功能上模仿對象系統。這種觀點認為：人造和天然的系統的輸入輸出相同，那就可以了。至于實現細節上是否相同則無關緊要。基于深度學習的聲音事件分析就屬于此類。從工程學角度來看，功能主義的優點是輸入輸出都可量化，天然對工程實現相當友好。缺點則是可解釋性不強，局限于統計意義上的擬合。數據量不大的時候，泛化能力不強。而且對大腦功能的模仿往往局限于少數幾個方面——基于深度學習的方案偏重分類，但是分類顯然只是人腦功能的一小部分。

無論是還原論還是功能主義都取得了部分成功，也僅僅是部分成功。越靠近聽覺系統的底層，還原論越能夠清晰地描述子系統的工作原理。但是，這個思路在中樞神經系統就陷入了復雜性的迷霧。靠近頂層，從功能主義角度出發，基于深度學習的分類器在聲學事件感知（參考曹寅博士的論文）和定位（參考鄭成詩研究員的論文）方面表現良好。

深度學習迅速獲得成功，在一定程度上掩蓋了早期模型底層的局限——至少在發展初期，其使用的麥克風和聲學特征是針對通信產品設計的。這類前端針對語聲做了優化，并未考慮聲學事件感知。例如，聲學場景分析的早期工作使用梅爾倒頻譜系數（MFCC）作為特征，損失了大量時域信息，同時在頻域上也不夠精細。

以上種種都說明，聲學事件和場景分析與通信系統具有本質不同，也不是深度學習的一個簡單應用場景，對前端和后端都提出了新的要求。這些特性使得“機器聽覺”成為一個獨立學科。

機器聽覺

與機器視覺類似，機器聽覺關注的是信號的獲取、分析和處理。

2017年是機器聲學元年。這一年，Dan Ellis發表了Computational Analysis of Sound Scenes and Events（聲學場景和事件的計算分析）。這本書從功能主義出發，詳細總結了聲學事件分析所采用的數據集、特征和模型，雖然有點偏向機械的聽覺觀念，但還是不得多得的一本參考書。

同年，我的朋友Dick Lyon發表了Human and Machine Hearing（人與機器聽覺：聽見聲音的意義）。這本書主要從還原論角度出發，對人耳機理做了詳細闡述和建模，同時對機器聲學前端的實現方式做了詳細的分析，提出了CARFAC特征（“快速動態壓縮下的級聯非對稱振蕩器”）。該書是聽覺建模的集大成者，最近出版了中譯本，我非常推薦。

這兩本書的關注角度不同。但是，即使將其合二為一，其作為機器聽覺的早期作品，仍然有其局限性。我的批評集中在三個方面：

聲感知是否遵循機械和線性的“換能 -> 信號處理 -> 感知”架構？
感知是否只有一個層次？
未來機器的尺度差異會很大，是否都應當模仿人耳的架構？

這兩個問題在一個意想不到的地方得到了解答。

最小的大腦

與人類和機器聽覺的研究不同，在昆蟲研究領域，研究人員很早就致力于感知和運動的融合，產生了“為了運動的感知”（Perception for Action）的說法。最小的昆蟲只有8000個神經元。通過對這些最小的大腦的研究，逐漸理清了信息的流向與不同子系統的相互關系。這里推薦三本書（1，2，3），都出自Paolo Arene之手。

針對上面的三個問題，Arene給出的答案是：

感知服務于運動；運動信號反饋并服務于感知；感知～運動不是一條線，而是一個環；
感知至少分為“快”與“慢”兩個層次；在“快”的層次上，低級特征可以直接進入前運動區；
即使在同一個尺度上，不同種類的昆蟲也演化出了非常不同的感知策略。

有趣的是，Arene的作品發表于2009年，早于機器聽覺出現的2017年。這從另一個角度說明了從不同角尺度和領域研究同一個問題的重要性。

Arene的研究隱含著一個未來機器聽覺的框架。上圖為其著作1中的圖1.4的延伸。這個框架在Wessnitzer的Multimodal Sensory Integration in Insects（昆蟲的多感官融合）里得到更充分的討論。

其中，綠色部分為物理層，藍色部分偏重傳統的信號處理，而黃色部分則偏重學習和決策。從聽覺外周獲得的聲信號提取低級特征，既可以直接進入前運動區，產生快速的運動，也可以進入更高一級的中樞神經，利用已有經驗，作出更加復雜的反應。因此需要一個調解系統決定信號的優先級。從這個角度看，聲信號不僅僅是一種信號的輸入，它可能也說明了事件的本質和嚴重程度，因此可能在這個調解系統里扮演重要的角色。

基于這個架構，感知分出了多個層次。

感知的層次

Gibson認為，感知的對象并不是物理信息，而是affordance。中譯名為“示能”或者“可供性”。這個“示能”可以理解為物理世界提供的感知機會。從這個角度出發，我認為未來的感知至少有三個層次：

被動的信號處理，如現有的聲音事件分類；
主動調整自己的注意力或動作，例如雞尾酒會效應或者頭動；
通過自身運動，介入環境和觀察對象，例如拍西瓜。

總結如下：

	自身運動	對象運動
1被動感知	否	否
2主動感知	是	否
3互動感知	是	不一定

其中，被動感知遵循機械的“換能 -> 信號處理 -> 感知”的架構（affordance）。很遺憾，最近幾年的DCASE競賽仍然因循了這個架構。

主動感知通過注意力機制或自身運動獲取更加豐富的特征。注意力機制的典型是“雞尾酒會效應”，在大量人同時說話的時候，人還是能聽懂目標對象在說什么。動物還可以通過自身運動獲得聲學特征的疊加。以我和孫亮教授的文章Active Binaural Localization of Multiple Sound Sources（對多聲源的主動雙耳定位）為例，頭部轉動對聲定位具有促進作用。

“互動感知”則意味著對觀測對象的干涉和反饋。很多人買西瓜的時候，喜歡拍拍西瓜來判斷生熟。西瓜本身當然是不可能有聲音的。但是你通過拍打，產生一個聲音，根據這個就知道是不是好瓜。這就是affordance的最高層級。

感知出現分層，聲學的前端就要適應不同層次的需要。前后端的配合因此變得關鍵。

耦合與解耦

早在2009年，Andrew Ng就寫了一篇文章Learning Sound Location from a Single Microphone（基于學習的單麥克風聲定位）。他們在麥克風附近放置了一些物體，造成聲信號隨入射角度的變化。經過訓練的神經網絡因而能夠判別聲音方位。這個早期作品生動說明了聲學器件、信號處理和機器學習子系統之間的耦合。前端可以配合后端做設計上的改變，來讓聲學特征更加明顯；后端也可以針對前端的變化重新訓練，達到更佳的性能。

機器聽覺的成熟與完善需要相當長的時間。這個過程里會反復出現產品迭代。為此，從工程上應該秉承實用主義，不拘泥于還原論或者功能主義，而是哪個好用就用哪個。具體來說，前端的實現一般會偏向還原論，而后端的實現可以從功能主義入手。隨著認識的深入，如果新的還原論方法體現出優勢，那么可以逐漸把功能主義的模塊替換為還原論模塊。

聲學器件、信號處理和機器學習的子系統會反復耦合和解耦。新的應用出現的時候，早期系統往往用已有的子系統搭建。這時候，子系統之間的配合度不高。隨著產品設計的深入，子系統之間會出現Ng建議的那種耦合。而當產品進入成熟期，供應商會將各個子系統分別標準化。這時候又實現了子系統之間的解耦。

總體上，這個迭代過程對聲學前端的要求如下：

	2020年的聲學前端	2050年的聲學前端
設計對象	人	機器
傳聲器	電容式傳聲器	通用+特化的換能器
感知閉環	無	有
前端	器件與處理分離	特征處理前端
多模態融合	稀少	廣泛
動態感知	無	有

在開發過程中，設計部門和需求部門會反復討價還價。

例如：

“這個聲源定位的精度要求很高啊，我給你加個外耳廓，把HRTF（頭相關函數）弄得夸張一點吧？”

又如：

“預算不夠了，負擔不起太復雜的器件，要不然給你換個觸角式的麥克風吧？”

未來三十年，這樣的爭吵會經常發生。

參考文獻

程建春，李曉東，楊軍. (2021). 聲學學科現狀以及未來發展趨勢. 科學出版社.

馬大猷. (2004). 現代聲學理論基礎. 科學出版社.

楊振寧. (1998). 楊振寧文集: 傳記, 演講, 隨筆 (Vol. 2). 華東師范大學出版社.

Yost, W. A. (2001). Fundamentals of hearing: An introduction.

Cao, Y., Iqbal, T., Kong, Q., An, F., Wang, W., & Plumbley, M. D. (2021, June). An improved event-independent network for polyphonic sound event localization and detection. In ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 885-889). IEEE.

Ding, J., Ke, Y., Cheng, L., Zheng, C., & Li, X. (2020). Joint estimation of binaural distance and azimuth by exploiting deep neural networks. The Journal of the Acoustical Society of America, 147(4), 2625-2635.

Virtanen, T., Plumbley, M. D., & Ellis, D. (Eds.). (2018). Computational analysis of sound scenes and events (pp. 3-12). Heidelberg: Springer.

Lyon, R. F. (2017). Human and machine hearing: extracting meaning from sound. Cambridge University Press.

Arena, P., & Patanè, L. (2009). Spatial Temporal Patterns for Action-Oriented Perception in Roving Robots.

Arena, P., & Patanè, L. (2014). Spatial temporal patterns for action-oriented perception in roving Robots II. An Insect Brain Computational Model Springer Series, Cognitive Systems Monographs, 21.

Patanè, L., Strauss, R., & Arena, P. (2018). Nonlinear circuits and systems for neuro-inspired robot control. Springer International Publishing.

Wessnitzer, J., & Webb, B. (2006). Multimodal sensory integration in insects—towards insect brain control architectures. Bioinspiration & biomimetics, 1(3), 63.Wessnitzer, J., & Webb, B. (2006). Multimodal sensory integration in insects—towards insect brain control architectures. Bioinspiration & biomimetics, 1(3), 63.

Gibson, J. J. (2014). The ecological approach to visual perception: classic edition. Psychology press.

Saxena, A., & Ng, A. Y. (2009, May). Learning sound location from a single microphone. In 2009 IEEE International Conference on Robotics and Automation (pp. 1737-1742). IEEE.

轉載自：機器之耳

登錄后免費查看全文

立即登錄