
發布
注冊
/
登錄聲音定位
關注創建者:HBK聲學與振動 創建時間:2023-06-14

聲音定位的實例教程
但
聲音的空間屬性
對于在游戲和家庭影院配置中實現真實的聲學環境也很重要。
我們如何定位聲音?
我們的聽力使用的第一個線索是
雙耳時間差
(圖1a)。來自我們正前方或正后方的聲音會同時到達雙耳。如果信號源向左或向右移動,我們的聽覺系統會識別出來自同一信號源的聲音分別到達雙耳,但是會有一定的延遲,或者從另一個角度看,兩只耳朵接收到同一個信號的不同相位。
兩耳時差 圖1a:當聲音來自前方,雙耳時間差為零(左)。當聲音來自側面,頭的尺寸約為20厘米,聲速為340米/秒,最大時差為0.58毫秒(右)
在低頻下可以最佳地
破譯
相位差。在較高的頻率下,與頭部的尺寸相比,波長可能太短,以至于信號模式自身重復,兩只耳朵可能碰巧接收到相同的相位(圖1b)。
兩耳相位差 圖1b:通常耳朵會感測到相位差(左),根據頻率和入射角度,它們可以檢測到虛假相位匹配(右)。
幸運的是,聽覺系統可以借助另一個線索:當聲音從側面到達時,我們的
頭部會產生聲影區
,并隨頻率上升而擴大。
在非常低的頻率下,我們頭部的尺寸與空氣中的聲音的波長相比是小的。因此,無論聲音從哪個方向到達,左耳和右耳的聲壓基本相同。
然而,隨著頻率的增加,波長減小,此時我們的頭部尺寸不能再被忽略了。它成為屏蔽和反射聲音的障礙物,使得與面向聲源的耳朵相比,當其到達頭部另一側的耳朵時,較高頻率的成分將被衰減。
我們的耳廓的形狀還可提供豐富的
頻譜
(依賴于頻率)
線索
。像頭部的聲影區一樣,耳廓起到一個屏蔽層的作用,使不是從前面直接進入的較高頻率的聲音衰減。你可以通過轉離再轉向一個聲源來體驗這一點。
展開 但
聲音的空間屬性
對于在游戲和家庭影院配置中實現真實的聲學環境也很重要。
我們如何定位聲音?
我們的聽力使用的第一個線索是
雙耳時差
(圖1a)。來自我們正前方或正后方的聲音會同時到達雙耳。如果信號源向左或向右移動,我們的聽覺系統會識別出來自同一信號源的聲音分別到達雙耳,但是會有一定的延遲,或者從另一個角度看,兩只耳朵接收到同一個信號的不同相位。
兩耳時差 圖1a:當聲音來自前方,雙耳時差為零(左)。當聲音來自側面,頭的尺寸約為20厘米,聲速為340米/秒,最大時差為0.58毫秒(右)
在低頻下可以最佳地
破譯
相位差。在較高的頻率下,與頭部的尺寸相比,波長可能太短,以至于信號模式自身重復,兩只耳朵可能碰巧接收到相同的相位(圖1b)。
兩耳相位差 圖1b:通常耳朵會感測到相位差(左),根據頻率和入射角度,它們可以檢測到虛假相位匹配(右)。
幸運的是,聽覺系統可以借助另一個線索:當聲音從側面到達時,我們的
頭部會產生聲影區
,并隨頻率上升而擴大。
在非常低的頻率下,我們頭部的尺寸與空氣中的聲音的波長相比是小的。因此,無論聲音從哪個方向到達,左耳和右耳的聲壓基本相同。
然而,隨著頻率的增加,波長減小,此時我們的頭部尺寸不能再被忽略了。它成為屏蔽和反射聲音的障礙物,使得與面向聲源的耳朵相比,當其到達頭部另一側的耳朵時,較高頻率的成分將被衰減。
展開 在感知方面,仿真以視覺和聽覺為主,而虛擬現實不僅有視覺、聽覺,還有觸覺等方面的感知,可以說仿真基本上將用戶視為“旁觀者”,而虛擬現實則將用戶視為“當局者”;在逼真度方面,仿真技術,仿真技術是對真實物理系統某一層次上的抽象,而虛擬技術采用實時三維圖像與顯示、三維聲音定位與合成技術、傳感器等技術,做到了人與環境的交互性,有非常高的逼真度。
縱觀當下工業仿真軟件,可視化、智能化的仿真已成趨勢,在仿真中運用虛擬現實技術,不僅能更加形象直觀地顯示仿真全過程,而且會讓計算機與人之間的溝通更人性化,增強仿真系統的尋優能力。
圖2 仿真與虛擬現實
仿真與人工智能的碰撞
仿真優化的應用目標是為用戶提供一個輔助決策支持工具,而實際工程設計問題一般比較復雜,涉及因素較多,完全依靠計算機來進行決策很難考慮周全,隨著人工智能技術的發展,將領域知識引入到仿真優化系統中,建立決策支持系統,充分發揮人的創造性和計算機的計算能力,實現人機協同決策功能。
目前的仿真優化系統要求用戶對仿真優化算法和仿真建模工具有較深入的了解,才能夠開展工程應用,如各種仿真優化算法存在大量運行參數需要選擇,仿真實驗也需要設置各種參數,如仿真開始時間、仿真結束時間、仿真迭代次數和“預熱”時間等等,任何一項參數的變動對仿真優化結果都會產生影響,要求非仿真專業人員來完成這些設置幾乎是一件不可能的事。因此,利用專家知識系統作為輔助,協助普通人完成這些專業工作是一個可行的實現方法。
圖3 人工智能與天氣模擬
總之,隨著中國2025、智能制造、工業4.0、“互聯網+”等新一輪工業革命的興起,新技術與傳統制造的結合催生了大量新型應用,仿真軟件也開始結合大數據、虛擬現實、人工智能等先進技術,在研發設計、生產制造、服務管理和維護反饋等工業各個環節中凸顯更為重要的作用。
展開 2.多渠道、融合的交互將成為人車交互的中流砥柱
除了按鍵、觸控、語音,在推出的車型中,還發現了語音助手、手勢識別、指紋、聲音定位、人臉識別、全息圖像等人車交互方式。例如,寶馬Natural Interaction這一全新的交互系統,計劃于2021年提供給新款iNext,與語音和手勢控制以及視線識別無縫集成,讓駕駛員可以在交互系統中選擇自己想要的;2020年9月發布的全新奔馳S級,升級了手勢識別能力,可以通過中控臺進行手勢控制,通過車載攝像頭識別面部方向和肢體語言,按需開啟功能。
在設計更簡單、易于使用的車輛駕駛艙時,應首先考慮安全性,作為人車交互界面。希望能在智能汽車上看到面料交互、車窗交互、智能大燈交互、虹膜識別、唇讀識別等多渠道融合的交互模式,帶來更好的用戶體驗。
3. 3D、多屏、大尺寸顯示、多樣化布局將成為智能座艙顯示的趨勢
在基于場景的交互時代,駕駛艙布局不再遵循相同的模式。中控臺一體化顯示設計,從雙屏、三屏到五屏顯示,除了常規的中控臺和集群設計外,2020年已經被不少主機廠采用。此外,控制屏、副駕駛娛樂屏、后排顯示屏、透明A柱等新型顯示屏也以全新方式部署在車內。2019年哪吒U增加了透明A柱;虛擬后視鏡安裝在2020 款奧迪 e-tron Sportback 的駕駛員側車門上,這些新設計無疑是新車的新亮點。
4.以“用戶體驗”為中心的座艙場景交互模式將變得無孔不入
對于車載場景交互模式,市場上的新車型通過從語音和環境光到智能座椅和車載攝像頭的智能配置提供簡單的場景交互。以2020年9月推出的奔馳S級為例。
展開 對于1kHz聲波及其對應毛細胞激發的脈沖,鎖相現象表明動作點位啟動時間的精確度,必然高于1ms,正是這種精確度滿足了聲音定位的需求。
注3:對某一時間段內(對應時頻圖分析方法中的某一幀),不同頻率聲波映射到耳蝸的不同位置,稱為位置編碼,而時頻塊的值的大小,或說當前幀內該頻點的聲強,則對應發放神經脈沖的數目。
耳蝸將機械波轉化為電脈沖的生物學過程,可詳見[4-7],四書原理插圖,內/外毛細胞電鏡照片均十分精美,由于潛在的版權問題,此處不截圖。
基于物理模型的Audio2Spike轉換方法的問題在于:
(a)模型參數較多且均是提前設定好的固定值,每一個參數的變動對最終效果的影響位置,合理變化范圍也未知。
(b)模型轉換得到的神經脈沖序列,與真實生物過程不一定一致,從編碼角度來說也不一定是最優的(攜帶足夠的信息,同時脈沖個數又少)。而且也無法組織真人實驗來驗證,畢竟幾乎唯一的驗證方法是主觀的,需要借助人工耳蝸的電極播放脈沖,讓人主觀評價聽感的好壞。但人工耳蝸總不可能對健聽者植入,只可能對聽障者做實驗,即便實驗證明不真實,也缺少模型參數調整的指導方向,幾乎就是盲調。
(2)人工耳蝸物理轉錄
人工耳蝸可作為動態音頻傳感器(Dynamic Audio Sensor, DAS),記錄人工耳蝸對音頻數據的響應,將TIDIGITS音頻數據集轉錄為N-TIDIGITS脈沖數據集[8]。
注:與聽覺對應地,也存在動態視覺傳感器(Dynamic Vision Sensor, DVS),也被稱為事件相機(Event-based Camera),詳見iniVation官網[9]。
展開 
聲音定位的相關專題、標簽、搜索
聲音定位的最新內容
我們如何定位聲音?
首先,聽覺系統會利用雙耳時間差(圖1a)。
正前方或正后方傳來的聲音會同時到達雙耳。但如果聲源偏左或偏右,聲音就會先后到達兩只耳朵,產生微小的時間差。從另一個角度看,雙耳接收到的其實是同一聲音的不同相位。
兩耳時差 圖1a:當聲音來自前方,雙耳時間差為零(左)。
我們如何定位聲音?
我們的聽力使用的第一個線索是
雙耳時間差
(圖1a)。來自我們正前方或正后方的聲音會同時到達雙耳。如果信號源向左或向右移動,我們的聽覺系統會識別出來自同一信號源的聲音分別到達雙耳,但是會有一定的延遲,或者從另一個角度看,兩只耳朵接收到同一個信號的不同相位。
兩耳時差 圖1a:當聲音來自前方,雙耳時間差為零(左)。
對于1kHz聲波及其對應毛細胞激發的脈沖,鎖相現象表明動作點位啟動時間的精確度,必然高于1ms,正是這種精確度滿足了聲音定位的需求。
注3:對某一時間段內(對應時頻圖分析方法中的某一幀),不同頻率聲波映射到耳蝸的不同位置,稱為位置編碼,而時頻塊的值的大小,或說當前幀內該頻點的聲強,則對應發放神經脈沖的數目。
2.多渠道、融合的交互將成為人車交互的中流砥柱
除了按鍵、觸控、語音,在推出的車型中,還發現了語音助手、手勢識別、指紋、聲音定位、人臉識別、全息圖像等人車交互方式。
◆ 我們如何定位聲音?
◆ 如何正確選擇合適的傳聲器?
◆ 為何選擇傳聲器時忽略聲場會產生誤差?
◆ 如何用更少的投入進行高級噪聲源識別?
例如一輛智能駕駛汽車上需要采集的數據可能就包含了視頻數據、毫米波雷達射頻原始數據、環境聲音數據、GPS定位數據和V2X網絡連接數據等。這些數據都有不同的數據格式和特征。
正因為具有這3V特征,大數據的處理難度很高,亦因此衍生出云計算、數據挖掘、邊緣計算等技術手段。
我們如何定位聲音?
我們的聽力使用的第一個線索是
雙耳時差
(圖1a)。來自我們正前方或正后方的聲音會同時到達雙耳。如果信號源向左或向右移動,我們的聽覺系統會識別出來自同一信號源的聲音分別到達雙耳,但是會有一定的延遲,或者從另一個角度看,兩只耳朵接收到同一個信號的不同相位。
近日,德國弗勞恩霍夫協會通訊、信息處理和人機工程學研究所(Germany’s Fraunhofer FKIE institute)的研究人員研制了一種無人機,可以通過麥克風收集聲音,然后分析判斷出人類求救的尖叫聲以及聲音方向,來定位需要幫助的人。
其中視覺傳感器可以分為單目攝像頭、雙目攝像頭、夜視紅外攝像頭;定位傳感器可以分為慣性導航系統、衛星導航系統(GNSS)、高精度地圖、實時動態(RTK)差分系統;雷達傳感器可以分為激光雷達和毫米波雷達;聽覺傳感器可以分為語音識別、聲音定位入口;姿態傳感器可以分為車載診斷系統(OBD)、CAN 總線、慣性測量單元(IMU)、發動機等汽車工況傳感器。
在感知方面,仿真以視覺和聽覺為主,而虛擬現實不僅有視覺、聽覺,還有觸覺等方面的感知,可以說仿真基本上將用戶視為“旁觀者”,而虛擬現實則將用戶視為“當局者”;在逼真度方面,仿真技術,仿真技術是對真實物理系統某一層次上的抽象,而虛擬技術采用實時三維圖像與顯示、三維聲音定位與合成技術、傳感器等技術,做到了人與環境的交互性,有非常高的逼真度。