文 | 郭智涵
編輯 | 子魚 貳沐
上篇文章(為什么我們能判斷聲音的遠近)中我們說到,在聽覺信號中存在著一些線索可以供我們來判斷聲源的距離遠近。這篇文章就以其中的一個線索--初始時間延遲差為例,來介紹應該如何設計對應的聽力測試,探究其在雙耳距離感知中的作用。通常來說,一個聽力測試可以分成三大部分:理論背景,測試準備(包括測量和程序編寫)以及結果分析。下面就通過具體的步驟來進行說明。
1. 初始時間延遲差
房間脈沖響應是房間的屬性之一,表示聲源和麥克風之間的傳遞函數。它可以分為三個部分:直達聲、早期反射聲和混響聲。初始時間延遲差(Initial Time Delay Gap,后文簡寫為ITDG)是直達聲和第一個從表面反射的聲音之間的時間間隔,如圖1所示。

圖1: 房間脈沖響應示意圖
ITDG被一些學者認為是距離感知的線索。Stephan 和 Simone 證明,通過修改 ITDG 的長度可以改變人類的距離感知【1】。這是因為,如圖2所示,當麥克風的位置固定時,聲源的距離越遠,直達聲與第一此反射聲之間的路徑差就越小,從而 ITDG 也越小。因此,提出了通過修改 ITDG 來影響人類雙耳距離感知的假設。然而,值得注意的是,這種假設只在地板被認為是唯一反射表面的情況下成立,如在半消聲室或相對空曠的房間中。而聲源和麥克風之間存在多個物體會影響第一個反射,從而影響這個假設的有效性。也有學者持反對意見,Fotis 通過實驗發現, ITDG 似乎并不是距離感知中的一個顯著線索【2】。

圖2: 在只考慮地面反射情況下的ITDG,其中dR代表直達聲路徑,dD代表第一次反射聲的路徑?
為了探究 ITDG 在雙耳音頻距離感知中的作用,首先必須建立BRIRs(Binaural Room Impulse Responses)的數據庫。為此,在Chalmers的兩個房間EH和LR中,使用人工頭(Dummy head或者Artificial head)和掃頻正弦信號測量雙耳室內脈沖響應。分別在 2 米、4 米、6 米和 8 米的距離上,測量了四個不同方位角(0度、30度、60度、90度)BRIRs 。為了確保獲得可用的 ITDG,測量過程中移除了聲源和麥克風之間的任何物體。隨后,使用fade-in和fade-out窗口函數處理所有測量到的BRIRs。在理想的測量環境中,如半消聲室,人工頭和聲源位于 1.6 米高度時的 ITDG 曲線應該和圖3中所示的理想曲線相似。對從EH和LR房間中,人工頭的左右耳測量的脈沖響應進行處理并提取ITDG數據,發現測量結果與理想曲線相匹配。為了簡化過程,在本研究中,使用左耳的脈沖響應作為進一步分析和修改的基準。

圖3: 在僅考慮地面反射時,1.6米高度的 ITDG 曲線以及來自 EH 和 LR 的測量數據?
修改算法的核心概念是調整特定脈沖響應 ITDG 的長度(例如,30度時的2米處的BRIR),使其產生與同一角度下的任何距離(例如,30度時的6米處的BRIR)具有相同的距離感知。一旦這種方法被證明是有效的,便可以通過測量少量BRIRs來表達整個區域的響應。為了實現這個目標,將測量到的脈沖響應分為三個不同的部分:直接部分(從脈沖信號開始到直達聲峰值后的 1 毫秒),早期反射部分(直接部分后的 35 毫秒),和混響部分(早期反射部分之后,直到信號結束)。這些部分如圖4所示。

圖4: 在 ITDG 修改前后的脈沖響應,由于本文僅將來自地面的反射視為距離線索,因此在測量的脈沖響應中出現了一個虛假峰值?
為了準確地確定來自地面的第一次反射聲的起始點,并排除 ITDG 中的虛假峰值的影響,采用了改進的峰度算法與理想 ITDG 曲線相結合的方法來對測量的BRIRs進行分析【3】。此外,為了簡化過程,在修改脈沖響應時,優先考慮靠近聲源的一側;具體來說,右耳的修改長度與左耳直接相關(因為在這次測量中,左耳總是更加靠近聲源)。例如,當左耳的 ITDG 縮短 1 毫秒時,右耳也縮短相同的時間。通過保持直接和混響部分不變,壓縮或擴展與 ITDG 重疊的早期反射部分,以實現目標距離處所需的 ITDG。由于修改部分與 BRIRs 中的總數據相比要小得多,因此,由此操作產生的聲壓級和頻譜特性的任何變化都被認為是可以忽略不計的。
實驗旨在研究在不同場景下修改 ITDG 是否會影響人類聽覺的距離感知。研究了以下 2 個因素:目標距離(2 米或6 米)和音頻材料(演講聲或鼓聲)。由于 BRIRs 是在兩個房間內進行測量的,因此總共有2x2x2=8 次試驗。聽覺實驗是根據 MUSHRA設計的【4】,但并不完全相同,例如在這個實驗中沒有錨點。MUSHRA是音頻測試中一個很常用的方法,需要注意的是,其中文版存在著一些翻譯錯誤,因此推薦查看其他版本。實驗程序使用MATLAB APP designer進行設計,實驗頁面如圖5所示。
在每個試驗中,有3個參考音頻和4個選項音頻。參考音頻是通過將音頻材料與實際測量的BRIR卷積得到的。四個選項分別是ref,orig,drr和drr+itdg 。所有參考音頻和選項音頻均經過調整,以具有相同的響度,以排除響度對距離感知的影響。
以其中一個試驗為例。在這個試驗中,目標距離為6米,修改后的 BRIR 來自 2 米處,測量值來自入口大廳,材料是演講。各選項的描述如下:
drr:僅將 2 米處的 BRIR 調整至與 6 米處的 BRIR 具有相同的 drr,而不改變 ITDG。
drr+itdg:按照前文所述方法,將 2 米處的BRIR的 ITDG 長度修改為與 6 米處相同。然后保持直接部分不變,修改剩余部分的幅值,直到其drr與 6 米處的BRIR的drr相同。
需要注意的是,4個選項的順序是隨機的,因此測試人員無法猜測每個選項對應的音頻。

由于實驗難度較大,共有五名參與者參加了實驗,他們都具有豐富的聽力測試經驗,并報告稱沒有聽力缺陷。參考 MUSHRA 驗證方法對結果的準確性和人類距離感知的可壓縮性,如果某個參與者在超過 15% 的所有試驗中對隱藏參考音頻的評分超過真實距離的 10%(即對于 2 米,評估在 1.8-2.2 米之外;對于 6 米,評估在 5.4-6.6 米之外),那么將排除該結果。所有參與者都通過了篩選條件,因此認為他們的結果有效。
聽力測試結果用小提琴圖來呈現,該圖顯示了密度曲線和箱線圖的單個顯示,使得更容易洞察數據分布。整體測試結果(圖6)顯示,ref和orig的中位數與實際測量距離相同,這證明了實驗結果的可靠性。進一步分析表明, drr和drr+itdg都可以產生與目標相似的距離感,但drr+itdg對drr并沒有系統性的改進。為了深入了解結果,對得到的數據進行了統計分析。由于實驗參與者人數較少,并且 MUSHRA 測試的結果不符合正態分布(例如結果中的ref和orig),因此使用非參數檢驗來分析數據。

Friedman 檢驗發現所有試驗的差異在p<0.05
處顯著。因此,進行了配對的 Wilcoxon 符號秩檢驗作為事后檢驗,并進行了 Bonferroni-Holm p
值校正,結果如圖7所示。orig與
ref、drr、drr+itdg
之間有明顯區別,但在 drr、drr+itdg和ref三者之間沒有顯著差異。這個結果表明 ITDG 在距離感知中并不起到非常重要的作用,這與 Fotis 的結論一致【2】。

圖7:Bonferroni-Holm 校正的 p 值適用于所有成對比較測試,包括speech和drum對以及近處和遠處的參考。在p<0.05時,藍色背景表示顯著差異?
本文旨在探討 ITDG 在雙耳音頻距離感知中的作用。通過在 Chalmers University of Technology 的兩個房間測量雙耳室內脈沖響應,并對其進行修改,研究了 ITDG 對距離感知的影響。結果表明,盡管修改 ITDG 可以改變雙耳音頻中的距離感知,但這種影響在實驗中并不顯著。這意味著 ITDG 可能不是距離感知中的主要線索。
值得注意的是,本研究的結論僅適用于考慮地板作為唯一反射表面的情況,如半消聲室或相對空曠的房間。在實際環境中,可能會有多個物體位于聲源與接收點之間,從而影響第一次反射和 ITDG 的有效性。并且因為ITDG本身不是雙耳線索,在對其進行修改時進行了許多的簡化,這些誤差也可能對結果產生影響。因此,在未來的研究中,可能需要進一步探討更復雜環境中 ITDG 對距離感知的影響。
【1】Werner, S., & Füg, S. (2012, November). Controlled Auditory Distance Perception using Binaural Headphone Reproduction–Evaluation via Listening Tests. In Proceedings of the 27th Tonmeistertagung, VDT International Convention, Cologne, Germany (pp. 22-25).
【2】F. Georgiou, RELATIVE DISTANCE PERCEPTION OF SOUND SOURCES IN CRITICAL LISTENING ENVIRONMENT VIA BINAURAL REPRODUCTION. PhD thesis, 09 2012.
【3】Usher, J. (2010). An improved method to determine the onset timings of reflections in an acoustic impulse response. The Journal of the Acoustical Society of America, 127(4), EL172-EL177.
【4】International Telecommunication Union. (2015). Method for the subjective assessment of intermediate quality level of audio systems (ITU-R BS.1116-3). https://www.itu.int/rec/R-REC-BS.1116-3-201502-I/en