王博聊聲學 | 音頻主觀評價方法 – MUSHRA

HBK聲學與振動

2023年4月19日 13:21

瀏覽：4910 收藏：2

在智能音頻時代，音頻技術的發展突飛猛進，新功能、新產品和新的應用場景不斷涌現，如何從主觀和客觀角度評價音頻品質，成為人們日益關注的焦點。HBK在音頻領域擁有全球領先的產品方案和深厚的技術背景及工程經驗，我們將從音頻感知的主觀屬性、評價方法、客觀參數測量等方面與大家共同探討技術挑戰以及HBK的解決方案。

ITU-R BS.1534 描述了一種音頻主觀評價的方法，即 包含隱藏參考和錨點的多激勵方法 （MUlti Stimulus test with Hidden Reference and Anchor, MUSHRA），用于中等品質音響系統的音效評估。例如車載音響系統，由于座艙空間較小，低頻聲波在車內的反射與疊加會形成駐波聲場，乘客位置的頻響并不平坦，出現顯著的峰值和谷值，導致主觀感受的降低。對于揚聲器陣列或者耳機重放的空間音頻，不同的聲場重構算法和信號處理也會造成明顯的主觀感知差異。MUSHRA能夠準確反映出人的主觀聽覺并給出可靠的結果，是項目中常用的評價方法。

什么是參考？

MUSHRA使用原始的全頻帶且未經處理的信號作為參考。例如在AR/VR場景的主觀音質評價，可使用人頭軀干模擬器HATS的雙耳錄音作為參考。主觀評價時，如果你給它的分值較低，那么你的結果就會被剔除出去。

什么是錨點？

MUSHRA使用至少2個隱藏錨點信號：一個是標準錨點信號，即對原始信號進行低通濾波，截至頻率為3.5kHz；另一個是中等品質的錨點信號，同樣是低通濾波，截至頻率為7kHz。錨點的作用是標定打分尺度，使得比較小的音質瑕疵不會給很低的分值。

評價者應 具有主觀評價的經驗 ，能夠區分不同樣本的差別，并且對同一個樣本的評分應非常接近。對評價者進行非正式或正式評價訓練非常重要，只有有經驗的評價者的數據才能被使用。一般情況下，不超過20人即可給出較好的結果。在正式評價之前，需要對評價者進行培訓。

每一次評價的音樂樣本一般不超過12個，例如，9個音樂樣本、1個隱藏的低品質錨點、一個隱藏的中等品質錨點和一個隱藏參考樣本。樣本的最大長度一般為10s，最好不超過12s，以避免評價者疲勞并縮短時間。音樂樣本需要做等響處理，以保證聽音者在相同的情況下進行評價。

每次評價時， 只對一個主觀屬性進行評分 ，不能一次評價多個主觀屬性。如果需要獨立評價多個音樂屬性時，推薦首先評價基本音頻品質（Basic Audio Quality, BAQ）。BAQ是所有ITU相關標準里的核心，包含了音頻品質相關的所有方面，例如音色、立體聲像、清晰度、空間感、混響、諧波失真等等。對于系統損傷評定的情況，比如由于低比特率的音頻編解碼、聲音重放系統的限制等，BAQ可以用于評價其聲音與參考聲音之間的相似度或者差異。

評價者可以隨意切換參考信號和其他音樂樣本，以確保不同音樂樣本之間的差異可以在分值上體現出來。MUSHRA的評分在0–100之間，一般評價者的分值在20–80之間比較理想，這樣的評分尺度能夠很好地區分很小的主觀差異。

圖1 MUSHRA主觀評價的顯示界面

主觀評價完成后，需要剔除不可信的評價者，例如樣本的分辨能力比較弱、評分結果不一致或者給嚴重損傷的錨點信號賦予較高的分值等。

與其他標準的區別：

ITU-R BS.1116 - Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems：用于小損傷的高品質音響系統的評估，該方法不適用于數字AM、數字衛星廣播、音頻按需服務和音頻撥號線路等低品質系統。它使用“雙盲、隱藏參考的三重激勵”評價方法（ABC/HR），即已知參考樣本為A，隱藏參考和小損傷樣本隨機賦予B和C，然后聽音者對比B和A、C和A，根據5級尺度進行評價。B和C中的一個與A是無法分辨的，另一個則能揭示出差異，即損傷。
ITU-T P.800/810/830關注于電信系統的語音信號主觀評價，用MOS評分來量化用戶接聽和感知語音質量，MOS分值越大表示語音質量越好。

案例分享

在某車載音頻的主觀評價項目中，HBK工程服務部門針對不同音響配置的3款車型，共10種車型配置，選擇了4種音樂樣本（經典、搖滾、流行、爵士），挑選20名專家聽音者進行主觀評價，在評價之前對聲音樣本進行了等響處理。

針對 總體偏好 屬性，20名評價者對某個音樂樣本在10種車型配置下進行主觀評價，平均主觀評分結果（置信度95%）如下圖2，評分等級從非常不喜歡到非常喜歡。我們可以看出，不同車型配置之間存在明顯的主觀偏好差異。

圖2

不同類型音樂 的主觀平均分值如下圖3，可以看出不同車型配置之間存在差異，并且發現，有的車型配置不同音樂類型的主觀分值很接近，有的車型配置就會比較發散。

圖3

我們還評價了 Powerfulness ，如下圖4，設置了4個音量Level 1 ~ 4，響度越大，力度感越大，但達到飽和以后，再增大音量也不會增加力度感。在最高音量Level 4下，三個車型的力度感的評分是下降的，很有可能是因為聲音失真造成的。

圖4

進一步對所有音樂的 總體偏好和其他主觀屬性 之間做相關分析，見下圖5，總的看，總體偏好和中頻強度Midrange Strength、高音強度Treble Strength和包圍感Envelopment相關。并且主觀屬性里，Punch和Bass Strength相關程度較高，Midrange Strength和Brilliance相關程度較高。對總體偏好做主分量分析，第一個主分量是最主要的貢獻。