完美重建聲場，打造音樂會臨場感

聲學工程師小吳

2022年11月18日 11:51

作者：王聰

在音樂會現場，即使聲場是由多種樂器的聲音混合而成，觀眾也很容易地感知到來自不同位置的不同樂器的聲音。

從19世紀80年代愛迪生的留聲機開始，一代又一代工程師們探索著“重現聲場”的技術：三極管真空管、動態揚聲器、磁性留聲機卡帶、數十種不同拓撲結構的固態放大電路、靜電揚聲器、光盤、立體聲和環繞聲。在過去的50年里，音頻壓縮和流媒體等數字技術已經改變了音樂產業。但是即使是現在，我們從高端音響系統中聽到的聲音，也遠遠不及我們親臨現場音樂表演時聽到的真實和震撼。

近日，相關團隊發布了一個名為“3D Soundstage”的平臺。該平臺允許智能手機、電腦及其他音響設備播放音樂。亮點在于它不僅可以將以前錄制的單聲道和立體聲音樂轉換為更具沉浸感的聲場（soundstage）音頻，還可以讓聽眾根據自己的喜好隨意配置，就像是聽一場獨家定制的現場音樂會。

完美重建聲場，打造音樂會臨場感的圖1

圖1 各種各樣的音頻格式和系統來滿足聽眾的需求

1：“Soundstage”的技術基礎

為了完美重現現場的聲音體驗，技術人員需要在錄取聲音信號的同時記錄聲源的位置信息，這離不開頭部相關傳遞函數（HRTF）的獲取。

完美重建聲場，打造音樂會臨場感的圖2 圖2 HRTF的測量

當聲音傳到你的耳朵時，你頭部的獨特特征（物理形狀、外耳和內耳的形狀，甚至鼻腔的形狀）都會改變原始聲音的音頻頻譜。當然，同一聲源分別到達兩只耳朵的時間也會有微小差異。正是通過這種時域和頻域的差別，人的大腦可以感知聲源的位置。將這種差異進行數學建模，即為HRTF。因此，使用一對HRTF處理后的音頻，聽眾便能感受到聲音錄制時的方向。

有許多商業軟件借助頭傳遞函數HRTF為聽眾重建聲場，比如蘋果公司的Spatialize Stereo和Spatial Audio。然而，前者不能將音頻中樂器聲清晰地分離開來。后者雖然借助了杜比Atmos環繞聲技術可以創建空間音頻，但是意味著必須重新錄制過去的音頻（因為該技術應用了一組HRTF），這是不現實的。Spatial Audio還有另一個問題，它只能支持耳機，不能支持揚聲器。

2：實現真正意義上的“Soundstage”

該平臺首先使用機器學習軟件將音頻分離成多個獨立的音軌，每個音軌代表一種（組）樂器或歌手。這個分離過程可以稱為“混搭”，任何一位用戶都可以成為制作人，創建個性化的音樂。

假設創造一首由吉他、貝斯、鼓和人聲組成的四重奏歌曲。聽眾可以自己決定每一位表演者的位置，并可以根據個人喜好調整每個人的音量，還可以虛擬地安排表演者或自己在聲場中的位置。個性化的配置為音樂享受增加新的維度。

完美重建聲場，打造音樂會臨場感的圖3

圖3 用戶配置界面

如果要通過耳機收聽，轉換后的聲場音頻則有兩個聲道；如果要在多揚聲器系統上播放，那它就是多聲道的。重建聲場中不同聲源的數量甚至可以多于揚聲器的數量。

這種多聲道方法與普通5.1和7.1環繞聲不同。后者通常有五個或七個單獨的頻道（揚聲器），外加一個低音炮（“.1”），所以比普通的雙揚聲器立體聲更具沉浸感，但它們仍然沒有達到真實地身臨其境的效果。而3D Soundstage播放時，繞過5.1、7.1或任何其他特殊音頻格式，包括多聲道音頻壓縮標準。

簡單介紹一下這些標準。為了更好地處理數據以改進環繞聲和沉浸式音頻應用，研究人員制定了許多新的標準，其中包括通過空間音頻對象編碼（SAOC）來實現沉浸式空間音頻的MPEG-H 3D標準。這些新標準繼承了幾十年前開發的各種多聲道音頻格式及其相應的編碼算法，如杜比AC-3和DTS。

SAOC的設計允許音頻文件有效地存儲和傳輸，同時保留了聽者根據個人喜好進行混音的可能性。然而要做到這一點，則依賴于各種標準化的編碼技術。編碼器的輸入是包含音軌信息的數據文件，每一個音軌則是表示一個或多個樂器的文件。編碼器使用標準化技術壓縮數據文件，再由音頻系統中的解碼器在播放過程中對文件進行解碼，然后通過數模轉換器將文件轉換回多通道模擬信號。

而3D Soundstage平臺繞過了這一點，其使用單聲道、立體聲或多聲道音頻數據文件作為輸入，將這些文件或數據流分離成多個獨立聲源的音軌，然后根據聽眾的首選配置將這些音軌轉換為雙聲道或多聲道輸出，以驅動多個揚聲器或耳機。平臺使用了人工智能技術來避免多個音軌的重新記錄、編碼和解碼。

完美重建聲場，打造音樂會臨場感的圖4

圖4 用神經網絡分離音樂

3：音頻的實時分離或混合

通過機器學習技術將傳統的單聲道、立體聲或多聲道錄音實時分離(或混合)為多個獨立的音軌。

該過程實現主要分為兩個部分：訓練和混音。在訓練環節中，將大量混音歌曲以及其獨立聲道分別作為神經網絡的輸入和目標輸出。繼而使用機器學習優化神經網絡參數，并通過反復的參數調整使神經網絡的輸出與目標輸出匹配。與機器學習的任何訓練數據集一樣，可用訓練樣本的數量越多，訓練的最終效果就越好。在本案例中，需要成千上萬首歌曲及其單獨的樂器數據來進行訓練，總訓練音樂數據集為數千小時。

神經網絡經過訓練后，給定一首混音歌曲作為輸入，系統通過使用訓練期間建立的神經網絡運行歌曲，則可以輸出多個分離的曲目。

4：聲場重建

在將一段錄音分離成它的組成音軌之后，下一步是將它們重新生成。這由一個聲場信號處理器完成。這個處理器執行復雜的計算功能，以生成驅動揚聲器的輸出信號并生成音頻。發生器的輸入包括單獨的音軌、揚聲器的物理位置、以及重建聲場中所需的聽者和聲源位置。聲場處理器的輸出是多聲道信號，每個聲道一個，用于驅動多個揚聲器。

該團隊于2020年為iPhone發布了第一個聲場應用程序。它允許聽眾實時配置、收聽和保存聲場音樂，處理過程不會造成明顯的時間延遲。這款名為3D Musica的應用程序可以將立體聲音樂從聽眾的個人音樂庫、云盤甚至流媒體音樂實時轉換為聲場音樂。

正如音頻從單聲道走向立體聲，又從立體聲走向環繞立體聲和空間立體聲一樣，它現在也開始走向“舞臺聲”。早期，發燒友通過保真度來評估一個聲音系統，包括帶寬、諧波失真、數據分辨率、響應時間、無損或有損數據壓縮以及其他與信號相關的因素等參數。現在，聲場可以作為聲音保真度的另一個維度。對人的耳朵來說，聲場扣人心弦的空間感和即時性遠比改進和聲失真要重要得多。

技術推動了音頻行業的前幾次革命，現在正在發起另一場革命。人工智能、虛擬現實和數字信號處理正在利用心理聲學給音頻愛好者提供他們從未有過的體驗。與此同時，這些技術為唱片公司和藝術家也提供了新的工具，為舊唱片注入新生命，為創作開辟新道路。終于，重建音樂廳聲音的百年目標真正實現了。

參考文獻：

Q. Li, Y. Ding and J. Olan, "How Audio is Getting its Groove Back: Deep learning is delivering the century-old promise of truly realistic sound reproduction," in IEEE Spectrum, vol. 59, no. 10, pp. 46-52, October 2022, doi: 10.1109/MSPEC.2022.9915633.

文章來源：21dB聲學人

登錄后免費查看全文

立即登錄