3D音頻技術(shù)的還音原理分類研究

2022-07-13 07:15:48尚科臣

河西學(xué)院學(xué)報 2022年2期

尚科臣

（安徽師范大學(xué)音樂學(xué)院，安徽蕪湖 241000）

1 引言

3D（3-Dimension）音頻技術(shù)，即三維音頻技術(shù)，它是指與傳統(tǒng)單聲道、立體聲、環(huán)繞聲技術(shù)相對，以聽音者為中心，在其所感知的雙耳前后（縱深）、左右（水平）、上下（高度）三個維度上均可感知到聲音信息的技術(shù).在不考慮房間因素影響的條件下，傳統(tǒng)的單聲道技術(shù)的職能可以歸為聽音者可感知正前方的聲音信息；傳統(tǒng)的立體聲技術(shù)職能則歸結(jié)為位于聽音者前方60°范圍內(nèi)的錐形空間（即揚聲器系統(tǒng)）或者180°范圍內(nèi)（即耳機系統(tǒng)）的聲音信息；環(huán)繞聲技術(shù)則覆蓋聽音者水平環(huán)繞360°范圍空間內(nèi)的聲音信息.而3D音頻技術(shù)的出現(xiàn)比較深刻地改變了聽音效果，它與上述三種技術(shù)最大的區(qū)別是加入了高維度信息，使傳統(tǒng)覆蓋聽音者水平360°的聽音區(qū)域擴展至聽音者所在的整個三維空間，令聽音者沉浸在整個虛擬3D聲場中，帶來無與倫比的逼真享受.

人耳對空間內(nèi)聲源位置的感知，主要是由雙耳效應(yīng)、哈斯效應(yīng)、德·波埃效應(yīng)等決定的.簡單來講，對于某一固定聲源發(fā)出的聲音，在自由場內(nèi)的聽音者，人耳對其方位的感知主要受雙耳間的時間差（ITD Inter Aural Time Delay）、強度差（IAD Inter Aural Amplitude Difference）及音色差幾個因素的影響［1］.人類雙耳之間的間距大約為17cm.當(dāng)聲源處在人頭正前方或者正后方時，雙耳至聲源的物理距離一致，因而時間差大致為0；當(dāng)聲源偏離上述位置，左右耳至聲源距離產(chǎn)生變化，雙耳間信號存在時間差.同時，當(dāng)聲源偏離正前方、正后方時，一只人耳在聲源偏向的一側(cè)，另一只人耳處在人頭遮擋區(qū)域內(nèi)，處在遮擋區(qū)域內(nèi)的人耳聽到的聲音與聲源偏向一側(cè)的相比，就存在一定的聽音強度差.在人頭部的遮擋產(chǎn)生強度差I(lǐng)AD的同時，耳廓的遮擋也會產(chǎn)生一定的強度差.不僅如此，人頭、耳廓的遮擋也會對聲音信號的特定頻段的傳送和聽音產(chǎn)生影響，造成人的雙耳間信號存在音色差異.

不論聲源處在空間內(nèi)什么位置，當(dāng)人耳接收來自聲源的聲音信號時，雙耳間信號的時間差I(lǐng)TD、強度差I(lǐng)AD、音色差異共同作用于人腦聽覺中樞，讓聽音者感知到聲源所處的物理方位.而立體聲、環(huán)繞聲、3D音頻技術(shù)等均在還音時讓聽音者產(chǎn)生上述三個因素中的一種或幾種，這些因素作用于聽音者聽覺中樞，能讓聽音者感知到聲源所處的位置.但實際在日常生活中，人耳對聲源的定位遠(yuǎn)非前文所述受幾個因素影響那么簡單，實際的空間特性、聲源特性，介質(zhì)特性、視覺補充等等眾多因素，都會影響實際人對聲源方位的感知，人類聽覺系統(tǒng)是一種復(fù)雜而精密的感受系統(tǒng)，直到今天，在人類聽覺方面仍然有許多未知的領(lǐng)域.

因此，從還音原理的角度出發(fā)對各種音頻技術(shù)加以整理和分類，能夠幫助人們更加深入地認(rèn)識音頻技術(shù)的優(yōu)缺點，有利于人們根據(jù)不同的場合按照需要選取音頻技術(shù)，也有利于從業(yè)人員能夠針對性地優(yōu)化和改進(jìn)現(xiàn)有音頻技術(shù)，達(dá)到技術(shù)上的進(jìn)步和完善.由于目前市面上存在著多聲道、多維度的新興音頻技術(shù)市場，也有名目繁多、良莠不齊的現(xiàn)象，本文特別針對這種情況，從還音原理的角度出發(fā)，對3D音頻技術(shù)進(jìn)行了分析和歸類.

2 3D音頻技術(shù)的還音原理與實例

還音是指通過各種技術(shù)和設(shè)備手段，把收錄在各種光碟和磁帶等介質(zhì)里的聲音信號，由數(shù)字信號或電磁模擬信號再還原為聲音的過程，它是一個技術(shù)性較強的過程.目前市面上常見的技術(shù)名目雖然繁多，根據(jù)其還音特性，均可歸納為以下三大類：基于聲道及聲道群的3D音頻技術(shù)、基于波場合成的3D音頻技術(shù)和基于人頭相關(guān)傳遞函數(shù)的3D音頻技術(shù).

2.1 基于聲道及聲道群的3D音頻技術(shù)

基于聲道及聲道群的3D音頻技術(shù)是目前應(yīng)用最多、最為普及以及上下變換兼容性最好的一種技術(shù)，其還音原理是基于傳統(tǒng)的聲道概念，同時會在現(xiàn)場增加更多不同高度的揚聲器.還音時，單個揚聲器可以作為一個聲道或由多個揚聲器共同組成一個聲道，聲音素材可以在某個聲道中回放，或在不同聲道間自由運動.這些都將取決于聲音設(shè)計師的實際需求.常見的技術(shù)如Dolby Atmos全景聲、NHK22.2、Auro3D、及我國具有自主知識產(chǎn)權(quán)的WANOS全景聲技術(shù)［2］.

Dolby Atmos全景聲技術(shù)在傳統(tǒng)5.1聲道影院布局的基礎(chǔ)上，增加了觀眾頭頂上方的揚聲器組，并且增加環(huán)繞聲揚聲器及低音揚聲器的數(shù)量. 在聲道方面杜比提出“聲音對象（Object）”及“音床（Bed）”的概念.在原理上，“聲音對象”可以在任何單個揚聲器之處出現(xiàn)，“音床”則是可以由多個揚聲器組合，進(jìn)行聲音回放.其本質(zhì)還是基于傳統(tǒng)聲道及聲道的組合，即聲道群.在聲音設(shè)計時，諸如快速移動的聲音素材，可以通過“聲音對象”的方式將素材自由分配到相關(guān)揚聲器并在它們之間移動，形成精確的聲像定位.比如影片中快速飛過觀眾頭頂?shù)娘w機轟鳴聲、子彈穿梭的聲音等等.那些諸如氛圍性音效、音樂等聲音素材，可以通過“音床”的方式，實現(xiàn)多個揚聲器組合成聲道群回放，增加包容感與氛圍感.

Dolby Atmos 全景聲技術(shù)是目前相對普及率最高的3D 音頻技術(shù)，有顯著的優(yōu)點，圖1 是Dolby Atmos全景聲揚聲器系統(tǒng)布局的俯視圖［3］.它是傳統(tǒng)影院式5.1系統(tǒng)的升級，這就為現(xiàn)有環(huán)繞聲系統(tǒng)改造提供了便利.同時Dolby Atmos 全景聲系統(tǒng)也可兼容回放傳統(tǒng)環(huán)繞聲格式音頻，為不同還音格式提供了很好的兼容性.但是目前Dolby Atmos全景聲技術(shù)的專利仍然在美國的Dolby公司，不論新建這樣的影院，還是影片采用此標(biāo)準(zhǔn)制作，均需交納一定的專利使用費，因此Dolby Atmos全景聲技術(shù)在我國三線以下城市的普及度并不是很高，大量的小影院依然采用的是傳統(tǒng)的環(huán)繞聲技術(shù).

圖1 Dolby Atmos全景聲揚聲器系統(tǒng)布局俯視圖

2.2 基于波場合成（WFS）的3D音頻技術(shù)

基于波場合成（WFS Wave Field Synthesis）的3D音頻技術(shù)目前的應(yīng)用還處于探索階段，波場合成是指利用大量的揚聲器單元，依據(jù)波動基礎(chǔ)理論的惠更斯原理來還原原始聲場的技術(shù).惠更斯原理是1678年由物理學(xué)家惠更斯提出的，即波從一個給定的波陣面向前傳播，該波陣面上每一個點都是同相位的，每一個點都可以看成是發(fā)出新的次波的波源，這些次波在任何位置處的新的波面的包絡(luò)就可以看成是新的波前.因此，可認(rèn)為音波是由原始聲源傳播出來的或者是由分布在波前的二次聲源傳播出來的［4］.

要還原一個原始音波場，勢必需要大量分布在空間內(nèi)、按照特定算法設(shè)計安裝的揚聲器陣列，同時需要嚴(yán)格控制每個揚聲器的輻射特性及頻率響應(yīng)特性，以保證多個揚聲器的聲音在空間內(nèi)傳播時避免出現(xiàn)相互的干擾現(xiàn)象.而揚聲器陣列的設(shè)置需要符合空間奈奎斯特定理的要求，也就是說，假設(shè)若要精確還原某一頻率的聲音，揚聲器之間的間距應(yīng)該小于這個頻率對應(yīng)的波長的一半.根據(jù)這個定理計算，若要還原人耳聽力上限20kHz的音頻信號，需要的揚聲器的中心軸間距大約為8.5mm，若要實現(xiàn)這樣小的一個揚聲器中心軸間距，以現(xiàn)有揚聲器制造技術(shù)還非常難以達(dá)到.若想減少揚聲器數(shù)量或增大揚聲器間距，就會使得在超過空間奈奎斯特定理的頻率信號處產(chǎn)生失真.這就使得真正能夠應(yīng)用這一原理的技術(shù)非常稀少.

目前大多數(shù)技術(shù)還停留在實驗室階段，如2007年德國柏林工業(yè)大學(xué)為H0104演講大廳安裝的由832只揚聲器構(gòu)成的揚聲器陣列，但是仍然不能滿足空間奈奎斯特定理的要求.同時，在構(gòu)建由大量揚聲器組成的揚聲器陣列時，多個揚聲器輸入信號的傳輸與路由分配也是一個巨大而復(fù)雜的工程［5］.

現(xiàn)今出現(xiàn)在市場上的常見的波場合成技術(shù)是由德國IOSONO公司提出，并與上海費迪曼遜四維公司的合作下推廣的“四維全息聲”技術(shù).圖2是費迪曼遜四維公司實驗室示意圖.該技術(shù)系統(tǒng)大致由水平、側(cè)上及頂部三層揚聲器組成，旨在還原原始音波場.共用了125只揚聲器，在水平一層的揚聲器排布較為緊密，在側(cè)上及頂部揚聲器的排布非常稀疏.即便是在水平平面，這樣的揚聲器間距也與奈奎斯特空間定理相差很多.因此對于高頻的聲場重建，該系統(tǒng)也無能為力，但這并不代表該系統(tǒng)沒有實際應(yīng)用價值.在日常的聲源中，較高頻段（10kHz-20kHz）更多的是泛音成分，在針對沒有很多高頻成分的聲源的還原時，該系統(tǒng)還是能夠產(chǎn)生較為滿意的效果.若考慮實際應(yīng)用價值，這樣一個由大量揚聲器構(gòu)成的系統(tǒng)，無論在造價、系統(tǒng)維護(hù)、適用場景等因素與其他技術(shù)相比，其競爭力還是較小，因而在實際采用的案例依然十分稀少.

圖2 費迪曼遜四維公司實驗室

2.3 基于人頭相關(guān)傳遞函數(shù)（HRTF）的3D音頻技術(shù)

人頭相關(guān)傳遞函數(shù)（HRTF Head Related Transfer Function）是指從自由場中聲源到聽眾人耳道內(nèi)部位置之間的聲學(xué)傳遞函數(shù)，它不但對這一傳輸過程進(jìn)行了函數(shù)的描述，而且在耳機或揚聲器回放中創(chuàng)建沉浸式虛擬聲學(xué)環(huán)境.綜合人頭部三維形狀、耳廓形狀等對原始聲音的影響，人頭相關(guān)傳遞函數(shù)HRTF與人頭部的大小形狀、雙耳間距大小形態(tài)等因素息息相關(guān).因而HRTF的特性與不同人頭部特征有明顯關(guān)聯(lián).若要重現(xiàn)聽音者對自然聲場內(nèi)聲源的感知特性，只要能夠采集到聽音者的特性HRTF，就可以重現(xiàn)這一聲音.現(xiàn)有常見的使用耳機來還音的3D音頻技術(shù)，絕大多數(shù)都是基于HRTF的技術(shù).若使用揚聲器系統(tǒng)還原基于HRTF技術(shù)的3D音頻，當(dāng)揚聲器重放的信號到達(dá)聽音者時會重復(fù)疊加HRTF，同時揚聲器間的聲道信號存在串?dāng)_，也會對重放產(chǎn)生不利影響，因而HRTF 3D 音頻更多采用耳機來還音.現(xiàn)有技術(shù)一般是采集人頭相關(guān)脈沖響應(yīng)HRIR（Head Related Impulse Response），HRIR是HRTF的時域表示，不同高度、不同距離、不同方位的信號均需分別采集，形成一定數(shù)量的HRIR 庫.在還音時，調(diào)用對應(yīng)的HRIR 采用卷積的方式，還原經(jīng)HRTF 運算后的信號.但這個技術(shù)也存在一定缺陷，如前文所述，HRTF 是一個高度個性化的系列參數(shù)，不同性別、種族、年齡的人之間的HRTF相差甚遠(yuǎn).因此，現(xiàn)有的技術(shù)一般只能采集有限數(shù)量的人群，而無法做到針對性很強的個性化.同時，目前已有的HRTF數(shù)據(jù)庫大多是針對特定型號的人頭模型進(jìn)行采集，也無法針對聽音者進(jìn)行個別優(yōu)化.

目前常見的基于人頭相關(guān)傳遞函數(shù)HRTF的3D音頻技術(shù)有聲靈多媒體科技（上海）有限公司開發(fā)的Smyth SVS虛擬仿真多聲道音頻技術(shù)、美國WAVES公司開發(fā)的NX虛擬環(huán)繞聲技術(shù).

Smyth SVS技術(shù)利用空間內(nèi)任意位置最多16個揚聲器分別回放掃頻信號，經(jīng)放置在聽音者耳道內(nèi)的傳聲器拾取聽音者由自身HRTF渲染后的信號，經(jīng)反卷積后得到HRIR.在耳機回放時，處理系統(tǒng)只需調(diào)用對應(yīng)聲道的HRIR，經(jīng)卷積運算后輸出，便得到逼真的虛擬聲場.該系統(tǒng)的優(yōu)點是可以采集個性HRTF，而且原始多聲道的揚聲器位置可任意擺放，經(jīng)耳機還原后定位與聲場空間感效果極佳.不過，它的缺點也十分明顯，它不能定位生成非原始揚聲器所在位置的聲源，且原始聲源的最多數(shù)量為16個.HRIR必須由先前固定擺放的揚聲器回放掃頻信號后得到.

WAVES的NX技術(shù)與Smyth SVS技術(shù)類似，只不過虛擬聲道數(shù)量有限，為預(yù)置的常見單聲道、立體聲、5.1和7.1聲道及Ambisonics虛擬聲場幾種.虛擬揚聲器位置可以在水平方向自由調(diào)節(jié)，也可以搭配頭部運動追蹤器，實現(xiàn)模擬人頭部運動時耳機內(nèi)聲場的同步變化，效果逼真.同時還預(yù)置了耳機型號，可以針對特定耳機進(jìn)行頻響曲線修正，也具有房間空間感的調(diào)節(jié)選項.圖3是Waves NX 插件界面示意圖.在HRTF 庫的運用方面，用戶可以測量頭圍大小，輸入系統(tǒng)，系統(tǒng)以匹配最佳HRTF，做到了有限的個性化.在聽感方面，虛擬環(huán)繞聲聲道的定位較為準(zhǔn)確，總體聽感較好.它的缺點和Smyth SVS技術(shù)類似，無法做到生成一個可以還原任意位置及數(shù)量聲源的虛擬聲場，有虛擬聲源可選位置及數(shù)量的局限.略有不同的是，Ambisonics 格式信號的處理，必須事先由支持Ambisonics技術(shù)的特殊傳聲器錄制，而后經(jīng)由對應(yīng)的揚聲器進(jìn)行回放或使用耳機回放NX技術(shù)虛擬的聲場，本質(zhì)上是一種對原始空間內(nèi)物理聲源的錄制和回放重塑的過程，但其局限性在于它無法直接構(gòu)建一個特定聲場，并將所需聲源定義在任意位置上.

圖3 Waves NX插件界面

3 結(jié)論

本文對目前常見的3D音頻技術(shù)從還音原理上進(jìn)行了總結(jié)和歸類，將其劃分為三大類，即基于聲道及聲道群的3D音頻技術(shù)、基于波場合成的3D音頻技術(shù)和基于人頭相關(guān)傳遞函數(shù)的3D音頻技術(shù).這三類音頻技術(shù)各有其鮮明的優(yōu)缺點，主要體現(xiàn)在以下三方面：

1）從還音效果上講，波場合成技術(shù)是從物理學(xué)角度出發(fā)，依據(jù)惠更斯原理，理論上其還音效果最接近原始聲場.聽音者的聽音區(qū)域不受限制，在不同聽音位置接收到的聽感均不相同，最接近原始聲場內(nèi)的聽音狀態(tài).其缺點是，在實際應(yīng)用中難以實現(xiàn)大量近距離揚聲器的陣列組合，對于高頻還音效果不佳，制造成本高昂，普及難度大，目前還停留在實驗室研究階段.

2）基于聲道及聲道群的3D音頻技術(shù)是原有立體聲、環(huán)繞聲系統(tǒng)的擴展，兼容性佳、實現(xiàn)容易、成本可控，是目前應(yīng)用最為廣泛的技術(shù).但是，在實現(xiàn)精確聲像定位方面與波場合成技術(shù)相比略有欠缺.此技術(shù)系統(tǒng)由多層揚聲器組成，一般適用于影劇院、戶外演出等大型場合，個人用戶實現(xiàn)成本較高.

3）基于人頭相關(guān)傳遞函數(shù)的3D音頻技術(shù)使用耳機還音，成本低，終端易于實現(xiàn)，還音效果好，十分適用于個人用戶.但其相關(guān)技術(shù)還有待發(fā)展，相對應(yīng)的處理軟硬件系統(tǒng)有待普及.目前，它是很有發(fā)展前景的3D音頻技術(shù).