面向空間音頻的個(gè)性化頭相關(guān)傳輸函數(shù)定位性能研究綜述

2022-10-11 08:52邱音良李知禹王晶李嵩李婧欣

信號(hào)處理 2022年9期

邱音良李知禹王晶李嵩李婧欣

（1.北京理工大學(xué)信息與電子學(xué)院，北京 100081；2.聲網(wǎng)Agora，浙江杭州 310012；3.中國電子技術(shù)標(biāo)準(zhǔn)化研究院，北京 100176）

1 引言

隨著虛擬現(xiàn)實(shí)技術(shù)的發(fā)展以及元宇宙概念的火熱，沉浸體驗(yàn)感不佳再度成為了亟須解決的問題。造成該現(xiàn)象的原因是多種多樣的，包括圖像渲染不夠真實(shí)，交互操作不夠豐富等直接的視覺和人機(jī)交互因素。而現(xiàn)實(shí)生活中大腦需要同步處理視覺和聽覺信息，空間音頻是虛擬現(xiàn)實(shí)乃至未來元宇宙世界中的關(guān)鍵信息內(nèi)容，如何提升空間音頻的沉浸感成為十分重要的研究問題。效果良好的空間音頻效果力圖讓人們感受到身臨其境的真實(shí)感，現(xiàn)階段雙耳虛擬空間音頻的實(shí)現(xiàn)方式主要是基于頭相關(guān)傳輸函數(shù)（Head-related transfer function，HRTF）渲染［1］。一些新型的基于數(shù)據(jù)驅(qū)動(dòng)的空間音頻生成方法仍然不夠成熟，例如利用神經(jīng)網(wǎng)絡(luò)將單聲道音頻渲染為雙耳空間音頻的方法［2］實(shí)現(xiàn)過程中需要較高的算力，提高了對(duì)底層硬件的要求，且神經(jīng)網(wǎng)絡(luò)建模方法在理論上可解釋性較差，不利于后續(xù)的優(yōu)化改進(jìn)。而HRTF 依據(jù)傳統(tǒng)數(shù)字信號(hào)處理的原理，描述的是在自由場(chǎng)環(huán)境下，聲音由聲源處傳輸?shù)饺硕缓蟊欢伣邮盏恼麄€(gè)物理過程。換句話說，它可以被視為一個(gè)聲音傳輸?shù)南到y(tǒng)函數(shù)，以頻域?yàn)V波器的形式表示了頭部對(duì)空間中不同位置聲音的處理過程［3］?？紤]到每個(gè)人的頭部和耳廓形狀有所差異，相同聲源發(fā)出的聲波進(jìn)入不同人耳前需要進(jìn)行不同的個(gè)性化處理，因此每個(gè)人的HRTF都是與眾不同的［4］。想要得到聽覺上更好的沉浸式體驗(yàn)感，自然需要使用聽者對(duì)應(yīng)的個(gè)性化HRTF。但是直接和全面測(cè)量個(gè)體的HRTF 極為耗時(shí)且需要貴重設(shè)備和消聲環(huán)境，使得個(gè)性化HRTF 的成本居高不下。而個(gè)性化HRTF 會(huì)帶來多大程度的效果提升，這種效果提升怎樣體現(xiàn)在增強(qiáng)聲源定位準(zhǔn)確度方面以在一定程度上達(dá)到增加沉浸感的目的，本文旨在通過調(diào)研相關(guān)資料和分析HRTF的影響機(jī)理來解答這兩個(gè)問題。

HRTF 有多種獲取方式。通過實(shí)驗(yàn)室測(cè)量獲得的HRTF相對(duì)準(zhǔn)確，但是測(cè)量成本較高，并且測(cè)量規(guī)范有很多種，不同方法間有一定偏差。Andreopoulou對(duì)比不同的測(cè)量方法的結(jié)果，發(fā)現(xiàn)在各頻段都有一定偏差，特別是在8 kHz 以上的部分［5］。近幾年情況有所改善，余光正［6］研發(fā)的系統(tǒng)已經(jīng)可以在20 min 左右完成近場(chǎng)HRTF 的測(cè)量，8 kHz 以下誤差小于0.5 dB，12 kHz以下誤差不大于2～3 dB。Jenny和Reuter［7］研發(fā)的系統(tǒng)可以在60 min（測(cè)量過程20 min，調(diào)試和說明40 min）左右完成測(cè)量，結(jié)果較為準(zhǔn)確。另一類獲取HRTF 的方法是通過計(jì)算獲得。計(jì)算使用的模型種類繁多，在此不一一列舉。為了計(jì)算個(gè)性化HRTF，需要耳廓或者頭的3D 幾何結(jié)構(gòu)，計(jì)算的準(zhǔn)確程度很依賴測(cè)量的精度（特別是高頻部分）。若想保證準(zhǔn)確采集，同樣需要耗費(fèi)不小的成本進(jìn)行測(cè)量。為了降低個(gè)性化的成本，許多近似獲取方法被設(shè)計(jì)了出來。鐘小麗和謝菠蓀在引文［8］中分析了基于生理參數(shù)的個(gè)性化方法、基于主觀實(shí)驗(yàn)的個(gè)性化方法基于少量測(cè)量的個(gè)性化方法等近似方法，得出HRTF準(zhǔn)確度（特別是高頻部分）有待提高，距離商業(yè)化還有差距的結(jié)論。隨著人工智能在聲學(xué)領(lǐng)域的應(yīng)用，基于人工智能的方法可以大幅提高獲取個(gè)性化HRTF 的效率。Guo［9］提出了一種基于聚類算法的個(gè)性化HRTF 近似方法。將數(shù)據(jù)庫中的HRTF 分類，然后通過一些簡(jiǎn)單的生理參數(shù)測(cè)量選擇最近似聽音者的某一類HRTF，極大降低測(cè)量成本的同時(shí)獲得了很好的效果。Gebru等人［10］設(shè)計(jì)了一套基于深度學(xué)習(xí)的HRTF 預(yù)測(cè)系統(tǒng)，該系統(tǒng)的輸入?yún)?shù)不需要專業(yè)聽音室即可測(cè)得，也在降低了成本的同時(shí)獲得了很好的結(jié)果。

考慮到HRTF在空間音頻上的定位性能主要影響以下三個(gè)方面：（1）水平和垂直方向定位精度；（2）頭中效應(yīng)；（3）前后混淆現(xiàn)象。因此本文也將由這三個(gè)方面分別展開，分析個(gè)性化HRTF 對(duì)不同方面影響的相關(guān)原理，以及通過已有的主觀實(shí)驗(yàn)結(jié)果說明個(gè)性化HRTF 的作用。本文將在第2 節(jié)介紹對(duì)定位精度影響的相關(guān)內(nèi)容；在第3 節(jié)介紹對(duì)頭中效應(yīng)影響的相關(guān)內(nèi)容；在第4 節(jié)介紹對(duì)前后混淆影響的相關(guān)內(nèi)容；在5 節(jié)中總結(jié)個(gè)性化HRTF 影響方面及其影響因素，個(gè)性化HRTF相關(guān)主觀實(shí)驗(yàn)結(jié)果；在第6 節(jié)中給出個(gè)性化HRTF 作用效果及價(jià)值的相關(guān)結(jié)論。對(duì)于音頻的評(píng)價(jià)包含主觀評(píng)價(jià)和客觀評(píng)價(jià)兩種形式［11］，沉浸感更多來自人的主觀感受，因此以下重點(diǎn)討論主觀實(shí)驗(yàn)的結(jié)果。

2 水平和垂直方向定位精度

空間音頻的良好體驗(yàn)首要考慮的是較高的定位精度，而涉及到空間里的定位效果，通常以球坐標(biāo)系為參照，需要同時(shí)考慮水平方向和垂直方向定位精度。從生物學(xué)的角度來看，人耳的左右對(duì)稱更適合水平定位，實(shí)際生活中人類對(duì)水平方向定位精度也遠(yuǎn)高于垂直方向定位精度。

如謝菠蓀教授在［12-13］中介紹的，傳統(tǒng)的聲源定位因素即雙耳時(shí)間差（Interaural time difference，ITD）和雙耳聲級(jí)差（Interaural level difference，ILD），在不同頻段二者的重要性不同。在中、低頻段（低于1.6 kHz），ITD 對(duì)定位起主要作用；在中頻段（1.5～4.0 kHz），ITD 和ILD 對(duì)定位共同起作用；而在高頻段（高于4 kHz），ILD 對(duì)定位起主要作用。而傳統(tǒng)聲源定位因素有一定的局限性，因此本文接下來將從水平定位和垂直方向定位原理兩方面進(jìn)一步探究。

2.1 水平定位原理

水平定位的原理可以直觀的使用ITD 和ILD 解釋。如圖1所示，當(dāng)聲源在人體右側(cè)時(shí)，因?yàn)轭^部的遮擋作用，聲音先達(dá)到右耳再到達(dá)左耳，即造成了ITD；且右耳接收到的聲音幅值高于左耳，即造成了ILD。Letowski T R 等人在［14］中對(duì)左右定位問題做出了進(jìn)一步的研究，他們提出許多實(shí)驗(yàn)表明ITD在低于800 Hz 的頻段提供左右定位信息，而ILD 在高于1600 Hz 的頻段提供左右定位信息。在800～1600 Hz 頻段圍內(nèi)，單獨(dú)使用ITD 或ILD 起到的作用有限，聯(lián)合使用兩種定位因素能使聽音人獲得更有效的定位能力。

圖1 聲音傳輸示意圖Fig.1 Schematic diagram of sound transmission

因此考慮水平定位影響因素時(shí)，可以認(rèn)為耳朵形狀差異帶來的影響比較小，頭部形狀差異造成的影響更大［15］。而考慮到HRTF描述的聲音傳輸物理過程包括了頭部的影響，個(gè)性化HRTF 能夠更符合個(gè)體頭部遮擋對(duì)聲音的影響，因此渲染結(jié)果能使水平定位更準(zhǔn)確。

2.2 垂直定位原理

垂直定位準(zhǔn)確度主要是由正中面的定位精度反應(yīng)。如圖2 所示，正中面（median plane）指位于正中位置的矢狀面，該平面通過肚臍中線，將身體垂直平分，將身體左右兩側(cè)精確地分開。研究該平面對(duì)應(yīng)角度的HRTF 即可探究HRTF 垂直定位的精確度［16］。

圖2 人體解剖學(xué)平面圖（紅色為正中面）1https://www.biologyonline.com/dictionary/median-planeFig.2 Plan view of human anatomy（red is the median plane）1https://www.biologyonline.com/dictionary/median-plane

與水平定位精度不同，垂直定位精度和人耳形狀的聯(lián)系更為密切。Grothe 等人［17］經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn)：給聽音人插入只改變外耳形狀，而不影響聲音通過的耳模后，聽音人會(huì)難以進(jìn)行垂直方向上的聲音定位（但是水平定位的能力似乎沒有改變）。在接下來的幾個(gè)周中，持續(xù)佩戴耳模的聽音人對(duì)垂直定位的精確度逐漸提高。到一個(gè)月時(shí)，聽音人幾乎能完全適應(yīng)新的定位信息，進(jìn)行正常的垂直方向的聲音定位。并且在去除耳模后，聽音人的定位能力并不會(huì)受影響。這表明不同人可以通過個(gè)性化的耳朵形狀，后天學(xué)習(xí)到如何利用頻譜信息定位的能力。

研究人員對(duì)正中面定位利用的頻譜信息做了進(jìn)一步研究［16］，在大約5 kHz以上的頻段，由耳廓引起的HRTF 頻譜差異影響了正中面的定位精度。Mehrgardt 和Mellert 表明［18］，在5 kHz 以上的頻段，頻譜會(huì)隨著聲源高度的變化進(jìn)行系統(tǒng)性地變化。Shaw 和Teranishi 報(bào)告［19］說，當(dāng)聲源的仰角從-45°變?yōu)?5°時(shí)，HRTF 頻譜的一個(gè)波谷位置由6 kHz 變?yōu)?0 kHz。Iida 等人［20］分別對(duì)耳廓、耳廓螺旋與反螺旋之間的縱向溝、外耳這三個(gè)空腔進(jìn)行阻塞，再對(duì)聽音人進(jìn)行定位測(cè)試和HRTF測(cè)量。隨后他們得出相同的結(jié)論，影響正中面定位的頻譜信息存在于HRTF的5 kHz以上的高頻分量中。

基于上述研究確定HRTF 和耳廓結(jié)構(gòu)有關(guān)聯(lián)后，為了進(jìn)一步探究HRTF和耳朵結(jié)構(gòu)之間的關(guān)聯(lián)，研究人員開始分析個(gè)性化HRTF之間差異比較大的點(diǎn)，其中以HRTF 的波峰波谷最為突出。Shaw E A G 等人指出［19］HRTF 的波峰是由耳廓的共振產(chǎn)生的。而在波谷頻率處，耳甲艇和三角窩共同作用產(chǎn)生波腹，耳甲腔產(chǎn)生波節(jié)點(diǎn)。Simone Spagnol 等人在［21］中報(bào)告構(gòu)造適合垂直定位的個(gè)性化HRTF時(shí)需要尤其注意最低頻率的波谷。為了用實(shí)驗(yàn)對(duì)該結(jié)論進(jìn)一步驗(yàn)證，Grothe B［17］等人使用1秒白噪聲信號(hào)（截止頻率為44.1 kHz）與KEMAR 頭模型的HRTF 做卷積來渲染，并重復(fù)實(shí)驗(yàn)超過50 次得到平均結(jié)果：將聲源位置由水平面下方45°移動(dòng)到水平面上方45°后，渲染出聲音的有效頻譜中的波谷中心頻率會(huì)移動(dòng)到更高頻率處。

而波峰波谷與HRTF的相關(guān)性可以通過齊娜等人在［22］中的論述解釋。他們指出不同方向入射的聲波會(huì)被耳廓的不同部位反射進(jìn)入耳道，反射聲和直達(dá)聲在耳道入口處進(jìn)行疊加干涉，因此形成了HRTF 的波峰和波谷?？紤]到人類耳廓的尺寸大約是65 mm，所以只在2～3 kHz 以上的頻率，當(dāng)聲音波長(zhǎng)和耳廓尺寸近似的時(shí)候，耳廓對(duì)聲音的反射才起作用；對(duì)于5～6 kHz以上的高頻信號(hào)，耳廓的定位因素才更加明顯。由此可知我們考慮個(gè)性化HRTF對(duì)垂直定位的影響時(shí)，應(yīng)該考慮到人類本身對(duì)聲音垂直定位的能力。換而言之，使用個(gè)性化HRTF 渲染包含中高頻以上的頻段信息時(shí)才能取得較明顯的垂直定位能力提升。

從圖3可以清晰地看到在不同頻段上不同人的HRTF的差異是比較明顯的。

圖3 HUTUBS數(shù)據(jù)庫2https://depositonce.tu-berlin.de/handle/11303/9429中不同人的HRTF差異Fig.3 HRTF differences of different people in the HUTUBS database2https://depositonce.tu-berlin.de/handle/11303/9429

2.3 個(gè)性化HRTF的作用

目前針對(duì)個(gè)性化HRTF的定位性能實(shí)驗(yàn)往往分成水平方向和垂直方向分別進(jìn)行實(shí)驗(yàn)：

（1）水平面上個(gè)性化HRTF 的定位效果目前有兩類主要對(duì)比方法：一部分學(xué)者將個(gè)性化HRTF 與人工頭HRTF 比較，如Wang L 等人在［23］中比較了使用預(yù)測(cè)算法生成的個(gè)性化HRTF 和使用KEMAR人工頭測(cè)量的HRTF。兩種預(yù)測(cè)的平均誤差在8 dB左右，主要集中在高頻部分。他們發(fā)現(xiàn)兩種HRTF渲染的正左和正右聲音沖激都能很容易被區(qū)分出來，而30°和45°時(shí)使用個(gè)性化HRTF 渲染的聲音角度感覺更準(zhǔn)確，且兩種HRTF 前方角度的分辨率均優(yōu)于后方。進(jìn)一步經(jīng)過方差分析（Analysis of Variance，ANOVA），HRTF 種類和測(cè)試使用的水平角對(duì)測(cè)試者有顯著作用，而HRTF 種類和水平角之間的相互作用不顯著，可以認(rèn)為實(shí)驗(yàn)是有效的；在0.05顯著水平下，個(gè)性化HRTF 的定位誤差要遠(yuǎn)低于非個(gè)性化HRTF 的定位誤差。Ben-Hur Z 在［24］中提出一種快捷且不損失準(zhǔn)確度的HRTF 測(cè)量方法，也比較了該方法測(cè)量出的個(gè)性化HRTF 和KEMAR 人工頭測(cè)量的HRTF，人工頭HRTF 的水平角度定位誤差顯著高于個(gè)性化HRTF。而Hu H 等人在［25］中引入了更多樣的對(duì)比項(xiàng)，他們使用了：1）CIPIC數(shù)據(jù)庫中原有的HRTF（可被視為非個(gè)性化HRTF 的一種）；2）通過他人人體參數(shù)預(yù)測(cè)出來的非個(gè)性化HRTF；3）通過聽音人人體參數(shù)預(yù)測(cè)出來的個(gè)性化HRTF。使用顯著水平0.05 的t 檢驗(yàn)對(duì)實(shí)驗(yàn)結(jié)果做驗(yàn)證，他們的實(shí)驗(yàn)結(jié)果顯示兩種非個(gè)性化HRTF 的水平定位效果相近，而使用個(gè)性化HRTF 使得水平定位準(zhǔn)確度顯著提升了20%。而［26］中M?ller H 使用了個(gè)性化和非個(gè)性化的人頭雙耳錄音，以女性說話音頻作為輸入信號(hào)，并沒有發(fā)現(xiàn)個(gè)性化人頭錄音的顯著提高作用。類似的Begault D R 在［27］中使用語音信號(hào)也提到了個(gè)性化HRTF無法顯著提升水平定位準(zhǔn)確度。其原因在于語音信號(hào)的頻率遠(yuǎn)小于6 kHz。在低頻部分，各種方法獲得的通用或者個(gè)性化HRTF 的差別都不大。Liang Linda［28］的研究表明，表征語音感知雙耳效應(yīng)的雙耳語音傳輸指數(shù)的個(gè)體差異很小。在此情況下決定實(shí)驗(yàn)效果的主要是測(cè)量誤差，而兩篇文獻(xiàn)發(fā)表的年代也相對(duì)較早，測(cè)量技術(shù)不成熟，可能導(dǎo)致實(shí)際與理論不符，參考價(jià)值有限。

（2）在垂直方向上個(gè)性化HRTF 的定位效果較為顯著：如Ben-Hur Z 在［24］中通過比較了個(gè)性化HRTF 和KEMAR 人工頭測(cè)量的HRTF。實(shí)驗(yàn)結(jié)果表明，使用人工頭HRTF 帶來的垂直方向平均誤差為21.4°，而個(gè)性化HRTF 垂直方向平均誤差為10.9°。經(jīng)過統(tǒng)計(jì)學(xué)分析，個(gè)性化HRTF 比非個(gè)性化HRTF在垂直方向定位上有顯著提升。

3 頭中效應(yīng)

頭中效應(yīng)又稱為外化感弱，常見于耳機(jī)端的回放，聽音人會(huì)錯(cuò)誤地感覺聲像在頭中，而不是感知到在頭外部的虛擬聲源。此種現(xiàn)象會(huì)破壞聽音人的沉浸體驗(yàn)感，使其感受到不自然，不真實(shí)。

3.1 產(chǎn)生機(jī)理

Begault D R 等人在［27］中表示：很難精確的去渲染聲源的外化效果，但是外化感會(huì)隨著激勵(lì)信號(hào)更接近自然的激勵(lì)信號(hào)而增強(qiáng)，從而達(dá)到了削弱頭中效應(yīng)的目的。而目前仿真自然的激勵(lì)信號(hào)方法通常有：（1）使用混響，（2）加入頭部運(yùn)動(dòng)，（3）使用個(gè)性化HRTF。

而這三種方法并不是獨(dú)立關(guān)系，倘若分開使用則并不能保證效果，如Li S 等人在［29］中通過在虛擬現(xiàn)實(shí)（VR）中使用不同房間場(chǎng)景進(jìn)行實(shí)驗(yàn)說明：如果房間的聲學(xué)特性不符合聽音人的期望，雙耳聲音中“正確”的房間混響信息反而可能會(huì)降低感知的外化；Hendrickx E 等人在［30］中通過使用非個(gè)性化HRTF，渲染水平面不同角度的語音信號(hào)，配合頭部追蹤器進(jìn)行實(shí)驗(yàn)，他們發(fā)現(xiàn)頭部運(yùn)動(dòng)足夠大時(shí)，頭部運(yùn)動(dòng)與頭部追蹤相結(jié)合的方法可以增強(qiáng)外化感。且頭部停止運(yùn)動(dòng)后，這種外化感的增強(qiáng)仍然存在。

Best V 等人在［31］中觀察到一種現(xiàn)象：聲源到達(dá)兩耳路徑差異越大，頭中效應(yīng)就越弱。即正中面相對(duì)比側(cè)面，聲源感知上會(huì)更靠?jī)?nèi)。聯(lián)系定位精度所涉及的理論，可以聯(lián)想到頭中效應(yīng)與ITD 和ILD也是相關(guān)聯(lián)的。Hartmann W M 等人［32］在使用自然的ITD 和ILD 組合來處理測(cè)試波形，使聽音人能感知得到與揚(yáng)聲器效果相當(dāng)?shù)碾p耳音頻。而改變ITD和ILD，使其偏離自然值，頭中效應(yīng)會(huì)明顯加強(qiáng)。在不同頻率段上，他們認(rèn)為ITD 可以提升1 kHz 以下頻段聲音的外化效果，而ILD 可以提升所有頻段。因此考慮到使用個(gè)性化HRTF 等同于引入自然的、符合聽音人感知的雙耳線索和頻譜線索，個(gè)性化HRTF會(huì)起到一定的削弱頭中效應(yīng)的作用。

3.2 個(gè)性化HRTF的作用

對(duì)于以感知聲源距離為標(biāo)準(zhǔn)的外化感，Jenny C等人在［7］中使用了兩組對(duì)比項(xiàng)來探究個(gè)性化HRTF 提升的效果，分別是：（1）聽音人個(gè)性化的HRTF 和通用HRTF（KEMAR 假人頭模型測(cè)量的HRTF），（2）聽音人個(gè)性化的HRTF和基于［33］中模型從ARI 數(shù)據(jù)庫中挑選出的聽音人定位誤差最大的非個(gè)性化HRTF（下簡(jiǎn)稱為最大HRTF）、定位誤差最小的非個(gè)性化HRTF（下簡(jiǎn)稱為最小HRTF）。他們的實(shí)驗(yàn)結(jié)果顯示為：個(gè)性化HRTF 的外化感得分顯著高于通用HRTF；個(gè)性化HRTF 外化感平均得分和最小HRTF 的相同，但整體高于最小HRTF，最大HRTF明顯比個(gè)性化HRTF和最小HRTF得分低。而Cal Armstrong 在［34］中使用低頻補(bǔ)償和擴(kuò)散聲場(chǎng)技術(shù)的后處理技術(shù)，針對(duì)人工頭測(cè)量的非個(gè)性化HRTF 和實(shí)際測(cè)量的個(gè)性化HRTF 做后處理，測(cè)試結(jié)果顯著表明KU-100 的人工頭測(cè)量的HRTF 數(shù)據(jù)集在減弱頭中效應(yīng)方面普遍優(yōu)于個(gè)性化HRTF。該實(shí)驗(yàn)選用了器樂的聲音作為測(cè)試音，但并沒有說明受試者是否有相應(yīng)的器樂知識(shí)，因此該實(shí)驗(yàn)的結(jié)果可能存在一定偏差。但是該實(shí)驗(yàn)給了我們兩點(diǎn)啟發(fā)。其一，對(duì)HRTF 的測(cè)試流程是一個(gè)非常值得研究的課題。其二，通過后期處理有可能讓通用HRTF的效果獲得很大的提升。

4 前后混淆

前后混淆現(xiàn)象指由于人耳的左右對(duì)稱結(jié)構(gòu)，位于與正中矢狀面平行的平面上的聲源到達(dá)每只耳朵具有相同的ITD 和ILD，導(dǎo)致聽音人對(duì)聲音位于前方還是后方產(chǎn)生誤判的一種現(xiàn)象，尤其常見于雙耳回放中。在實(shí)際生活中，由于頭部運(yùn)動(dòng)和耳廓對(duì)聲音頻譜的影響，人們很少會(huì)產(chǎn)生前后混淆［35］。

4.1 產(chǎn)生機(jī)理

Zieliński S K 等人在［36］中介紹說在沒有微頭部運(yùn)動(dòng)的前提下，只使用HRTF 能夠區(qū)分前后聲源的原因可能是存在一部分特殊的個(gè)性化頻譜線索，使得聽音人能夠區(qū)分前后聲源。近似地Johansson M 在［37］中也提到在區(qū)分前后位置聲音的過程中，大腦會(huì)利用不同人耳朵、頭部和軀干形狀的微小形狀差異，耳廓的具體細(xì)節(jié)如圖4 所示。不同方向的聲波在經(jīng)過耳廓時(shí)，聲波包含的不同頻率分量會(huì)在耳廓的復(fù)雜結(jié)構(gòu)內(nèi)部發(fā)生不同程度的透射、折射或反射，最終達(dá)到鼓膜前，不同頻率的聲波會(huì)受到不同程度的衰減。因此大腦可以根據(jù)各頻率的衰減情況，來定位聲源的前后方向。考慮到人和人形體之間的差異，大腦使用的細(xì)節(jié)也因人而異。倘若個(gè)性化HRTF 的測(cè)量足夠精細(xì)，則可以包含這些人體細(xì)節(jié)的影響，使渲染音頻的前后混淆下降。更進(jìn)一步的謝菠蓀等人在［12］中指出在高頻頻段（＞5 kHz），波長(zhǎng)與耳廓尺度相近，耳廓對(duì)聲波的散射集中體現(xiàn)在HRTF高頻段的前后不對(duì)稱性和頻譜存在波峰波谷，他們認(rèn)為這是區(qū)分前后聲源的重要線索。

圖4 耳廓體表解剖學(xué)示意圖3https://www.gmzyjc.com/read/zjz/zjz03-0.7.1.0.0.mdFig.4 Schematic diagram of the anatomy of the auricle body surface3https://www.gmzyjc.com/read/zjz/zjz03-0.7.1.0.0.md

4.2 個(gè)性化HRTF的作用

考慮到前后混淆可以被頭部運(yùn)動(dòng)所緩解，所以存在兩種測(cè)試前后混淆的實(shí)驗(yàn)設(shè)置：

（1）不使用頭部追蹤設(shè)備，如Lee G W 在［38］中使用了多種方法對(duì)比，分別是：1）新提出使用人體參數(shù)和耳廓測(cè)量參數(shù)的個(gè)性化HRTF 預(yù)測(cè)方法；2）將數(shù)據(jù)庫中的不同人HRTF取平均得到平均化的HRTF；3）［39］中使用人體參數(shù)的個(gè)性化HRTF預(yù)測(cè)方法。關(guān)于水平面上的定位能力實(shí)驗(yàn)結(jié)果顯示：方法1）相比方法2）和3）的前后混淆率分別降低了12.5%和2.5%?？梢钥闯鰝€(gè)性化HRTF 降低前后混淆的作用比較明顯，且不同個(gè)性化預(yù)測(cè)算法存在提升空間。Ben-Hur Z 在［24］中通過比較了個(gè)性化HRTF 和KEMAR 人工頭測(cè)量的HRTF。實(shí)驗(yàn)表明，使用人工頭HRTF 會(huì)造成的前后混淆概率為9.8%，而使用個(gè)性化HRTF 時(shí)只有4.7%。經(jīng)過統(tǒng)計(jì)學(xué)分析，使用個(gè)性化HRTF 會(huì)顯著降低前后混淆。而Hu H 等人在［25］使用顯著水平0.05 的t 檢驗(yàn)對(duì)實(shí)驗(yàn)結(jié)果做驗(yàn)證，他們的實(shí)驗(yàn)結(jié)果顯示兩種非個(gè)性化HRTF 的前后混淆概率相當(dāng)，而使用個(gè)性化HRTF使得前后混淆概率下降3%。

（2）使用頭部追蹤設(shè)備，如Jenny C 等人在［7］中使用了VR 設(shè)備來比較個(gè)性化HRTF 和通用HRTF 的前后混淆情況，他們的實(shí)驗(yàn)結(jié)果顯示為：在有頭部追蹤的情況下，個(gè)性化HRTF 沒有發(fā)生前后混淆現(xiàn)象，而通用HRTF 前后混淆的比例達(dá)到了27%。統(tǒng)計(jì)學(xué)分析表明，使用個(gè)性化HRTF 可以顯著降低前后混淆。而在和定位誤差最大HRTF、最小HRTF 比較時(shí)，個(gè)性化HRTF 仍然沒有發(fā)生前后混淆現(xiàn)象，最小HRTF前后混淆率為6%，最大HRTF前后混淆率為24%。值得注意的是，沒有專業(yè)聽音知識(shí)的人幾乎找不到最小HRTF帶來的前后混淆。

5 總結(jié)

表1 總結(jié)了個(gè)性化HRTF 的影響方面及其影響因素，可以看出對(duì)于不同的方面，個(gè)性化HRTF的影響因素有一些重疊。表2總結(jié)了文中引用的主觀實(shí)驗(yàn)。從結(jié)果來看，絕大多數(shù)實(shí)驗(yàn)的被測(cè)者都表示個(gè)性化的HRTF提高了聲音的定位精度。少部分實(shí)驗(yàn)的結(jié)果是個(gè)性化的HRTF 相對(duì)通用HRTF 不能顯著提高聲音的定位精度，這部分實(shí)驗(yàn)所選用的測(cè)試音頻的頻段比較特殊，能量主要集中在低頻段，不容易體現(xiàn)個(gè)性化HRFT的優(yōu)勢(shì)。

表1 個(gè)性化HRTF影響總結(jié)Tab.1 Summary of the impact of personalized HRTF

表2 個(gè)性化HRTF影響主觀實(shí)驗(yàn)總結(jié)Tab.2 Summary of subjective experiments on the impact of personalized HRTF

6 結(jié)論

個(gè)性化HRTF 能夠提高定位精度，尤其是垂直方向，一定程度削弱頭中效應(yīng)，一定程度減少前后混淆現(xiàn)象，即可以認(rèn)為使用個(gè)性化HRTF 對(duì)一定程度上提升沉浸體驗(yàn)感是有直接幫助的。

同時(shí)需要關(guān)注到的是目前個(gè)性化HRTF效果評(píng)測(cè)實(shí)驗(yàn)存在著實(shí)驗(yàn)條件設(shè)置差異較大的問題，可以看到實(shí)驗(yàn)使用的聲源包括白噪聲、語音信號(hào)且截止頻率有所差異；回放設(shè)備包括耳機(jī)回放，VR 回放；運(yùn)動(dòng)傳感器包括使用和不使用；聽音人包括有專業(yè)聽音知識(shí)和普通聽音人；對(duì)比的非個(gè)性化HRTF 包括通用HRTF（人工頭HRTF）和根據(jù)其他聽音人測(cè)量的HRTF。考慮到空間音頻的渲染內(nèi)容和渲染條件以及回放設(shè)備的多樣性，根據(jù)實(shí)際場(chǎng)景的需要來設(shè)置實(shí)驗(yàn)條件是必要的。所以將來測(cè)試個(gè)性化HRTF 效果的實(shí)驗(yàn)條件在特定標(biāo)準(zhǔn)下應(yīng)該是確定的；對(duì)比非個(gè)性化HRTF 時(shí)也應(yīng)該尋找一個(gè)質(zhì)量?jī)?yōu)異的數(shù)據(jù)庫作為共同標(biāo)準(zhǔn)。

除實(shí)驗(yàn)設(shè)置之外，從實(shí)驗(yàn)結(jié)果也可以看到目前直接預(yù)測(cè)個(gè)性化HRTF 算法的性能仍有進(jìn)步空間，如何準(zhǔn)確評(píng)價(jià)個(gè)性化HRTF算法的性能優(yōu)劣也是值得研究的問題。由于直接測(cè)量個(gè)性化HRTF的成本太高，對(duì)于實(shí)際應(yīng)用中的需求，使用優(yōu)化后的非個(gè)性化HRTF 來逼近個(gè)性化HRTF 也是一套備選方案。所以在無法追求理想的個(gè)性化HRTF 時(shí)，使用廣義上的考慮個(gè)性化信息的HRTF也能提升沉浸體驗(yàn)感。而進(jìn)行非個(gè)性化HRTF 的優(yōu)化時(shí)，也應(yīng)該充分考慮到個(gè)性化提升背后的聲學(xué)原理，配合多種措施來提升空間音頻的沉浸體驗(yàn)感。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡