国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向空間音頻的個(gè)性化頭相關(guān)傳輸函數(shù)定位性能研究綜述

2022-10-11 08:52邱音良李知禹王晶李嵩李婧欣
信號(hào)處理 2022年9期
關(guān)鍵詞:耳廓聲源聽音

邱音良 李知禹 王晶 李嵩 李婧欣

(1.北京理工大學(xué)信息與電子學(xué)院,北京 100081;2.聲網(wǎng)Agora,浙江杭州 310012;3.中國電子技術(shù)標(biāo)準(zhǔn)化研究院,北京 100176)

1 引言

隨著虛擬現(xiàn)實(shí)技術(shù)的發(fā)展以及元宇宙概念的火熱,沉浸體驗(yàn)感不佳再度成為了亟須解決的問題。造成該現(xiàn)象的原因是多種多樣的,包括圖像渲染不夠真實(shí),交互操作不夠豐富等直接的視覺和人機(jī)交互因素。而現(xiàn)實(shí)生活中大腦需要同步處理視覺和聽覺信息,空間音頻是虛擬現(xiàn)實(shí)乃至未來元宇宙世界中的關(guān)鍵信息內(nèi)容,如何提升空間音頻的沉浸感成為十分重要的研究問題。效果良好的空間音頻效果力圖讓人們感受到身臨其境的真實(shí)感,現(xiàn)階段雙耳虛擬空間音頻的實(shí)現(xiàn)方式主要是基于頭相關(guān)傳輸函數(shù)(Head-related transfer function,HRTF)渲染[1]。一些新型的基于數(shù)據(jù)驅(qū)動(dòng)的空間音頻生成方法仍然不夠成熟,例如利用神經(jīng)網(wǎng)絡(luò)將單聲道音頻渲染為雙耳空間音頻的方法[2]實(shí)現(xiàn)過程中需要較高的算力,提高了對(duì)底層硬件的要求,且神經(jīng)網(wǎng)絡(luò)建模方法在理論上可解釋性較差,不利于后續(xù)的優(yōu)化改進(jìn)。而HRTF 依據(jù)傳統(tǒng)數(shù)字信號(hào)處理的原理,描述的是在自由場(chǎng)環(huán)境下,聲音由聲源處傳輸?shù)饺硕缓蟊欢伣邮盏恼麄€(gè)物理過程。換句話說,它可以被視為一個(gè)聲音傳輸?shù)南到y(tǒng)函數(shù),以頻域?yàn)V波器的形式表示了頭部對(duì)空間中不同位置聲音的處理過程[3]??紤]到每個(gè)人的頭部和耳廓形狀有所差異,相同聲源發(fā)出的聲波進(jìn)入不同人耳前需要進(jìn)行不同的個(gè)性化處理,因此每個(gè)人的HRTF都是與眾不同的[4]。想要得到聽覺上更好的沉浸式體驗(yàn)感,自然需要使用聽者對(duì)應(yīng)的個(gè)性化HRTF。但是直接和全面測(cè)量個(gè)體的HRTF 極為耗時(shí)且需要貴重設(shè)備和消聲環(huán)境,使得個(gè)性化HRTF 的成本居高不下。而個(gè)性化HRTF 會(huì)帶來多大程度的效果提升,這種效果提升怎樣體現(xiàn)在增強(qiáng)聲源定位準(zhǔn)確度方面以在一定程度上達(dá)到增加沉浸感的目的,本文旨在通過調(diào)研相關(guān)資料和分析HRTF的影響機(jī)理來解答這兩個(gè)問題。

HRTF 有多種獲取方式。通過實(shí)驗(yàn)室測(cè)量獲得的HRTF相對(duì)準(zhǔn)確,但是測(cè)量成本較高,并且測(cè)量規(guī)范有很多種,不同方法間有一定偏差。Andreopoulou對(duì)比不同的測(cè)量方法的結(jié)果,發(fā)現(xiàn)在各頻段都有一定偏差,特別是在8 kHz 以上的部分[5]。近幾年情況有所改善,余光正[6]研發(fā)的系統(tǒng)已經(jīng)可以在20 min 左右完成近場(chǎng)HRTF 的測(cè)量,8 kHz 以下誤差小于0.5 dB,12 kHz以下誤差不大于2~3 dB。Jenny和Reuter[7]研發(fā)的系統(tǒng)可以在60 min(測(cè)量過程20 min,調(diào)試和說明40 min)左右完成測(cè)量,結(jié)果較為準(zhǔn)確。另一類獲取HRTF 的方法是通過計(jì)算獲得。計(jì)算使用的模型種類繁多,在此不一一列舉。為了計(jì)算個(gè)性化HRTF,需要耳廓或者頭的3D 幾何結(jié)構(gòu),計(jì)算的準(zhǔn)確程度很依賴測(cè)量的精度(特別是高頻部分)。若想保證準(zhǔn)確采集,同樣需要耗費(fèi)不小的成本進(jìn)行測(cè)量。為了降低個(gè)性化的成本,許多近似獲取方法被設(shè)計(jì)了出來。鐘小麗和謝菠蓀在引文[8]中分析了基于生理參數(shù)的個(gè)性化方法、基于主觀實(shí)驗(yàn)的個(gè)性化方法基于少量測(cè)量的個(gè)性化方法等近似方法,得出HRTF準(zhǔn)確度(特別是高頻部分)有待提高,距離商業(yè)化還有差距的結(jié)論。隨著人工智能在聲學(xué)領(lǐng)域的應(yīng)用,基于人工智能的方法可以大幅提高獲取個(gè)性化HRTF 的效率。Guo[9]提出了一種基于聚類算法的個(gè)性化HRTF 近似方法。將數(shù)據(jù)庫中的HRTF 分類,然后通過一些簡(jiǎn)單的生理參數(shù)測(cè)量選擇最近似聽音者的某一類HRTF,極大降低測(cè)量成本的同時(shí)獲得了很好的效果。Gebru等人[10]設(shè)計(jì)了一套基于深度學(xué)習(xí)的HRTF 預(yù)測(cè)系統(tǒng),該系統(tǒng)的輸入?yún)?shù)不需要專業(yè)聽音室即可測(cè)得,也在降低了成本的同時(shí)獲得了很好的結(jié)果。

考慮到HRTF在空間音頻上的定位性能主要影響以下三個(gè)方面:(1)水平和垂直方向定位精度;(2)頭中效應(yīng);(3)前后混淆現(xiàn)象。因此本文也將由這三個(gè)方面分別展開,分析個(gè)性化HRTF 對(duì)不同方面影響的相關(guān)原理,以及通過已有的主觀實(shí)驗(yàn)結(jié)果說明個(gè)性化HRTF 的作用。本文將在第2 節(jié)介紹對(duì)定位精度影響的相關(guān)內(nèi)容;在第3 節(jié)介紹對(duì)頭中效應(yīng)影響的相關(guān)內(nèi)容;在第4 節(jié)介紹對(duì)前后混淆影響的相關(guān)內(nèi)容;在5 節(jié)中總結(jié)個(gè)性化HRTF 影響方面及其影響因素,個(gè)性化HRTF相關(guān)主觀實(shí)驗(yàn)結(jié)果;在第6 節(jié)中給出個(gè)性化HRTF 作用效果及價(jià)值的相關(guān)結(jié)論。對(duì)于音頻的評(píng)價(jià)包含主觀評(píng)價(jià)和客觀評(píng)價(jià)兩種形式[11],沉浸感更多來自人的主觀感受,因此以下重點(diǎn)討論主觀實(shí)驗(yàn)的結(jié)果。

2 水平和垂直方向定位精度

空間音頻的良好體驗(yàn)首要考慮的是較高的定位精度,而涉及到空間里的定位效果,通常以球坐標(biāo)系為參照,需要同時(shí)考慮水平方向和垂直方向定位精度。從生物學(xué)的角度來看,人耳的左右對(duì)稱更適合水平定位,實(shí)際生活中人類對(duì)水平方向定位精度也遠(yuǎn)高于垂直方向定位精度。

如謝菠蓀教授在[12-13]中介紹的,傳統(tǒng)的聲源定位因素即雙耳時(shí)間差(Interaural time difference,ITD)和雙耳聲級(jí)差(Interaural level difference,ILD),在不同頻段二者的重要性不同。在中、低頻段(低于1.6 kHz),ITD 對(duì)定位起主要作用;在中頻段(1.5~4.0 kHz),ITD 和ILD 對(duì)定位共同起作用;而在高頻段(高于4 kHz),ILD 對(duì)定位起主要作用。而傳統(tǒng)聲源定位因素有一定的局限性,因此本文接下來將從水平定位和垂直方向定位原理兩方面進(jìn)一步探究。

2.1 水平定位原理

水平定位的原理可以直觀的使用ITD 和ILD 解釋。如圖1所示,當(dāng)聲源在人體右側(cè)時(shí),因?yàn)轭^部的遮擋作用,聲音先達(dá)到右耳再到達(dá)左耳,即造成了ITD;且右耳接收到的聲音幅值高于左耳,即造成了ILD。Letowski T R 等人在[14]中對(duì)左右定位問題做出了進(jìn)一步的研究,他們提出許多實(shí)驗(yàn)表明ITD在低于800 Hz 的頻段提供左右定位信息,而ILD 在高于1600 Hz 的頻段提供左右定位信息。在800~1600 Hz 頻段圍內(nèi),單獨(dú)使用ITD 或ILD 起到的作用有限,聯(lián)合使用兩種定位因素能使聽音人獲得更有效的定位能力。

圖1 聲音傳輸示意圖Fig.1 Schematic diagram of sound transmission

因此考慮水平定位影響因素時(shí),可以認(rèn)為耳朵形狀差異帶來的影響比較小,頭部形狀差異造成的影響更大[15]。而考慮到HRTF描述的聲音傳輸物理過程包括了頭部的影響,個(gè)性化HRTF 能夠更符合個(gè)體頭部遮擋對(duì)聲音的影響,因此渲染結(jié)果能使水平定位更準(zhǔn)確。

2.2 垂直定位原理

垂直定位準(zhǔn)確度主要是由正中面的定位精度反應(yīng)。如圖2 所示,正中面(median plane)指位于正中位置的矢狀面,該平面通過肚臍中線,將身體垂直平分,將身體左右兩側(cè)精確地分開。研究該平面對(duì)應(yīng)角度的HRTF 即可探究HRTF 垂直定位的精確度[16]。

圖2 人體解剖學(xué)平面圖(紅色為正中面)1https://www.biologyonline.com/dictionary/median-planeFig.2 Plan view of human anatomy(red is the median plane)1https://www.biologyonline.com/dictionary/median-plane

與水平定位精度不同,垂直定位精度和人耳形狀的聯(lián)系更為密切。Grothe 等人[17]經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn):給聽音人插入只改變外耳形狀,而不影響聲音通過的耳模后,聽音人會(huì)難以進(jìn)行垂直方向上的聲音定位(但是水平定位的能力似乎沒有改變)。在接下來的幾個(gè)周中,持續(xù)佩戴耳模的聽音人對(duì)垂直定位的精確度逐漸提高。到一個(gè)月時(shí),聽音人幾乎能完全適應(yīng)新的定位信息,進(jìn)行正常的垂直方向的聲音定位。并且在去除耳模后,聽音人的定位能力并不會(huì)受影響。這表明不同人可以通過個(gè)性化的耳朵形狀,后天學(xué)習(xí)到如何利用頻譜信息定位的能力。

研究人員對(duì)正中面定位利用的頻譜信息做了進(jìn)一步研究[16],在大約5 kHz以上的頻段,由耳廓引起的HRTF 頻譜差異影響了正中面的定位精度。Mehrgardt 和Mellert 表明[18],在5 kHz 以上的頻段,頻譜會(huì)隨著聲源高度的變化進(jìn)行系統(tǒng)性地變化。Shaw 和Teranishi 報(bào)告[19]說,當(dāng)聲源的仰角從-45°變?yōu)?5°時(shí),HRTF 頻譜的一個(gè)波谷位置由6 kHz 變?yōu)?0 kHz。Iida 等人[20]分別對(duì)耳廓、耳廓螺旋與反螺旋之間的縱向溝、外耳這三個(gè)空腔進(jìn)行阻塞,再對(duì)聽音人進(jìn)行定位測(cè)試和HRTF測(cè)量。隨后他們得出相同的結(jié)論,影響正中面定位的頻譜信息存在于HRTF的5 kHz以上的高頻分量中。

基于上述研究確定HRTF 和耳廓結(jié)構(gòu)有關(guān)聯(lián)后,為了進(jìn)一步探究HRTF和耳朵結(jié)構(gòu)之間的關(guān)聯(lián),研究人員開始分析個(gè)性化HRTF之間差異比較大的點(diǎn),其中以HRTF 的波峰波谷最為突出。Shaw E A G 等人指出[19]HRTF 的波峰是由耳廓的共振產(chǎn)生的。而在波谷頻率處,耳甲艇和三角窩共同作用產(chǎn)生波腹,耳甲腔產(chǎn)生波節(jié)點(diǎn)。Simone Spagnol 等人在[21]中報(bào)告構(gòu)造適合垂直定位的個(gè)性化HRTF時(shí)需要尤其注意最低頻率的波谷。為了用實(shí)驗(yàn)對(duì)該結(jié)論進(jìn)一步驗(yàn)證,Grothe B[17]等人使用1秒白噪聲信號(hào)(截止頻率為44.1 kHz)與KEMAR 頭模型的HRTF 做卷積來渲染,并重復(fù)實(shí)驗(yàn)超過50 次得到平均結(jié)果:將聲源位置由水平面下方45°移動(dòng)到水平面上方45°后,渲染出聲音的有效頻譜中的波谷中心頻率會(huì)移動(dòng)到更高頻率處。

而波峰波谷與HRTF的相關(guān)性可以通過齊娜等人在[22]中的論述解釋。他們指出不同方向入射的聲波會(huì)被耳廓的不同部位反射進(jìn)入耳道,反射聲和直達(dá)聲在耳道入口處進(jìn)行疊加干涉,因此形成了HRTF 的波峰和波谷??紤]到人類耳廓的尺寸大約是65 mm,所以只在2~3 kHz 以上的頻率,當(dāng)聲音波長(zhǎng)和耳廓尺寸近似的時(shí)候,耳廓對(duì)聲音的反射才起作用;對(duì)于5~6 kHz以上的高頻信號(hào),耳廓的定位因素才更加明顯。由此可知我們考慮個(gè)性化HRTF對(duì)垂直定位的影響時(shí),應(yīng)該考慮到人類本身對(duì)聲音垂直定位的能力。換而言之,使用個(gè)性化HRTF 渲染包含中高頻以上的頻段信息時(shí)才能取得較明顯的垂直定位能力提升。

從圖3可以清晰地看到在不同頻段上不同人的HRTF的差異是比較明顯的。

圖3 HUTUBS數(shù)據(jù)庫2https://depositonce.tu-berlin.de/handle/11303/9429中不同人的HRTF差異Fig.3 HRTF differences of different people in the HUTUBS database2https://depositonce.tu-berlin.de/handle/11303/9429

2.3 個(gè)性化HRTF的作用

目前針對(duì)個(gè)性化HRTF的定位性能實(shí)驗(yàn)往往分成水平方向和垂直方向分別進(jìn)行實(shí)驗(yàn):

(1)水平面上個(gè)性化HRTF 的定位效果目前有兩類主要對(duì)比方法:一部分學(xué)者將個(gè)性化HRTF 與人工頭HRTF 比較,如Wang L 等人在[23]中比較了使用預(yù)測(cè)算法生成的個(gè)性化HRTF 和使用KEMAR人工頭測(cè)量的HRTF。兩種預(yù)測(cè)的平均誤差在8 dB左右,主要集中在高頻部分。他們發(fā)現(xiàn)兩種HRTF渲染的正左和正右聲音沖激都能很容易被區(qū)分出來,而30°和45°時(shí)使用個(gè)性化HRTF 渲染的聲音角度感覺更準(zhǔn)確,且兩種HRTF 前方角度的分辨率均優(yōu)于后方。進(jìn)一步經(jīng)過方差分析(Analysis of Variance,ANOVA),HRTF 種類和測(cè)試使用的水平角對(duì)測(cè)試者有顯著作用,而HRTF 種類和水平角之間的相互作用不顯著,可以認(rèn)為實(shí)驗(yàn)是有效的;在0.05顯著水平下,個(gè)性化HRTF 的定位誤差要遠(yuǎn)低于非個(gè)性化HRTF 的定位誤差。Ben-Hur Z 在[24]中提出一種快捷且不損失準(zhǔn)確度的HRTF 測(cè)量方法,也比較了該方法測(cè)量出的個(gè)性化HRTF 和KEMAR 人工頭測(cè)量的HRTF,人工頭HRTF 的水平角度定位誤差顯著高于個(gè)性化HRTF。而Hu H 等人在[25]中引入了更多樣的對(duì)比項(xiàng),他們使用了:1)CIPIC數(shù)據(jù)庫中原有的HRTF(可被視為非個(gè)性化HRTF 的一種);2)通過他人人體參數(shù)預(yù)測(cè)出來的非個(gè)性化HRTF;3)通過聽音人人體參數(shù)預(yù)測(cè)出來的個(gè)性化HRTF。使用顯著水平0.05 的t 檢驗(yàn)對(duì)實(shí)驗(yàn)結(jié)果做驗(yàn)證,他們的實(shí)驗(yàn)結(jié)果顯示兩種非個(gè)性化HRTF 的水平定位效果相近,而使用個(gè)性化HRTF 使得水平定位準(zhǔn)確度顯著提升了20%。而[26]中M?ller H 使用了個(gè)性化和非個(gè)性化的人頭雙耳錄音,以女性說話音頻作為輸入信號(hào),并沒有發(fā)現(xiàn)個(gè)性化人頭錄音的顯著提高作用。類似的Begault D R 在[27]中使用語音信號(hào)也提到了個(gè)性化HRTF無法顯著提升水平定位準(zhǔn)確度。其原因在于語音信號(hào)的頻率遠(yuǎn)小于6 kHz。在低頻部分,各種方法獲得的通用或者個(gè)性化HRTF 的差別都不大。Liang Linda[28]的研究表明,表征語音感知雙耳效應(yīng)的雙耳語音傳輸指數(shù)的個(gè)體差異很小。在此情況下決定實(shí)驗(yàn)效果的主要是測(cè)量誤差,而兩篇文獻(xiàn)發(fā)表的年代也相對(duì)較早,測(cè)量技術(shù)不成熟,可能導(dǎo)致實(shí)際與理論不符,參考價(jià)值有限。

(2)在垂直方向上個(gè)性化HRTF 的定位效果較為顯著:如Ben-Hur Z 在[24]中通過比較了個(gè)性化HRTF 和KEMAR 人工頭測(cè)量的HRTF。實(shí)驗(yàn)結(jié)果表明,使用人工頭HRTF 帶來的垂直方向平均誤差為21.4°,而個(gè)性化HRTF 垂直方向平均誤差為10.9°。經(jīng)過統(tǒng)計(jì)學(xué)分析,個(gè)性化HRTF 比非個(gè)性化HRTF在垂直方向定位上有顯著提升。

3 頭中效應(yīng)

頭中效應(yīng)又稱為外化感弱,常見于耳機(jī)端的回放,聽音人會(huì)錯(cuò)誤地感覺聲像在頭中,而不是感知到在頭外部的虛擬聲源。此種現(xiàn)象會(huì)破壞聽音人的沉浸體驗(yàn)感,使其感受到不自然,不真實(shí)。

3.1 產(chǎn)生機(jī)理

Begault D R 等人在[27]中表示:很難精確的去渲染聲源的外化效果,但是外化感會(huì)隨著激勵(lì)信號(hào)更接近自然的激勵(lì)信號(hào)而增強(qiáng),從而達(dá)到了削弱頭中效應(yīng)的目的。而目前仿真自然的激勵(lì)信號(hào)方法通常有:(1)使用混響,(2)加入頭部運(yùn)動(dòng),(3)使用個(gè)性化HRTF。

而這三種方法并不是獨(dú)立關(guān)系,倘若分開使用則并不能保證效果,如Li S 等人在[29]中通過在虛擬現(xiàn)實(shí)(VR)中使用不同房間場(chǎng)景進(jìn)行實(shí)驗(yàn)說明:如果房間的聲學(xué)特性不符合聽音人的期望,雙耳聲音中“正確”的房間混響信息反而可能會(huì)降低感知的外化;Hendrickx E 等人在[30]中通過使用非個(gè)性化HRTF,渲染水平面不同角度的語音信號(hào),配合頭部追蹤器進(jìn)行實(shí)驗(yàn),他們發(fā)現(xiàn)頭部運(yùn)動(dòng)足夠大時(shí),頭部運(yùn)動(dòng)與頭部追蹤相結(jié)合的方法可以增強(qiáng)外化感。且頭部停止運(yùn)動(dòng)后,這種外化感的增強(qiáng)仍然存在。

Best V 等人在[31]中觀察到一種現(xiàn)象:聲源到達(dá)兩耳路徑差異越大,頭中效應(yīng)就越弱。即正中面相對(duì)比側(cè)面,聲源感知上會(huì)更靠?jī)?nèi)。聯(lián)系定位精度所涉及的理論,可以聯(lián)想到頭中效應(yīng)與ITD 和ILD也是相關(guān)聯(lián)的。Hartmann W M 等人[32]在使用自然的ITD 和ILD 組合來處理測(cè)試波形,使聽音人能感知得到與揚(yáng)聲器效果相當(dāng)?shù)碾p耳音頻。而改變ITD和ILD,使其偏離自然值,頭中效應(yīng)會(huì)明顯加強(qiáng)。在不同頻率段上,他們認(rèn)為ITD 可以提升1 kHz 以下頻段聲音的外化效果,而ILD 可以提升所有頻段。因此考慮到使用個(gè)性化HRTF 等同于引入自然的、符合聽音人感知的雙耳線索和頻譜線索,個(gè)性化HRTF會(huì)起到一定的削弱頭中效應(yīng)的作用。

3.2 個(gè)性化HRTF的作用

對(duì)于以感知聲源距離為標(biāo)準(zhǔn)的外化感,Jenny C等人在[7]中使用了兩組對(duì)比項(xiàng)來探究個(gè)性化HRTF 提升的效果,分別是:(1)聽音人個(gè)性化的HRTF 和通用HRTF(KEMAR 假人頭模型測(cè)量的HRTF),(2)聽音人個(gè)性化的HRTF和基于[33]中模型從ARI 數(shù)據(jù)庫中挑選出的聽音人定位誤差最大的非個(gè)性化HRTF(下簡(jiǎn)稱為最大HRTF)、定位誤差最小的非個(gè)性化HRTF(下簡(jiǎn)稱為最小HRTF)。他們的實(shí)驗(yàn)結(jié)果顯示為:個(gè)性化HRTF 的外化感得分顯著高于通用HRTF;個(gè)性化HRTF 外化感平均得分和最小HRTF 的相同,但整體高于最小HRTF,最大HRTF明顯比個(gè)性化HRTF和最小HRTF得分低。而Cal Armstrong 在[34]中使用低頻補(bǔ)償和擴(kuò)散聲場(chǎng)技術(shù)的后處理技術(shù),針對(duì)人工頭測(cè)量的非個(gè)性化HRTF 和實(shí)際測(cè)量的個(gè)性化HRTF 做后處理,測(cè)試結(jié)果顯著表明KU-100 的人工頭測(cè)量的HRTF 數(shù)據(jù)集在減弱頭中效應(yīng)方面普遍優(yōu)于個(gè)性化HRTF。該實(shí)驗(yàn)選用了器樂的聲音作為測(cè)試音,但并沒有說明受試者是否有相應(yīng)的器樂知識(shí),因此該實(shí)驗(yàn)的結(jié)果可能存在一定偏差。但是該實(shí)驗(yàn)給了我們兩點(diǎn)啟發(fā)。其一,對(duì)HRTF 的測(cè)試流程是一個(gè)非常值得研究的課題。其二,通過后期處理有可能讓通用HRTF的效果獲得很大的提升。

4 前后混淆

前后混淆現(xiàn)象指由于人耳的左右對(duì)稱結(jié)構(gòu),位于與正中矢狀面平行的平面上的聲源到達(dá)每只耳朵具有相同的ITD 和ILD,導(dǎo)致聽音人對(duì)聲音位于前方還是后方產(chǎn)生誤判的一種現(xiàn)象,尤其常見于雙耳回放中。在實(shí)際生活中,由于頭部運(yùn)動(dòng)和耳廓對(duì)聲音頻譜的影響,人們很少會(huì)產(chǎn)生前后混淆[35]。

4.1 產(chǎn)生機(jī)理

Zieliński S K 等人在[36]中介紹說在沒有微頭部運(yùn)動(dòng)的前提下,只使用HRTF 能夠區(qū)分前后聲源的原因可能是存在一部分特殊的個(gè)性化頻譜線索,使得聽音人能夠區(qū)分前后聲源。近似地Johansson M 在[37]中也提到在區(qū)分前后位置聲音的過程中,大腦會(huì)利用不同人耳朵、頭部和軀干形狀的微小形狀差異,耳廓的具體細(xì)節(jié)如圖4 所示。不同方向的聲波在經(jīng)過耳廓時(shí),聲波包含的不同頻率分量會(huì)在耳廓的復(fù)雜結(jié)構(gòu)內(nèi)部發(fā)生不同程度的透射、折射或反射,最終達(dá)到鼓膜前,不同頻率的聲波會(huì)受到不同程度的衰減。因此大腦可以根據(jù)各頻率的衰減情況,來定位聲源的前后方向。考慮到人和人形體之間的差異,大腦使用的細(xì)節(jié)也因人而異。倘若個(gè)性化HRTF 的測(cè)量足夠精細(xì),則可以包含這些人體細(xì)節(jié)的影響,使渲染音頻的前后混淆下降。更進(jìn)一步的謝菠蓀等人在[12]中指出在高頻頻段(>5 kHz),波長(zhǎng)與耳廓尺度相近,耳廓對(duì)聲波的散射集中體現(xiàn)在HRTF高頻段的前后不對(duì)稱性和頻譜存在波峰波谷,他們認(rèn)為這是區(qū)分前后聲源的重要線索。

圖4 耳廓體表解剖學(xué)示意圖3https://www.gmzyjc.com/read/zjz/zjz03-0.7.1.0.0.mdFig.4 Schematic diagram of the anatomy of the auricle body surface3https://www.gmzyjc.com/read/zjz/zjz03-0.7.1.0.0.md

4.2 個(gè)性化HRTF的作用

考慮到前后混淆可以被頭部運(yùn)動(dòng)所緩解,所以存在兩種測(cè)試前后混淆的實(shí)驗(yàn)設(shè)置:

(1)不使用頭部追蹤設(shè)備,如Lee G W 在[38]中使用了多種方法對(duì)比,分別是:1)新提出使用人體參數(shù)和耳廓測(cè)量參數(shù)的個(gè)性化HRTF 預(yù)測(cè)方法;2)將數(shù)據(jù)庫中的不同人HRTF取平均得到平均化的HRTF;3)[39]中使用人體參數(shù)的個(gè)性化HRTF預(yù)測(cè)方法。關(guān)于水平面上的定位能力實(shí)驗(yàn)結(jié)果顯示:方法1)相比方法2)和3)的前后混淆率分別降低了12.5%和2.5%??梢钥闯鰝€(gè)性化HRTF 降低前后混淆的作用比較明顯,且不同個(gè)性化預(yù)測(cè)算法存在提升空間。Ben-Hur Z 在[24]中通過比較了個(gè)性化HRTF 和KEMAR 人工頭測(cè)量的HRTF。實(shí)驗(yàn)表明,使用人工頭HRTF 會(huì)造成的前后混淆概率為9.8%,而使用個(gè)性化HRTF 時(shí)只有4.7%。經(jīng)過統(tǒng)計(jì)學(xué)分析,使用個(gè)性化HRTF 會(huì)顯著降低前后混淆。而Hu H 等人在[25]使用顯著水平0.05 的t 檢驗(yàn)對(duì)實(shí)驗(yàn)結(jié)果做驗(yàn)證,他們的實(shí)驗(yàn)結(jié)果顯示兩種非個(gè)性化HRTF 的前后混淆概率相當(dāng),而使用個(gè)性化HRTF使得前后混淆概率下降3%。

(2)使用頭部追蹤設(shè)備,如Jenny C 等人在[7]中使用了VR 設(shè)備來比較個(gè)性化HRTF 和通用HRTF 的前后混淆情況,他們的實(shí)驗(yàn)結(jié)果顯示為:在有頭部追蹤的情況下,個(gè)性化HRTF 沒有發(fā)生前后混淆現(xiàn)象,而通用HRTF 前后混淆的比例達(dá)到了27%。統(tǒng)計(jì)學(xué)分析表明,使用個(gè)性化HRTF 可以顯著降低前后混淆。而在和定位誤差最大HRTF、最小HRTF 比較時(shí),個(gè)性化HRTF 仍然沒有發(fā)生前后混淆現(xiàn)象,最小HRTF前后混淆率為6%,最大HRTF前后混淆率為24%。值得注意的是,沒有專業(yè)聽音知識(shí)的人幾乎找不到最小HRTF帶來的前后混淆。

5 總結(jié)

表1 總結(jié)了個(gè)性化HRTF 的影響方面及其影響因素,可以看出對(duì)于不同的方面,個(gè)性化HRTF的影響因素有一些重疊。表2總結(jié)了文中引用的主觀實(shí)驗(yàn)。從結(jié)果來看,絕大多數(shù)實(shí)驗(yàn)的被測(cè)者都表示個(gè)性化的HRTF提高了聲音的定位精度。少部分實(shí)驗(yàn)的結(jié)果是個(gè)性化的HRTF 相對(duì)通用HRTF 不能顯著提高聲音的定位精度,這部分實(shí)驗(yàn)所選用的測(cè)試音頻的頻段比較特殊,能量主要集中在低頻段,不容易體現(xiàn)個(gè)性化HRFT的優(yōu)勢(shì)。

表1 個(gè)性化HRTF影響總結(jié)Tab.1 Summary of the impact of personalized HRTF

表2 個(gè)性化HRTF影響主觀實(shí)驗(yàn)總結(jié)Tab.2 Summary of subjective experiments on the impact of personalized HRTF

6 結(jié)論

個(gè)性化HRTF 能夠提高定位精度,尤其是垂直方向,一定程度削弱頭中效應(yīng),一定程度減少前后混淆現(xiàn)象,即可以認(rèn)為使用個(gè)性化HRTF 對(duì)一定程度上提升沉浸體驗(yàn)感是有直接幫助的。

同時(shí)需要關(guān)注到的是目前個(gè)性化HRTF效果評(píng)測(cè)實(shí)驗(yàn)存在著實(shí)驗(yàn)條件設(shè)置差異較大的問題,可以看到實(shí)驗(yàn)使用的聲源包括白噪聲、語音信號(hào)且截止頻率有所差異;回放設(shè)備包括耳機(jī)回放,VR 回放;運(yùn)動(dòng)傳感器包括使用和不使用;聽音人包括有專業(yè)聽音知識(shí)和普通聽音人;對(duì)比的非個(gè)性化HRTF 包括通用HRTF(人工頭HRTF)和根據(jù)其他聽音人測(cè)量的HRTF。考慮到空間音頻的渲染內(nèi)容和渲染條件以及回放設(shè)備的多樣性,根據(jù)實(shí)際場(chǎng)景的需要來設(shè)置實(shí)驗(yàn)條件是必要的。所以將來測(cè)試個(gè)性化HRTF 效果的實(shí)驗(yàn)條件在特定標(biāo)準(zhǔn)下應(yīng)該是確定的;對(duì)比非個(gè)性化HRTF 時(shí)也應(yīng)該尋找一個(gè)質(zhì)量?jī)?yōu)異的數(shù)據(jù)庫作為共同標(biāo)準(zhǔn)。

除實(shí)驗(yàn)設(shè)置之外,從實(shí)驗(yàn)結(jié)果也可以看到目前直接預(yù)測(cè)個(gè)性化HRTF 算法的性能仍有進(jìn)步空間,如何準(zhǔn)確評(píng)價(jià)個(gè)性化HRTF算法的性能優(yōu)劣也是值得研究的問題。由于直接測(cè)量個(gè)性化HRTF的成本太高,對(duì)于實(shí)際應(yīng)用中的需求,使用優(yōu)化后的非個(gè)性化HRTF 來逼近個(gè)性化HRTF 也是一套備選方案。所以在無法追求理想的個(gè)性化HRTF 時(shí),使用廣義上的考慮個(gè)性化信息的HRTF也能提升沉浸體驗(yàn)感。而進(jìn)行非個(gè)性化HRTF 的優(yōu)化時(shí),也應(yīng)該充分考慮到個(gè)性化提升背后的聲學(xué)原理,配合多種措施來提升空間音頻的沉浸體驗(yàn)感。

猜你喜歡
耳廓聲源聽音
管道有源噪聲控制中壁面分布次級(jí)聲源的空間分布優(yōu)化
虛擬聲源定位的等效源近場(chǎng)聲全息算法
一種基于麥克風(fēng)陣列用于分離單極子和偶極子聲源的方法
平遠(yuǎn)雨夜
搓耳
——護(hù)腎
室內(nèi)聲音導(dǎo)航系統(tǒng)
有人
有人
奇思妙想
運(yùn)用耳廓復(fù)合組織瓣修復(fù)鼻翼缺損