仝欣,齊娜
(中國傳媒大學傳播聲學研究所,北京,100024)
?
運動聲源的雙耳錄音聲像定位效果分析
仝欣,齊娜
(中國傳媒大學傳播聲學研究所,北京,100024)
摘要:分析了不同運動方式下雙耳錄音的聲像定位效果,錄音采用的聲學頭模是由中國傳媒大學自行研制的,頭部尺寸符合中國人的平均生理參數(shù)。共錄制、評價了三種聲源狀態(tài)下的定位效果:靜止、射線運動和橫向運動。主觀評價實驗結(jié)果表明運動聲源有助于將聲像定位在頭外,在一定程度上改善了頭中定位效應,但聲源運動并不能有效地減少聲像前后混淆率和上下混淆率。此外,不同的聲源運動方式也影響著聲像定位的正確率,橫向運動比射線運動的聲像方向定位正確率高9%。
關(guān)鍵詞:雙耳錄音;聲像定位;聲像混淆;頭中效應
1引言
將微型傳聲器置于真人(或人工頭模)的耳道入口處或鼓膜處進行拾音的方式稱為雙耳錄音。在實際應用中,多采用人工頭模代替真人進行雙耳錄音。目前市場上的人工頭模幾乎全部都是根據(jù)西方人的平均生理尺寸或“標準”數(shù)據(jù)設(shè)計而成的。由于HRTF是與生理結(jié)構(gòu)和尺寸密切相關(guān)的,而人體生理尺寸的統(tǒng)計結(jié)果又和種族、地域等有關(guān),中國人與西方人的頭部生理尺寸參數(shù)存在明顯的差異性,所以按照西方人平均尺寸參數(shù)設(shè)計的人工頭模對于中國人來說并不是十分適用。基于此現(xiàn)狀,中國傳媒大學傳播聲學研究所根據(jù)中國人面部尺寸的國家標準設(shè)計制作了符合中國人平均生理參數(shù)的仿真頭模[1]。考慮到全尺寸的結(jié)構(gòu)仿真頭模造價偏高,以及實際應用的場合,在保留其主要聲學特性的基礎(chǔ)之上對仿真頭模的頭部以及肩部等細節(jié)結(jié)構(gòu)進行了一定的簡化,設(shè)計制作了一個簡化聲學頭模[2](如圖1所示)。頭模上安裝的耳廓模型,是根據(jù)對200對成年人耳廓進行測繪分析后制作的“平均耳”[3]。相關(guān)實驗顯示該聲學頭模的錄音效果在一定程度上可以與仿真頭模等效[4]。本文研究的主要目的就是通過主觀聲像定位實驗來探究聲源運動時該聲學頭模雙耳錄音的空間定位效果。
目前國內(nèi)外已有大量研究表明,人工頭模雙耳錄音的聲像定位效果要比真實聲源情況下差。Laws和Platte[5]采用Neumann KU80錄制了語音信號,并與真實聲源進行對比。真實聲源聽音時,被試判斷的方向幾乎與實際方向一致,且在0°和180°時沒有前后混淆現(xiàn)象,頭中定位率只有5%。而采用人工頭模得到的雙耳錄音在回放時最多有60°的定位偏差,且出現(xiàn)52%的前-后混淆率和12.5%的后-前混淆率,頭中定位率為11%。Poulsen[6]采用噪聲和語音作為刺激信號也得到類似的結(jié)果:聽真實聲源時無定位錯誤,而采用Neumann KU80和KEMAR的雙耳錄音出現(xiàn)很多混淆,兩種人工頭模的錄音分別有28%和41%的前后混淆率,以及33%和29%的相鄰角度混淆。Boerger等人[7]的實驗結(jié)果則指出人工頭錄音的前-后和后-前混淆大約分別為28%和47%。Wightman和Kistler[8]采用個性化HRTF進行錄音,也存在11%的前后混淆,而真實聲源聽音情況下僅為6%。楊天琪[4]對比分析了基于中國人平均生理參數(shù)的仿真頭模和聲學頭模的雙耳錄音定位效果。結(jié)果顯示,仿真頭模定位在頭外的比率在40%~50%之間,簡化聲學頭模定位在頭外的比率更低,只有30%左右。楊天琪等人[9]的另一個實驗結(jié)果表明仿真頭模的平均前后混淆率在30%左右。
由此可見雙耳錄音普遍存在聲像混淆和頭中定位效應[10]。然而,在目前公開發(fā)表的文獻中,都是對靜態(tài)聲源進行定位實驗,未見有關(guān)動態(tài)聲源定位效果評價方面的研究。本文的主要工作就是通過主觀聲像定位實驗來分析聲源運動時聲學頭模雙耳錄音的空間定位效果。
圖1 聲學頭模
2聲學頭模雙耳錄音
本文工作中進行雙耳錄音時均采用圖1所示的聲學頭模,雙耳耳道入口處分別裝有DPA 4060全指向微縮傳聲器,傳聲器輸出直接接入ROLAND EDIROL R4-Pro便攜式專業(yè)錄音機,錄音采樣率為44.1kHz,量化精度為16bit。
共選擇了五種具有不同聲學特性的錄制環(huán)境,環(huán)境編號、名稱等詳細信息以及錄制過程中聲學頭模在各個環(huán)境中的擺放位置和朝向見表1,聲學頭模耳道入口處距地面的高度為1.5m。
錄音時采用的聲源為連續(xù)敲擊的竹板聲,分別錄制了聲源靜止時以及按照射線方向和橫向方向運動的情況。靜止聲源距聲學頭模距離為1.5m,錄制了全空間26個方向:水平方位角分別為0°、45°、90°、135°、180°、225°、270°和315°,俯仰角分別為90°、45°、0°、-45°和-90°的方向(采用順時針球坐標系[11],其水平方位角和俯仰角的定義如圖2所示)。圖3給出了聲源做射線運動的示意圖,聲源從聲學頭模處出發(fā),沿著26個射線方向由近及遠或由遠及近地運動(圖中只畫出了一個方向),26個射線方向與靜止聲源所在方向一致。圖4所示為聲源做橫向運動的示意圖,在俯仰角分別為45°、0°、和-45°三個平面上分別錄制水平方位角為0°、45°、90°、135°、180°、225°、270°和315°,總計24個方向。聲源在各個方向上距聲學頭模1.5m處做垂直于該射線方向保持在同一高度上的的雙向水平運動(圖中只畫出了一個方向)。
表1 錄制環(huán)境說明
(a)水平方位角
(b)俯仰角圖2 順時針球坐標系
圖3 射線運動
圖4 橫向運動
3主觀聽感實驗
主觀聽感實驗在符合標準的聽音室內(nèi)進行,被試為22~26歲的聲學專業(yè)研究生,男女各10名,均無聽力缺陷,左右耳聽閾無明顯差別。重放采用Auido-Technica ATH-CK7入耳式耳塞,測量耳塞重放信號的聲壓級,使其保持在70~75dB(A)。實驗信號包括聲源靜止情況以及兩種不同運動方式下的雙耳錄音素材,實驗信號隨機打亂進行重放。聽音時要求被試坐正,頭部保持直立狀態(tài),不要隨意搖動。
被試需要判斷所聽聲音信號的方向,在26(靜止時)或24(橫向運動時)個方向中強迫選擇一個,還要判斷頭中定位情況,在頭內(nèi)、頭皮和頭外三個范疇中強迫選擇一個;聲源射線運動部分,被試只需要判斷所聽到聲音信號的方向,在26個方向中強迫選擇一個,不需要判斷頭中定位情況。因為頭中定位情況與聲源距離有很大的關(guān)系,而做射線運動的聲源有明顯的遠近變化,無法得到穩(wěn)態(tài)的頭中定位情況。
4實驗結(jié)果分析
圖5為聲源靜止以及進行射線運動和橫向運動時水平方向定位的平均正確率。因為聲學頭模是左右對稱的,為方便分析,將水平方位角0°定義為正前方,45°和315°定義為斜前方,90°和270°定義為正左/右方,135°和225°定義為斜后方,180°定義為正后方。在計算聲源靜止和射線運動時未包含俯仰角為±90°的信號,這兩個俯仰角方向并無水平方位角的差別,而橫向運動信號中本身就不包含俯仰角±90°。三種聲源狀態(tài)所得到的實驗結(jié)果相似:正左/右方向正確率最高,平均達到97%;其次是正后方和斜后方,正確率達80%左右(除聲源靜止時的正后方);正前方的方向定位正確率最低,不到20%。同時實驗結(jié)果表明,聲源運動時后方聲源比前方聲源的水平方向定位正確率高。對于正后方聲源來說,聲源射線運動和橫向運動時較聲源靜止時水平方向正確率分別有15%和21%的提高。
圖5 水平方向定位正確率
圖6為聲源靜止時,聲源在垂直方向上的定位結(jié)果,共包括五個俯仰角:水平面(俯仰角0°)、斜上方(俯仰角45°)和斜下方(俯仰角-45°)、正上方(俯仰角90°)和正下方(俯仰角-90°)。可以看出無論聲源在哪個俯仰角方向,大部分聲像都定位在水平面上。這說明,聲學頭模錄音的聲像在垂直方向上有較嚴重的畸變,不僅有上下混淆,還有向上或向下偏移的現(xiàn)象。圖中黑色圓圈標注的是各個俯仰角的聲源在重放時垂直方向上的聲像定位正確率。其中,水平面上的聲源俯仰角定位正確率最高為54%,也存在相當一部分聲源定位到斜上方和斜下方;其次是斜上方和斜下方聲源,俯仰角正確率分別為34%和25%;正上方和正下方的聲源俯仰角定位正確率最低,分別為13%和5%。聲源做射線運動時的俯仰角定位情況(見圖7)與聲源靜止時的實驗結(jié)果十分相似。
圖6 聲源靜止時的俯仰角定位情況
圖7 聲源射線運動時的俯仰角定位情況
圖8為聲源橫向運動時,定位在各個俯仰角的比率。與射線運動相似,大部分聲像都定位在水平面上。水平面聲源的俯仰角正確率最高,為51%,定位在斜上方和斜下方的比率分別為29%和20%;斜上方聲源的正確率40%比斜下方聲源的正確率25%高,且斜下方聲源比斜上方聲源更容易發(fā)生上下混淆。
圖8 聲源橫向運動時的俯仰角定位情況
圖9為聲像發(fā)生前后混淆和上下混淆的情況。由圖可以看出聲源無論是靜止狀態(tài)還是運動狀態(tài),前-后混淆率要遠高于后-前混淆率,即前方的聲音比后方的聲音更容易發(fā)生前后混淆,前方聲音更容易定位在后方。下-上混淆率高于上-下混淆率,即下方聲音更容易定位到上方??傮w來看,平均前后混淆率明顯高于上下混淆率,即前后混淆現(xiàn)象更嚴重些??傮w來說,聲源的運動狀態(tài)對前后混淆率和上下混淆率沒有太大的影響,聲源運動并不能有效地改善方向定位混淆的現(xiàn)象。
圖9 聲像定位混淆率
圖10為各個錄制環(huán)境下的方向定位正確率。從圖中可以看出,聲源靜止時五種環(huán)境的正確率基本相等,40%左右;聲源做射線運動時,五種環(huán)境的正確率相差不大,在44%~47%之間??梢姯h(huán)境對聲源靜止和做射線運動時的方向定位感知影響并不大。聲源橫向運動時,環(huán)境1的方向定位正確率最高,為63%,其次是環(huán)境2,環(huán)境4的正確率最低,為48%。五個環(huán)境的混響時間分別為:0.28s、1.65s、2.40s、2.20s和3.22s。計算五種環(huán)境下橫向運動方向定位總正確率和混響時間的Pearson相關(guān)系數(shù),為-0.91。說明橫向運動方向定位正確率與混響時間成較大的負相關(guān),即混響時間越大,橫向運動方向定位正確率越低。三種聲源運動方式的平均方向定位正確率分別為40%、45%和54%??傮w看來,聲源運動有助于提高方向定位正確率,其中聲源做橫向運動比做射線運動的聲像方向定位正確率高9%。
圖10 不同錄制環(huán)境的方向定位正確率
圖11為聲源靜止和聲源做橫向運動時,聲像頭中定位的情況。從圖中可以看出,聲源做橫向運動時將近90%的聲像定位在頭外,比聲源靜止時高13%;聲源靜止時更容易定位在頭內(nèi)和頭皮。因此運動聲源有助于將聲像定位在頭外,在一定程度上改善了頭中定位效應。
圖11 靜止聲源與運動聲源的頭中定位情況
5結(jié)論
本文通過一系列主觀實驗得到聲源做射線和橫向運動時,水平方位角、俯仰角和錄制環(huán)境對聲學頭模雙耳錄音聽感效果的影響,并與聲源靜止時的結(jié)果做比較分析。結(jié)果表明:聲源運動時的方向定位正確率高于聲源靜止情況,且聲源運動方式直接影響定位正確率,聲源橫向運動時比射線運動的聲像方向定位正確率高。聲源做橫向運動時,大部分聲像定位在頭外,比聲源靜止時定位在頭外的比率高出13%。聲源運動有助于改善頭中定位效應。
在聲學頭模的實際使用中,利用雙耳錄音的空間定位特性合理擺放聲學頭模的位置、朝向等可以在一定程度上改善雙耳錄音的空間聽感效果。
參考文獻
[1]齊娜.一種中國人仿真頭模[P].中國:201120555311.6,2011-12.
[2]齊娜.一種中國人聲學頭模[P].中國:201120555787.X ,2011-12.
[3]齊娜,李莉,趙偉.中國成年人耳廓形態(tài)測量及分類[J].聲學技術(shù),2010(5):518-522.
[4]楊天琪,齊娜.聲學頭模雙耳錄音聽感效果分析[J].電聲技術(shù),2013(1):70-72.
[5]Laws P,Platte H J.Spezielle Experimente zur kopfbezogenen Stereophonie[C]//DAGA.1975,75:365-368.
[6]Poulsen T,Blauert J.H?rvergleich Unterschiedlicher Kunstkopf-systeme:Wissenschaftliche Grundlagen der Kopfbezogenen Stereofonie-Bericht über das Vorkollokvium zur DAGA’78 in Bochum[J].Rundfunktechn Mitteilungen,1978,22:211-214.
[7]Boerger G,Blauert J,Laws P.Sterephone Kopfh?rerwiedergabe mit Steuerung bestimmter übertragungsfaktoren durch Kopfdrehbewegungen[J].Acustica,1977,39:21-26.
[8]Wightman F L,Kistler D J.Headphone simulation of free‐field listening.II:Psychophysical validation[J].The Journal of the Acoustical Society of America,1989,85(2):868-878.
[9]楊天琪,仝欣,孟子厚.固定聲源仿真頭錄音的聲像定位[C].2011年聲頻工程學術(shù)交流年會論文集,2011,9:207-211.
[10]Begault D R,Wenzel E M.Headphone localization of speech[J].Human Factors:The Journal of the Human Factors and Ergonomics Society,1993,35(2):361-376.
[11]謝菠蓀.頭相關(guān)傳輸函數(shù)與虛擬聽覺[M].北京:國防工業(yè)出版社,2008.
(責任編輯:馬玉鳳)
Spatial Localization Performances of Moving Sound in Binaural Recording
TONG Xin,QI Na
(Communication Acoustic Laboratory in Communication University of China,Beijing,100024)
Abstract:The spatial localization performance with different moving patterns in binaural recording was analyzed.The acoustical dummy head used here was designed by Communication University of China.The size of the dummy head kept meeting the national standards and was in accordance with the average physiological parameters of Chinese people.Three kinds of sound sources were recorded and analyzed:stationary sound,radial-straightline-movement sound and crosswise-straightline-movement sound.The result of subjective listening test showed that the movement of the sound contributes to localize the sound image outside the head and weaken inside-the-head effect to some extent.However,the movement of the sound cannot reduce the front-back confusion and up-down confusion effectively.Besides,different movement styles of sound source will affect the localization accuracy,and the rate of accuracy was 9% higher when sound source moving linearly in crosswise direction than in radial direction.
Keywords:binaural recording;sound localization;sound image confusion;inside-the-head effect
作者簡介:仝欣(1988-),女(漢族),黑龍江人,中國傳媒大學博士研究生.E-mail:tongxin@cuc.edu.cn
項目基金:國家科技支撐計劃項目“聽覺呈現(xiàn)系統(tǒng)效果測試與評價(項目編號:2012BAH38F03-03)”
收稿日期:2015-03-07
中圖分類號:TN912.12
文獻標識碼:A
文章編號:1673-4793(2015)05-0044-06