黃心儀,謝凌云,王鑫*
(1.中國傳媒大學(xué)音樂與錄音藝術(shù)學(xué)院,北京 100024; 2.中國傳媒大學(xué)信息與通信工程學(xué)院,北京 100024)
環(huán)繞聲系統(tǒng)經(jīng)歷幾十年的發(fā)展,觀眾的觀影體驗(yàn)逐漸被改變,人們在此基礎(chǔ)上增加了高度聲道,聲音由此可以進(jìn)行精準(zhǔn)定位,在三維空間中真實(shí)地呈現(xiàn)。盡管Dolby Atoms、DTS:X 等重放系統(tǒng)技術(shù)已被廣泛應(yīng)用,但其復(fù)雜的揚(yáng)聲器陣列在日常生活中難以實(shí)現(xiàn),因此對三維聲進(jìn)行雙耳可聽化處理日益具有實(shí)用價(jià)值,且三維聲雙耳渲染效果的評價(jià)也成為了人們關(guān)注的問題。
音頻評價(jià)通常有兩種方法,即主觀評價(jià)和客觀評測。主觀評價(jià)是以人為主體評價(jià)音頻的聽感,結(jié)果往往準(zhǔn)確且令人信服,但被聽音環(huán)境等種種條件所限制,費(fèi)時(shí)費(fèi)力且成本較高??陀^評測指采用計(jì)算機(jī)信息處理技術(shù)來判斷音頻的質(zhì)量,相對高效便捷,但也存在模型不匹配、結(jié)果不夠準(zhǔn)確等問題。因此若能將主觀評價(jià)與客觀評測有機(jī)結(jié)合,將能更加全面地對音頻進(jìn)行評測。
三維聲雙耳渲染算法,是將已經(jīng)制作好的多聲道節(jié)目進(jìn)行渲染處理,使其達(dá)到可以用耳機(jī)還原三維聲聽感效果的目的。隨著三維聲的應(yīng)用逐漸廣泛,許多學(xué)者開始討論如何對三維聲進(jìn)行有效的聽感評價(jià)。對于用耳機(jī)重放的雙耳聲信號(hào)的評價(jià),Lorho 提出16個(gè)評價(jià)參數(shù),主要包含定位、空間、音質(zhì)三個(gè)維度屬性[1]。Rumsey 等人采用直接下變換等算法后,使用音質(zhì)有些裂變的聲音素材為研究對象,以變換前的原始信號(hào)為參考信號(hào),考察總體音質(zhì)與子評價(jià)維度的關(guān)系,并提出使用偏最小二乘回歸統(tǒng)計(jì)方法(Partial Least-Squares Regression, PLSR)[2]。Lindau 等人對比真實(shí)房間揚(yáng)聲器重放和使用個(gè)性化房間雙耳脈沖響應(yīng)(Binaural Room Impulse Response, BRIR)以及非個(gè)性化BRIR 的雙耳重放系統(tǒng),采用空間音頻質(zhì)量列表(Spatial Audio Quality Inventory, SAQI)方法進(jìn)行個(gè)性化動(dòng)態(tài)雙耳渲染聽感實(shí)驗(yàn)[3]。Reardon 等人對六種雙耳渲染器進(jìn)行了較為全面的評測,并將評測分為了定量特征、定性特征及總體偏好三個(gè)部分[4]。范欣欣等人針對三維聲雙耳渲染算法設(shè)計(jì)了主觀評價(jià)實(shí)驗(yàn),利用方差分析和回歸分析,對比不同渲染算法的特點(diǎn)和信號(hào)適用性,以及探究總體評價(jià)與音質(zhì)、定位、空間之間的關(guān)聯(lián)[5]。
隨著近年來通信系統(tǒng)的快速發(fā)展,音頻客觀評測方法的研究也取得了較快的進(jìn)展。近年來對于音頻信號(hào)的客觀評測大多都為基于有參考信號(hào)的客觀評測方法,但就目前發(fā)展技術(shù)而言,其客觀評測的結(jié)果與主觀評價(jià)之間的關(guān)聯(lián)性較低,在理論方法和技術(shù)層面還有待突破性進(jìn)展。目前國際上唯一的數(shù)字音頻質(zhì)量客觀評測標(biāo)準(zhǔn)ITU-R BS.1387就是此類基于有參考信號(hào)的客觀評測方法,其采用了音頻質(zhì)量感知評價(jià)模型(Perceptual Evaluation of Audio Quality, PEAQ),通過模擬人耳聽覺特性,可以較準(zhǔn)確地得到待測音頻質(zhì)量的得分,隨后也有大量基于PEAQ 的改進(jìn)模型出現(xiàn),但這些模型大多針對獨(dú)立聲道,無法考察聲道之間的相關(guān)信息,且三維聲不同于傳統(tǒng)的音頻評測,三維聲的空間屬性以及其涉及的主觀評價(jià)維度更為復(fù)雜,國際上目前還沒有針對三維聲的客觀評測標(biāo)準(zhǔn)。覃龍靖等人在范欣欣的工作基礎(chǔ)上對五種雙耳渲染算法的渲染效果進(jìn)行了客觀評測,對雙耳信號(hào)提取雙耳特征和單耳特征,并進(jìn)行特征選擇和降維,最終選擇了嶺回歸建立了總體評價(jià)和其二級(jí)維度,即音質(zhì)、定位和空間感的客觀評測模型,并探究了主觀感知和客觀參數(shù)之間的關(guān)系[6]。
綜上所述,雖然目前已存在一些學(xué)者進(jìn)行了針對三維聲的主觀評價(jià)實(shí)驗(yàn),并探討了相關(guān)的主觀評價(jià)術(shù)語,但這些實(shí)驗(yàn)仍然存在一些問題。范欣欣等人的工作中主觀評價(jià)實(shí)驗(yàn)在一個(gè)信號(hào)的基礎(chǔ)上同時(shí)聽評多個(gè)維度,可能導(dǎo)致各維度得分之間存在相互關(guān)聯(lián)。在客觀評測方面,覃龍靖等人的工作中基于評測準(zhǔn)確率建立的客觀模型,在優(yōu)選特征的可解釋方面較為困難,很難去解釋主觀感知的機(jī)理。因此,本文圍繞音質(zhì)維度進(jìn)行三維聲主觀評價(jià)實(shí)驗(yàn),深入探討了總體音質(zhì)與雙耳渲染算法之間的關(guān)聯(lián),并從探究主觀感知的角度出發(fā),基于偏最小二乘回歸分析(PLSR)建立了總體音質(zhì)維度的客觀評測模型。
實(shí)驗(yàn)素材首先在素材庫中進(jìn)行選取。對篩選的實(shí)驗(yàn)素材進(jìn)行預(yù)實(shí)驗(yàn),所有信號(hào)進(jìn)行不同的雙耳渲染算法處理,讓被試對不同雙耳聲信號(hào)進(jìn)行總體音質(zhì)和4 個(gè)二級(jí)維度進(jìn)行評價(jià)打分,實(shí)驗(yàn)素材包含了影視聲音、環(huán)境聲音、流行音樂、交響樂、管樂合奏、弦樂合奏、阿卡貝拉、電子音樂等各種類型。預(yù)實(shí)驗(yàn)結(jié)束后整理數(shù)據(jù),選取了在音質(zhì)組維度中最易聽辨的五個(gè)信號(hào)素材,具體素材描述見表1。
表1 三維聲雙耳渲染算法主觀評價(jià)實(shí)驗(yàn)素材
原始信號(hào)素材均為5.1.4 或5.0.4 的三維聲信號(hào),經(jīng)過6種不同的雙耳渲染算法,最終形成30個(gè)雙耳渲染實(shí)驗(yàn)信號(hào)。6種算法均為目前國內(nèi)外較成熟的公司或科研機(jī)構(gòu)研發(fā),渲染算法的選取原則是盡可能地涵蓋目前國內(nèi)外比較全且比較主流的雙耳渲染算法類別,同時(shí)主觀聽感上各算法之間具有一定差異。本次選取的6種渲染算法如表2所示。
表2 三維聲雙耳渲染算法
本次音質(zhì)主觀評價(jià)實(shí)驗(yàn)在中國傳媒大學(xué)三維聲混錄棚內(nèi)進(jìn)行,其房間聲學(xué)參數(shù)、音響系統(tǒng)、前期系統(tǒng)校準(zhǔn)過程與范欣欣論文中所述一致[5]。響度校準(zhǔn)后,利用人工頭RS Tech Head001連接RME Fireface UCX聲卡,進(jìn)行了標(biāo)準(zhǔn)雙耳聲信號(hào)的錄制。錄制的信號(hào)包括5個(gè)素材的揚(yáng)聲器三維聲參考信號(hào)以及5個(gè)素材對應(yīng)的6個(gè)雙耳渲染音頻,共35個(gè)信號(hào)。錄制過程中,所有信號(hào)連貫播放,中途未更改任何參數(shù),錄制完畢的音頻信號(hào)將預(yù)備后續(xù)客觀評測部分的音頻特征提取。
本次實(shí)驗(yàn)共招募42 名被試,平均年齡在18~24歲之間,均有著6 年以上的音樂及樂器學(xué)習(xí)經(jīng)驗(yàn)以及1 年以上的錄音混音學(xué)習(xí)經(jīng)驗(yàn),學(xué)習(xí)專業(yè)以錄音藝術(shù)為主,均能較好地理解評價(jià)維度及其含義??傮w音質(zhì)的含義即音質(zhì)的總體評價(jià),從聲音是否音色均衡,渾厚、清晰可辨、有力度等方面進(jìn)行音質(zhì)的總體評價(jià)(劣-優(yōu))。
本次實(shí)驗(yàn)采用MUSHRA的方法進(jìn)行打分,被試每次只針對其中一個(gè)評價(jià)術(shù)語進(jìn)行實(shí)驗(yàn),依次聽辨所有實(shí)驗(yàn)素材,并對每個(gè)素材中的各個(gè)算法進(jìn)行打分。本次實(shí)驗(yàn)采取了雙盲模式,實(shí)驗(yàn)頁面中的算法均由A~F六個(gè)字母進(jìn)行表示,且每次打開新的頁面時(shí),6個(gè)渲染音頻將被隨機(jī)填充至A~F六個(gè)位置處。實(shí)驗(yàn)頁面中的6個(gè)音頻播放位置均設(shè)置了進(jìn)度條,被試可以根據(jù)自己情況選取播放進(jìn)度,并隨時(shí)選擇暫?;虿シ?。實(shí)驗(yàn)過程中,每個(gè)算法的打分均需以揚(yáng)聲器三維聲信號(hào)作為參考,而非算法之間的橫向比較。之所以選擇這種聽辨方式,是因?yàn)轭A(yù)實(shí)驗(yàn)中發(fā)現(xiàn)被試間的一致性較好。每個(gè)素材打分結(jié)束后,被試需要填寫最影響自己判斷該評價(jià)維度的聲音元素,主試將根據(jù)被試填寫的元素判斷其數(shù)據(jù)可靠性,并在了解大部分被試的整體關(guān)注聲音元素的基礎(chǔ)上,在后面的被試無法聽辨合適元素時(shí)適時(shí)進(jìn)行引導(dǎo)。每位被試實(shí)驗(yàn)時(shí)長為1小時(shí)左右,并中途設(shè)置休息時(shí)間,填寫問卷調(diào)查。實(shí)驗(yàn)打分頁面如圖1所示。
圖1 主觀評價(jià)實(shí)驗(yàn)打分頁面
利用一致性系數(shù)進(jìn)行被試間信度檢驗(yàn)。為了消除被試之間打分的差異,首先將被試的打分進(jìn)行了歸一化處理,轉(zhuǎn)化成Z分?jǐn)?shù)[10],隨后將被試的Z分?jǐn)?shù)進(jìn)行一致性檢驗(yàn),并剔除了少量不可靠的被試數(shù)據(jù)使得所有評價(jià)維度的克朗巴哈系數(shù)均為0.7以上。
本次實(shí)驗(yàn)采用實(shí)驗(yàn)信號(hào)(5 水平)*渲染算法(6 水平)雙因素方差分析對實(shí)驗(yàn)結(jié)果進(jìn)行分析討論,所有統(tǒng)計(jì)分析都采用雙側(cè)檢驗(yàn),且顯著性水平為0.05,用估算效應(yīng)量??傮w音質(zhì)維度內(nèi),不同渲染算法對于各子維度的主效應(yīng)結(jié)果,以及實(shí)驗(yàn)信號(hào)與渲染算法的交互效應(yīng)結(jié)果如表3所示。
表3 總體音質(zhì)渲染算法的主效應(yīng)及渲染算法和實(shí)驗(yàn)信號(hào)的交互效應(yīng)
不同渲染算法在總體音質(zhì)上的主效應(yīng)結(jié)果如圖2所示,用標(biāo)準(zhǔn)誤表征數(shù)據(jù)的離散程度。從圖中可以看出算法A 除了在總體音質(zhì)維度顯著高于算法B,在所有二級(jí)維度評價(jià)中算法A 和算法B 差異不顯著,這說明算法B 在進(jìn)行了音質(zhì)補(bǔ)償后,可以做到在各個(gè)子維度接近直接下變換算法的聽感效果。其次得分表現(xiàn)位于中間的是算法C,算法D 和F 的表現(xiàn)較差。值得注意的是算法D 與算法E 渲染原理相似,都是基于Ambisonic 解編碼,但二者的均值與標(biāo)準(zhǔn)差都有著較大差異。
圖2 渲染算法在總體音質(zhì)維度上主效應(yīng)結(jié)果圖
圖3展示了實(shí)驗(yàn)信號(hào)與渲染算法在總體音質(zhì)上的交互效應(yīng)結(jié)果。從圖中可以看出算法A 在各個(gè)信號(hào)上得分都非常高,且遠(yuǎn)高于其他信號(hào),這說明現(xiàn)有的雙耳渲染算法在音質(zhì)方面仍然存在明顯的損傷。此外,算法B 相比于其他算法,整體分值較高,說明對不同聲音類別的適用性較好。
圖3 總體音質(zhì)的交互效應(yīng)結(jié)果
本次實(shí)驗(yàn)主要評測了與音質(zhì)相關(guān)的維度,因此在客觀特征的選取上盡量包含表征音質(zhì)的特征以及影響音質(zhì)感知的雙耳特征,所有特征的物理含義明顯且易于解釋。本文共選取了16 個(gè)客觀特征,具體如表4所示。
表4 所提取的客觀特征列表
所有客觀特征的提取均基于Mir toolbox 工具包獲得。在提取過程中,先對所有信號(hào)分幀處理,選用50ms 的幀長以及50%的幀移??紤]到部分音頻特征在不同頻段內(nèi)有著不同的物理含義,因此對于所有雙耳特征以及除明亮度、粗糙度、頻譜不規(guī)則度以外的時(shí)頻特征,在提取時(shí)將音頻素材先按照一個(gè)倍頻程的方式分成10 個(gè)頻段,在每一頻段內(nèi)逐一提取相關(guān)特征,再統(tǒng)計(jì)每個(gè)特征的均值和方差。所有時(shí)頻特征也同時(shí)計(jì)算了全頻段的分幀后結(jié)果,并進(jìn)行均值和標(biāo)準(zhǔn)差的計(jì)算。對于時(shí)頻特征的提取,由于合并聲道會(huì)出現(xiàn)相位抵消等各種問題,因此時(shí)頻特征將分別對左、右聲道進(jìn)行計(jì)算,再對其左右耳特征的統(tǒng)計(jì)結(jié)果做均值處理。在后續(xù)的計(jì)算過程中,其中均值均用m 表示,標(biāo)準(zhǔn)差均用std表示。
特征篩選的流程如圖4所示。首先對客觀特征進(jìn)行預(yù)處理,保證量綱的一致;然后將客觀特征與5個(gè)評價(jià)維度的主觀結(jié)果進(jìn)行f 檢驗(yàn),保留影響最顯著的80維客觀特征;最后將各個(gè)客觀特征之間進(jìn)行相關(guān)性篩查,剔除相關(guān)性超過0.8的特征,保證篩選后客觀特征之間的獨(dú)立性。最終不同評價(jià)維度保留了約30 維的客觀特征,用于后續(xù)的回歸分析??陀^特征的表示方式為“特征名稱_數(shù)字m/std”,其中數(shù)字表示頻段數(shù),如果沒有數(shù)字表示全頻帶結(jié)果。
圖4 客觀特征篩選及降維流程
本文將對總體音質(zhì)分別以五個(gè)評價(jià)維度的主觀結(jié)果為因變量,篩選的客觀特征為自變量,進(jìn)行PLSR分析。模型的性能用R2和Q2進(jìn)行描述,R2表示擬合精度,Q2表示模型的預(yù)測能力。PLSR使用VIP(Variable Importance in Prediction)分值來評估自變量的重要性,通常VIP分值大于1的為重要變量。本文數(shù)據(jù)基于Simca軟件進(jìn)行計(jì)算,載荷圖由Matlab繪制完成??傮w音質(zhì)不同評價(jià)維度的回歸模型結(jié)果如表5所示。
表5 總體音質(zhì)維度的R2、Q2及主成分方差貢獻(xiàn)率
圖5繪制了總體音質(zhì)的35個(gè)信號(hào)的分布及客觀特征載荷圖,其中兩個(gè)坐標(biāo)軸分別對應(yīng)兩個(gè)主成分,圖中各點(diǎn)代表該實(shí)驗(yàn)信號(hào)的主成分得分,向量在坐標(biāo)軸的投影長度代表了各個(gè)客觀特征對于主成分的方差貢獻(xiàn)率??傮w音質(zhì)PLSR模型中,主成分1解釋了54%的方差貢獻(xiàn)率,主要與LF_3_m、IACC_4_m等低頻段內(nèi)雙耳特征和Spread_2_m、Flux_10_m等時(shí)頻特征相關(guān);主成分2解釋了16%的方差貢獻(xiàn)率,主要與IACC_2_std、IACC_2_m等低頻段內(nèi)雙耳特征和Skewness_6_std、Spread_2_m等中低頻段內(nèi)時(shí)頻特征相關(guān)。
圖5 總體音質(zhì)信號(hào)主成分得分及客觀特征載荷圖
為了進(jìn)一步探究哪些特征對于總體音質(zhì)的影響較大,將總體音質(zhì)PLSR 模型中各客觀特征的VIP 分值進(jìn)行排序,并將VIP 分值大于1 的客觀特征展示在圖6中。從圖中可見中低頻段內(nèi)的雙耳特征以及中高頻段的頻譜能量分布及譜結(jié)構(gòu)相關(guān)特征對總體音質(zhì)感知尤為重要。
圖6 總體音質(zhì)PLSR模型VIP分值圖
從主觀實(shí)驗(yàn)結(jié)果可以看出,直接進(jìn)行線性變換的算法A相比于其他渲染算法在音質(zhì)組各評價(jià)維度上普遍取得了較高的分?jǐn)?shù),證實(shí)了現(xiàn)有的所有雙耳渲染處理會(huì)影響音質(zhì)。但值得注意的是,算法B在雙耳渲染處理前對頭部相關(guān)脈沖響應(yīng)(Head Related Impulse Response,HRIR)進(jìn)行了音質(zhì)補(bǔ)償,該算法除了在總體音質(zhì)外,在其他維度上與算法A得分較為接近,可見后期對音質(zhì)進(jìn)行相應(yīng)補(bǔ)償也能極大改善音質(zhì)。
經(jīng)過Ambisonic 編解碼技術(shù)的算法D 與算法E 在各維度上得分差異很大,可見基于Ambisonic 編解碼原理的具體實(shí)現(xiàn)算法會(huì)對音質(zhì)造成很大的影響。雖然兩種算法都是基于幅度最小二乘法計(jì)算渲染矩陣函數(shù),但是算法E 還加入擴(kuò)散場協(xié)方差矩陣約束及分段均衡處理等方法[8],導(dǎo)致二者在音質(zhì)維度的聽感上產(chǎn)生很大差異。但是這兩種算法與經(jīng)過基于HRTF卷積的算法比較來看,除了算法E 在清晰度和力度上存在一定優(yōu)勢,在其他維度上并沒有起到優(yōu)化作用。
從交互效應(yīng)結(jié)果圖中,發(fā)現(xiàn)信號(hào)1 在區(qū)分不同渲染算法上有著較好的區(qū)分度。信號(hào)1是包含背景音樂的真人電影片段,頻率響應(yīng)寬且較為平直,沒有某個(gè)聲音元素從頭到尾存在,被試在實(shí)驗(yàn)過程評分中更加容易傾向于對所有聲音元素全局考量,是較為合適的評測素材,這與Olive等人的研究結(jié)果相吻合[11]。
觀察總體音質(zhì)的客觀特征載荷圖及VIP 分值圖,可以發(fā)現(xiàn)在40~320Hz 低頻段內(nèi)的雙耳互相關(guān)系數(shù)IACC 具有較高的貢獻(xiàn)率,可見當(dāng)?shù)皖l部分雙耳信號(hào)的差異越大且差異波動(dòng)情況越大,越能引起被試對于低頻的感知,從而影響對總體音質(zhì)的判斷。此外,80~160Hz頻段內(nèi)側(cè)向聲能比LF也具有著較高的方差貢獻(xiàn)率,且與總體音質(zhì)主觀得分成正相關(guān),Barron等人指出側(cè)向到達(dá)的早期反射聲可以有效提升視在聲源寬度,是與主觀聽感高度相關(guān)且極其重要的聲學(xué)特征之一[12]。本文的結(jié)果表明提升80~160Hz頻段內(nèi)側(cè)向聲能比LF也有利于提高主觀總體音質(zhì)的感知。
在時(shí)頻特征中,2560~5120Hz 頻段內(nèi)的頻譜滾降Rolloff 和頻譜峰度Kurtosis 也非常重要,頻譜滾降Rolloff 與主觀結(jié)果呈負(fù)相關(guān),頻譜峰度Kurtosis 呈正相關(guān)。由此可以看出這個(gè)頻段頻譜能量的分布是被試判斷總體音質(zhì)的重要因素。
綜合來看,可發(fā)現(xiàn)頻段范圍2560~5120Hz(倍頻程8)以及頻段范圍40~320Hz(倍頻程2~4)的時(shí)頻特征和雙耳特征在總體音質(zhì)PLSR模型中極其重要。從人耳等響曲線可知人耳對于2k~4kHz的聲音最為敏感,倍頻程8恰好覆蓋了該敏感頻段,較為顯著的影響人耳對音色明亮度的感知;40~320Hz為人聲及樂器基頻所在的頻段區(qū)間,且人耳對于低頻的感知幾乎全部來自這三個(gè)倍頻程,因此在客觀模型中也具有重要作用。
本文以三維聲雙耳渲染算法為研究對象,針對總體音質(zhì)維度進(jìn)行了主觀和客觀評測的研究。本文的主要結(jié)論如下:
(1)與線性變換的算法相比,雙耳渲染算法確實(shí)會(huì)對音質(zhì)的不同維度造成音質(zhì)損傷,而且不同的算法在各個(gè)維度的表現(xiàn)也存在一定差異。算法B 經(jīng)過音質(zhì)補(bǔ)償處理,在主觀得分上與線性變換算法最為接近,因此對音質(zhì)進(jìn)行有效補(bǔ)償十分必要。
(2)在雙耳特征中,低頻段的IACC及側(cè)向聲能比是影響總體音質(zhì)較為重要的特征;而對于時(shí)頻特征而言,2560~5120Hz和40~320Hz這兩個(gè)頻段的時(shí)頻特征是需要特別關(guān)注的特征,例如頻譜滾降、頻譜峰度等等。