張冰瑞, 陳克安, 趙華勇, 王耀輝
(西北工業(yè)大學(xué) 航海學(xué)院環(huán)境工程系,西安 710072)
近年來(lái),基于聽(tīng)覺(jué)感知的聲源辨識(shí)研究受到廣泛關(guān)注,其應(yīng)用之一就是通過(guò)主觀評(píng)價(jià)實(shí)驗(yàn)提取一系列與聲源材料、尺寸和形狀等物理屬性有關(guān)的聲線索來(lái)進(jìn)行目標(biāo)識(shí)別,給出一種新的特征提取方法[1]。與穩(wěn)態(tài)聲相比,沖擊聲攜帶了更多與聲源物理屬性相關(guān)的信息,因此在聲源辨識(shí)中發(fā)揮了重要應(yīng)用[2]。通常,聲源辨識(shí)主觀評(píng)價(jià)實(shí)驗(yàn)中的沖擊聲可以采用現(xiàn)場(chǎng)聲、錄音和合成聲。然而,讓聽(tīng)者在實(shí)驗(yàn)室直接聽(tīng)現(xiàn)場(chǎng)產(chǎn)生的沖擊聲,不僅費(fèi)時(shí)費(fèi)力,而且實(shí)驗(yàn)主持人難于控制聽(tīng)音環(huán)境,且不容易改變和控制聲源特性,因此現(xiàn)場(chǎng)聲的應(yīng)用較少,更多研究者用錄音進(jìn)行研究,如Tucker等[3]讓聽(tīng)者根據(jù)不同尺寸和材料的懸掛板的沖擊聲錄音來(lái)進(jìn)行材料辨識(shí),Giordano等[4]利用沖擊聲錄音研究錘和板的硬度感知。
對(duì)于聲音合成而言,由于使用物理模型合成沖擊聲能夠精確控制聲源的力學(xué)參數(shù),便于分析聲源物理屬性與產(chǎn)生聲音之間的聯(lián)系,因此在聲源辨識(shí)中得到廣泛使用。McAdam等[5]使用被擊棒的物理模型合成聲音,讓聽(tīng)者對(duì)粘彈性系數(shù)和密度隨機(jī)變化的棒的沖擊聲進(jìn)行辨識(shí),獲得了材料辨識(shí)的感知空間。McAdams等[6]使用被擊薄板的物理模型產(chǎn)生不同材料的沖擊聲,發(fā)現(xiàn)音色和持續(xù)時(shí)間可以作為材料辨識(shí)的線索,并且都與阻尼有關(guān)。
連續(xù)統(tǒng)是數(shù)學(xué)中的一個(gè)重要概念,其基本含義是指一段可以連續(xù)取值的實(shí)數(shù)區(qū)間。聲源辨識(shí)中,聲源物理屬性連續(xù)變化產(chǎn)生的一系列聲音稱為聲連續(xù)統(tǒng)(sound continua)。在材料辨識(shí)研究中,聲連續(xù)統(tǒng)可以模擬一些實(shí)際中并不存在的“虛擬材料”產(chǎn)生的聲音,這極大地豐富了材料的種類,有助于分析材料漸變對(duì)聲輻射的影響,從而獲得材料辨識(shí)的有效聲線索[5-6]。在聲音合成中,聲連續(xù)統(tǒng)中如何控制材料的漸變產(chǎn)生虛擬材料參數(shù)是關(guān)鍵,尤其是隨頻率變化的阻尼不能像密度或楊氏模量那樣用單一參量描述。相關(guān)研究中,Aramaki等[7]在針對(duì)虛擬現(xiàn)實(shí)的音樂(lè)合成研究中,給出了聲連續(xù)統(tǒng)的一種阻尼控制策略,通過(guò)擊打木棒、金屬盤(pán)和玻璃杯產(chǎn)生沖擊聲,并從錄音中分解出3種材料的阻尼和幅度參數(shù),然后通過(guò)插值的方法進(jìn)行聲音合成。McAdams等[6]在材料辨識(shí)的研究中,采用球-板撞擊的物理模型,在鋁和玻璃兩種材料參數(shù)之間進(jìn)行線性插值,從而實(shí)現(xiàn)虛擬材料建模。但上述兩種方法局限性很大,前者采用的方法是在各種聲源(棒、盤(pán)子和杯子)產(chǎn)生的沖擊聲之間進(jìn)行插值,從信號(hào)處理的角度來(lái)合成聲音,沒(méi)有建立和聲源的聯(lián)系,因而無(wú)法對(duì)聲源的各物理屬性進(jìn)行控制,不能有效應(yīng)用于聲源辨識(shí)的研究中;后一種方法構(gòu)建了材料從鋁到玻璃之間(記為鋁-玻璃)逐漸變化的一維虛擬材料空間,并在兩種材料參數(shù)之間進(jìn)行線性插值產(chǎn)生虛擬材料參數(shù),雖然該方法簡(jiǎn)單且計(jì)算方便,但由于鋁和玻璃均是各向同性材料,所產(chǎn)生的虛擬材料種類局限性很大,并且該方法在聲源辨識(shí)中的有效性未經(jīng)驗(yàn)證。
針對(duì)上述兩種虛擬材料沖擊聲合成方法的不足,本文給出了一種可以在二維材料感知空間中表示的更具一般性的沖擊聲合成方法。首先,錄制了小球撞擊不同尺寸的鋁板、玻璃板和木板的沖擊聲,并使用球-板撞擊的物理模型合成對(duì)應(yīng)的沖擊聲,采用材料辨識(shí)實(shí)驗(yàn)研究了合成聲和錄音對(duì)辨識(shí)結(jié)果的影響,結(jié)果顯示人耳可以利用合成聲較精確地辨識(shí)出3種材料。隨后,將鋁、玻璃和木材作為基本材料,構(gòu)建了二維材料感知空間,因此任意虛擬材料都可用極坐標(biāo)來(lái)表示,通過(guò)在二維空間中進(jìn)行線性插值的方式給出了虛擬材料的沖擊聲合成方法。最后,利用上述方法產(chǎn)生了材料漸變的沖擊聲連續(xù)統(tǒng),通過(guò)材料辨識(shí)實(shí)驗(yàn)對(duì)合成模型中的材料控制策略進(jìn)行感知驗(yàn)證。
假設(shè)沖擊聲來(lái)源于一個(gè)小球撞擊一塊平板,本文構(gòu)建該過(guò)程的物理模型來(lái)合成沖擊聲。模型中利用Kirchhoff-Love方程[8]模擬板的彎曲振動(dòng),s域中可表示為:
(2)
用Hertz接觸定律計(jì)算球-板的相互作用力[9]:
F=kHδ3/2
(3)
其中:kH為沖擊彈性系數(shù),δ為撞擊點(diǎn)處球板的相對(duì)位移。
(4)
(5)
由于沖擊聲的大部分信息都包含在短暫的起始部分以及衰減時(shí)間歷程中,因此時(shí)域求解方法顯得非常必要。本文采用時(shí)域有限差分法(Finite-Difference Time-Domain,F(xiàn)DTD)[8]求解板的振動(dòng)方程,獲得板振動(dòng)位移的時(shí)域解,最后采用瑞利積分公式求解出空間中一點(diǎn)的時(shí)域聲壓信號(hào),即獲得球板撞擊的沖擊聲。
實(shí)驗(yàn)1的目的在于比較錄音和合成聲對(duì)聲源物理屬性辨識(shí)的影響。首先錄制了不同材料和尺寸板的沖擊聲,然后利用物理模型進(jìn)行聲音合成,將錄音和合成聲一起作為聲樣本進(jìn)行材料辨識(shí)實(shí)驗(yàn),通過(guò)辨識(shí)結(jié)果分析錄音和合成聲對(duì)材料辨識(shí)的影響。
錄制了不同尺寸的鋁板、玻璃板和木板發(fā)出的共27個(gè)沖擊聲,材料和尺寸的具體參數(shù)如表1所示(表中ρ為密度,Ex和Ey為楊氏模量,σxy為泊松比,Gxy為剪切模量,這里將所用云杉木近似為正交異性材料)。在半消聲室中采集聲音, 用圖1所示的裝置由尼龍線將平板懸掛起來(lái),利用鋼質(zhì)小球撞擊平板的中心位置,小球起始高度為1cm,在距敲擊點(diǎn)正前方1.5 m和2 m以及板上角正前方1.5 m處放置3個(gè)B&K 4188傳聲器,通過(guò)與其相連的PULSE 3560B系統(tǒng)采集聲信號(hào),采樣頻率為65 536 Hz,分辨率為16 bit。經(jīng)過(guò)試聽(tīng),聲音時(shí)長(zhǎng)2 s即可滿足材料辯識(shí)的要求,因此采用2 s長(zhǎng)的聲音作為樣本。然后,通過(guò)第1節(jié)給出的球-板撞擊的物理模型合成對(duì)應(yīng)的27個(gè)沖擊聲。阻尼計(jì)算中,鋁為金屬材料主要受熱彈性和輻射阻尼的影響,木材則主要考慮粘彈性阻尼。將錄音和合成聲共54個(gè)聲音作為聲樣本進(jìn)行材料辨識(shí)實(shí)驗(yàn)。
圖1 實(shí)驗(yàn)裝置示意圖
表1 板的材料和尺寸參數(shù)
本次主觀評(píng)價(jià)實(shí)驗(yàn)邀請(qǐng)西北工業(yè)大學(xué)航海學(xué)院環(huán)境工程系的24名在校本科生和研究生作為被試,均無(wú)聽(tīng)力障礙,男女比例為1∶1,平均年齡22歲,均為有償參與。
各種測(cè)聽(tīng)方式中,比對(duì)測(cè)聽(tīng)能夠明顯提高非受訓(xùn)人員的辨識(shí)準(zhǔn)確性,但不影響受訓(xùn)人員的辨識(shí)效果,
因此通常被用于目標(biāo)辨識(shí)實(shí)驗(yàn)[11]。實(shí)驗(yàn)中,將全部聲樣本分別按不同隨機(jī)順序排成兩列(每列包含全部54個(gè)樣本),每次播放兩列中相同位置處的一對(duì)聲音,要求被試對(duì)這兩個(gè)聲音對(duì)應(yīng)的聲源材料類型做出判斷。聲樣本由計(jì)算機(jī)的音頻播放軟件通過(guò)聲卡輸出給BEHRINGER HA4700耳機(jī)放大器,然后由SENNHEISER HD280高保真耳機(jī)重放。被試依次聽(tīng)到1對(duì)聲音,每個(gè)聲音時(shí)長(zhǎng)2 s,間隔2 s,每對(duì)聲音播完后,將有6 s時(shí)間填寫(xiě)調(diào)查問(wèn)卷。對(duì)24份評(píng)價(jià)數(shù)據(jù)進(jìn)行處理,實(shí)驗(yàn)中54個(gè)聲樣本重復(fù)播放兩遍,通過(guò)對(duì)被試兩次評(píng)價(jià)數(shù)據(jù)的相關(guān)分析來(lái)剔除無(wú)效數(shù)據(jù),如圖2給出了不同被試兩次辨識(shí)結(jié)果的相關(guān)系數(shù),剔除相關(guān)系數(shù)小于0.5的3名被試的數(shù)據(jù)。對(duì)其余21名被試的實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)分析,分別計(jì)算出3種材料板在不同尺寸下的識(shí)別率。如表2所示,表中數(shù)據(jù)表示將某種材料和尺寸的板所產(chǎn)生的聲音分別辨識(shí)為是由鋁、玻璃和木材產(chǎn)生的被試占被試總數(shù)的比例,表中黑斜表示材料的正確識(shí)別率。
圖2 不同被試兩次辨識(shí)的相關(guān)系數(shù)
可見(jiàn),對(duì)錄音而言,被試對(duì)木材的識(shí)別效果非常好,而在玻璃和鋁之間產(chǎn)生了混淆,被試傾向于將小尺寸板的材料識(shí)別為玻璃,將大尺寸的板識(shí)別為鋁。對(duì)合成聲而言,被試對(duì)不同尺寸鋁板或玻璃板的識(shí)別結(jié)果相對(duì)穩(wěn)定,整體性能較錄音有所提升,對(duì)木材的識(shí)別率有所下降但仍獲得了較好的識(shí)別結(jié)果??梢?jiàn),相對(duì)錄音,合成聲的使用提高了聽(tīng)者的整體辨識(shí)水平。
表2 材料辨識(shí)率(%)
這一結(jié)果可能是由三方面因素共同導(dǎo)致的:首先,合成聲中物理模型對(duì)材料阻尼進(jìn)行了簡(jiǎn)化,這并不能對(duì)實(shí)際板的振動(dòng)衰減情況作出精確描述,因此相對(duì)錄音而言合成聲包含的聲源材料阻尼的信息不夠豐富[10],反而導(dǎo)致聽(tīng)者更容易辨識(shí)材料;其次,合成聲可以很容易控制除材料和尺寸之外的其他聲源屬性保持不變,而錄音由于受實(shí)驗(yàn)條件限制,包括小球的起始高度和撞擊位置等不易精確控制,從而導(dǎo)致其他聲源屬性的變化對(duì)材料辨識(shí)產(chǎn)生影響[12];最后,即使在消聲室中進(jìn)行錄音,但在消聲室截止頻率以下并不能滿足自由場(chǎng)條件,同樣會(huì)對(duì)錄音信號(hào)產(chǎn)生影響,對(duì)沖擊聲而言其高頻衰減較快,低頻能量衰減速率在一定程度上反映了阻尼的大小[5]。而聽(tīng)者對(duì)木板合成聲的較低的識(shí)別結(jié)果同樣可能與合成模型的精確度有關(guān),由于球-板撞擊模型對(duì)各向異性材料并不能獲得阻尼的精確描述[8],從而導(dǎo)致了木板識(shí)別率的減小。
為了計(jì)算任意“虛擬”材料產(chǎn)生的沖擊聲,本文提出一種基于球-板撞擊模型的沖擊聲合成器的設(shè)計(jì)方法,給出了控制“虛擬”材料參數(shù)的策略,合成材料漸變的沖擊聲連續(xù)統(tǒng),最后通過(guò)材料辨識(shí)實(shí)驗(yàn)對(duì)沖擊聲合成器的材料控制策略進(jìn)行感知驗(yàn)證。
圖3 材料感知空間
圖4 聲連續(xù)統(tǒng)示意圖
(6)
(7)
然后,根據(jù)材料S′(θ,1)的參數(shù)再次通過(guò)插值獲得感知材料空間任意位置處虛擬材料S(θ,r)的參數(shù)QS:
QS(θ,r)=(1-r)Qo+rQ(θ)
(8)
利用3.1節(jié)中產(chǎn)生虛擬材料的方法,在材料感知空間的圓周(即r=1所表示的圓圈)上隨機(jī)選擇60個(gè)不同的點(diǎn)(對(duì)應(yīng)60個(gè)θ值,0≤θ≤2π),產(chǎn)生60種虛擬材料,其中鋁-玻璃、玻璃-木材和鋁-木材之間各20種材料,如圖4所示。獲得材料參數(shù)之后利用被擊板的物理模型合成沖擊聲,這樣共產(chǎn)生60個(gè)聲樣本。
實(shí)驗(yàn)2的目的是利用聲連續(xù)統(tǒng)對(duì)沖擊聲合成器的材料控制策略進(jìn)行感知驗(yàn)證。將實(shí)驗(yàn)1的被試作為受訓(xùn)人員參加實(shí)驗(yàn)2,以提高辨識(shí)精度[13]。實(shí)驗(yàn)過(guò)程中,被試會(huì)依次聽(tīng)到時(shí)長(zhǎng)2s的聲音,每個(gè)聲音播完后,要求被試在2s時(shí)間內(nèi)將所聽(tīng)聲音判斷為是由鋁、玻璃還是木材產(chǎn)生的。全部聲音隨機(jī)播放兩遍,通過(guò)對(duì)前后兩遍聲音的識(shí)別結(jié)果進(jìn)行相關(guān)分析,剔除相關(guān)系數(shù)小于0.6的兩名被試的數(shù)據(jù),對(duì)其余22名被試的實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)分析,分別計(jì)算出每個(gè)聲音被識(shí)別為3種材料的概率,如圖5所示(為便于分析,圖中僅列出了與插值區(qū)間有關(guān)的兩種材料下的辨識(shí)結(jié)果)。
圖5 聲連續(xù)統(tǒng)的材料識(shí)別率
由圖5(a)可見(jiàn),對(duì)于鋁和玻璃之間插值(0≤θ≤2π/3)產(chǎn)生的虛擬材料的沖擊聲,當(dāng)θ非常小時(shí)(θ<π/6)由于虛擬材料中鋁的阻尼占主導(dǎo)地位,因此絕大部分聽(tīng)者將聲音識(shí)別為是由鋁產(chǎn)生的,然而隨著θ的增大,玻璃阻尼所占的比重逐漸增加,從而更多被試將聲源材料識(shí)別為玻璃。但總體上,半數(shù)以上的被試將鋁和玻璃之間插值產(chǎn)生的全部材料識(shí)別為鋁,表明被試在鋁和玻璃之間產(chǎn)生了混淆。由圖5(b)可以發(fā)現(xiàn),對(duì)于玻璃和木材之間插值(2π/3≤θ≤4π/3)產(chǎn)生的虛擬材料的沖擊聲,隨著θ的增大,越來(lái)越多的被試將聲源材料識(shí)別為木材,而玻璃下的識(shí)別率則逐漸減小。圖5(c)顯示了與圖5(b)類似的規(guī)律,但不同的是對(duì)中間部分的材料(5π/3≤θ≤11π/6),被試更多地將其聲音判斷為是由玻璃產(chǎn)生的,而非鋁或木材。
總的來(lái)說(shuō),通過(guò)采用3.1節(jié)的方法來(lái)產(chǎn)生虛擬材料的沖擊聲,被試對(duì)聲源材料的識(shí)別結(jié)果與材料阻尼的變化情況一致,表3計(jì)算了不同插值區(qū)間下的阻尼插值系數(shù)θ與材料辨識(shí)率之間的皮爾遜相關(guān)系數(shù)(表中陰影部分表示與插值區(qū)間對(duì)應(yīng)的兩種材料下的相關(guān)系數(shù)),可以看出,被試對(duì)材料的辨識(shí)結(jié)果與阻尼插值參數(shù)顯著相關(guān),這與先前材料辨識(shí)研究獲得的“阻尼是辨識(shí)聲源材料的可靠聲線索”[1~6]結(jié)論一致。此外,識(shí)別結(jié)果表明被試在鋁和玻璃之間產(chǎn)生了混淆,而對(duì)鋁和木材以及玻璃和木材之間的識(shí)別效果較好,與實(shí)驗(yàn)1獲得的識(shí)別結(jié)果相吻合。
表3材料識(shí)別率與阻尼插值系數(shù)θ的相關(guān)系數(shù)
Tab.3Thecorrelationcoefficientbetweenmaterialidentificationrateanddampinginterpolationfactorθ
插值區(qū)間辨識(shí)類別 鋁-玻璃0≤θ≤2π/3玻璃-木材2π/3≤θ≤4π/3木材-鋁4π/3≤θ≤2π鋁0.750.680.81玻璃-0.720.890.18木材-0.46-0.97-0.93
(1)本文針對(duì)合成沖擊聲在聲源物理屬性辨識(shí)中的應(yīng)用,通過(guò)主觀評(píng)價(jià)實(shí)驗(yàn)(實(shí)驗(yàn)1)分析了合成聲和錄音對(duì)材料辨識(shí)的影響,結(jié)果表明使用錄音進(jìn)行材料辨識(shí)時(shí),聽(tīng)者對(duì)木材的辨識(shí)結(jié)果非常理想,但在鋁和玻璃之間產(chǎn)生了混淆,并傾向于將小尺寸板的材料識(shí)別為玻璃,將大尺寸板的材料識(shí)別為鋁。而合成聲的辨識(shí)結(jié)果均保持在65%~87%之間,相比之下更為穩(wěn)定??傮w來(lái)看,合成聲的整體辨識(shí)率比錄音有所提高。
(2)本文給出了更具一般性的聲音合成方法,根據(jù)實(shí)驗(yàn)1的材料辨識(shí)結(jié)果,利用3種基本材料(鋁、玻璃和木材)構(gòu)建出二維材料感知空間,通過(guò)在3種基本材料參數(shù)之間進(jìn)行線性插值,可以合成任意“虛擬”材料的沖擊聲。實(shí)驗(yàn)2利用沖擊合成器合成了材料漸變的沖擊聲連續(xù)統(tǒng),聲連續(xù)統(tǒng)的材料辨識(shí)結(jié)果表明,被試在鋁和玻璃之間產(chǎn)生了混淆,而對(duì)鋁和木材以及玻璃和木材之間的識(shí)別效果較好,這與實(shí)驗(yàn)1獲得的識(shí)別結(jié)果吻合。此外,實(shí)驗(yàn)發(fā)現(xiàn)聽(tīng)者對(duì)材料的辨識(shí)與阻尼的變化趨勢(shì)一致,進(jìn)一步證實(shí)了阻尼在材料辨識(shí)中的關(guān)鍵作用,從而驗(yàn)證了沖擊聲合成方法中材料控制策略的有效性。
參 考 文 獻(xiàn)
[1]Yost W A, Popper A N, Fay RR. Auditory perception of sound sources[M]. Springer, 2008.
[2]Rocchesso D, Fontana F. The sounding object[M].Mondo Estremo Publishing, 2003.
[3]Tucker S, Brown G J. Modelling the auditory perception of size, shape and material:applications to the classification of transient sonar sounds[C]. Presented at the 114thAudio Engineering Society Convention, Amsterdam, Netherlands, 2003:22-25.
[4]Giordano B L, McAdams S, Rocchesso D. Integration of acoustical information in the perception of impacted sound sources:the role of information accuracy and exploitability[J]. Journal of Experimental Psychology:Human Perception and Performance, 2010, 36(2):462-476.
[5]McAdams S, Chaigne A, Roussarie V. The psychomechanics of simulated sound sources:material properties of impacted bars[J]. J Acoust Soc Am, 2004, 115(3):1306-1320.
[6]McAdams S,Roussarie V, Chaigne A, et al. The psychomechanics of simulated sound sources:material properties of impacted thin plates[J]. J Acoust Soc Am, 2010, 128(3):1401-1413.
[7]Aramaki M, Besson M, Kronland-Martinet R,et al.. Controlling the perceived material in an impact sound synthesizer[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(2):301-314.
[8]Lambourg C, Chaigne A, Matignon D. Time-domain simulation of damped impacted plates. II. numerical model and results[J]. J Acoust Soc Am, 2001, 109(4):1433-1447.
[9]Stoelinga C N, Lutfi R A. Modeling manner of contact in the synthesis of impact sounds for perceptual research [J]. J Acoust Soc Am, 2011, 130(2):62-68.
[10]Chaigne A, Lambourg C. Time-domain simulation of damped impacted plates. I. theory and experiments[J]. J Acoust Soc Am, 2001, 109(4):1422-1432.
[11]陳克安, 王 娜, 伍 瑩,等. 基于音色屬性辨識(shí)聲目標(biāo)的主觀評(píng)價(jià)實(shí)驗(yàn)研究[J]. 科學(xué)通報(bào), 2010, 55(8):651-659.
CHEN Ke-an, WANG Na, WU Ying, et al. Subjective evaluation experiments of timbre attribute based acoustic target identification[J]. Chinese Sci Bull(Chinese Ver), 2010, 55(8):651-659.
[12]Giordano B L, McAdams S. Material identification of real impact sounds:effects of size variation in steel, wood, and plexiglas plates [J]. J Acoust Soc Am, 2006, 119(2):1171-1181.
[13]陳克安, 王 娜, 王金昌. 人耳辨識(shí)非語(yǔ)言聲目標(biāo)能力的實(shí)驗(yàn)研究[J]. 物理學(xué)報(bào), 2009, 58(7):5075-5082.
CHEN Ke-an, WANG Na, WANG Jin-chang. Investigation on human ear’s capability for identifying non-speech objects[J]. Acta Physical Sinica, 2009, 58(7):5075-5082.