凌 聰,謝凌云
(中國傳媒大學(xué) 傳播聲學(xué)研究所,北京 100024)
對于視聽交互現(xiàn)象及其機理的研究,國外已有大量的心理聲學(xué)研究和實驗表明,視覺刺激對聽覺感受是有影響的,例如在Kato M.和Kashino M.的實驗中發(fā)現(xiàn)[1],視覺空間信息不但可以幫助聲音感知處理,而且可以提高人耳對聲音空間分辨的敏感度。而聽覺掩蔽效應(yīng)作為人類聽覺感知機理的一個重要效應(yīng),是現(xiàn)代音頻壓縮編碼理論的技術(shù)基礎(chǔ),并廣泛運用于電視技術(shù)、多媒體技術(shù)領(lǐng)域。目前國內(nèi)外在視聽交互領(lǐng)域具體到視覺刺激對于聽覺掩蔽效應(yīng)影響的研究還很少,一些有關(guān)視覺刺激下的聽覺頻域掩蔽實驗[2-3]證明視覺刺激對于聽覺頻域掩蔽效應(yīng)存在一定的影響。而聽覺掩蔽效應(yīng)包括聽覺頻域掩蔽與時域掩蔽[4],筆者將從聽覺的時域掩蔽效應(yīng)入手,設(shè)計實驗來觀察視聽同時呈現(xiàn)情況下的聽覺滯后掩蔽效應(yīng)與無視覺刺激下的聽覺滯后掩蔽效應(yīng)的變化情況。
在時間上相鄰的聲音之間也有掩蔽現(xiàn)象,即掩蔽聲與被掩蔽聲不是同時發(fā)生,這種掩蔽現(xiàn)象稱為時域掩蔽。時域掩蔽分為超前掩蔽(pre-masking)和滯后掩蔽(post-masking)[5](一些文獻中也稱滯后掩蔽為前掩蔽)。滯后掩蔽效應(yīng)的非線性特性[6]對設(shè)計掩蔽實驗造成一定難度,因此,實驗將固定掩蔽聲聲壓級和掩蔽聲與被掩蔽聲之間的延遲時間,且基于本文實驗方法的考慮,還需固定掩蔽聲與被掩蔽聲的時長。
本文實驗音頻信號的選擇具體如表1所示。
表1 時域掩蔽實驗音頻信號
其中,掩蔽聲與被掩蔽聲之間無延時,粉紅噪聲是自然界最常見的噪聲,也是噪聲掩蔽純音實驗中常用的掩蔽聲;選取250 Hz,1 170 Hz,4 000 Hz這3種純音作為代表觀察低、中、高頻純音的滯后掩蔽效果。根據(jù)前人的經(jīng)驗[6],200ms的噪聲對于30ms的純音,在無延遲時間的情況下,會出現(xiàn)明顯的滯后掩蔽現(xiàn)象。
視覺刺激材料選取畫面具有短時沖擊感的一類視頻,視頻時長均為2 s,畫面內(nèi)容分別為完全黑暗、小爆炸、大爆炸。視頻沖擊感由小到大分為3個等級,如圖1所示。
圖1 視頻信號截圖
每組刺激信號都包括音頻信號和視頻信號,視頻信號與音頻信號同時發(fā)生。一個視頻刺激的長度為2 s,掩蔽聲為200ms,被掩蔽聲為30ms,掩蔽聲與被掩蔽聲之間無延時。一組音視頻刺激信號結(jié)束之后,有2 s的靜音,然后繼續(xù)進行下一組信號。音視頻刺激時域構(gòu)成示意圖如圖2所示。
圖2 音視頻刺激時域構(gòu)成示意圖
實驗中采用恒定刺激法[7]測量聽覺滯后掩蔽閾值。恒定刺激法是心理物理學(xué)中最準(zhǔn)確、應(yīng)用最廣的方法,可用于很多心理值的測定。實驗中被掩蔽聲聲壓級以2 dB為步長進行改變,共為5種不同聲壓級掩蔽聲。為了使被試對于被掩蔽信號聲壓級最大值與最小值的判斷符合恒定刺激實驗的要求,首先通過兩段音頻信號隨機選擇結(jié)合三上一下適應(yīng)調(diào)整程序的方法[6],測得各個純音在無視覺情況下滯后掩蔽的大概閾值,具體數(shù)據(jù)見表3。
表3 粗測各被試的滯后掩蔽大概閾值
由表3可知,不同被試的掩蔽閾值是不同的,因此根據(jù)粗測得到的各被試的大概閾值來設(shè)計被掩蔽聲的5個恒定刺激值,并且通過微調(diào),來確定最終用于實驗的5個刺激值聲壓級,使被試對于被掩蔽聲最大值與最小值的判斷符合恒定刺激實驗的要求。
實驗開始時讓每名被試判斷在無掩蔽聲存在的情況下,判斷被掩蔽聲的最大值和最小值是否都能聽見,結(jié)果所有被試均能做出聽見的判斷,證明聽覺聞閾在滯后掩蔽閾值之下。
總體實驗設(shè)計采用“對照組—實驗組”模式,均采用恒定刺激法測量50 dB時長200 ms的粉紅噪聲在無延遲下掩蔽30ms純音的滯后掩蔽閾值。對照組為無視頻刺激下聽覺掩蔽實驗,共兩組,記為A1組和A2組。實驗中不同聲壓級的被掩蔽聲的恒定刺激次數(shù)為5,這樣A1和A2組的刺激次數(shù)均為3×5×5=75,兩組實驗共計2×75=150;實驗組為加入同步視頻刺激下的聽覺掩蔽實驗,記為AV組,在AV組中,3種視覺刺激隨機出現(xiàn),且保證每種視覺刺激下的聽覺信號數(shù)量相等 (以便計算每種視頻刺激下的聽覺滯后掩蔽閾值),數(shù)據(jù)統(tǒng)計時,將完全黑暗視頻刺激組記為AV1組,小爆炸視頻刺激組記為AV2組,大爆炸視頻刺激組記為AV3組,AV1,AV2,AV3組的刺激次數(shù)均為3×5×5=75,共計刺激225次。
實驗順序依次為:A1 組、A2 組、AV 組(包含 AV1,AV2,AV3 組),其中 A1,A2 組間隔 5min,A2,AV 組間隔 10min。實驗有效性和穩(wěn)定性的檢測設(shè)計,是通過兩個對照組A1和A2的重復(fù)實驗對比來檢驗的。實驗在中國傳媒大學(xué)傳播聲學(xué)研究所內(nèi)的消聲室進行。實驗中的7名被試均來自中國傳媒大學(xué)傳播聲學(xué)研究所,男生3名,女生4名,年齡為22~25歲,有較好的心理聲學(xué)實驗經(jīng)驗。
實驗中7名被試數(shù)據(jù)均通過信度檢驗。圖3為有、無視覺刺激下測得的50 dB時長200 ms粉紅噪聲無延遲掩蔽30 ms純音的滯后掩蔽平均閾值。
圖3 測得的各組滯后掩蔽的平均閾值
由圖3a可知,兩次無視頻下測得的平均閾值極為接近,各對應(yīng)頻率點的差別僅在0.1~0.8 dB;由圖3b可知,有視覺刺激組AV1,AV2,AV3及AV組與無視覺刺激對照組A1組的平均閾值差別也不明顯,各對應(yīng)頻率點的差別在 0~2.4 dB。
通過計算每名被試有無視覺刺激下的掩蔽閾值發(fā)現(xiàn),被試之間在有視頻刺激的情況下對聽覺掩蔽實驗的影響有個體差異性,為了體現(xiàn)這種差異性,將對照組A1中的21個數(shù)據(jù)作為參考(被掩蔽聲共3個,7名被試,所以每組實驗均得到了21個閾值數(shù)據(jù)),在相同的被試、相同的測試音點位置處,其他掩蔽實驗組的數(shù)據(jù)與A1組相對應(yīng)位置的數(shù)據(jù)求差并取絕對值,用這個絕對差值來表現(xiàn)其他掩蔽實驗組相對于對照組A1閾值的絕對改變量。無視覺刺激下的A2組與加入視覺刺激后的AV組相對于A1組閾值的絕對改變量分布情況如圖4所示。
圖4 A2組和AV組相對于A1組的閾值改變量分布圖比較
圖4a中可以看到兩次無視頻情況下聽覺掩蔽效應(yīng)實驗差別很小,7名被試在3個測試點上數(shù)據(jù)的改變量均在2 dB以下,被試在無視頻刺激下,對各測試點掩蔽閾值的判斷保持較好的穩(wěn)定性。而在圖4b中可以明顯看出,當(dāng)加入視覺刺激后,被試在相同的測試點的掩蔽閾值絕對改變量出現(xiàn)了較大的波動性 (AV組閾值數(shù)據(jù)通過AV1,AV2,AV3這3組數(shù)據(jù)采用恒定刺激閾值計算方法計算得出)。這種閾值變化的波動性還可以從數(shù)據(jù)樣本組的標(biāo)準(zhǔn)差的大小反映出來,經(jīng)過計算,|A2-A1|(注:該表達(dá)式僅用來說明A2組數(shù)據(jù)與A1組數(shù)據(jù)間的關(guān)系,其他表達(dá)式與此類似)組數(shù)據(jù)樣本的標(biāo)準(zhǔn)差為0.6,|AV-A1|組數(shù)據(jù)樣本的標(biāo)準(zhǔn)差為1.7。在加入視覺刺激后,50 dB時長200ms粉紅噪聲在無延遲下掩蔽30ms純音的滯后掩蔽閾值絕對改變量出現(xiàn)了明顯的差異。
AV組中的完全黑暗、小爆炸、大爆炸視頻刺激下對應(yīng)的數(shù)據(jù)組AV1,AV2,AV3與A1組閾值絕對改變量分布情況如圖5。
圖5 不同視覺刺激 AV1,AV2,AV3組相對于A1組閾值的絕對變化情況
由圖5可知,不同視頻刺激的閾值改變量都有較大的波動性,且經(jīng)過計算,|AV1-A1|數(shù)據(jù)樣本的標(biāo)準(zhǔn)差為2.2,|AV2-A1|的標(biāo)準(zhǔn)差為 1.7,|AV3-A3|的標(biāo)準(zhǔn)差為2.1,3種不同視頻對于閾值改變量的影響相互之間差別不大。
將7名被試各組閾值改變量數(shù)據(jù)進行平均,比較有視覺刺激下的AV組與無視覺刺激下的A2組相對于A1組閾值的平均絕對改變量,如圖6。
圖6 有無視覺刺激下的閾值絕對改變量比較
由圖6可知,加入視覺刺激后,7名被試在3個頻率上閾值改變量的平均值均大于對應(yīng)頻率上的無視覺刺激下的閾值改變量,AV組與對照組A1的差值最大為2.6dB,A2組與A1的差值最大為1.4 dB,視頻組的差值要大于無視頻組的差值。
圖7為不同視頻刺激下的7名被試閾值平均改變量與無視覺刺激的閾值改變量比較。
圖7 不同視覺刺激下的閾值絕對改變量比較
由圖7可知,3種不同畫面沖擊強度的視覺刺激(完全黑暗、小爆炸、大爆炸)對比無視覺刺激下的閾值改變量相差不大,它們在不同頻率上的差別僅在0.1~1.1 dB。以上實驗結(jié)果分析表明,在加入具有短時沖擊感的同步視頻之后,對于50 dB時長200ms的粉紅噪聲在無延遲下掩蔽30 ms純音的滯后掩蔽閾值會產(chǎn)生影響,具體體現(xiàn)在被試個體閾值改變的波動性上。被試在有視覺刺激下閾值改變的波動性要明顯高于無視覺刺激下的改變量。而本實驗中使用的不同沖擊感強度視頻之間對于閾值影響的差別不大。
實驗證明,聽覺滯后掩蔽實驗的被試個體閾值會受到視覺刺激的影響。這種影響不一定從平均閾值的統(tǒng)計值改變量上體現(xiàn)出來,因為被試閾值的波動方向不一致,導(dǎo)致平均閾值在統(tǒng)計時抹平了這種個體差異。在加入視覺刺激后滯后掩蔽閾值受到影響,這種現(xiàn)象符合心理學(xué)經(jīng)典理論——注意力有限理論[8]。本實驗中,不同沖擊強度的爆炸視頻對于閾值波動性的影響無顯著性差異,特別是當(dāng)呈現(xiàn)完全黑暗視頻時,閾值的波動性大小與另外兩類爆炸視頻效果也無明顯差異,閾值的波動性并沒有在不同沖擊強度等級視頻刺激下呈現(xiàn)某種一致趨勢。這種情況可以解釋為,被試在接受不斷隨機播放的各類視頻時,注意力已經(jīng)做好了分配,因此即使此時播放的是完全黑暗視頻,被試對于視覺通道的注意力分配也不會出現(xiàn)太大改變,仍然會對注意力在聽覺通道的分配造成影響。
另外,滯后掩蔽可能與周邊神經(jīng)的適應(yīng)有關(guān)[9],當(dāng)聽神經(jīng)對掩蔽聲反應(yīng)后,對緊隨其后的信號的反應(yīng)度將降低,并認(rèn)為滯后掩蔽可能與中樞神經(jīng)系統(tǒng)相關(guān)。當(dāng)聽覺系統(tǒng)的滯后掩蔽效應(yīng)的作用機理主要由中樞神經(jīng)系統(tǒng)控制時,同時進入中樞神經(jīng)系統(tǒng)的視覺刺激信號就有了影響聽覺信號的空間和可能。
雖然實驗中所使用的同步視覺刺激對于50 dB時長200 ms的粉紅噪聲在無延遲下掩蔽30 ms純音的滯后掩蔽效應(yīng)平均閾值的影響不明顯,但被試在有視覺刺激下的閾值改變的波動性要明顯高于無視覺刺激下的改變量。這個現(xiàn)象可以從注意力理論和滯后掩蔽聽神經(jīng)機理兩個角度進行解釋。本實驗對于視覺刺激下的聽覺滯后掩蔽實驗只是針對固定掩蔽聲與被掩蔽聲時長、以及固定掩蔽聲聲壓級和掩蔽聲與被掩蔽聲之間延遲時間來進行的??蛇M一步針對實驗中固定量的改變深入考察視覺刺激對于聽覺滯后掩蔽效應(yīng)的影響情況。此外,視覺刺激對于被試閾值影響的差異性變化也是下一步研究的切入點。
[1]KATOM,KASHINOM.Audio-visuallink inauditoryspatialdiscrimination[J].Acoust.Sci.&Tech.,2001,22:382.
[2]潘楊,陳瑜,謝凌云.顏色喜好對純音聽覺掩蔽效應(yīng)影響的實驗[C]//2007年聲頻工程學(xué)術(shù)交流年會論文集.北京:中國電子學(xué)會/中國聲學(xué)學(xué)會聲頻工程分會,2007.
[3]陳瑜,謝凌云.視覺提示對窄帶噪聲掩蔽影響的實驗研究[C]//2009年度全國物理聲學(xué)會議論文集.西安:中國聲學(xué)學(xué)會物理聲學(xué)分會,2009:135-136.
[4]謝志文,尹俊勛.音頻掩蔽效應(yīng)的研究及發(fā)展方向[J].電聲技術(shù),2002(12):4-7.
[5]ZWICKER E,F(xiàn)ASTL H.Psychoacoustics:facts and models[M].New York:Springer,1990:61-109.
[6]謝志文.心理聲學(xué)掩蔽效應(yīng)的研究[D].廣州:華南理工大學(xué),2005:73-84.
[7]孟子厚.音質(zhì)主觀評價的實驗心理學(xué)方法[M].北京:國防工業(yè)出版社,2008:43-47.
[8]王甦,汪安圣.認(rèn)知心理學(xué).北京:北京大學(xué)出版社,1992.
[9]王堅,蔣濤,曾凡鋼.聽覺科學(xué)概論[M].北京:中國科學(xué)技術(shù)出版社,2005:394-395.