莫福源
4.1掩蔽效應(yīng) 在嘈雜的環(huán)境里聽不清對方的話是很普遍的現(xiàn)象,例如:在課堂里,學(xué)生吵嚷的噪聲將老師的講課聲完全掩蔽,一輛轟鳴的車輛經(jīng)過時,行人無法交談,就是典型的掩蔽現(xiàn)象;該現(xiàn)象用學(xué)術(shù)語言描述為一個小的聲信號可以被另一個大的聲信號掩蔽。這樣的現(xiàn)象可謂司空見慣,然而科學(xué)家仔細(xì)研究了掩蔽效應(yīng),并成功地應(yīng)用到語音信號處理和音頻信號處理中,使信號傳輸和存儲碼率降低了40倍,甚至更多,而人們幾乎聽不出有什么畸變。語音信號可以壓縮更大,仍能聽得很清楚,所以現(xiàn)在進(jìn)行全球通信成本很低,費(fèi)用很低廉。在音頻信號處理中,由于壓縮率很大,人們可以用很低的價格、很小的體積,隨時隨地享受高品質(zhì)的音樂,大家津津樂道的MP3、MP4中,語音和音頻信號處理就是利用了掩蔽效應(yīng),才能有壓縮極大、聽覺畸變極小的效果。
為了說明上述現(xiàn)象,以語音信號處理為例,眾所周知,經(jīng)過壓縮處理的語音信號和原始未經(jīng)處理的語音一定有差別,將這兩個信號相減,其差值就是處理帶來的噪聲,這種噪聲不可避免,問題的關(guān)鍵是如何將此噪聲在人們聽覺感知上降到最低。圖8是語音信號處理的頻譜示意圖,可以看出信號和噪聲的比例(信噪比)有的很大,如:在1 kHz以下的頻段;在1~2 kHz的頻段信噪比很小,甚至噪聲能量大于信號能量,此時,靈敏的耳能聽出處理后的語音噪聲很大,聽起來很不舒服;但是可以用一個噪聲成形濾波器,將噪聲頻譜變成如圖所示的虛曲線,此時,盡管噪聲的總功率沒有變化,但是,全部頻段的噪聲能量都小于語音信號的能量,它們完全被信號掩蔽,大大改善了合成語音信號的聽覺效果,可以聽不到任何噪聲,聽不出和原始語音信號有什么差別。
4.1.1掩蔽效應(yīng)的理論和實(shí)驗(yàn)解釋 聽覺是一個很復(fù)雜的過程,歷史上一些科學(xué)家試圖用一些模型和假設(shè)來解釋它,但都不成功。最著名的是德國科學(xué)家H.亥姆霍茲提出:耳蝸上的神經(jīng)纖維象鋼琴的琴弦一樣繃得很緊,鐙骨底板運(yùn)動使耳蝸的液體發(fā)生振動,只有刺激中能和頻率發(fā)生共振的神經(jīng)纖維才會跟著振動起來,稱為“共振理論”。20世紀(jì)初,又提出了“電話理論”,該理論認(rèn)為耳僅僅象傳聲器一樣,把聲信號轉(zhuǎn)化為電信號,神經(jīng)只是一根電話線,把電信號傳入大腦,所有處理均由大腦完成。隨著科學(xué)研究的深入,證明上面兩種理論都不正確。
關(guān)于聽覺的最新觀點(diǎn)認(rèn)為內(nèi)耳對聲信號進(jìn)行頻率分析,不同頻率在基底膜上相應(yīng)位置產(chǎn)生最大振動,稱為“位置理論”,也稱“部位理論”,實(shí)驗(yàn)證明了這個理論的正確性。因?yàn)榛啄な且粋€從寬而繃緊到窄而松弛的膜,不可能在膜上某一位置產(chǎn)生一個大的位移、而其他位置沒有位移或位移很小的振動模式,因?yàn)闆]有一種材料做成的膜片能有極為尖銳峰值的振動模式。實(shí)驗(yàn)證明不同頻率的正弦刺激(純音)在基底膜上不同位置生成不同形狀的位移包絡(luò),圖9是不同頻率正弦刺激在基底膜上產(chǎn)生的位移包絡(luò),頻率越高,位移包絡(luò)越窄且離鐙骨越近;頻率越低,位移包絡(luò)越寬且離鐙骨越遠(yuǎn)。匈牙利-美國物理學(xué)家貝克西(Békésy,Georg von)用實(shí)驗(yàn)驗(yàn)證了這個理論,寫了“聽覺原理”巨著,獲得了1961年諾貝爾醫(yī)學(xué)及生理學(xué)獎[1,2]。
在一個純音(掩蔽音)掩蔽另一個純音(被掩蔽音)的實(shí)驗(yàn)中,兩個效應(yīng)值得注意:一個是被掩蔽音頻率越接近掩蔽音頻率,掩蔽效果越好;另一個是低頻音對高頻音掩蔽效果強(qiáng),而高頻音對低頻音掩蔽效果要差得多。圖9的位置理論(或稱部位理論)就可以定性地解釋這兩個效應(yīng)。掩蔽音可以在基底膜上生成某一形狀的位移包絡(luò),而在某個位置位移最大。如果掩蔽音很弱,只能勉強(qiáng)引起神經(jīng)響應(yīng),這種響應(yīng)的部位很小,只局限在最大振動的附近,離它遠(yuǎn)一些的部位的振動都不足以使神經(jīng)纖維產(chǎn)生電脈沖。
如果掩蔽音強(qiáng)度很強(qiáng),基底膜上相對寬的一些部位都會有神經(jīng)響應(yīng),這種響應(yīng)出現(xiàn)在振幅大于神經(jīng)末梢刺激域值的地方。從圖9可以看出,接近掩蔽音而高于掩蔽音的部位(相對接近鐙骨處),掩蔽音會引起基底膜的明顯振動,反之,則無明顯的神經(jīng)活動。如果在掩蔽音中加入一個另一頻率的弱純音,讓聽者去聽時,在基底膜沒有明顯振動的地方(被掩蔽音頻率低于掩蔽音頻率),掩蔽音好像不存在一樣,所以低頻音不能被高頻音有效掩蔽。相反,在掩蔽音使基底膜強(qiáng)烈振動的那些部位(被掩蔽音頻率接近和高于掩蔽音頻率),只有被掩蔽音強(qiáng)度足夠強(qiáng)而改變振動模式時才能被聽到。因此部位理論可以很好的定性解釋掩蔽效應(yīng),它和觀察到掩蔽效應(yīng)的兩個重要現(xiàn)象很一致[2]。
4.1.2掩蔽效應(yīng)的方式 掩蔽現(xiàn)象很復(fù)雜,對不同的聲音要精確地利用掩蔽現(xiàn)象,就必須對各種掩蔽現(xiàn)象作詳細(xì)研究,并針對不同的對象(不同的聲音)作相應(yīng)處理。在掩蔽音和被掩蔽音同時存在時,有掩蔽現(xiàn)象發(fā)生,這稱為同時掩蔽(simultaneous masking)或頻率掩蔽(frequency masking),通常穩(wěn)態(tài)音存在時,頻率掩蔽起支配作用。不同時存在的聲音也會發(fā)生掩蔽現(xiàn)象,強(qiáng)掩蔽音會掩蔽前面或后面的弱音,稱為時間掩蔽(temporal masking),例如:在語音處理中一個很強(qiáng)的元音會把前面弱化的爆破音掩蔽掉;在編碼一些時間很短的打擊樂聲(如擊打一下響板)時時間掩蔽起主導(dǎo)作用,但該作用很有限。
4.1.2.1頻率掩蔽(frequency masking) 圖10解釋了頻率掩蔽現(xiàn)象,從圖中可以看到一個強(qiáng)的信號掩蔽了兩個頻率和它接近的弱信號,掩蔽域值以下的弱信號都聽不到,即聽覺的安靜域值由于掩蔽作用而提高;這在音頻編碼里有很大利用價值,為壓縮碼率,音頻編碼都在頻域進(jìn)行,由于掩蔽現(xiàn)象,在掩蔽域值以下的頻率分量因?yàn)槁牪坏?,完全可以不用編碼傳輸,即使略高于掩蔽域值的分量因?yàn)轫懚却鬄榻档?,對聽覺感知的貢獻(xiàn)不大,可以粗略量化,從而節(jié)省了大量的傳輸碼率,而不影響聽到聲音的音質(zhì)[3,6]。
4.1.2.2時間掩蔽(temporal masking) 除了同時發(fā)生的頻率掩蔽以外,一個強(qiáng)掩蔽音,在一定時間范圍內(nèi),可以對此強(qiáng)音前面或后面的弱音有掩蔽作用,這種掩蔽作用的時間范圍和作用很有限。圖11說明了這種掩蔽現(xiàn)象,一個強(qiáng)掩蔽音對它前面的音起掩蔽作用,稱前掩蔽(pre-masking),對它后面的音起掩蔽作用,稱后掩蔽(post-masking)。
后掩蔽較好理解,聽覺器官受強(qiáng)音作用有一定的慣性,在其后面短時間內(nèi)發(fā)生的弱音不足以改變感知的模式,因而聽不到;前掩蔽直觀上不太好理解,科學(xué)解釋認(rèn)為:任何可被聽到的聲音都要有一個時間間隔來累積能量,響度大的聲音需要的累積時間比響度小的音要長,而且前掩蔽現(xiàn)象僅在掩蔽音產(chǎn)生的前幾毫秒才有一點(diǎn)作用,不可能像頻率掩蔽和后掩蔽那樣可利用;例如:在處理一個敲擊響板的打擊音時,如果選擇處理塊大小不當(dāng),在打擊音前會產(chǎn)生能量擴(kuò)展的畸變,它不能被后面的打擊音掩蔽;人耳十分靈敏,能聽出這個畸變,這個畸變被稱之“預(yù)回聲(pre-echo)”或“雙打擊音(double-attack)”。圖12 說明了這個現(xiàn)象,圖12a是原始信號,圖12b是固定512點(diǎn)塊大小來處理響板打擊音時產(chǎn)生的預(yù)回聲,圖12c是對響板打擊音采用了自適應(yīng)點(diǎn)塊大小后得到的結(jié)果。說明人耳是如此的靈敏,想要降低碼率又能為人耳不被覺察,必須在仔細(xì)設(shè)計(jì)處理系統(tǒng)的同時結(jié)合人耳的心理聲學(xué)模型,才能達(dá)到最佳的效果[3]。