薛紫炫 耿立波 楊亦鳴
人類的言語交際活動常常受到噪聲的干擾,絕對安靜的言語交際環(huán)境是不存在的。噪聲下的言語感知研究有助于學(xué)者探究實(shí)際生活中的言語交際現(xiàn)象,具有明確而重要的意義。從臨床角度來說,噪聲下的言語測聽(speech audiometry)能更真實(shí)地反映聽者的言語識別能力,不僅能有效地評估聽者的聽力水平和助聽設(shè)備的功能,同時有利于言語加工障礙等疾病的早期診斷和干預(yù)。但目前噪聲下言語感知的神經(jīng)機(jī)制尚不明確,它不僅依靠于人類聽覺系統(tǒng)和認(rèn)知功能的完整性[1],還與學(xué)習(xí)、記憶、聯(lián)想、思維、經(jīng)驗(yàn)等高級功能密切相關(guān)(梁之安,1999)。本文在大量神經(jīng)電生理研究的基礎(chǔ)上,從噪聲與噪聲掩蔽的定義、噪聲下言語感知的特性、噪聲下言語感知的影響因素三個方面對噪聲下聽覺言語感知的研究進(jìn)展進(jìn)行綜述。
學(xué)界對噪聲并沒有給出統(tǒng)一的定義,不同研究領(lǐng)域?qū)υ肼暤慕缍ǜ饔袀?cè)重。物理學(xué)將噪聲定義為“發(fā)聲體做無規(guī)則振動時發(fā)出的聲音”;聲學(xué)將“那些雜亂無章、時斷時續(xù)、忽大忽小的聲音”稱為噪聲(吳宗濟(jì)等,1989);生理學(xué)則將一切妨礙人們正常休息、學(xué)習(xí)與工作的聲音統(tǒng)稱為噪聲(Sato等,2008);心理學(xué)及社會學(xué)將噪聲概括為人們不需要的聲音,如建筑工地中機(jī)器運(yùn)作的聲音、教室外的車笛聲、孩子的哭聲等[2];從語言學(xué)的角度,所有影響聽者識別和理解目標(biāo)聲音的聲音刺激均可算作噪聲(Shield等,2008)??偠灾?,噪聲是一個較為主觀的概念。
1960年,美國標(biāo)準(zhǔn)協(xié)會將聲音掩蔽定義為“由于一個聲音的出現(xiàn)而導(dǎo)致另一個聲音的聽閾提高的過程”。噪聲干擾聽者對目標(biāo)聲音的感知就是一種聲音掩蔽現(xiàn)象,也被稱為噪聲掩蔽(Watson等,2005)。假設(shè)某純音的頻率為1 000 Hz,正常人在聲壓級為3 dB時就可以聽到該純音,那么可說1 000 Hz純音的聽閾為3 dB,當(dāng)同時出現(xiàn)70 dB的噪聲時,必須將純音的聲壓級提升至84 dB才能保證1 000 Hz的純音被人耳聽到,該1 000 Hz純音的聽閾提高了81 dB,則可說70 dB的噪聲對1 000 Hz純音的掩蔽值為81 dB。據(jù)此可得,噪聲降低了聽覺器官對目標(biāo)純音的敏感性(Martin等,1997)。相比之下,言語包含語音、語義、語法等信息,加之連續(xù)語流自身的不穩(wěn)定因素,噪聲對言語感知的掩蔽情況更為復(fù)雜,其神經(jīng)機(jī)制是學(xué)者們研究的重點(diǎn)。
人類能夠有效地進(jìn)行語音感知,一方面依賴于完整且正常的聽覺系統(tǒng)和認(rèn)知功能[3],另一方面依賴于言語信號本身所包含的外冗余度(extrinsic redundancy),即上下文語境中的語義線索、語境線索、副語言特征線索等語言線索[4]。二者相互協(xié)助,幫助聽者在噪聲條件下進(jìn)行言語加工。
2.1聽覺系統(tǒng)與認(rèn)知功能 人類的聽覺皮層主要由一個中心初級區(qū)域組成,包括Brodmann 41和42、顳橫回(HG)等區(qū)域,中心初級區(qū)域被多個非主要區(qū)域圍繞,包括Brodmann 22、顳平面(PT)等區(qū)域。聽覺中樞能夠利用不同的線索從混合的聲音流中區(qū)分出來自不同聲源的信息,再將來自于同一個聲源的信息整合成一個聲音流進(jìn)行加工[5]。聽覺神經(jīng)對線索的利用是多方面的,可根據(jù)位置、時間以及頻率等不同參數(shù)進(jìn)行自我調(diào)節(jié)以分辨不同的聲源[6]。因此,聽力損失在很大程度上會影響噪聲下的言語識別[7]。
對于噪聲下的言語感知加工,聽者也經(jīng)歷了從分離(segregating)到整合(grouping)的加工過程。在神經(jīng)層面上,這一過程大致可概括為兩條通路:與語義提取和轉(zhuǎn)換相關(guān)的腹側(cè)通路、與感覺運(yùn)動整合及產(chǎn)出相關(guān)的背側(cè)通路。聽覺皮層的信息經(jīng)由感覺運(yùn)動層面?zhèn)髦裂哉Z運(yùn)動系統(tǒng),生成發(fā)音動作或言語動作預(yù)期,下行投射至感覺運(yùn)動界面,與上行而來的語音聽覺表征進(jìn)行匹配,在這一過程中,與言語產(chǎn)出相關(guān)的皮層言語運(yùn)動系統(tǒng)通過預(yù)測和反饋的回路來代償和調(diào)節(jié)言語知覺[8]。言語的生成分析假設(shè)(analysis-by-synthesis)認(rèn)為言語運(yùn)動系統(tǒng)只在噪聲等不利條件下才會生成言語運(yùn)動預(yù)期,且言語運(yùn)動系統(tǒng)的激活與SNR呈倒U型曲線關(guān)系,在中等強(qiáng)度的信噪比條件下,言語運(yùn)動系統(tǒng)能夠發(fā)揮最大程度的代償效應(yīng)[9]。
研究表明人腦中有特定的腦區(qū)負(fù)責(zé)處理噪聲條件下的言語加工。功能性磁共振成像(fMRI)研究發(fā)現(xiàn)顳上回對人類語音有強(qiáng)烈的雙側(cè)激活,但當(dāng)語流數(shù)量增加而要求聽者對目標(biāo)聲音進(jìn)行選擇性反應(yīng)時,左前顳葉激活最顯著,主要位于雙邊顳上回(superior temporal gyrus, STG)和顳上溝(superior temporal sulcus, STS);Scott等[10]將語音噪聲條件與復(fù)雜的非語音基線(如旋轉(zhuǎn)語音)進(jìn)行比較,發(fā)現(xiàn)選擇性反應(yīng)沿著STS向前延伸,就偏側(cè)性而言,這些反應(yīng)的振幅在左半球更高、更穩(wěn)固[10]。研究還指出腹側(cè)和背側(cè)前額葉皮層以及后頂葉皮層的激活情況與SNR水平相關(guān)(level-dependent),SNR越小,激活越顯著。此外,隨著噪聲水平的增加,語義通達(dá)和發(fā)音加工增加,表現(xiàn)為左前額葉腹側(cè)皮層和輔助運(yùn)動區(qū)(SMA)激活增加[11]。
2.2言語的外冗余度 人腦對語音信號的加工可籠統(tǒng)地分為感知和理解兩個過程。感知階段可將言語信號分析為音素、音節(jié)、詞、詞組、分句等不同的等級層次單元;理解階段主要從各種語言形式中獲取語義信息以了解說話人的目的,這些過程涉及語言結(jié)構(gòu)線索、語義線索、語境線索、副語言特征線索以及韻律特征線索等;這些線索被稱為“冗余信息”,存在于語言的每一個層面上(潘長江,1986)。
不同語言單元包含的冗余信息量不同,研究認(rèn)為冗余信息量的增加會降低言語的不確定性(Miller等,1947)。一般認(rèn)為雙音節(jié)詞比單音節(jié)詞包含更多的冗余信息,在人腦的詞庫中,與雙音節(jié)詞聲學(xué)特征相似的詞匯數(shù)量比單音節(jié)詞少,所以在噪聲條件下聽者對雙音節(jié)詞的聲學(xué)特征辨別、信息提取及加工均易于單音節(jié)詞,受噪聲掩蔽的程度較單音節(jié)詞小(何星,2000)。而對于詞組和短語來說,其聚合和組合關(guān)系等句法冗余、詞與詞之間的語義關(guān)系等都可以起到預(yù)測和消除歧義的作用。如“bread and butter”、“iron and steel” 等詞項(xiàng)為表示整體概念的并列結(jié)構(gòu),“knife and fork”、“watch and chain”等詞項(xiàng)表示配套事物,這些詞項(xiàng)經(jīng)常一起出現(xiàn),聽者可根據(jù)其中一個詞語預(yù)測另一個詞語的出現(xiàn)。句子層面的冗余信息更為豐富和復(fù)雜,幾乎可以包括所有類型的冗余信息,這些冗余信息幫助聽者進(jìn)行語義選擇和詞語預(yù)測[12]。以句子層面的語義冗余為例,單詞“ball”包含“球”、“舞會”等不同的義項(xiàng),但在句子“The ball I attended last night was wonderful.”中,由于動詞“attend(參加)”的語義限定,“ball”在此句中便只表達(dá)“舞會”的意思。
噪聲下的言語感知對外界變量較為敏感,噪聲類型、目標(biāo)信號類型、信噪比、任務(wù)設(shè)置、個體因素等均會對噪聲掩蔽效應(yīng)產(chǎn)生影響,這也是造成相關(guān)研究結(jié)果產(chǎn)生分歧的原因之一。本文立足于實(shí)驗(yàn)室研究,從實(shí)驗(yàn)設(shè)計(jì)本身出發(fā)例舉了噪聲類型、刺激信號類型、信噪比三個主要影響因素。
3.1噪聲類型 早期的噪聲掩蔽研究多使用人工合成的無意義的聲音,這類研究主要探究噪聲的物理特性,如響度、強(qiáng)度、頻譜時間特性、信噪比等。白噪聲(white noise)是一種在整個頻域內(nèi)功率譜密度分布均勻的噪聲,聽感類似沙沙聲[13];言語譜噪聲(speech spectrum-shaped noise)是一種與目標(biāo)語音長期平均頻譜相匹配但不包含言語信息的穩(wěn)態(tài)噪聲,它的形成基于語料庫,是在一定數(shù)量的句子的基礎(chǔ)上產(chǎn)生的,其頻譜范圍能覆蓋大多數(shù)語言頻率[14];嘈雜噪聲(babble noise)是指包含多個來自不同聲源的聲音[15]。
當(dāng)前研究更多考察來自自然語言的言語噪聲(speech noise),這就引發(fā)了言語噪聲掩蔽與非言語噪聲掩蔽的對比研究。Leibold等[16]和Buss(2013)比較了受試者在言語譜噪聲條件與言語噪聲條件下聽辨“輔音+元音”結(jié)構(gòu)的表現(xiàn),結(jié)果發(fā)現(xiàn)在言語噪聲條件下,受試者需要更高的信噪比;Jamie等[17]要求受試者對實(shí)驗(yàn)中的三種掩蔽條件的難易程度進(jìn)行評定,包括言語譜噪聲條件、兩個說話者的噪聲條件以及六個說話者的噪聲條件,結(jié)果顯示包含兩個說話者的噪聲條件被認(rèn)為最困難,而言語譜噪聲條件最容易。由此可見,相較于白噪聲,言語噪聲對言語信號的掩蔽程度更大。
首先,從聲學(xué)層面分析,不同噪聲具有不同的譜時特征。白噪聲是一種功率頻譜密度為常數(shù)的隨機(jī)信號,其頻譜能量在時間的橫軸上分布得均勻且穩(wěn)定,時間包絡(luò)或頻譜變化上的波動非常小,從而只能產(chǎn)生有限的掩蔽效應(yīng);相比之下,言語噪聲尤其是多人談話噪聲在時間包絡(luò)和頻譜特征上均存在變化,在線性坐標(biāo)上能量分布不均勻,因此掩蔽效應(yīng)更強(qiáng)。此外,言語噪聲的頻譜與目標(biāo)語音的長時平均頻譜非常接近,這增加了噪聲與目標(biāo)語音在頻譜特征上的辨別難度(Studebaker等,1994)。
其次,從掩蔽機(jī)制分析,白噪聲與言語噪聲的差異本質(zhì)上反映了能量掩蔽(energetic masking, EM)與信息掩蔽效應(yīng)(informational masking, IM)的機(jī)制差異。能量掩蔽是指噪聲與目標(biāo)聲音在時間包絡(luò)和頻譜特征上重疊,噪聲屏蔽或覆蓋了特定時頻段的目標(biāo)聲音[18],導(dǎo)致目標(biāo)聲音的全部或部分信息無法被聽者接收,語音編碼加工受阻,即能量掩蔽的本質(zhì)是噪聲的能量干擾了目標(biāo)聲音的能量[19];信息掩蔽則發(fā)生在噪聲和目標(biāo)語音都聽得見的情況下,噪聲占用了目標(biāo)語音加工所需的認(rèn)知和心理資源,資源競爭導(dǎo)致聽者識別目標(biāo)語音的能力降低,即信息掩蔽本質(zhì)上發(fā)生在高級的神經(jīng)加工層面[20],由噪聲的內(nèi)容信息對心理資源的占用引發(fā)。研究認(rèn)為純音產(chǎn)生能量掩蔽,言語噪聲能夠產(chǎn)生能量掩蔽與信息掩蔽的疊加效應(yīng),不僅在掩蔽程度上大于純音,且涉及言語加工中的認(rèn)知加工。
上文提到信息掩蔽的本質(zhì)是噪聲與目標(biāo)語音對心理認(rèn)知資源的競爭,然而產(chǎn)生競爭的原因尚不明確,這也導(dǎo)致信息掩蔽效應(yīng)的性質(zhì)問題成為一個爭論熱點(diǎn);其中影響較大的為內(nèi)容干擾假說(interference-by-content hypothesis)與過程干擾假說(interference-by-process hypothesis)。前者認(rèn)為噪聲與目標(biāo)語音共享感知或者二者在語音、語義空間等方面的相似性均可導(dǎo)致信息掩蔽,且目標(biāo)語音和噪聲在聲學(xué)屬性、語音特征、語義內(nèi)容等方面越相似,掩蔽程度越大[19];后者則認(rèn)為聽者對包含可理解信息內(nèi)容的言語噪聲產(chǎn)生自動認(rèn)知加工,這一過程和目標(biāo)語音的加工使用了相同的加工過程,因而導(dǎo)致認(rèn)知資源被分散[21]。前人實(shí)驗(yàn)發(fā)現(xiàn),相關(guān)研究存在分歧的一個重要原因是未能全面考慮各種變量對噪聲掩蔽的影響,如噪聲類型、言語噪聲的熟悉度、目標(biāo)語音的類型、實(shí)驗(yàn)任務(wù)、受試者的語言背景等,這些都是后續(xù)研究必須注意的問題。
3.2目標(biāo)信號的類型 目標(biāo)信號的變化可能改變噪聲掩蔽的性質(zhì)及程度。首先,純音信號與言語信號的比較是探究噪聲下言語信號加工特性的重要方法,二者差異明顯;其次,言語加工具有其內(nèi)部復(fù)雜性和層次性,不同語言單元的聽覺加工過程激活不同的神經(jīng)機(jī)制網(wǎng)絡(luò),當(dāng)前研究主要關(guān)注噪聲條件下的音節(jié)感知,噪聲對句子和語篇理解的掩蔽研究較少,且不同語言單元的比較也應(yīng)作為研究的重點(diǎn)。
首先,對比純音信號與言語信號的實(shí)驗(yàn)結(jié)果表明當(dāng)目標(biāo)刺激為音節(jié)等語音信號時,掩蔽類型或噪聲類型在皮層處理中能夠起到更為重要的作用,例如:Billings等[22]發(fā)現(xiàn)當(dāng)目標(biāo)信號為500 Hz的音調(diào)時,言語噪聲與非言語噪聲條件誘發(fā)的腦電波形振幅之間無顯著差異,但音節(jié)/da/在言語噪聲下誘發(fā)的腦電波形較非言語類噪聲條件發(fā)生了顯著的退化。言語能力的下降并不一定伴有聽敏度的改變,純音感知能力正常與否并不等同于言語聽辨能力的好壞。有患者對聲音的感受正常,但對語音的認(rèn)知可能存在異常,因此某些中樞病變表現(xiàn)為純音聽閾正常,但言語測試得分低[17]。
其次,當(dāng)目標(biāo)信號為不同語言單元時,噪聲下言語感知的屬性也可能受到影響。除聲學(xué)特征、譜時特征的差異外,冗余信息量的多少也是一個重要因素。胥科等[7]指出即使噪聲導(dǎo)致聽者不能完全辨別目標(biāo)句中的每一個音節(jié),聽者也仍然能夠通過語義、語法、語境等已獲取的信息理解該句子的含義。隨著冗余信息量的增加,噪聲的干擾會相對減小。
個體在對語句進(jìn)行加工時,能夠從上下文語境中獲取冗余信息構(gòu)建語義預(yù)期。語義預(yù)期是指將長期記憶存儲的語言知識應(yīng)用于輸入的語言以促進(jìn)語言理解的能力,通過限制言語輸入的可能候選詞項(xiàng),幫助聽者維持語音的在線處理和理解。當(dāng)輸入語音的譜時特征被噪聲模糊甚至被掩蓋時,句子包含的語義、語境、結(jié)構(gòu)及韻律等信息能夠幫助聽者構(gòu)建語義預(yù)期,語義預(yù)期通過限制言語輸入的可能候選詞項(xiàng),幫助聽者維持語音的在線處理和理解[23]。因此,噪聲條件下句子感知加工較詞語等語言單元會表現(xiàn)出更大的穩(wěn)定性。
3.3信噪比 噪聲干擾言語譜時特征,增加言語信息的處理難度,表現(xiàn)為聽者言語識別的正確率隨信噪比增加而下降[14]。皮質(zhì)神經(jīng)元密切跟蹤噪聲水平,掩蔽水平與噪聲水平成正比,掩蔽水平增加導(dǎo)致相似幅度的掩蔽閾值變化,因此,噪聲水平的增加必須與相同幅度的信號增加相匹配以維持神經(jīng)反應(yīng),從而幫助聽者從競爭聲音中提取感興趣的信號[24]。
首先,當(dāng)噪聲掩蔽強(qiáng)度等于或大于目標(biāo)刺激時,皮層神經(jīng)反應(yīng)的時間和幅度會受到顯著影響。Whiting等(1998)系統(tǒng)地研究了寬帶噪聲(broadband masking noise, BBN)對語音/ba/和/da/誘發(fā)的皮層事件相關(guān)電位(ERPs)N1、N2、P3的影響。10例聽力正常的成人通過按鍵反應(yīng)區(qū)分安靜或?qū)拵г肼?BBN)下的語音/ba/和/da/,刺激通過Oddball范式呈現(xiàn),當(dāng)語音設(shè)置為65 dB SPL,BBN設(shè)置為 50、60和70 dB SPL,當(dāng)語音設(shè)置為80 dB ppe SPL,BBN設(shè)置為60、70和80 dB SPL;結(jié)果顯示BBN掩蔽條件下ERP波幅和行為辨別力較安靜條件下顯著降低,同時只有當(dāng)噪聲掩蔽強(qiáng)度等于或大于語音刺激強(qiáng)度時,ERP波幅和行為辨別力降低的情況才會發(fā)生。
其次,誘發(fā)電位的波形振幅隨信噪比增加而增加,潛伏期隨信噪比增加而減少。P1-N1-P2復(fù)合波是噪聲掩蔽過程中較為重要的腦電成分,其形態(tài)受信噪比驅(qū)動。Billings等[25]讓15例聽力正常年輕成人分別在安靜和連續(xù)噪聲環(huán)境(分為5個等效信噪比)下聽60 dB和75 dB的1 000 Hz的聲音,并記錄皮層聽覺誘發(fā)電位,結(jié)果顯示當(dāng)提高噪聲水平或降低信號水平使信噪比降低或變得不利時,P1-N1-P2復(fù)合波形態(tài)會退化,潛伏期更長,振幅更小[26]。
信噪比的數(shù)值設(shè)定是噪聲掩蔽實(shí)驗(yàn)的關(guān)鍵。高信噪比條件下的噪聲容易被聽者忽略,產(chǎn)生掩蔽釋放現(xiàn)象,所以高信噪比環(huán)境下表現(xiàn)出的某些效應(yīng)并不穩(wěn)定;低信噪比條件更能真實(shí)地反映噪聲掩蔽的屬性,一方面,低信噪比環(huán)境下,語音特征參數(shù)的穩(wěn)定性會急劇下降;另一方面,低信噪比加大了聽覺系統(tǒng)和人腦篩選信息的難度。相關(guān)研究將低信噪比的范圍設(shè)置在-10到20 dB之間,而-10到10 dB范圍內(nèi)的信噪比是學(xué)者尤為關(guān)注的;如:人聲識別系統(tǒng)一直致力于克服噪聲的干擾,傳統(tǒng)的人聲識別系統(tǒng)在信噪比較高的環(huán)境中取得了較好的識別結(jié)果,當(dāng)信噪比降到20 dB以下時,穩(wěn)定性便有所下降,當(dāng)降到10 dB及以下時,模型的識別率已經(jīng)大幅度下降。
噪聲下的聽覺言語感知加工是一個從分離到整合的過程,聽覺中樞系統(tǒng)從多個語流中篩選出想要的言語信息進(jìn)行加工,在這一過程中,背景噪聲對目標(biāo)語音產(chǎn)生掩蔽效應(yīng)。噪聲掩蔽的性質(zhì)和程度受噪聲類型、目標(biāo)信號類型、信噪比等因素的影響,但這方面的研究并不全面,學(xué)者們一直期望能夠模擬現(xiàn)實(shí)生活中的聽覺信息感知或言語交際場景,以語音為載體的言語信號,尤其是句子、篇章等語言單元必將是日后噪聲掩蔽研究的著力點(diǎn),這也是現(xiàn)有研究的不足之處。此外,前人研究重視噪聲的聲學(xué)屬性,忽略了與言語加工相關(guān)的認(rèn)知因素的影響,如:言語噪聲對目標(biāo)語言的干擾處于語音層面還是語義層面、受試者的語言背景及言語噪聲的熟悉度對噪聲掩蔽效應(yīng)的影響等問題都未深入探究,這就導(dǎo)致噪聲掩蔽研究的語言學(xué)意義較弱,需要深入地探究。