陳繼躍 戴靜 李興啟 韓東一 冀飛
語言本質上是一種調制信號,是由動態(tài)頻率調制和時間調制組成,這些調制成分隨著語言的表達而改變。聲波振動在耳蝸中傳播具有頻率選擇性,這些頻率信息經(jīng)過聽神經(jīng)纖維束傳遞到聽覺中樞系統(tǒng),聽覺中樞系統(tǒng)對聲音進一步分析并處理為可識別的信息[1]。同樣,聽覺神經(jīng)元對隨時間變化的聲源也有選擇性,包括信號能量的時間調制和隨時間變化的頻率變換(Langner等,1988和Schreiner等,1988)。外周聽覺感受器對聲源進行初始的分解,將聲源分解為依賴時間的頻率激活模式的聲音表征,這種高效的表達是以耳蝸能量調制的神經(jīng)活動傳入聽覺中樞系統(tǒng),并分析解碼和提取聲源內容和來源。對聽神經(jīng)元在提取和傳導噪聲環(huán)境中言語信息的測試,有助于了解在自然環(huán)境中聽神經(jīng)元的功能狀態(tài)和輔助下一步的治療措施。
對自然界中復雜信號的頻率和時間信息在聽覺神經(jīng)系統(tǒng)中表達的理解主要依賴于計算神經(jīng)元刺激響應函數(shù)的方法。神經(jīng)元刺激響應函數(shù)(stimulus-response function,SRF)是指單個神經(jīng)元將聲音編碼為一系列動作電位或峰電位的方式[1],這些信息的特征不能用簡單的參數(shù)表示。因此,聯(lián)合使用結構噪聲和反向相關分析可對聽覺神經(jīng)元對聲音的頻率和時間成分之間的相互作用或依賴反應進行量化,大致評估這種反應是興奮性還是抑制性,進而反映聽覺系統(tǒng)中復雜和簡單的SRF特性[1]?;诖耍袑W者提出了聽覺系統(tǒng)的時頻感受野(spectrotemporal receptive fields,STRFs)的理論[1,2]。STRFs可以被看作為一個時頻調制濾波組(spectrotemporal modulations filter bank),能捕獲隨時間推移的頻率響應積分的演變過程[2]。STRF的發(fā)生需要一個覆蓋范圍足夠廣的刺激聲,使神經(jīng)元均勻地暴露在所有可能的聲音結構的子集中,通過一個反向相關(僅在每個動作電位前平均所有刺激模式進行的)或平均觸發(fā)峰電位的過程獲得。用傅里葉變換將STRFs轉換為調制傳遞函數(shù),以頻率和時間為聲音參數(shù)來表示神經(jīng)元反應強度,這樣可量化頻率和時間之間相互依賴或作用[3]。時域和頻域調制(簡稱時頻調制,spectrotemporal modulation,STM)信息在STRFs中準確的表達,對言語可懂度起著至關重要的作用[4]。在聽力正常的人群中,STM對句子的理解和語音性別的鑒別起著關鍵的作用[3];而在聽力障礙的人群中,STM靈敏度可以作為言語清晰度的預測指標[5]。時頻靈敏度測試分為頻率行波辨別測試和頻率/STM察覺閾的測試[6]。文中主要針對STM察覺閾的測試進行系統(tǒng)的綜述。
言語功率譜在時間和頻率上的波動稱為調制。任何語譜圖可以分解為頻率和時間調制成分構成,其包含一定范圍的頻率調制密度(周期/倍頻程,cycle/octave,c/o)和時間調制速率(Hz)(圖1)(Chi等,1999和Elhilali等,2003)。STM察覺閾測試是將同時進行頻域和時域調制后的語音信號作為檢測信號(時頻調制聲)的一種閾上聽神經(jīng)功能測試方法。時頻調制聲是二維調制函數(shù)(公式1),言語時頻調制聲是指語音輸入信號在經(jīng)過外周聽覺濾波庫系統(tǒng)的輸出信號后呈STM剖面,即一定范圍內的時間速率和頻率密度上的語音信號的STM成分的量[5]。噪聲時頻調制聲,如移動行波(dynamic moving ripple),頻率的行波隨著時間在頻率通道上非同步波動,產(chǎn)生隨時間頻率的頻峰移位的移動行波,每個行波都有特定的時域和頻域調制值[4]。
圖1 頻域調制、時域調制和時頻調制刺激聲的語譜圖 Y軸表示頻率(0~6 kHz),X軸表示時間(500 ms),黑框里為6種不同的時頻調制聲的語譜圖[15]
S(x,t)=A×[2π×(ωt+Ωx)+Φ]
(1)
公式中,S為每個載波聲的振幅,即時間(t)和對數(shù)頻率(x)[如x=log2(f/f1), f為信號音頻率,f1為最小的頻率]的函數(shù);A為行波調頻振幅,由載波聲的調制深度決定的,當A值設置為0到1之間,其相應的平坦行波包絡的頻率調制為0至100%;Ω為單位每倍頻程周期(cycle/octave, c/o)的頻率密度,Φ是以弧度表示的載波隨機化的頻率調制初始相位(范圍從0到2π),ω為時間調制速度,以每秒掃描次數(shù)(Hz)表示。
STM察覺閾的測試程序是通過采用兩間隔、兩選擇的自適應強制選擇(2-interval, 2-altemative a daptive forced choice)范式,沉默間隔500 ms;一個間隔為時頻調制刺激聲(即目標信號),而另一間隔為未調制噪聲(即參考信號,如穩(wěn)態(tài)噪聲),刺激聲隨機出現(xiàn)在第一或第二個間隔。受檢耳的目標信號和參考信號的標稱值為80 dB SPL/oct(總給聲強度86 dB SPL),使受試者在舒適聆聽環(huán)境下最大限度地提高可聽度。測試時要求受試者識別、選出兩個連續(xù)的刺激間隔中包含時頻調制的刺激聲,例如鳥叫、振動或隨時間和頻率移動聲。調制深度在一個降3升1自適應程序中變化,追蹤79.4%的正確點,階躍大小以分貝計算(dB,20 logA,A為調制深度,也指調頻振幅)。調制深度從0 dB開始(全調制),然后降6 dB直到出現(xiàn)第一個逆轉點,再降至4 dB直到出現(xiàn)下兩個逆轉點,再降至2 dB直至出現(xiàn)最后六個逆轉點;將最后六個逆轉點的調制深度的平均值定義為閾值。調制深度不能超過0 dB,如自適應追蹤要求的調制深度超過0 dB,則下一次測試采用全調制。另外,如果受試者在任何一次測試中不能察覺全調制信號超過五次,則終止測試。
在外周聽覺濾波庫系統(tǒng)中,低通濾波器和陷波濾波器對言語理解力起著至關重要的調制。相對低速率的時間和頻率能量調制反映了清晰發(fā)音的速度、音節(jié)速率和語音音位(即元音和輔音)(Chi等,1999)。Elliott等[3]用低通濾波器對語音的頻率和時間進行調制研究言語聲的時頻調制與言語可懂度之間的關系發(fā)現(xiàn),調制密度≤4 c/kHz(如中心頻率為500 Hz,2 c/o=4 c/kHz)和調制速率≤8 Hz為核心調制,在言語理解力方面起著關鍵作用。另外,他們聯(lián)合陷波濾波器對語音核心調制區(qū)域進行調制發(fā)現(xiàn),決定言語清晰度主要在1~7 Hz之間的中間時間調制和極低的頻率調制,可見言語可懂度轉換形式為時間的帶通調諧和頻率的低通調諧。言語的清晰度、性別識別、音調和音樂的音色感知高度取決于不同的時間調制速率和不同的頻率調制密度[7]。
STM結合了言語信號的時頻維度,是對言語傳輸?shù)囊环N細化,可有效的對信號頻率進行特定的函數(shù)加權即調制,用來評估噪聲下的言語可懂度和混響,其適用于由某部分聽覺通道出現(xiàn)相位抖動(phase jitter)和脈沖振幅限幅(amplitude clipping)導致的相位畸變或嚴重非線性言語信號失真而出現(xiàn)時頻畸變的情況(Elhilali等,2003),因此,結合時頻的變化線索的靈敏度測試評估STM感知,可廣泛應用于各種研究中[4,8~10]。以下是對STM察覺測試在幾種特定的聽覺障礙診斷中的應用。
聽神經(jīng)病患者在噪聲環(huán)境中的聆聽技能和言語識別能力差,這主要源于傳入聲音信號的非同步神經(jīng)響應相關的時間處理障礙[11,12]。聽覺時間處理幫助聆聽者快速的分析和整合簡短的、隨時間變化的語言信息的變化,迅速完成言語識別,這是獲得聆聽和語言技能的必備條件[12]。噪聲或混響背景中的言語信號失真是由于言語信號的時間模糊化(Steeneken等,1980),而檢測某些時間對比的能力對識別輔音釋放脈沖非常重要[5]。目前,對于了解聽神經(jīng)病的時間處理能力改變的方法主要通過間隔察覺和聲源空間定位測試[13~15]。部分研究表明在安靜的環(huán)境中,即使頻率分辨率降低,言語可懂度仍然可有較好的表現(xiàn);但在噪聲環(huán)境中,則需要更高的頻率分辨率進行言語識別(Shannon等,1995和Friesen等,2001)。目前尚未見STM察覺閾測試應用于聽神經(jīng)病的研究,但根據(jù)聽神經(jīng)病的頻率分辨率和時間處理能力會隨著時間惡化的結果,結合頻率和時間調制信號進行STM察覺閾監(jiān)測,可能有助于醫(yī)生和聽力師更好地、動態(tài)地掌握聽神經(jīng)病的病程進展,并及時干預。
老年性聾主要表現(xiàn)為漸進性聽力下降,識別終止輔音或摩擦元音音節(jié)困難(Turner等,1987)、伴或不伴語言提示的壓縮語音困難(Gordon-Salant等,2001)及時間精細結構處理障礙、掃頻調制察覺閾下降、音位鑒別困難和詞匯識別障礙[16,17]。在心理物理學測試中,對年齡相關的頻率處理改變主要用頻率拓撲或調諧曲線測試,時間處理的改變則用間隔感知或調幅信號測試[17]。Trujillo等[17]對老年性聾小鼠的皮層時頻處理的變化進行研究,發(fā)現(xiàn)年齡相關的聽皮層神經(jīng)元減少導致時頻處理能力快速下降。因此,STM察覺測試可能替代非言語聲學測試,并有效獲得老年性聾的頻率和時間改變信息。
聽處理障礙(auditory processing disorder, APD)是指聽覺中樞神經(jīng)系統(tǒng)的聽覺信息感知處理障礙,主要表現(xiàn)為聽覺鑒別、聲源定位、言語識別和噪聲中聽覺表現(xiàn)異常,尤其是雙耳線索和時間處理能力異常[18]。臨床上,APD測試主要是基于言語的測試[19],少部分研究則針對APD的聲源定位和鑒別能力的改變用非言語刺激聲測試,如間隔感知或雙耳時間精細結構靈敏度測試[20~22],后者主要用純音刺激信號獲得耳間相位差(interaural phase difference, IPD)的閾值[22]。而這些測試結果異常通常不能用來解釋是由APD引起的還是由高級認知障礙引起。生理學研究表明在不同層級結構水平的聽覺中樞系統(tǒng)中存在對STM調諧的神經(jīng)元濾波組,即聽覺神經(jīng)元選擇性的對不同的頻率和時間結合信號響應[23]。因此,APD可導致聽覺神經(jīng)元對STM響應功能下降,Lotfi等[10]研究發(fā)現(xiàn)兒童APD患者的聽覺神經(jīng)系統(tǒng)的聲信號時頻編碼障礙可能導致STM察覺閾提高,噪聲下言語感知聆聽障礙是STM線索提取能力差的潛在因素。另外,STM察覺測試信號是一組時頻調制刺激聲和未被調制的參考載波噪聲組合,不受測試者認知功能的影響,可很好地解釋引起APD測試結果異常的因素。STM察覺測試在APD中應用可用來預測聽覺神經(jīng)系統(tǒng)的神經(jīng)元時頻編碼的功能狀態(tài)和提取STM線索能力的參考指標。
助聽器能夠有效改善中度聽障者的聽覺能力,但在噪聲環(huán)境中的言語清晰度存在差異性。Smoorenburg(1992)、Amos(2007)和Humes(2007)等報道聽力障礙患者在沒有助聽時,用純音聽閾圖來解釋這種差異的靈敏度高達50%~75%,當助聽器給予較高增益時,語譜圖的可聽度大大高于閾值。因此,不能單用聽閾圖作為噪聲環(huán)境中言語理解力的可靠參考指標[9]。言語感知障礙包括二部分,即言語可聽度和言語失真(Plomp等),發(fā)生言語失真的確切機制還不清楚,目前普遍共識包括認知處理障礙、閾上信號在外周聽覺或中腦中畸變編碼或兩種因素同時存在[9]。用工作記憶能力測試來評估認知處理障礙過程中,發(fā)現(xiàn)安靜時助聽效果良好,但仍有15%~35%的患者在噪聲環(huán)境中存在言語感知的差異[24,25]。外周聽覺結構,如毛細胞和聽神經(jīng)纖維損傷,可引起時間或頻率的分辨率降低,削弱了提取言語信號特征的能力,導致言語信號可聽成分的神經(jīng)表征失真。
聽覺康復訓練可提高存在認知障礙聽障者處理言語信息的能力[26],閾上處理障礙的聽障者需用未來設計的信號處理算法補償言語信號失真的部分信息[27],因此,需要選擇合適的測試方法來區(qū)分認知障礙和閾上處理障礙的聽障人群。而STM察覺閾的測試可以鑒別認知障礙和閾上失真導致噪聲中言語接受能力受限,其結果有助于聽障人士選配合適的助聽器、獲得更高效的增益,并有針對性的施行言語康復措施。另外,時頻調制參數(shù)對助聽器的壓縮放大技術的改進具有指導意義[9]。
人工耳蝸植入者對STM信息有一定的靈敏性,人工耳蝸通過不斷更新感知策略來提高對STM靈敏度,幫助患者獲得周圍環(huán)境的信息[7],故其效果差異部分是由于STM靈敏度不同。通過對時頻信號改變的靈敏性檢測評估頻率和時間信號的感知整合方式,對開發(fā)言語處理策略有啟示作用,以進一步提高人工耳蝸植入患者的語言理解能力。
人工耳蝸言語編碼策略通常用高級組合編碼(ACE)或連續(xù)間隔采樣(CIS)。目前,植入Nucleus人工耳蝸的絕大多數(shù)患者都采用ACE策略,ACE一般設定8~12個譜峰,言語信號交由22個帶通濾波器來分隔,刺激速率為每個通道900~1 200 Hz,只進行頻率調制的聲音在每個時間幀中都要刺激相同的電極。動態(tài)STM刺激聲在每個時間幀中都有可能刺激不同的電極,從而在所傳遞的頻率信息中產(chǎn)生持續(xù)的變化。有些人工耳蝸植入者由于長期的聽覺剝奪或其他因素出現(xiàn)聽神經(jīng)退化,而STM傳輸?shù)男盘柨赡茌^少發(fā)生神經(jīng)適應,故STM信息能以更高的保真度傳輸?shù)铰犛X中樞水平[4],因此,時頻調制聲比頻率調制聲能獲取更多聲源信息。另外,人工耳蝸多通道響度總和與處理器的空間和時間通道相互作用導致時頻靈敏性增加;處理器內的包絡濾波器的低通濾波器截止頻率可能影響多通道相互作用和調制靈敏性。人工耳蝸的雙頻率和時間處理策略是通過采用增強時頻信號來提高言語清晰度,因此,STM靈敏性對開發(fā)人工耳蝸言語處理策略和人工耳蝸植入術后康復策略具有指導意義。
另外,時頻察覺測試可補充言語測試材料,輔助臨床醫(yī)師更精確的預測人工耳蝸助聽效果。Choi等[8]研究發(fā)現(xiàn)聽障患者在最佳助聽條件下,STM察覺閾的測試(尤其是頻率密度為0.5 c/o及時間調制速率為5 Hz)比言語感知測試更能精確地篩選出人工耳蝸植入的適用人群。
應用于研究聽覺神經(jīng)系統(tǒng)的測試方法不計其數(shù),而大多數(shù)聽力和言語測試方法只能反映安靜的條件下患者的聽力情況和言語理解程度。STM察覺閾的測試則是模擬人們真實環(huán)境中對周圍環(huán)境所需的語言信息反應的一種閾上聽神經(jīng)功能測試方法,即利用噪聲分析技術來評估聽覺神經(jīng)元對言語信號的反應和聽覺皮層對言語信號的處理。對STM靈敏度測試方法有電生理測試和心理聲學測試兩類,其中電生理測試是將STRF模型應用于皮層腦電圖(electrocorticogram, ECoG)記錄各大腦皮層區(qū)域對言語反應的時頻調諧特征和研究聽覺皮層反應的可塑性[2],而ECoG記錄結果是通過外科手術將硬腦膜下電極陣列植入(即聽覺腦干植入)后獲得的,而該手術效果存在很大爭議性,且手術風險較大,因此,客觀記錄聽覺系統(tǒng)的STM靈敏度受限。近年來,調頻/調幅聲、調時聲、chirp聲、言語聲和噪聲下的言語聲在客觀聽覺電生理中的應用,積累了大量的臨床經(jīng)驗及豐富的外周聽覺神經(jīng)系統(tǒng)和中樞聽覺神經(jīng)系統(tǒng)數(shù)據(jù)。而各級聽覺存在STRFs特性,結合言語聲頻率和時間調制在聽覺電生理測試中的應用為客觀的、更為簡便易行的及無創(chuàng)記錄到各級聽覺神經(jīng)系統(tǒng)的時頻處理能力帶來了希望,也是下一步研究的目標。
STM察覺閾的測試中調制濾波方法和由此產(chǎn)生的語音特征為人們提供了更好的改進音頻工程中語音壓縮的方式的參考指標,更加完善了言語處理器的處理策略,便于根據(jù)助聽器和人工耳蝸助聽效果的差異性開發(fā)出個體化或定制的助聽裝置。