余明強 徐新林,2 張賽 張宇 郭永清,2 林生智,2 莊佩耘 蔣家琪
嗓音聲學分析是運用電子聲學的方法對嗓音的物理特性進行客觀分析,為無創(chuàng)性的輔助診斷方法,其方法主要有傳統(tǒng)的擾動方法和非線性動力學方法。擾動方法是基于提取基頻的經(jīng)典傅里葉變換方法,由此發(fā)展起來的基頻(F0)、頻率微擾(jitter)和振幅微擾(shimmer)等已成為嗓音聲學評估的重要指標,在臨床和科研中應用廣泛。傅里葉變換用于分析不規(guī)則信號時會發(fā)生與原信號的聲學特性不相關,僅適用于規(guī)則的或次規(guī)則的嗓音信號,當用其分析復雜的不規(guī)則嗓音信號時可能會出現(xiàn)較大的偏差[1,2]。非線性動力學方法對狀態(tài)擾動具有高度的敏感性,狀態(tài)的極小擾動將導致狀態(tài)差被迅速放大,最終可產(chǎn)生完全不同的輸出,適用于簡單的周期運動及復雜的混沌信號,主要反映信號的不規(guī)則的物理特性,目前,該方法在嗓音醫(yī)學中主要應用于實驗研究階段和發(fā)音機制的研究。
實驗證實聲帶的振動和嗓音信號具有非線性特性[3~8],Baken[7]應用分形維定量測量正常聲帶振動周期,發(fā)現(xiàn)了聲帶振動的不規(guī)則性。Titze[8]從非線性動力學的角度,把嗓音信號定性地分成三類:第1類信號是周期或者似周期信號,含有強烈的基本頻率;第2類信號含有強烈的周期調制或次諧波;第3類信號是非周期的混沌信號和噪聲。擾動方法(jitter、shimmer)只適用于第1 類信號,不適用于第3類信號,而非線性動力學方法適用于分析這三類信號。嗓音客觀聲學評估在臨床上具有重要的參考價值,本研究應用擾動方法和非線性動力學方法分析正常人、聲帶息肉和聲帶囊腫患者的嗓音信號,探討其在嗓音聲學評估中的應用價值。
1.1 臨床資料 20 例正常受試者來自廈門自愿者,男8例,女12例,年齡18~50歲,平均25±5.2歲,無聲嘶、咽喉部疼痛等嗓音疾病癥狀,職業(yè)用嗓者或受過嗓音訓練者除外,既往無嗓音疾病或外傷,無吸煙、呼吸道疾病病史。嗓音疾病患者55例,年齡18~50歲,病程在2月~2年,其中聲帶息肉患者29例,男14例,女15例,年齡32±11.08歲,病程4.34±2.04月;聲帶囊腫患者26例,男11例,女15例,年齡34.8±10.02歲,病程6.75±6.43月,測試時均無上呼吸道疾病,術后均經(jīng)病理確診。
1.2 嗓音信號收集 受試者于聲音屏蔽室內,站位,麥克風與水平線成15°角,口距話筒15cm 左右,平穩(wěn)發(fā)元音/a/3次,每次持續(xù)5~10秒,從聲樣中提取平穩(wěn)段(3.0秒),采樣頻率44.1kHz,運用Kay PENTAX-Multi-Speech 軟件中的Multi Dimensional Voice Program(MDVP)Model5105 系統(tǒng)收集嗓音信號。
1.2.1 傳統(tǒng)擾動分析方法 收集受試者嗓音信號后,由MDVP 軟件獲得jitter和shimmer值,取3次數(shù)據(jù)的平均值,根據(jù)jitter值和shimmer值的參考范圍,jitter值大于5和/或shimmer值大于20的數(shù)據(jù)視為不可靠,除去該項數(shù)據(jù)和該受試者的嗓音信號[1]。
1.2.2 非線性動力學方法 取3次信號中較為平穩(wěn)的一段信號進行相空間重構和計算關聯(lián)維?;赑arkard等[9]提出的時間延長技術方法形成重構相空間,對于任何維數(shù)的動力系統(tǒng),都可以表示:
用時滯變量和它的延遲時間τ變量x(t+τ)代替x’(t),得到延遲坐標矢量:
τ是延遲時間,根據(jù)交互信息方法選擇最優(yōu)延遲時間即交互信息量第一次降到最低并開始上升時的延遲時間(圖1),m 是嵌入維數(shù)。時間延遲向量決定了相空間重構的圖形,相空間重構的點均選擇10 000點,如圖2。Takens等[10]從數(shù)學上證明了在m>2D+1(D 為系統(tǒng)的維數(shù))時,即對于D2,當m>5時重構相空間與原始相空間是等同的。根據(jù)Fraser[11]提出的交互信息程序評估最優(yōu)延遲時間τ(圖1)。由于關聯(lián)維D2比較簡單,且在大量數(shù)字中的快收斂率和描述不規(guī)則行為的有效性,已被廣泛應用[12]。噪聲的關聯(lián)維D2 隨著嵌入維數(shù)m 的增加不會出現(xiàn)收斂,而混沌系統(tǒng)的關聯(lián)維D2 會達到限值。關聯(lián)維D2的計算如下(Pawelzik and Schuster,1987):
當q=2時,Dq將減少成為D2?!樱▁)滿足:如果x>0,∮(x)=1;如果x≤0,∮(x)=0。當m 非常大時,Dq將在縮放處出現(xiàn)收斂。噪聲不會出現(xiàn)收斂,關聯(lián)維D2出現(xiàn)收斂,收斂處即為D2值的大小,如圖3。
1.3 統(tǒng)計學方法 采用SPSS17.0軟件,計算受試者jitter、shimmer和關聯(lián)維D2值的均數(shù)和標準差,采用Mann-Whitney U 非參數(shù)檢驗。將聲帶息肉、聲帶囊腫患者作為異常嗓音組與正常受試者的jitter、shimmer和D2 值作ROC 曲線(受試者工作特征曲線:反映敏感性和特異性變量的綜合指標,是用構圖法揭示敏感性和特異性的關系,以敏感性為縱坐標、1-特異性為橫坐標繪制成的曲線,曲線下面積越大,表示診斷準確性越高)分析。
圖1 交互信息與延遲時間圖 根據(jù)交互信息方法選擇最優(yōu)延遲時間,交互信息量第一次降到最低并開始上升時的延遲時間為最優(yōu)延遲時間
2.1 實驗結果 75例受試者中有3例患者的jitter值大于5、shimmer值大于20以及2例shimmer值大于20,除去這5例患者的數(shù)據(jù)。圖2為聲帶囊腫患者(圖2a)和正常受試者的重構相空間(圖2b),可見,聲帶囊腫患者相空間重構圖中點的軌跡更加凌亂,較正常受試者沒規(guī)則。圖3 為關聯(lián)維D2 收斂圖形,正常受試者關聯(lián)維D2(圖3a)較聲帶息肉患者關聯(lián)維D2(圖3b)更低值處收斂。圖4為正常人及聲帶息肉患者嗓音信號的波形和功率譜,可見,聲帶息肉患者的嗓音聲學信號的波形和功率譜(a和b)較正常受試者的波形和功率譜(c和d)沒有規(guī)則。
圖2 聲帶囊腫患者(a)和正常受試者(b)重構相空間
圖3 正常受試者(a)和聲帶息肉患者(b)的嗓音聲學信號的關聯(lián)維D2在收斂處的圖形 嗓音關聯(lián)維D2隨嵌入維數(shù)增加出現(xiàn)收斂,噪聲不會出現(xiàn)收斂
圖4 聲帶息肉患者(a、b)和正常受試者(c、d)聲學信號的波形和功率譜
2.2 統(tǒng)計學分析結果 聲帶息肉和聲帶囊腫患者的jitter、shimmer和D2值的均數(shù)均高于正常人,差異有統(tǒng)計學意義(P<0.05);兩種嗓音疾病患者之間,jitter、shimmer和D2值差異均無統(tǒng)計學意義(P>0.05)(表1)。ROC 曲線顯示jitter、shimmer和D2值在ROC曲線下的面積分別為0.957±0.022、0.951±0.026和0.862±0.047,與0.5相比,差異均有統(tǒng)計學意義(P<0.001)(圖5)。
表1 70例受試者聲學信號分析結果(±s)
表1 70例受試者聲學信號分析結果(±s)
組別性別例數(shù)(例)jitter(%)shimmer(%)D2正常男8 0.34±0.07 2.01±0.85 1.56±0.16女12 0.50±0.28 2.27±0.94 1.26±0.18總20 0.42±0.24 2.14±0.89 1.41±0.21聲帶息肉男13 2.78±1.34 8.94±3.62 2.88±1.47女13 2.58±1.44 6.29±3.15 1.98±0.71總26 2.68±1.23 7.62±3.34 2.43±1.09聲帶囊腫男14 1.94±0.99 6.58±1.00 2.28±0.70女10 2.81±1.57 4.90±2.00 1.62±0.40總24 2.38±1.42 5.89±1.55 1.85±0.62
圖5 聲帶息肉、囊腫患者與正常受試者的D2、jitter、shimmer值的ROC曲線
目前,對嗓音聲學信號的分析主要包括傳統(tǒng)的擾動方法、頻譜分析和非線性動力學方法。擾動方法的計算方法依賴于周期的或近似周期嗓音聲學信號而具有一定的應用限制[1]。當嗓音聲學信號不規(guī)則時,難以提取穩(wěn)定的基頻,導致計算jitter 和shimmer值時出現(xiàn)較大誤差[1]。本實驗中即有5例患者的jitter值和/或shimmer值過大,頻率和振幅的擾動大,提取的基頻不穩(wěn)定,不能應用擾動方法分析。頻譜分析可以很好地觀察嗓音聲學信號有無異常,但不能為嗓音信號提供穩(wěn)定的定量估計,由圖1可見,嗓音疾病患者的嗓音信號波形及功率譜比正常受試者不規(guī)則,兩者對應的頻譜雖然可以看出差異,但很難用一個定量的指標反映其不規(guī)則的程度。非線性動力學分析方法在生物醫(yī)學中已被廣泛應用[13],主要是對生物醫(yī)學信號的幾種非線性動力學參數(shù)的計算并比較分析,其中D2 參數(shù)適合于周期的和非周期的嗓音信號,D2的計算和分析已被多次成功應用于分析嗓音聲學信號[14~16]。
非線性動力學方法能夠分析辨別出正常和異常嗓音聲學信號[6,16],本研究結果顯示,聲帶囊腫患者的相空間重構圖中點的軌跡更加凌亂,較正常受試者無規(guī)則;正常受試者關聯(lián)維D2 較聲帶息肉患者在更低值處收斂,兩種嗓音疾病的D2 值均大于正常者,說明非線性動力學方法能分辨出正常和異常嗓音信號。ROC曲線分析顯示D2值與0.5相比有顯著性差異(P<0.001),但與Jiang等[5]研究中聲帶小結與聲帶息肉兩種嗓音疾病之間的D2值有明顯差異的結果不同,本研究中聲帶息肉和聲帶囊腫患者兩種嗓音疾病之間的嗓音聲學信號D2值差異無統(tǒng)計學意義(表1),兩種嗓音疾病患者用擾動方法分析得出的jitter和shimmer之間差異也無統(tǒng)計學意義,說明非線性動力學方法和擾動方法均不能鑒別出這兩種嗓音疾病的嗓音聲學信號,可能是因為這兩種聲帶病變對聲門周期的擾動有相似的影響。Chai等[17]研究發(fā)現(xiàn)男性吸煙者嗓音聲學信號的D2值比正常人更高,在評估病態(tài)嗓音方面比擾動方法有更好的敏感性。而從文中ROC 曲線分析結果來看,D2 值曲線下的面積稍低于jitter 和shimmer值,表明對于較規(guī)則的嗓音聲學信號,擾動方法分析的結果具有更好的特異度,更適合用擾動方法來分析。
從表1中可以看出正常男女D2值均大于1,表明正常嗓音聲學信號也不是絕對周期性的,正常和異?;颊叩纳ひ粜盘柕年P聯(lián)維值D2均小于4,表明正常人、聲帶息肉和聲帶囊腫患者嗓音信號均具有低維的特征,與Zhang等[18]研究的單側聲帶息肉有限元模型模擬的聲帶振動動力學結果相似。Berry等[19]研究離體狗喉發(fā)聲信號時認為聲帶發(fā)聲條件的任何變化均會導致每次聲門周期發(fā)生輕微的變化,在經(jīng)歷多次聲門周期的迭代之后,總體的聲帶振動是不穩(wěn)定的和不規(guī)則的,產(chǎn)生的嗓音信號也是不規(guī)則的。文中兩種嗓音疾病患者嗓音信號的D2值大于正常受試者嗓音信號,表明兩種嗓音疾病患者的嗓音信號比正常受試者更不規(guī)則、更復雜。
雖然擾動方法中jitter、shimmer值的計算依賴于提取穩(wěn)定的聲信號,使其臨床應用受到一定的限制,但其描述的是嗓音聲學信號的周期和振幅的差異變化,由此產(chǎn)生的包括頻率、聲強、噪聲譜和共振峰等20幾個指標,描述了聲學信號不同方面的物理特性,其臨床價值是非線性動力學方法不能取代的。聲帶振動受聲帶的位置、形狀、質量、張力、彈力及粘滯性等多因素影響,因此病變聲帶的振動不可能只按照某一因素的變化產(chǎn)生線性的變化,而是受多因素的變化而產(chǎn)生非線性現(xiàn)象,非線性動力學方法計算的維、熵、李亞普諾夫指數(shù)等指標主要描述的是信號的不規(guī)則和復雜程度,適用于分析更加復雜的嗓音信號,且符合病變聲帶振動產(chǎn)生異常嗓音信號的病理生理過程。D2描述的是嗓音信號的幾何特性,從總的方面評估嗓音信號之間的差異。本研究顯示,可用非線性動力學方法分析擾動方法分析出現(xiàn)較大誤差的5例患者的嗓音聲學信號,表明非線性動力學方法在嗓音醫(yī)學臨床上具有更廣的適用性和更好的實用性,可作為擾動方法的重要補充。
與擾動方法強調線性、規(guī)則和頻率的概念不同,非線性動力學方法強調了異常嗓音信號的非線性、不規(guī)則性和復雜性,分析規(guī)則向不規(guī)則的轉化,帶有明顯的間斷性,參量的微小變化導致運動形式大的變化,導致行為的不規(guī)則。但非線性動力學方法并不能代替現(xiàn)有的擾動分析方法,而是為異常嗓音信號分析提供一種新的方法和更多的信息,從而更全面地分析嗓音聲學信號。
1 Titze IR,Liang H.Comparison of F0extraction method for highprecision voice perturbation measurements[J].J Speech Hear Res,1993,36:1 120.
2 Yu P,Garrel R,Nicollas R,et al.Objective voice analysis in dysphonic patients:new data including nonlinear measurements[J].Folia Phoniatr Logop,2007,59:20.
3 Robb MP.Bifurcations and chaos in the cries of full-term and preterm infants[J].Folia Phoniatr Logop,2003,55:233.
4 Zhang Y,Jiang JJ,Biazzo L,et al.Perturbation and nonlinear with unilateral laryngeal paralysis[J].J Voice,2005,19:519.
5 Jiang JJ,Zhang Y,MacCallum J,et al.Objective acoustic analysis of pathological voices from patients with vocal nodules and polyps[J].Folia Phoniatr Logop,2009,61:342.
6 Zhang Y,McGilligan C,Zhou L,et al.Nonlinear dynamic a-nalysis of voices before and after surgical excision of vocal polyps[J].J Acoust Soc Am,2004,115:2 270.
7 Baken RJ.Irregularity of vocal period and amplitude:a first approach to the fractal analysis of voice[J].Journal of Voice,1990,4:185.
8 Titze IR.Workshop on acoustic voice analysis:summary statement[J].Denver,National Center for Voice and Speech,1995,1:36.
9 Packard NH,Crutchfield JP,F(xiàn)armer JD,et al.Geometry from a time serise[J].Phys Rev Lett,1980,45:712.
10 Takens F.Detecting strange attractors in turbulence[J].Springer Lecture Notes Math,1981,898:336.
11 Fraser AM,Swinney HL.Independent coordinates for strange attractors from mutual information[J].Physical Review A,1986,33:1 134.
12 Grassberger P,Procaccia J.Measuring the strangeness of strange sttractors[J].Physica D:Nonlinear phenomena,1983,9:189.
13 Poon CS,Merrill CK.Decrease of cardiac chaos in congestive heart failure[J].Nature,1997,389:492.
14 Hornero R,Alonso A,Jimeno N,et al.Nonlinear analysis of time series generated by schizophrenic patients[J].IEEE Eng Med Biol Mag,1999,3:84.
15 Moon FC,Hilborn RC.Chaotic and fractal dynamics:an introduction for applied scientists and engineer[J].American Journal of Physics,1993,61:670.
16 Jiang JJ,Zhang Y,F(xiàn)ord CN.Nonlinear dynamics of phonations in excised larynx experiments[J].J Acoustic Soc Am,2003,114:2 198.
17 Chai LY,Alicia JS,Zhang Y et al.Perturbation and nonlinear dynamic analysis of adult male smokers[J].J Voice,2011,25:342.
18 Zhang Y,Jiang JJ.Chaotic vibration behaviour of a vocalfold model with a unilateral polyp[J].J Acoust Soc Am,2004,115:1 266.
19 Berry DA,Herzel H,Titze IR,et al.Bifurcations in excised larynx experiments[J].J Voice,1996,10:129.