周 慧,魏霖靜
(甘肅農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,甘肅 蘭州 730070)
語音信號的功率譜反映了單位頻帶內(nèi)信號能量隨頻率的分布、變化情況,它在語音技術(shù)分析研究領(lǐng)域中發(fā)揮了重要的作用。長期以來對語音信號功率譜的研究都是基于語音信號的短時(shí)平穩(wěn)和發(fā)音線性的假設(shè),這些不能很好的體現(xiàn)語音信號的非線性、非平穩(wěn)的特點(diǎn)。近年來,隨著對語音信號處理要求的提高,人們提出了許多處理非平穩(wěn)、非線性信號的方法。其中美國NASA的Huang N E博士于1998年提出的一種新的非平穩(wěn)信號分析法[1]:經(jīng)驗(yàn)?zāi)B(tài)分解法受到研究者的青睞。這種方法依據(jù)信號自身局部特征時(shí)間尺度從原信號中提取出若干個(gè)固有模態(tài)函數(shù)(IMF)和一個(gè)殘余量,分解出的各個(gè)IMF分量突出了數(shù)據(jù)的局部特征,具有較強(qiáng)的自適應(yīng)性,可更準(zhǔn)確有效地把握原數(shù)據(jù)的內(nèi)在特性。文中首先利用經(jīng)驗(yàn)?zāi)B(tài)方法,分解出了語音的IMF分量,然后對它們的功率譜特征作了分析研究。
經(jīng)驗(yàn)?zāi)B(tài)分解法[2-5]就是將輸入信號分解成多個(gè)帶有物理特性的固有模態(tài)函數(shù)(IMF)。它是基于一種簡單的假設(shè):任何復(fù)雜的信號都是由不同的簡單固有模態(tài)函數(shù)組成,每一個(gè)模態(tài)可以是線性的、非線性和非平穩(wěn)的,其局部極值點(diǎn)和過零點(diǎn)的數(shù)目相同,在相鄰的兩個(gè)零交叉點(diǎn)之間只有一個(gè)極值點(diǎn),且任何兩個(gè)模態(tài)之間是相互獨(dú)立的,這樣的任何一個(gè)信號就可以被分解為有限個(gè)固有模態(tài)函數(shù)之和,其中任何一個(gè)固有模態(tài)函數(shù)(IMF)都滿足以下條件:
1)整個(gè)數(shù)據(jù)序列的極大極小值數(shù)目與過零點(diǎn)數(shù)目相等或最多相差1。
2)數(shù)據(jù)序列的任意一點(diǎn)由極大值所確定的包絡(luò)與由極小值所確定的包絡(luò)均值始終為零。
實(shí)信號進(jìn)行EMD分解的步驟為:
1)找出分解信號x(t)上的所有極大值點(diǎn)和極小值點(diǎn),分別擬合出信號x(t)的上下包絡(luò)線,確保所有的點(diǎn)在兩個(gè)包絡(luò)線之間,計(jì)算上下包絡(luò)線的平均值m1(t);
2) 定義h1(t)=x(t)-m1(t),如果h1(t)滿足 IMF 定義的兩個(gè)條件,則為第一個(gè)IMF分量,如果h1(t)不滿足上述的條件,則將h1(t)作為上述過程中的x(t) 來進(jìn)行篩選,直到k時(shí)刻,h1(t)變成了一個(gè) IMF,于是有h1k(t)=h1(k-1)(t)-m1k。 然后,指定c1=h1k,c1即為第一個(gè)IMF分量。
3)c1可以通過這個(gè)公式r1=x(t)-c1從剩余的數(shù)據(jù)中分離出來,殘余函數(shù)r1仍然包含了不同長周期成分的數(shù)據(jù)。它又被看成是新的數(shù)據(jù),經(jīng)過上述同樣的篩選過程。
考慮到聲門脈沖形狀和口唇輻射對音信號的頻譜產(chǎn)生高頻衰落的影響,在分解信號前先用一個(gè)簡單的一階FIR濾波器1-az-1對于分析的語音進(jìn)行預(yù)加重,提升其高頻部分,一般預(yù)加重的系數(shù)取a=0.95。預(yù)處理后的語音信號再按照EMD分解步驟分解出IMF分量。
現(xiàn)有的估計(jì)功率譜方法主要是經(jīng)典的非參數(shù)估計(jì)法和現(xiàn)代參數(shù)估計(jì)法。文中選用了現(xiàn)代參數(shù)估計(jì)法中AR模型的Burg算法來估計(jì)信號功率譜。
AR模型的Burg算法[6-7],是按照前向和后向線性預(yù)測器的預(yù)測均方誤差和最小為準(zhǔn)則,以Levinson-Durbin遞推為約束的條件來進(jìn)行譜估計(jì)的。它相對自相關(guān)算法而言,不需要加窗截取信號,且分辨率和穩(wěn)定性較好。Burg算法估計(jì)功率譜公式為:
其中apk是利用Levinson遞推關(guān)系求出的所有AR模型參數(shù),為AR模型激勵(lì)白噪聲的方差。
取情感語音數(shù)據(jù)庫中一女性發(fā)音人在憤怒情緒下發(fā)出的漢語元音[a]作為分析信號,EMD分解后的結(jié)果如圖1所示。
圖1 分解的IMF分量Fig.1 IMF components after EMD
從圖1可以看出,每個(gè)IMF分量包含了不同的時(shí)間尺度,其中IMF1~I(xiàn)MF3分量的頻率總體較高,包含了語音信號中的主要信息,剩余的IMF分量和殘余量的頻率較低,因此實(shí)驗(yàn)中對前3個(gè)IMF分量進(jìn)行了功率譜的分析,信號功率譜分析過程中采用了AR模型的Burg算法,結(jié)果如圖2~圖5所示。
圖2 IMF1分量的功率譜Fig.2 Power spectrum of IMF1
圖3 IMF2分量的功率譜Fig.3 Power spectrum of IMF2
圖4 IMF3分量的功率譜Fig.4 Power spectrum of IMF3
對比觀察圖2~圖5可發(fā)現(xiàn)一般方法得到的是基于信號整體或者是不同時(shí)刻的功率譜,分辨率相對較低,而利用EMD方法的功率譜估計(jì)則體現(xiàn)了不同時(shí)間尺度分量的功率譜,它是從信號分解的角度研究了信號的功率譜特性,分辨率較高、曲線平滑、峰值特征明顯。
圖5 一般方法分析的功率譜Fig.5 Method power spectrum based on general method
采用上述方法對同一人在4種不同情感狀態(tài)下發(fā)出的漢語語音的元音[a]分別進(jìn)行了實(shí)驗(yàn),并將IMF1~I(xiàn)MF3分量中的峰值特征統(tǒng)計(jì)如表1所示。
表1 峰值特征統(tǒng)計(jì)表Tab.1 Peak feature statistics
分析表1發(fā)現(xiàn)不同情感的IMF峰值特征差異較大。4個(gè)不同情感狀態(tài)的第一階IMF峰值特征中,中性的第一峰值點(diǎn)功率最大,其次是厭惡和驚奇,生氣的最小。而隨著IMF階數(shù)的增高,在生氣和中性情感的IMF1~I(xiàn)MF3功率譜中,第一峰p值呈現(xiàn)出一種單調(diào)遞減的趨勢,這表明兩者內(nèi)在的IMF分量有一定的相似性,而對于驚奇和厭惡,p值總體為遞減趨勢,局部有轉(zhuǎn)折,這兩者有相似性。由此可見,基于EMD方法的功率譜分析,能更直觀的顯示出不同情感語音的數(shù)據(jù)特征和內(nèi)在的IMF分量特性。
針對語音信號的非平穩(wěn)、非線性的特點(diǎn),文中提出了一種先基于經(jīng)驗(yàn)?zāi)B(tài)分解方法(EMD)[8]分解信號,而后再利用現(xiàn)代參數(shù)模型法估計(jì)出功率譜的方法。與傳統(tǒng)的功率譜方法相比,它有效地提高了分辨率,充分地體現(xiàn)了語音信號內(nèi)在的特征,這對今后相關(guān)領(lǐng)域的研究提供了一種可行的方法。
[1]Huang N E,Long S R.The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J].Pro.Roy.Soc.Lond.A,1998,454(12):903-905.
[2]Deléchelle E ,Lemoine J,Niang O.EmpiricalMode Decomposition:An Analytical Approach for Sifting Process[J].IEEE Signal Processing Letters,2005,12(11):764-767.
[3]鐘佑明,秦樹人.希爾伯特-黃變換的統(tǒng)一理論依據(jù)研究[J].振動(dòng)與沖擊,2006,25(3):40-44.
ZHONG You-ming,QIN Shu-ren.Research on the uniform theoretical basis for Hilbert-Huang transform(HHT)[J].Journal of Vibration and Shock,2006,25(3):40-44.
[4]張小薊,張歆,孫進(jìn)才.基于經(jīng)驗(yàn)?zāi)B(tài)分解的目標(biāo)特征提取與選擇[J].西北工業(yè)大學(xué)學(xué)報(bào),2006,24(4) :453-456
ZHANG Xiao-ji,ZHANG Xin,SUN Jin-cai.Improving feature extraction of ship-radiated target signals with Empirical Mode Decomposition (EMD) and Hilbert Spectrum[J].Journal of Northwestern Polytechnical University,2006,24(4):453-456.
[5]劉慧婷,倪志偉,李建洋.經(jīng)驗(yàn)?zāi)B(tài)分解方法及其實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2006,32(11):44-47.
LIU Hui-ting,NI Zhi-wei,LI Jian-yang.Empirical Mode Decomposition method and its implementation[J].Computer Engineering and Applications,2006,32(11):44-47.
[6]羅豐,段沛沛,吳順君.基于Burg算法的短序列譜估計(jì)研究[J].西安電子科技大學(xué)學(xué)報(bào):自然科學(xué)版,2005,32(5):724-728.
LUO Feng,DUAN Pei-pei,WU Shun-jun.Research on short sequence power spectrum estimates based on the Burg algorithm[J].Journal Of Xidian University,2005,32 (5):724-728.
[7]姚文俊.自相關(guān)法和Burg法在AR模型功率譜估計(jì)中的仿真研究[J].計(jì)算機(jī)與數(shù)字工程,2007,33(10):32-35.
YAO Wen-jun.Research on AR model power spectrum estimation based on the algorithm and burg algorithm[J].Computer&Digital Engineering,2007,33(10):32-35.
[8]李賽,張勇,劉欣.基于經(jīng)驗(yàn)?zāi)B(tài)分解法的短期負(fù)荷分層預(yù)測[J].陜西電力,2011(10):7-10.
LI Sai,ZHANG Yong,LIU Xin.A stratified short-term load forecasting method based on empirical mode decomposition[J].Shaanxi Electric Power,2011(10):7-10.