黃英來(lái) 任田麗 趙鵬
摘 要:針對(duì)樂(lè)器音頻信號(hào)的識(shí)別率低的問(wèn)題,提出了一種變分模態(tài)分解( VMD)和被粒子群算法(PSO)優(yōu)化的支持向量機(jī)(SVM)的樂(lè)器音頻信號(hào)識(shí)別的方法。采用VMD將樂(lè)器音頻信號(hào)分解成一系列平穩(wěn)的窄帶分量(IMF),并根據(jù)相關(guān)系數(shù)重構(gòu)信號(hào),采用小波去除殘余的噪聲。最后,在分析傳統(tǒng)的聲音特征提取方法基礎(chǔ)上,提取梅爾頻率倒譜系數(shù)(MFCC),用經(jīng)PSO尋優(yōu)參數(shù)的SVM進(jìn)行音頻信號(hào)的分類。實(shí)驗(yàn)結(jié)果表明,本文算法的去噪效果明顯優(yōu)于經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)和集合經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)的分析結(jié)果;PSO優(yōu)化后的SVM有效的提高了噪聲環(huán)境下音頻信號(hào)分類的正確率。
關(guān)鍵詞:變分模態(tài)分解;小波去噪;梅爾頻率倒譜系數(shù);粒子群算法;支持向量機(jī)
DOI:10.15938/j.jhust.2018.02.002
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2018)02-0006-06
Abstract:Proposing the method that based on the variational mode decomposition (VMD)and particle swarm optimization (PSO)optimized support vector machine (SVM)are used to recognize the audio signals of the musical instruments aiming at the problem of the low recognition rate of musical instruments audio signals. In this paper, firstly, the instrument audio signals are decomposed into a series of stable narrowband components (IMF)by VMD. After decomposition, according to the correlation coefficient we reconstruct the signals, then using the wavelet to remove the residual noises. Finally, based on the analysis of the traditional sound features extraction method, extracting the Mel frequency cepstral coefficients (MFCC)and then SVM whose parameters are optimized by PSO is used to recognize the audio signals. This expserimental results show that the denoising effect of the proposed algorithm in this paper is better than that of empirical mode decomposition (EMD)and ensemble empirical mode decomposition (EEMD); SVM optimized by PSO effectively improve the accuracy of audio signals classification in noisy environment.
Keywords:variational mode decomposition;wavelet denoising; Mel frequency cepstral coefficients; particle swarm optimization; support vector machine
0 引 言
樂(lè)器的分類識(shí)別[1]是指對(duì)待識(shí)別音頻信號(hào)的音色進(jìn)行分析,進(jìn)而識(shí)別出樂(lè)器種類。樂(lè)器識(shí)別[2]在音頻的自動(dòng)檢索和分類的方面發(fā)揮著較大的作用,此工作對(duì)于具有較強(qiáng)的音樂(lè)功底的人來(lái)說(shuō)較容易較高的識(shí)別率,但是大部分的人沒(méi)有較強(qiáng)的音樂(lè)功底,所以必須教會(huì)計(jì)算機(jī)如何自動(dòng)識(shí)別樂(lè)器音頻種類,從而達(dá)到準(zhǔn)確識(shí)別樂(lè)器音頻信號(hào)的種類和省時(shí)省力的目的。
在聲音產(chǎn)生、處理、傳輸過(guò)程中都或多或少的摻雜著不同的噪聲,幾乎不存在純凈的噪聲,所以,一般聲音識(shí)別[3]系統(tǒng)需要對(duì)充滿復(fù)雜多樣的噪聲以及信噪比多變得聲音進(jìn)行去噪[4]、提取特征[5]、分類[6]。
近年來(lái),國(guó)內(nèi)外眾多專家學(xué)者對(duì)聲音去噪采取了很多方法:小波變換、經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition , EMD)、獨(dú)立分量分析(independent component analysis, ICA)、集合經(jīng)驗(yàn)?zāi)B(tài)分解(ensemble empirical mode decomposition, EEMD)等。其中,傳統(tǒng)的ICA[7]具有相位、幅值、輸出順序不確定性;小波變換存在時(shí)域分辨率低;EMD[8]存在模態(tài)混疊和端點(diǎn)效應(yīng);EEMD[9]是優(yōu)化后的EMD,雖然其成功解決了EMD的模態(tài)混疊,但是增加了計(jì)算量且不能完全去除高斯白噪聲,依然存在端點(diǎn)效應(yīng)。針對(duì)這些算法的各種問(wèn)題,本文提出了一種基于變分模態(tài)分解(variational mode decomposition, VMD)與小波變換相結(jié)合的聲音去噪算法。VMD[10]是由 Dragomiretskiy K提出的克服EMD的模態(tài)混疊的一種完全非遞歸的去噪算法,其運(yùn)算效率高而且去噪效果更令人滿意。然而VMD無(wú)法一步到位的完全實(shí)現(xiàn)對(duì)聲音信號(hào)與噪聲信號(hào)的分離,所以根據(jù)經(jīng)VMD分解后的各分量與原始聲音信號(hào)的相關(guān)系數(shù)來(lái)重構(gòu)信號(hào),之后再用小波變換繼續(xù)去除剩余的噪聲。
目前,最常用的特征參數(shù)主要有線性預(yù)測(cè)倒譜系數(shù)( linear prediction cepstral coefficent,LPCC )和梅爾頻率倒譜系數(shù)(mel frequency cepstrum coefficent,MFCC)。LPCC[11]不能很好地區(qū)分清音和濁音。而且LPCC 對(duì)噪聲敏感,在外界存在干擾時(shí),識(shí)別率會(huì)大大降低。MFCC[12]主要描述的是聲音信號(hào)在頻率域上的能量分布,其能夠較好地模擬人耳聽(tīng)覺(jué)系統(tǒng)的感知能力。因此,本文在對(duì)聲音信號(hào)去噪后提取聲音特征MFCC。
支持向量機(jī)(support vector machine,SVM)在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì)。一般常用的用于優(yōu)化SVM[13]參數(shù)從而提高識(shí)別率的算法有遺傳算法(genetic algorithm,GA)與粒子群算法(particle swarm optimization,PSO)。PSO與GA都致力于在自然特性的基礎(chǔ)上來(lái)模擬個(gè)體種群的適應(yīng)性,均利用一定的變換規(guī)則通過(guò)搜索空間來(lái)求最優(yōu)解。然而,PSO[14]沒(méi)有GA的交叉和變異操作,而是根據(jù)自己的速度阿里決定搜索;PSO有記憶,GA[15]沒(méi)有記憶;在GA算法中,染色體之間相互共享信息,PSO[16]算法中的粒子僅僅通過(guò)當(dāng)前搜索到最優(yōu)點(diǎn)進(jìn)行共享信息。所以,在大多數(shù)情況下,PSO[17]可能比GA更快地收斂于最優(yōu)解。本文采用PSO優(yōu)化SVM的參數(shù),從而提高樂(lè)器音頻信號(hào)分類的正確率。
1 VMD算法
VMD是一種自適應(yīng)的時(shí)頻分析算法,算法不復(fù)雜,計(jì)算量小。其假設(shè)分解后的 每個(gè)分量IMF具有不同的中心頻率,其通過(guò)不斷迭代來(lái)更新各個(gè)有限帶寬以及其相應(yīng)的中心頻率,從而得到若干個(gè)時(shí)域的模態(tài)分量。VMD自適應(yīng)地分解聲音信號(hào)為若干個(gè)分量的過(guò)程主要是由變分問(wèn)題的構(gòu)造與求解組成。
1.1 變分問(wèn)題的構(gòu)造
1)每個(gè)模態(tài)經(jīng)過(guò)Hilbert變換計(jì)算相應(yīng)的解析信號(hào),從而得到其單邊頻譜如式(1)所示:
3)計(jì)算以上解調(diào)信號(hào)的梯度的二范數(shù),從而對(duì)各個(gè)模態(tài)的帶寬進(jìn)行估計(jì),得到一個(gè)變分約束問(wèn)題如式(3):
1.2 變分問(wèn)題的求解
1)為了有效的求解上述變分約束問(wèn)題的最優(yōu)解,VMD算法引入了二次懲罰因子α和拉格朗日乘法算子λt,來(lái)把約束性變分問(wèn)題變?yōu)榉羌s束性變分問(wèn)題。構(gòu)成的增廣拉格朗日表達(dá)式如式(4)所示:
2 基于VMD和小波去噪的算法
為了減少混合聲音中的有用的樂(lè)器音頻信號(hào)的損失,經(jīng)過(guò)VMD算法重構(gòu)的聲音是含有少量噪聲的聲音信號(hào)。所以,本文提出了基于VMD和小波去噪的算法,從而有效的保留有用的聲音信號(hào),去除噪聲。具體的去噪步驟如下所示:
1)采用VMD算法對(duì)含有噪聲的樂(lè)器音頻信號(hào)進(jìn)行分解,得到一系列的IMF。
2)計(jì)算各個(gè)IMF與純凈樂(lè)器音頻信號(hào)的相關(guān)系數(shù),根據(jù)相關(guān)系數(shù)最大準(zhǔn)則選擇含有少量噪聲的IMF作為主分量,并用主分量重構(gòu)信號(hào)。
3)采用小波[18]對(duì)重構(gòu)的樂(lè)器音頻信號(hào)進(jìn)行后續(xù)去噪。其中,本文選擇VisuaShrink閾值準(zhǔn)則的軟閾值函數(shù)的小波進(jìn)行去噪。每個(gè)分解尺度采用不同的閾值,閾值T求解公式如式(9)所示:
3 PSO算法
PSO算法的基本思想是通過(guò)群體中個(gè)體之間的相互協(xié)作和共享信息來(lái)搜索最優(yōu)解的。在搜索最優(yōu)解的過(guò)程中,全局搜索能力與局部搜索能力的平衡關(guān)系對(duì)于成功求解最優(yōu)解起著至關(guān)重要的作用。
4 實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)選用二胡、鋼琴、古箏、嗩吶等4種樂(lè)器作為樂(lè)器識(shí)別的種類。本實(shí)驗(yàn)將每個(gè)樂(lè)器音頻文件切分成長(zhǎng)度為1s的音頻文件,本文分別采集這4種樂(lè)器各250個(gè)樣本。
在預(yù)處理過(guò)程中,聲音信號(hào)加窗處理時(shí)采用漢明窗,幀長(zhǎng)設(shè)置為256個(gè)樣本點(diǎn),幀移設(shè)置為128個(gè)樣本點(diǎn)。在小波去噪過(guò)程中,本實(shí)驗(yàn)采用sym8小波基作為小波分解的基函數(shù),分解層數(shù)為5層。本文提取12維的MFCC特征。本文采用5折交叉驗(yàn)證的SVM對(duì)特征參數(shù)進(jìn)行訓(xùn)練與識(shí)別,其中,SVM采用徑向基核函數(shù)作為核函數(shù)。
4.1 實(shí)驗(yàn)一:去噪
從二胡、嗩吶、鋼琴、古箏的音頻樣本中隨機(jī)取出一個(gè)音頻樣本,這個(gè)被選擇的音頻樣本如圖1中的源音頻信號(hào)所示,向該音頻信號(hào)里加入-5dB的高斯白噪聲,圖1中的純凈音頻對(duì)應(yīng)的混合音頻信號(hào)如2所示。圖1和圖2的橫坐標(biāo)均為時(shí)間,縱坐標(biāo)均為幅值。從圖1、2中可以看出,圖1與圖2相差甚遠(yuǎn);當(dāng)原始聲音信號(hào)與高斯白噪聲混合在一起時(shí),原始音頻信號(hào)完全被高斯白噪聲污染了,混合音頻信號(hào)的時(shí)域波形嚴(yán)重失真了。
為了驗(yàn)證VMD[19]算法去噪性能的優(yōu)越性,所以本文分別應(yīng)用EMD算法,EEMD算法、VMD算法進(jìn)行該混合音頻信號(hào)的去噪實(shí)驗(yàn)。由于EMD算法與EEMD算法都無(wú)法確定分解的模態(tài)分量的數(shù)量,所以本文只展示它們的前8階IMF的時(shí)域波形圖。
圖3是EMD處理本文的混合信號(hào)的前4階IMF時(shí)域波形圖,圖4是EMD處理本文的混合信號(hào)的5~8階IMF時(shí)域波形圖。從圖3、4可以看出,通過(guò)EMD分解的前8階IMF對(duì)噪聲較為敏感,在分解過(guò)程中出現(xiàn)了端點(diǎn)效應(yīng)。
圖5是EEMD處理本文的混合信號(hào)的前4階IMF時(shí)域波形圖,圖6是EEMD處理本文的混合信號(hào)的5~8階IMF時(shí)域波形圖。從圖5、6中可以看出,通過(guò)EEMD分解的前8階IMF的過(guò)程中也出現(xiàn)了端點(diǎn)效應(yīng),使得分解結(jié)果失真嚴(yán)重。
在利用VMD算法對(duì)信號(hào)進(jìn)行變分模態(tài)分解前,必須要確定分解后的模態(tài)數(shù)量(K)。VMD算法對(duì)預(yù)處理之后的混合音頻信號(hào)進(jìn)行分解得到多個(gè)變分模態(tài)分量以及各個(gè)分量相對(duì)應(yīng)的中心頻率。由于每個(gè)變分模態(tài)分量是以中心頻率的大小來(lái)區(qū)分的,所以可以通過(guò)觀察對(duì)比分析各個(gè)模態(tài)分量的中心頻率來(lái)確定最適合的K值。本文判定當(dāng)一次分解后,如果有兩個(gè)分量的中心頻率相差小于1000Hz時(shí),則認(rèn)為是過(guò)度分解。本文實(shí)驗(yàn)對(duì)該混合音頻信號(hào)應(yīng)用不同的K值來(lái)分解,分解后獲得的相應(yīng)的中心頻率如表1所示。
從表1中可以看出:當(dāng)K=5時(shí),IMF4與IMF5的中心頻率分別3760.4Hz、4642.6Hz,兩者相差小于1000Hz,過(guò)度分解了。所以,本文的VMD分解實(shí)驗(yàn)設(shè)置K=4。圖7是混合信號(hào)經(jīng)過(guò)VMD算法分解后得到的4個(gè)IMF的時(shí)域波形圖。
本文先分別計(jì)算由EMD、EEMD、VMD得到的各個(gè)分量與純凈聲音信號(hào)的相關(guān)系數(shù),然后分別選擇最大的分量分別進(jìn)行聲音重構(gòu)。EMD算法選擇第7個(gè)IMF進(jìn)行聲音重構(gòu),EEMD算法選擇第6個(gè)IMF進(jìn)行重構(gòu)聲音,VMD算法選擇第1個(gè)IMF進(jìn)行重構(gòu)聲音。圖8~10分別是EMD、EEMD、VMD重構(gòu)的聲音信號(hào)在時(shí)域的波形圖。
從圖8~10中的各個(gè)時(shí)域波形圖可以看出:EMD算法重構(gòu)的聲音信號(hào)與原始純凈聲音相差大;EEMD去除噪聲的同時(shí),也去除了大量有用的信息,而且有大量的高斯白噪聲被保存了下來(lái);EEMD算法得到的重構(gòu)聲音中除了保留了大量的高斯白噪聲,重構(gòu)聲音的幅值與原始聲音相差較大;VMD算法去除了大部分高斯白噪聲,只余少量噪聲,其重構(gòu)的聲音波形圖與原始聲音的波形最為相似,波形失真較小。因此,在對(duì)樂(lè)器音頻信號(hào)去噪試驗(yàn)中, VMD算法比EMD算法和EEMD算法有更好的去噪效果,VMD算法重構(gòu)的聲音信號(hào)的信噪比為2.426dB。
本文通過(guò)小波對(duì)VMD算法重構(gòu)的聲音信號(hào)去噪后得到的波形圖如圖11所示。
從圖11中可以看出,小波將有用的聲音與高斯白噪聲相互分離,去噪后的波形圖更接近于原始聲音波形,小波后續(xù)去噪后得到的聲音信號(hào)的信噪比為4.116dB。
4.2 實(shí)驗(yàn)二:分類
通過(guò)實(shí)驗(yàn)一可知,VMD與小波聯(lián)合的去噪方法去噪效果好,所以本文在提取小波去噪后的聲音信號(hào)的MFCC特征后,通過(guò)用PSO算法優(yōu)化參數(shù)的SVM算法對(duì)樂(lè)器音頻信號(hào)進(jìn)行分類。
為了驗(yàn)證被PSO算法優(yōu)化的SVM能更好的提高分類的準(zhǔn)確率,本文對(duì)比分析用不同分類方法進(jìn)行樂(lè)器音頻信號(hào)分類的識(shí)別率大小。不同分類方法的識(shí)別率如表2所示,從表2可以看出PSO比GA對(duì)SVM有更好的優(yōu)化能力;在SVM、被GA優(yōu)化的SVM與被PSO優(yōu)化的SVM這3種分類方法中,本文采取的分類方法獲得了最高的識(shí)別率。
5 結(jié) 論
本文先利用VMD算法去除樂(lè)器音頻信號(hào)的大部分噪聲,接著用小波進(jìn)行后續(xù)去噪,然后提取MFCC[20]特征,最后用被PSO優(yōu)化的SVM進(jìn)行訓(xùn)練與識(shí)別,從而達(dá)到對(duì)樂(lè)器音頻信號(hào)進(jìn)行樂(lè)器種類識(shí)別的目的。本文通過(guò)仿真實(shí)驗(yàn)分別進(jìn)行EMD[21]、EEMD[22]與VMD的去噪效果對(duì)比分析、音頻種類的識(shí)別率的對(duì)比分析,從而得出本文的算法適合于樂(lè)器音頻信號(hào)的分類識(shí)別的結(jié)論。但是本文的研究對(duì)象是單個(gè)樂(lè)器獨(dú)奏的音頻信號(hào),所以對(duì)于多個(gè)樂(lè)器的交響樂(lè)信號(hào)的處理仍需要后續(xù)的不斷研究。
參 考 文 獻(xiàn):
[1]SULAM JEREMIAS, ROMANO YANIV, RAMDAS RONEN. Dynamical System Classification with Diffusion Embedding for ECG-Based Person Identification[J]. Signal Processing, 2016(130):403-411.
[2]王琪.西洋樂(lè)器的音色識(shí)別[D].濟(jì)南:山東大學(xué),2015.
[3]REMES U, JUVELA L, BROWN G J, et al. Comparing Human and Automatic Speech Recognition in a Perceptual Restoration experiment[J]. Computer Speech & Language, 2016, 35:14-31.
[4]RAMDAS V, GORTHI S S R K, MISHRA D. Simultaneous Speech Coding and De-noising in a Dictionary Based Quantized CS Framework[J]. International Journal of Speech Technology, 2016, 19(3):509-523.
[5]LI K, WU X, MENG H. Intonation Classification for L2 English Speech Using Multi-distribution Deep Neural Networks[J]. Computer Speech & Language, 2016, 43:18-33.
[6]姚登舉, 詹曉娟, 張曉晶. 一種加權(quán)K-均值基因聚類算法[J]. 哈爾濱理工大學(xué)學(xué)報(bào), 2017, 22(2):112-116.
[7]DU W, LEVINSCHWARTZ Y, FU G S, et al. The Role of Diversity in Complex ICA Algorithms for fMRI Analysis.[J]. Journal of Neuroscience Methods, 2016, 264:129-135.
[8]肖瑛, 殷福亮. 解相關(guān) EMD:消除模態(tài)混疊的新方法[J]. 振動(dòng)與沖擊, 2015, 34(4):25-29.
[9]WANG X, AN K, TANG L, et al. Short Term Prediction of Freeway Exiting Volume Based on SVM and KNN[J]. International Journal of Transportation Science & Technology, 2015, 4(3):337-352.
[10]LIU Y, YANG G, LI M, et al. Variational Mode Decomposition Denoising Combined the Detrended Fluctuation Analysis[A]. Signal Processing, 2016, 125:349-364.
[11]黃羿博,張秋余,袁占亭,等.融合MFCC和LPCC的語(yǔ)音感知哈希算法[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,43(2):124-128.
[12]王民,曹清菁,贠衛(wèi)國(guó),等.改進(jìn)MFCC算法在朱鹮鳴聲個(gè)體識(shí)別中的應(yīng)用[J].計(jì)算機(jī)工程與科學(xué),2016,38(5):1052-1056.
[13]ZHANG M, JIAN T, ZHANG X, et al. Intelligent Diagnosis of Short Hydraulic Signal Based on Improved EEMD and SVM with Few Low-dimensional Training Samples[J]. Chinese Journal of Mechanical Engineering, 2016, 29(2):396-405.
[14]陸真,裴東興,劉莉,等.基于改進(jìn)小波閾值函數(shù)和PSO的語(yǔ)音增強(qiáng)算法[J].激光雜志,2016,37(2):141-145.
[15]劉愛(ài)國(guó),薛云濤,胡江鷺,等.基于GA優(yōu)化SVM的風(fēng)電功率的超短期預(yù)測(cè)[J].電力系統(tǒng)保護(hù)與控制,2015,43(2):90-95.
[16]王廣澤.改進(jìn)粒子群算法在供應(yīng)鏈庫(kù)存控制中的應(yīng)用[J]. 哈爾濱理工大學(xué)學(xué)報(bào), 2016,21(5):90-95.
[17]于桂芹, 李劉東, 袁永峰. 一種結(jié)合自適應(yīng)慣性權(quán)重的混合粒子群算法[J]. 哈爾濱理工大學(xué)學(xué)報(bào), 2016, 21(3):49-53.
[18]楊岳飛, 劉輝, 譚檢平. 帶噪語(yǔ)音信號(hào)小波去噪算法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2015, 51(14):211-213.
[19]ABDOOS A A, MIANAEI P K, GHADIKOLAEI M R. Combined VMD-SVM Based Feature Selection Method for Classification of Power Quality Events[J]. Applied Soft Computing, 2016, 38:637-646.
[20]BORDE P, VARPE A, MANZA R, et al. Recognition of Isolated Words Using Zernike and MFCC Features for Audio Visual Speech Recognition[J]. International Journal of Speech Technology, 2015, 18(2):167-175.
[21]李輝, 李洋, 楊東,等. 基于EMD相關(guān)去噪的風(fēng)電機(jī)組振動(dòng)噪聲抑制及特征頻率提取[J]. 電機(jī)與控制學(xué)報(bào), 2016, 20(1):73-80.
[22]VOKELJ M, ZUPAN S, PREBIL I. EEMD-based Multiscale ICA Method for Slewing Bearing Fault Detection and Diagnosis[J]. Journal of Sound & Vibration, 2016, 370:394-423.
(編輯:溫澤宇)