崔 峰,齊鳳河,劉輝云
(1.大慶師范學(xué)院 物理與電氣信息工程學(xué)院,黑龍江 大慶 163712;2. 塔里木油田分公司,新疆 庫(kù)爾勒 841000)
聲音特征信號(hào)識(shí)別是聲音識(shí)別研究領(lǐng)域中的一個(gè)重要方面,一般采用模式匹配的原理解決。聲音識(shí)別的運(yùn)算過(guò)程為:首先,待識(shí)別聲音轉(zhuǎn)化為電信號(hào)后輸入識(shí)別系統(tǒng),經(jīng)過(guò)預(yù)處理后用數(shù)學(xué)方法提取聲音特征信號(hào),提取出的聲音特征信號(hào)可以看成該段聲音的模式;然后將該段語(yǔ)音模型同已知參考模式相比較,獲得最佳匹配的參考模式作為該段聲音的識(shí)別結(jié)果[1-2]。聲音識(shí)別流程如圖1所示:
圖1 聲音識(shí)別流程
聲音變換分類系統(tǒng)非線性度較強(qiáng),又由于多種聲音的復(fù)合信號(hào)具有不確定性、變化規(guī)律具有時(shí)變性的特點(diǎn),因此在噪聲環(huán)境中有效提取聲音特征進(jìn)行分類就顯得非常困難。往往當(dāng)噪聲背景或者聲音某一特性參數(shù)變化后,識(shí)別及分類效果惡化,容錯(cuò)能力差。
本文采用誤差反向傳播訓(xùn)練算法的多層前向神經(jīng)網(wǎng)絡(luò)(BP網(wǎng)絡(luò)),從含噪聲環(huán)境中提取4種聲音特征并分類。由于BP網(wǎng)絡(luò)通過(guò)網(wǎng)絡(luò)權(quán)值和閥值將聲音特征存儲(chǔ)在網(wǎng)絡(luò)結(jié)構(gòu)中,并可通過(guò)變學(xué)習(xí)率方法訓(xùn)練調(diào)整網(wǎng)絡(luò)參數(shù)[3-6],因此識(shí)別分類系統(tǒng)可獲得較好的自適應(yīng)性和容錯(cuò)效果。
本文采用了民歌、古箏、搖滾樂(lè)和流行樂(lè)4種不同的聲音信號(hào),通過(guò)DSP器件采樣后,用倒譜系數(shù)方法從每種聲音信號(hào)中提取了500組24維聲音特征信號(hào),如圖2所示。
為了模擬真實(shí)環(huán)境中的聲音信號(hào),同時(shí)便于從上面4中聲音中抽取BP網(wǎng)絡(luò)的訓(xùn)練樣本,將聲音信號(hào)合并后加入隨機(jī)噪聲,如圖3所示。所設(shè)計(jì)的BP網(wǎng)絡(luò)將從圖3中的合成聲音信號(hào)里選擇輸入及訓(xùn)練樣本點(diǎn)。其中從這2000組信號(hào)中選擇1500組作為網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù),另外500組作為網(wǎng)絡(luò)性能的測(cè)試數(shù)據(jù)。
圖2 聲音特征信號(hào)
圖3 合成噪聲后的聲音特征信號(hào)
由于待分類的聲音信號(hào)共有4種,輸入的聲音特征信號(hào)有24維,因此設(shè)計(jì)網(wǎng)絡(luò)輸入層含24個(gè)人工神經(jīng)元,輸出層含4個(gè)人工神經(jīng)元。網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 網(wǎng)絡(luò)結(jié)構(gòu)
BP網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)數(shù)目對(duì)網(wǎng)絡(luò)的分類精度影響較大。如果隱含層節(jié)點(diǎn)數(shù)目過(guò)少,則在訓(xùn)練完成后網(wǎng)絡(luò)不能完整地體現(xiàn)分類模式;如果隱含層節(jié)點(diǎn)數(shù)過(guò)多,訓(xùn)練時(shí)間延長(zhǎng),容易出現(xiàn)過(guò)擬合現(xiàn)象。
本文首先利用式(1)所示公式估計(jì)隱含層節(jié)點(diǎn)數(shù)目,然后再依據(jù)不同隱含層節(jié)點(diǎn)數(shù)的網(wǎng)絡(luò)訓(xùn)練誤差率確定隱含層神經(jīng)元的數(shù)目。
(1)
式(1)中,n為輸入層節(jié)點(diǎn)數(shù),l為隱含層節(jié)點(diǎn)數(shù),m為輸出層節(jié)點(diǎn)數(shù),a為0~10之間的常數(shù)。
仿真中讓隱含層節(jié)點(diǎn)數(shù)目在15~30區(qū)間內(nèi)變化,通過(guò)觀察分類誤差的變化,最終選定隱含層神經(jīng)元為25個(gè)。誤差隨隱含層節(jié)點(diǎn)數(shù)變化規(guī)律如圖5所示。
圖5 隱含層節(jié)點(diǎn)的確定
網(wǎng)絡(luò)的隱含層和輸出層節(jié)點(diǎn)均采用Tansig型激活函數(shù),即:
(2)
式(2)中Net表示隱含層或輸出某節(jié)點(diǎn)的誘導(dǎo)局部域。
在聲音信號(hào)識(shí)別分類中,采用最速下降算法的BP網(wǎng)絡(luò)可以使權(quán)值和閥值向量得到一個(gè)穩(wěn)定的解[7-8],但是學(xué)習(xí)過(guò)程收斂速度慢,網(wǎng)絡(luò)易陷于局部極小。同時(shí)由于BP網(wǎng)絡(luò)對(duì)學(xué)習(xí)率敏感,單純的增大學(xué)習(xí)率以加快收斂,算法可能振蕩而不穩(wěn)定[9-11]。因此,解決上述問(wèn)題非常重要。
動(dòng)量BP算法(MOBP)在最速下降算法基礎(chǔ)上引入動(dòng)量因子,以前一次的修正結(jié)果來(lái)影響本次權(quán)值和閥值的修正量,這樣就可以考慮到前面修正經(jīng)驗(yàn)的積累。MOBP算法總是試圖使在同一梯度方向上的修正量增加,使得收斂速率加快,學(xué)習(xí)時(shí)間變短。對(duì)于圖4所示的三層BP聲音分類網(wǎng)絡(luò),隱含層和輸出層節(jié)點(diǎn)的權(quán)值和閥值向量按式(3)附加進(jìn)行修正:
T(k+1)=T(k)+△T(k+1)+η[T(k)+T(k-1)]
(3)
通過(guò)引入動(dòng)量修正,在網(wǎng)絡(luò)訓(xùn)練初始化時(shí)可以采用較大的學(xué)習(xí)率,而不會(huì)造成學(xué)習(xí)過(guò)程的發(fā)散,MOBP算法總是可以使修正量減小,以保持修正方向向著收斂方向進(jìn)行,同時(shí)收斂速度快,學(xué)習(xí)時(shí)間短。
MOBP算法中,學(xué)習(xí)率是一個(gè)常數(shù),在整個(gè)訓(xùn)練過(guò)程中保持不變,學(xué)習(xí)算法的性能對(duì)于學(xué)習(xí)率的選擇非常敏感。學(xué)習(xí)率過(guò)大,算法可能振蕩不穩(wěn)定;學(xué)習(xí)率過(guò)小,則收斂速度慢,訓(xùn)練時(shí)間長(zhǎng)。而在訓(xùn)練之前,要選擇最佳的學(xué)習(xí)率是不現(xiàn)實(shí)的。本文在聲音識(shí)別網(wǎng)絡(luò)訓(xùn)練的過(guò)程中,使學(xué)習(xí)率不斷變化,使算法沿著誤差性能曲面進(jìn)行修正。
使學(xué)習(xí)率α的取值在[0,1]之間,學(xué)習(xí)率α越大,對(duì)權(quán)值的修改越大。本算法中使α在網(wǎng)絡(luò)訓(xùn)練的初期較大,網(wǎng)絡(luò)收斂迅速,隨著學(xué)習(xí)過(guò)程的進(jìn)行,學(xué)習(xí)率不斷減小,網(wǎng)絡(luò)趨于穩(wěn)定。實(shí)際網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)率α按如下公式調(diào)整:
α(k)=0.995-k(0.995-0.015)/1500
(4)
式中α(k)為最速下降法訓(xùn)練第k步迭代的學(xué)習(xí)率。聲音識(shí)別網(wǎng)絡(luò)訓(xùn)練中,最大學(xué)習(xí)率為0.995,最小學(xué)習(xí)率為0.015,最大迭代次數(shù)1500次。
在MATLAB軟件仿真中[12],驗(yàn)證采用動(dòng)量修正變學(xué)習(xí)率法的BP網(wǎng)絡(luò)分類效果。仿真數(shù)據(jù)首先通過(guò)最大最小歸一化方法將所有數(shù)據(jù)轉(zhuǎn)化為[0,1]之間的值,以此取消各維數(shù)據(jù)間的數(shù)量級(jí)差別,避免因?yàn)檩斎胼敵鰯?shù)據(jù)數(shù)量級(jí)差別較大而造成網(wǎng)絡(luò)預(yù)測(cè)誤差較大。最大最小歸一化函數(shù)形式如下:
(5)
式中xmin表示輸入數(shù)據(jù)序列中的最小值,xmax表示序列中的最大值。
用倒譜系法獲取的2000組聲音數(shù)據(jù)經(jīng)過(guò)歸一化后,隨機(jī)抽取1500組用來(lái)訓(xùn)練改進(jìn)的BP網(wǎng)絡(luò),另外500組用來(lái)仿真驗(yàn)證網(wǎng)絡(luò)性能。根據(jù)聲音信號(hào)期望類別標(biāo)識(shí),網(wǎng)絡(luò)的期望輸出向量如下:
表1 BP網(wǎng)絡(luò)期望輸出向量
用訓(xùn)練好的BP網(wǎng)絡(luò)分類聲音特征信號(hào)測(cè)試數(shù)據(jù),得到的網(wǎng)絡(luò)分類誤差如圖6所示。
圖6 網(wǎng)絡(luò)分類誤差
進(jìn)一步分析,改進(jìn)BP網(wǎng)絡(luò)分類正確率如表2所示。
表2 網(wǎng)絡(luò)識(shí)別正確率
通過(guò)以上的介紹可以得到:本文設(shè)計(jì)了一個(gè)改進(jìn)學(xué)習(xí)算法BP網(wǎng)絡(luò)聲音識(shí)別系統(tǒng),由于為網(wǎng)絡(luò)引入了動(dòng)量修正和學(xué)習(xí)率調(diào)整,網(wǎng)絡(luò)的分類誤差被控制在很小的范圍內(nèi),聲音的識(shí)別正確率高。本文所構(gòu)建的BP網(wǎng)絡(luò)結(jié)構(gòu)具有一般性,可以應(yīng)用于其他頻率信號(hào)的識(shí)別分類。
[參考文獻(xiàn)]
[1] 張振國(guó), 王曉霞. 神經(jīng)網(wǎng)絡(luò)在語(yǔ)音音調(diào)識(shí)別中的應(yīng)用研究[J].微電子學(xué)與計(jì)算,2005, 22(3): 43-49.
[2] 李偉, 陳臨強(qiáng), 殷偉良. 基于自適應(yīng)學(xué)習(xí)率的背景建模方法[J].計(jì)算機(jī)工程,2011, 37(15): 187-190.
[3] Ying He, Baohua Jin, Qiongshuai Lv. Improving BP Neural Network for the Recognition of Face Direction [C].International Symposium on Computer Science and Society,2011: 79-82.
[4] 范佳妮. BP人工神經(jīng)網(wǎng)絡(luò)隱層結(jié)構(gòu)設(shè)計(jì)的研究進(jìn)展[J].控制工程,2005, 5(12): 105-109.
[5] 周開利, 康耀紅. 神經(jīng)網(wǎng)絡(luò)模型及MATLAB仿真程序設(shè)計(jì)[M].北京:清華大學(xué)出版社, 2005: 70-82.
[6] 楊偉超,趙春暉,成寶芝. Alpha穩(wěn)定分布噪聲下的通信信號(hào)識(shí)別[J].應(yīng)用科學(xué)學(xué)報(bào),2010, 28(2):111-114.
[7] 郭榮艷, 胡雪惠. BP神經(jīng)網(wǎng)絡(luò)在車牌字符識(shí)別中的應(yīng)用研究[J].計(jì)算機(jī)仿真, 2010, 27(9): 299-301.
[8] Vladimir Nedeljkovic. A Novel Multilayer Neural Networks Training Algorithm that Minimizes the Probability of Classification Error [J].IEEE Trans on Neural Networks,1993, 4(4): 650-660.
[9] Adnan Khashman. A Modified Backpropagation Learning Algorithm With Added Emotional Coefficients [J].IEEE Trans on Neural Networks,2008, 19(11): 1896-2000.
[10] Antoniya Georgieva, Ivan Jordanov. Intelligent Visual Recognition and Classification of Cork Tiles With Neural Networks [J].IEEE Trans on Neural Networks,2009, 20(4): 675-684.
[11] 侯亞麗, 李鐵.基于LM優(yōu)化算法的BP神經(jīng)網(wǎng)絡(luò)目標(biāo)識(shí)別方法[J].探測(cè)與控制學(xué)報(bào),2008, 30(2): 53-57.
[12] 成寶芝,趙春暉,王玉磊.基于四階累積量的波段子集高光譜圖像異常檢測(cè)[J].光電子.激光,2012,28(3):1582-1588.