一種BP神經(jīng)網(wǎng)絡(luò)聲音特征信號(hào)的識(shí)別方法

2012-09-25 03:11齊鳳河劉輝云

大慶師范學(xué)院學(xué)報(bào) 2012年6期

崔峰,齊鳳河,劉輝云

(1.大慶師范學(xué)院物理與電氣信息工程學(xué)院，黑龍江大慶 163712；2. 塔里木油田分公司，新疆庫(kù)爾勒 841000)

0 引言

聲音特征信號(hào)識(shí)別是聲音識(shí)別研究領(lǐng)域中的一個(gè)重要方面，一般采用模式匹配的原理解決。聲音識(shí)別的運(yùn)算過(guò)程為：首先，待識(shí)別聲音轉(zhuǎn)化為電信號(hào)后輸入識(shí)別系統(tǒng)，經(jīng)過(guò)預(yù)處理后用數(shù)學(xué)方法提取聲音特征信號(hào)，提取出的聲音特征信號(hào)可以看成該段聲音的模式；然后將該段語(yǔ)音模型同已知參考模式相比較，獲得最佳匹配的參考模式作為該段聲音的識(shí)別結(jié)果[1-2]。聲音識(shí)別流程如圖1所示：

圖1 聲音識(shí)別流程

聲音變換分類系統(tǒng)非線性度較強(qiáng)，又由于多種聲音的復(fù)合信號(hào)具有不確定性、變化規(guī)律具有時(shí)變性的特點(diǎn)，因此在噪聲環(huán)境中有效提取聲音特征進(jìn)行分類就顯得非常困難。往往當(dāng)噪聲背景或者聲音某一特性參數(shù)變化后，識(shí)別及分類效果惡化，容錯(cuò)能力差。

本文采用誤差反向傳播訓(xùn)練算法的多層前向神經(jīng)網(wǎng)絡(luò)(BP網(wǎng)絡(luò))，從含噪聲環(huán)境中提取4種聲音特征并分類。由于BP網(wǎng)絡(luò)通過(guò)網(wǎng)絡(luò)權(quán)值和閥值將聲音特征存儲(chǔ)在網(wǎng)絡(luò)結(jié)構(gòu)中，并可通過(guò)變學(xué)習(xí)率方法訓(xùn)練調(diào)整網(wǎng)絡(luò)參數(shù)[3-6]，因此識(shí)別分類系統(tǒng)可獲得較好的自適應(yīng)性和容錯(cuò)效果。

1 待識(shí)別聲音信號(hào)

本文采用了民歌、古箏、搖滾樂(lè)和流行樂(lè)4種不同的聲音信號(hào)，通過(guò)DSP器件采樣后，用倒譜系數(shù)方法從每種聲音信號(hào)中提取了500組24維聲音特征信號(hào)，如圖2所示。

為了模擬真實(shí)環(huán)境中的聲音信號(hào)，同時(shí)便于從上面4中聲音中抽取BP網(wǎng)絡(luò)的訓(xùn)練樣本，將聲音信號(hào)合并后加入隨機(jī)噪聲，如圖3所示。所設(shè)計(jì)的BP網(wǎng)絡(luò)將從圖3中的合成聲音信號(hào)里選擇輸入及訓(xùn)練樣本點(diǎn)。其中從這2000組信號(hào)中選擇1500組作為網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)，另外500組作為網(wǎng)絡(luò)性能的測(cè)試數(shù)據(jù)。

圖2 聲音特征信號(hào)

圖3 合成噪聲后的聲音特征信號(hào)

2 BP網(wǎng)絡(luò)的建立

2.1 網(wǎng)絡(luò)的結(jié)構(gòu)

由于待分類的聲音信號(hào)共有4種，輸入的聲音特征信號(hào)有24維，因此設(shè)計(jì)網(wǎng)絡(luò)輸入層含24個(gè)人工神經(jīng)元，輸出層含4個(gè)人工神經(jīng)元。網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4 網(wǎng)絡(luò)結(jié)構(gòu)

2.2 隱含層節(jié)點(diǎn)數(shù)目

BP網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)數(shù)目對(duì)網(wǎng)絡(luò)的分類精度影響較大。如果隱含層節(jié)點(diǎn)數(shù)目過(guò)少，則在訓(xùn)練完成后網(wǎng)絡(luò)不能完整地體現(xiàn)分類模式；如果隱含層節(jié)點(diǎn)數(shù)過(guò)多，訓(xùn)練時(shí)間延長(zhǎng)，容易出現(xiàn)過(guò)擬合現(xiàn)象。

本文首先利用式(1)所示公式估計(jì)隱含層節(jié)點(diǎn)數(shù)目，然后再依據(jù)不同隱含層節(jié)點(diǎn)數(shù)的網(wǎng)絡(luò)訓(xùn)練誤差率確定隱含層神經(jīng)元的數(shù)目。

(1)

式(1)中，n為輸入層節(jié)點(diǎn)數(shù)，l為隱含層節(jié)點(diǎn)數(shù)，m為輸出層節(jié)點(diǎn)數(shù)，a為0～10之間的常數(shù)。

仿真中讓隱含層節(jié)點(diǎn)數(shù)目在15～30區(qū)間內(nèi)變化，通過(guò)觀察分類誤差的變化，最終選定隱含層神經(jīng)元為25個(gè)。誤差隨隱含層節(jié)點(diǎn)數(shù)變化規(guī)律如圖5所示。

圖5 隱含層節(jié)點(diǎn)的確定

網(wǎng)絡(luò)的隱含層和輸出層節(jié)點(diǎn)均采用Tansig型激活函數(shù)，即：

(2)

式(2)中Net表示隱含層或輸出某節(jié)點(diǎn)的誘導(dǎo)局部域。

3 改進(jìn)的BP學(xué)習(xí)算法

在聲音信號(hào)識(shí)別分類中，采用最速下降算法的BP網(wǎng)絡(luò)可以使權(quán)值和閥值向量得到一個(gè)穩(wěn)定的解[7-8]，但是學(xué)習(xí)過(guò)程收斂速度慢，網(wǎng)絡(luò)易陷于局部極小。同時(shí)由于BP網(wǎng)絡(luò)對(duì)學(xué)習(xí)率敏感，單純的增大學(xué)習(xí)率以加快收斂，算法可能振蕩而不穩(wěn)定[9-11]。因此，解決上述問(wèn)題非常重要。

3.1 MOBP算法

動(dòng)量BP算法(MOBP)在最速下降算法基礎(chǔ)上引入動(dòng)量因子，以前一次的修正結(jié)果來(lái)影響本次權(quán)值和閥值的修正量，這樣就可以考慮到前面修正經(jīng)驗(yàn)的積累。MOBP算法總是試圖使在同一梯度方向上的修正量增加，使得收斂速率加快，學(xué)習(xí)時(shí)間變短。對(duì)于圖4所示的三層BP聲音分類網(wǎng)絡(luò)，隱含層和輸出層節(jié)點(diǎn)的權(quán)值和閥值向量按式(3)附加進(jìn)行修正：

T(k+1)=T(k)+△T(k+1)+η[T(k)+T(k-1)]

(3)

通過(guò)引入動(dòng)量修正，在網(wǎng)絡(luò)訓(xùn)練初始化時(shí)可以采用較大的學(xué)習(xí)率，而不會(huì)造成學(xué)習(xí)過(guò)程的發(fā)散，MOBP算法總是可以使修正量減小，以保持修正方向向著收斂方向進(jìn)行，同時(shí)收斂速度快，學(xué)習(xí)時(shí)間短。

3.2 學(xué)習(xí)率可變的MOBP算法

MOBP算法中，學(xué)習(xí)率是一個(gè)常數(shù)，在整個(gè)訓(xùn)練過(guò)程中保持不變，學(xué)習(xí)算法的性能對(duì)于學(xué)習(xí)率的選擇非常敏感。學(xué)習(xí)率過(guò)大，算法可能振蕩不穩(wěn)定；學(xué)習(xí)率過(guò)小，則收斂速度慢，訓(xùn)練時(shí)間長(zhǎng)。而在訓(xùn)練之前，要選擇最佳的學(xué)習(xí)率是不現(xiàn)實(shí)的。本文在聲音識(shí)別網(wǎng)絡(luò)訓(xùn)練的過(guò)程中，使學(xué)習(xí)率不斷變化，使算法沿著誤差性能曲面進(jìn)行修正。

使學(xué)習(xí)率α的取值在[0,1]之間，學(xué)習(xí)率α越大，對(duì)權(quán)值的修改越大。本算法中使α在網(wǎng)絡(luò)訓(xùn)練的初期較大，網(wǎng)絡(luò)收斂迅速，隨著學(xué)習(xí)過(guò)程的進(jìn)行，學(xué)習(xí)率不斷減小，網(wǎng)絡(luò)趨于穩(wěn)定。實(shí)際網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)率α按如下公式調(diào)整：

α(k)=0.995-k(0.995-0.015)/1500

(4)

式中α(k)為最速下降法訓(xùn)練第k步迭代的學(xué)習(xí)率。聲音識(shí)別網(wǎng)絡(luò)訓(xùn)練中，最大學(xué)習(xí)率為0.995，最小學(xué)習(xí)率為0.015，最大迭代次數(shù)1500次。

4 仿真

在MATLAB軟件仿真中[12]，驗(yàn)證采用動(dòng)量修正變學(xué)習(xí)率法的BP網(wǎng)絡(luò)分類效果。仿真數(shù)據(jù)首先通過(guò)最大最小歸一化方法將所有數(shù)據(jù)轉(zhuǎn)化為[0,1]之間的值，以此取消各維數(shù)據(jù)間的數(shù)量級(jí)差別，避免因?yàn)檩斎胼敵鰯?shù)據(jù)數(shù)量級(jí)差別較大而造成網(wǎng)絡(luò)預(yù)測(cè)誤差較大。最大最小歸一化函數(shù)形式如下：

(5)

式中xmin表示輸入數(shù)據(jù)序列中的最小值，xmax表示序列中的最大值。

用倒譜系法獲取的2000組聲音數(shù)據(jù)經(jīng)過(guò)歸一化后，隨機(jī)抽取1500組用來(lái)訓(xùn)練改進(jìn)的BP網(wǎng)絡(luò)，另外500組用來(lái)仿真驗(yàn)證網(wǎng)絡(luò)性能。根據(jù)聲音信號(hào)期望類別標(biāo)識(shí)，網(wǎng)絡(luò)的期望輸出向量如下：

表1 BP網(wǎng)絡(luò)期望輸出向量

用訓(xùn)練好的BP網(wǎng)絡(luò)分類聲音特征信號(hào)測(cè)試數(shù)據(jù)，得到的網(wǎng)絡(luò)分類誤差如圖6所示。

圖6 網(wǎng)絡(luò)分類誤差

進(jìn)一步分析，改進(jìn)BP網(wǎng)絡(luò)分類正確率如表2所示。

表2 網(wǎng)絡(luò)識(shí)別正確率

5 結(jié)語(yǔ)

通過(guò)以上的介紹可以得到：本文設(shè)計(jì)了一個(gè)改進(jìn)學(xué)習(xí)算法BP網(wǎng)絡(luò)聲音識(shí)別系統(tǒng)，由于為網(wǎng)絡(luò)引入了動(dòng)量修正和學(xué)習(xí)率調(diào)整，網(wǎng)絡(luò)的分類誤差被控制在很小的范圍內(nèi)，聲音的識(shí)別正確率高。本文所構(gòu)建的BP網(wǎng)絡(luò)結(jié)構(gòu)具有一般性，可以應(yīng)用于其他頻率信號(hào)的識(shí)別分類。

[參考文獻(xiàn)]

[1] 張振國(guó), 王曉霞. 神經(jīng)網(wǎng)絡(luò)在語(yǔ)音音調(diào)識(shí)別中的應(yīng)用研究[J].微電子學(xué)與計(jì)算，2005, 22(3): 43-49.

[2] 李偉, 陳臨強(qiáng), 殷偉良. 基于自適應(yīng)學(xué)習(xí)率的背景建模方法[J].計(jì)算機(jī)工程，2011, 37(15): 187-190.

[3] Ying He, Baohua Jin, Qiongshuai Lv. Improving BP Neural Network for the Recognition of Face Direction [C].International Symposium on Computer Science and Society，2011: 79-82.

[4] 范佳妮. BP人工神經(jīng)網(wǎng)絡(luò)隱層結(jié)構(gòu)設(shè)計(jì)的研究進(jìn)展[J].控制工程，2005, 5(12): 105-109.

[5] 周開利, 康耀紅. 神經(jīng)網(wǎng)絡(luò)模型及MATLAB仿真程序設(shè)計(jì)[M].北京：清華大學(xué)出版社, 2005: 70-82.

[6] 楊偉超,趙春暉,成寶芝. Alpha穩(wěn)定分布噪聲下的通信信號(hào)識(shí)別[J].應(yīng)用科學(xué)學(xué)報(bào)，2010, 28(2):111-114.

[7] 郭榮艷, 胡雪惠. BP神經(jīng)網(wǎng)絡(luò)在車牌字符識(shí)別中的應(yīng)用研究[J].計(jì)算機(jī)仿真， 2010, 27(9): 299-301.

[8] Vladimir Nedeljkovic. A Novel Multilayer Neural Networks Training Algorithm that Minimizes the Probability of Classification Error [J].IEEE Trans on Neural Networks，1993, 4(4): 650-660.

[9] Adnan Khashman. A Modified Backpropagation Learning Algorithm With Added Emotional Coefficients [J].IEEE Trans on Neural Networks，2008, 19(11): 1896-2000.

[10] Antoniya Georgieva, Ivan Jordanov. Intelligent Visual Recognition and Classification of Cork Tiles With Neural Networks [J].IEEE Trans on Neural Networks，2009, 20(4): 675-684.

[11] 侯亞麗, 李鐵.基于LM優(yōu)化算法的BP神經(jīng)網(wǎng)絡(luò)目標(biāo)識(shí)別方法[J].探測(cè)與控制學(xué)報(bào)，2008, 30(2): 53-57.

[12] 成寶芝，趙春暉，王玉磊.基于四階累積量的波段子集高光譜圖像異常檢測(cè)[J].光電子.激光，2012，28(3)：1582-1588.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡