国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

*基于深度信念網絡的語音情感識別

2019-03-05 05:41:42劉繼華
太原理工大學學報 2019年1期
關鍵詞:分類器語音神經網絡

張 麗,呂 軍,強 彥,劉繼華

(1.太原理工大學 信息與計算機學院,太原 030024;2.呂梁學院 計算機科學與技術系,山西 呂梁 033000)

語音情感識別技術是通過計算機對語音信號進行情感特征提取,將提取的情感特征參數與情感變化特征進行比較和分析,最終得出語音與情感的規(guī)律,并根據規(guī)律來判斷語音情感狀態(tài)[1]。從語音信號中分析和提取情感特征,讓計算機自動識別出說話人的情感狀態(tài)的研究就顯得尤為重要,該研究領域在新型人機交互[2]、電話客服中心[3]、智能機器人[4]等領域具有重要的應用價值。語音情感識別模型主要包括語音情感特征提取以及基于這些特征設計分類器這兩大部分,傳統(tǒng)的聲學特征主要有梅爾頻率倒譜系數、感知線性預測系數等,大多采用人工設計特征,過程不僅繁瑣而且依賴于經驗和運氣。因此本文針對這個問題,利用深度學習強大學習能力,設計一種端到端的語音情感識別模型。

1 主流技術與方法

近年來深度學習依靠其強大的特征提取能力以及對海量數據進行深層次建模能力,在語音情感識別領域取得了重大進步。CHAO et al[5]利用無監(jiān)督預訓練去噪自動編碼器,減少了情感特征中說話人的影響。MAO et al[6]提出了半監(jiān)督卷積神經網絡模型,提取情感相關特征,通過實驗證明其對說話人的變化、環(huán)境的滋擾以及語言變化都有很強的魯棒性。JAITLY et al[7]提出利用DBN來進行音素識別,與傳統(tǒng)語音識別系統(tǒng)相比性能有較大的提升,深度神經網絡(DNN)在其中充當一個單獨的特征提取器,并輸入到混合高斯-隱馬爾科夫模型(GMM-HMM)進行決策分類。作為深度學習具有代表性的方法,深度信念網絡(DBN)表現出強大的無監(jiān)督特征學習能力,已成功應用到聲學建模[8]、手勢識別[9]、語音識別[10]等方面。因此,本文采用多層DBN自動提取語音信號中的情感特征,從而獲得語音情感高維的抽象特征。

比較常用的語音情感識別方法有隱馬爾科夫模型(HMM)[11]、人工神經網絡(ANN)[12]、GMM-HMM[13]以及DNN-HMM等。HMM適用于分析語音這樣短時平穩(wěn)的時序變換信號,因此常用于情感識別。而GMM-HMM模型可以模擬任意函數,被廣泛應用于情感識別,但其性能取決于混合高斯函數的個數,所以具有一定的局限性。DNN也可以模擬任意函數,其表達能力更強。因此NIU et al[14]將DNN替代GMM模型成功應用在語音情感識別,逐漸成為主流的技術方法,但在數據量大的情況下訓練過于耗時。綜上本文提出使用ELM模型實現對語音情感的決策分類,極限學習機(ELM)[15]是一種應用于廣義單隱層前饋神經網絡的學習算法,可以極大地提高網絡泛化性能和學習速度。

2 算法描述

本文提出的基于深度信念網絡的語音情感識別的方法主要包括三部分:

1) 對語音信號進行預處理以改善語音質量,本文對輸入的語音信號進行預加重和加窗處理,并選取窗長為5的中值濾波器對去噪后的情感語音信號進行平滑處理,并分塊成統(tǒng)一大小為28×28作為深度學習網絡的輸入。

2) 采用深度信念網絡結構實現情感特征的自動提取。

3) 將高層的情感特征作為極限學習機的輸入,實現最后的決策分類。本文語音情感識別方法的具體過程如圖1所示。

圖1 基于深度信念網絡的語音情感識別Fig.1 Speech emotion recognition based on DBN

2.1 基于深度信念網絡的特征提取

本文通過深度信念網絡(deep belief network,DBN)實現語音情感特征自動提取,DBN是由多個受限玻爾茲曼機(restricted boltzmann machine,RBM)堆疊而成[16],如圖1所示,v代表輸入圖像,v與h1構成RBM1,h1與h2構成RBM2,以此類推構成DBN.RBM由兩層網絡結構組成,分別為可見層V與隱藏層H.這兩層的神經元連接特點是:層內無連接,層間全連接。神經元之間通過權值w連接。神經元的輸出只有未激活和激活兩種狀態(tài),分別用二進制數0與1表示。單個RBM結構如圖2所示。

圖2 RBM結構Fig.2 Restricted boltzmann machine structure

RBM模型是一個基于能量的模型,因此對于給定的一組狀態(tài)(v,h),定義如下能量函數:

E(V,h;θ)=-aTV-bTh-hTWv.

(1)

θ={wij,ai,bj}構成RBM的參數,其中wij表示可見單元vi與隱單元hj之間的連接權重,ai表示可見單元vi的偏置,bj表示單元hj的偏置。定義一個可見單元和隱藏單元的聯合概率分布為:

(2)

(3)

其中Z(θ)為歸一化常數;由于隱藏神經元的激活條件獨立,因此當給定可見層神經元狀態(tài)時,根據能量函數和貝葉斯公式,由可見層的值可推得隱藏層神經元激活的概率為:

(4)

根據概率P1通過吉布斯采樣得到隱藏層H各節(jié)點的值,hj(0)∈{0,1}.為了解決訓練耗時嚴重的問題,HINTON在2002年提出了一種改進的高效訓練算法,稱為對比散度(contrastive divergence,CD)[17]算法,成為訓練RBM最常用的方法。上標表示可見層與隱藏層的重構次數,通常次數為1時就能得到較好的重構結果。同理由隱藏層的值得可見層的輸出概率:

(5)

由概率P2得到可見層V各神經元的值,vi(1)∈{0,1},再根據可見層的重構值求得隱藏層的重構概率:

(6)

(7)

Δa+=r(v(1)-v(2)) ;

(8)

(9)

通過上述訓練可得到語音情感的特征向量,也就是三個RBM的參數值,其中r為學習率。但是傳統(tǒng)的DBN算法存在一些不足:比如CD算法并不是一個理想的極大似然估計方法。若RBM訓練產生一個壞的參數選擇,DBN將會有一個壞的初始參數,并且基于梯度的全局優(yōu)化算法會陷入局部最優(yōu),而且全局微調過程需要大量的訓練時間。極限學習機(extreme learning machine,ELM)[18]具有學習速度快、泛化性能好等優(yōu)點,若將ELM作為DBN提取特征后的分類器,將能很好地解決DBN訓練中存在的問題。

研究表明,人腦在感知視覺信號的時候每次只有一部分神經元被激活,即神經元的響應是稀疏的[19],如果訓練樣本較少時會導致網絡出現嚴重的過擬合現象。本文采用隨機隱退思想避免模型訓練過程中出現過擬合現象,即迭代過程中,設置某次迭代網絡隱含層中的某些結點的權重不工作,不工作的這些結點可以暫時認為它們不是該網絡的一部分,將其權重保留下來不更新,再次迭代時,這些結點可以參與工作。圖3所示為隨機隱退工作原理,神經節(jié)點之間的虛線表示神經元之間的連接斷開。

圖3 隨機隱退原理圖Fig.3 Random retreat schematic diagram

2.2 基于極限學習機的分類決策

ELM是黃廣斌等[15]提出的對單隱層前饋神經網絡的學習算法,不同于傳統(tǒng)深度學習方法迭代地調整參數,ELM通過隨機生成權重和隱含層偏置加速學習,保證在精度不變的情況下收斂速度快,引起了機器學習領域的廣泛關注[20]。本文將使用ELM作為語音情感識別的分類器,ELM由輸入層、隱含層、輸出層三層網絡構成,其結構圖如圖4所示。

圖4 ELM結構Fig.4 Extreme learning machine structure

設訓練樣本為[xi,ti](i=1,2,3,…,k),xi為輸入語音情感特征,ti為對應的情感標簽,則對于有M個隱層節(jié)點的神經網絡可以表示為:

(10)

式中:β為隱含層和輸出層之間的連接權值矩陣;g(x)為隱含層的激活函數;w為輸入層和隱含層之間的連接權值;c為隱含層的偏置向量。

單隱層的神經網絡學習的目的是使輸出的誤差最小,也就是存在w,β,c使得o與t近似相等:

(11)

公式(11)可由矩陣表示為:

Hβ=T.

(12)

式(12)中H被稱作網絡的隱含層輸出矩陣。從而,隱含層和輸出層之間的連接權值β可由公式(12)的極小二范數最小二乘解得:

(13)

式(13)中H?為隱含層輸出矩陣H的Moore-penrose廣義逆。

2.3 算法實現

DBN的訓練過程分為三個步驟,第一步是使用無監(jiān)督的逐層訓練算法,訓練得到生成模型參數;第二步將第一步得到的參數作為初始值,使用有監(jiān)督的方法對整個網絡參數進行全局訓練,得到最終的網絡參數;第三步將最后一層的參數輸入到ELM模型進行進行訓練。具體步驟如下:

1) 無監(jiān)督訓練。以重構誤差函數作為目標函數,采用貪婪逐層算法,從下至上進行無監(jiān)督學習,每兩層構成一個RBM,用CD算法訓練第一個RBM,直到數據達到收斂條件或超過訓練迭代次數后,固定本層的參數并傳遞給下一個RBM進行訓練,直到最頂層結束。

2) 微調。本文使用BP神經網絡反向微調,首先,利用帶標簽的訓練樣本對進行訓練,然后利用將已經訓練好的DBN網絡參數作為微調的初始值,以第一步得到的參數作為網絡初始參數,采用mini-batch梯度下降法,通過最小化交叉熵函數,找到全局最優(yōu)點,微調網絡參數并固定。

3 實驗結果

3.1 實驗數據

本文方法的實驗環(huán)境是Visual Studio 2010,MATLAB 2012b,PC處理器為Intel Core i7-3770,主頻3.40 GHz,內存8 GB.實驗采用的數據集為公開數據集CASIA,該數據庫由中科院自動化所錄制,由4位錄音人(2男2女)在純凈錄音環(huán)境下(信噪比約為35 dB)分別在6類不同情感下對500句文本進行演繹而得到,16 kHz采樣,16 bit量化。經過聽辨篩選,最終保留其中9 600句。隨機選取70%作為訓練集,其余為測試集,即trainsize=7 000,testsize=2 600,按照以上規(guī)則隨機選取訓練集和測試集5次,在不同訓練集/測試集分別進行試驗,求取5次實驗的平均值作為最終的結果。

3.2 參數設置及討論

DBN由多個RBM組成的,其檢測精度與網絡超參選擇有重大的關系,而深度學習參數的設計大多憑借經驗,本文嘗試了100多種不同超參的組合,選擇準確率最高的模型,最終隱含層數設置為3,網絡輸入大小為1 024維,輸出大小為6,隱含層網絡節(jié)點設置為512-1 024-512,學習率大小為0.001,分批數據大小mini-batch為200,迭代次數epoch為200,隨機隱退概率q為0.5,ELM隱含層大小為512,可以達到95.23%的分類精度。以下為DBN特征提取過程中對隱含層數、隱含層結點組合,mini-batch以及隨機隱退概率這4個超參的討論結果。

3.2.1 隱含層數

理論上,增加隱含層數可以降低網絡誤差,提高精度,使得網絡具有強大的數據表達能力,但多層結構會增加網絡訓練時間,精度反而變差。本文針對網絡結構隱含層數進行研究,分別設定隱含層(不包含輸入層和輸出層)的層數為1,2,3,4,為了不受隱含層節(jié)點數的影響,本實驗設置隱含層結點均為1 024,實驗結果如表1所示。

表1 不同網絡層數的實驗結果Table 1 Experimental results of different network layers

從表1可以看出,隨著層數的增加,訓練時間延長,識別精度呈先上升后下降的趨勢,當層數為3時準確率最高,時間復雜度也在可承受范圍內。當隱含層為4時,由于高維抽象的特征信息弱化了不同語音情感的區(qū)分度,使結果陷入局部極值,所以識別精度降低。

3.2.2 隱含層結點組合

目前,大多數隱含層結點的設置憑借經驗和運氣,且選取方式具有較強主觀性,沒有規(guī)律可尋,至今沒有系統(tǒng)的研究中間隱藏層節(jié)點組合的設置。本文針對這一問題,討論了不同組合隱藏層結點對分類識別結果的影響,實驗結果如圖5所示。

圖5 隱含層結點組合實驗結果Fig.5 Experimental results of node combination in hidden layer

圖5顯示了不同的網絡結構隨著迭代次數增加的分類準確率,迭代次數一般達到200次都能趨于穩(wěn)定,因此本實驗選擇迭代次數為200.由于語音情感輸入大小為1 024,在恒值型中,與輸入節(jié)點最近的1 024×1 024×1 024分類正確率最高,這是因為深度神經網絡是一個挖掘數據表達的學習網絡,當網絡的節(jié)點數與輸入節(jié)點數較近時,數據特征更容易被挖掘。在升值型和降值型中,組合1 024×1 536×2 048與2 048×1 536×1 024分類正確率高,這是因為在一定范圍內,節(jié)點數越多,對數據的解釋能力越強,網絡就越能挖掘數據細節(jié)特征。在中凸型和中凹型中,組合1 536×2 048×1 536,1 024×512×1 024以及2 048×1 536×2 048分類正確率相對較低,這是因為這種組合偏離輸入數據維數較遠,在迭代次數達到一定時才能得到較高的準確率。組合(f)為所有組合類型中取效果最好的隱藏層節(jié)點組合,從中可以發(fā)現中凸型獲得的準確率最高。總體來說隱含層節(jié)點組合滿足以下規(guī)律:當接近輸入數據維數且總節(jié)點數相對偏多的中凸型隱藏層組合效果相對較優(yōu)。因此本文設置網絡隱含層結構為512×1 024×512.

3.2.3 分批數據大小

分批數據大小mini-batch是網絡的一個重要參數,RBM訓練采用batch批處理方式實現,本文將訓練數據分為N個batch,每一個batch包含S幀,訓練時按batch依次讀入數據進行計算并完成網絡權值更新。若批量選的太小,訓練效率低下;若批量選的太大,容易造成權值大幅調整,誤差增大,致使錯過最優(yōu)點。在trainsize(訓練量)=7 000,r(初始學習率)=0.001,epoch(迭代次數)=200的條件下,從對比實驗結果6可以看出,在其他參數一定的情況下,當mini-batch=200時,網絡的正確率比其他取值的正確率更高,訓練時間也較短。因此,本文選擇mini-batch大小為200.

圖6 分批數據實驗結果Fig.6 Experimental results of mini-batchr

3.2.4 隨機隱退概率

為了驗證隨機隱退的有效性,在trainsize=7 000,testsize=2 600,mini-batch=200,epoch=50的條件下,測試結果如圖7所示。可以看出使用隨機隱退后,整體訓練樣本的錯誤率提高,但是測試樣本的錯誤率降低了,說明該方法泛化能力不錯,可以有效防止過擬合。當q=0.5時,訓練樣本錯誤率與測試樣本錯誤率均達到最小,因此本模型選擇隨機隱退概率值為0.5.

圖7 隨機隱退實驗結果Fig.7 Experimental results of dropout

3.3 結果分析

為了進一步驗證本文方法的有效性,采取五折交叉驗證法后取平均值的方法,得到了本文方法對六種不同的情感(高興、生氣、驚奇、恐懼、悲傷、平靜)的混淆矩陣,見表2.

表2中給出了DBN識別效果最優(yōu)時所取得的六種情感識別結果的混淆矩陣,總體平均識別率達到了95.23%.從表2中的混淆矩陣可以看出,生氣和平靜兩種情感識別的效果較好,分別達到了98.34%和98.01%.相比之下,恐懼情感識別的效果最差,只達到了88.71%,原因是恐懼與悲傷之間有較大的混淆。

表2 基于深度信念網絡的ELM情感識別率Table 2 ELM emotion recognition results based on deep belief network %

本文探討ELM分類器的有效性,將DBN學習后的特征輸入到不同的分類器計算測試集的準確率,圖8為實驗結果圖。傳統(tǒng)的深度信念網絡利用BP神經網絡反向微調參數并實現分類,BP神經網絡主要運用向后反饋的學習機制,來修正神經網絡中的權重,最終達到輸出正確結果的目的。HMM利用馬爾科夫鏈的信號模型技術,以抽象的概率模型作為參考模板來反映情感信號的統(tǒng)計特征。從圖6可以看出,使用ELM作為分類器比傳統(tǒng)的BP神經網絡提高了7.88%,因此通過DBN可以學習到良好的語音情感特征。本文使用ELM作為分類器相比于HMM以及DNN-HMM[14],每一種情感識別率與平均識別率最高,且在訓練時間上有明顯的優(yōu)勢,說明基于ELM的語音情感識別模型在訓練時間和泛化性能上均優(yōu)于其他分類模型。

圖8 不同分類器模型識別結果比較Fig.8 Comparison of different classifier model recognition results

4 結論

本文提出一種基于深度信念網絡的多層無監(jiān)督語音情感識別模型,利用多層DBN來自動提取語音情感信號中的情感特征,并與傳統(tǒng)方法不同,將極限學習機(ELM)作為分類器。在CASIA情感語音數據集進行試驗,結果表明:DBN具有強大的無監(jiān)督特征學習能力,且基于ELM的語音情感語音分類模型在訓練時間和泛化能力均優(yōu)于BP神經網絡、隱馬爾科夫(HMM)模型以及DNN-HMM模型。未來的研究重點關注將語音情感識別遷移到其他領域,探索深度學習可演進性。

猜你喜歡
分類器語音神經網絡
神經網絡抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
魔力語音
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
BP-GA光照分類器在車道線識別中的應用
電子測試(2018年1期)2018-04-18 11:52:35
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
基于神經網絡的拉矯機控制模型建立
重型機械(2016年1期)2016-03-01 03:42:04
復數神經網絡在基于WiFi的室內LBS應用
梨树县| 察隅县| 梧州市| 无棣县| 宜章县| 七台河市| 左权县| 兰坪| 金秀| 湟中县| 五指山市| 离岛区| 北流市| 工布江达县| 高安市| 毕节市| 普安县| 揭阳市| 莎车县| 墨玉县| 东至县| 英山县| 桦川县| 梅河口市| 呼玛县| 清徐县| 筠连县| 开原市| 沁源县| 乌苏市| 红原县| 调兵山市| 阳曲县| 理塘县| 左贡县| 南皮县| 沙洋县| 富川| 镇安县| 江达县| 蒙城县|