国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合聲門波信號(hào)頻譜特征的語(yǔ)音情感識(shí)別

2017-05-17 10:04:10李昊璇師宏慧喬曉艷
關(guān)鍵詞:聲門拋物線頻譜

李昊璇, 師宏慧, 喬曉艷

(山西大學(xué) 物理電子工程學(xué)院, 山西 太原 030006)

融合聲門波信號(hào)頻譜特征的語(yǔ)音情感識(shí)別

李昊璇, 師宏慧, 喬曉艷

(山西大學(xué) 物理電子工程學(xué)院, 山西 太原 030006)

為了提高語(yǔ)音情感識(shí)別的準(zhǔn)確率, 本文針對(duì)新的聲門波信號(hào)頻譜特征拋物線頻譜參數(shù)(parabolic spectralparameter,PSP)和諧波豐富因子(harmonic richness factor,HRF)進(jìn)行了研究, 并將其應(yīng)用到語(yǔ)音的情感識(shí)別中. 提取6種不同情感(生氣、 害怕、 高興、 中性、 悲傷和驚奇)語(yǔ)音信號(hào)的發(fā)音速率和短時(shí)能量、 基音頻率、 前3個(gè)共振峰、 12階Mel頻率倒譜系數(shù)(MFCC)的最大值、 最小值、 變化范圍和平均值等常用特征構(gòu)成一個(gè)特征矢量, 并利用主成分分析方法降維; 提取聲門波信號(hào)的頻譜特征PSP和HRF, 并分析了PSP和HRF的情感表達(dá)能力; 采用深度學(xué)習(xí)棧式自編碼算法對(duì)只有常用特征以及融合了聲門波信號(hào)頻譜特征后的特征進(jìn)行分類. 結(jié)果表明: 融合聲門波信號(hào)頻譜特征后識(shí)別率更高.

聲門波信號(hào); 拋物線頻譜參數(shù); 諧波豐富因子; 棧式自編碼; 語(yǔ)音情感識(shí)別

0 引 言

語(yǔ)言作為人們之間交流最快最自然的方式[1], 被最早地應(yīng)用于人機(jī)交互領(lǐng)域. 近50年來(lái), 眾多學(xué)者和公司在語(yǔ)音識(shí)別和合成領(lǐng)域取得了豐碩的研究成果, 但距離自然的人機(jī)交互依然很遙遠(yuǎn), 因?yàn)闄C(jī)器還不能準(zhǔn)確地理解人類的情感. 所以, 語(yǔ)音情感識(shí)別已經(jīng)成為眾多學(xué)者關(guān)注的一個(gè)研究方向[2]. 語(yǔ)音情感識(shí)別是依靠語(yǔ)音情感特征進(jìn)行識(shí)別的, 通常語(yǔ)音情感特征包括韻律特征、 音質(zhì)特征和譜特征. 一般來(lái)說(shuō), 韻律類特征主要反映了不同情感下語(yǔ)氣的變化, 包括發(fā)音速率、 能量和基音頻率等. 音質(zhì)類特征主要與激勵(lì)源和聲道模型有關(guān), 音質(zhì)特征有共振峰和頻譜能量等[3]. 譜特征是一種能夠反映語(yǔ)音信號(hào)的短時(shí)功率譜特性的聲學(xué)特征參數(shù), 如LPC(Liner Prediction Coding)和MFCC(Mel Frequency Cepstrum Coefficient)等, 其中MFCC是最能反映語(yǔ)音信號(hào)的特征, 被廣泛應(yīng)用于語(yǔ)音情感識(shí)別.

近年來(lái), 有關(guān)聲源[4,5]的一些新的音質(zhì)特征被應(yīng)用于語(yǔ)音情感識(shí)別. Moore等人應(yīng)用聲門開(kāi)閉時(shí)間及聲門閃動(dòng)信號(hào), 實(shí)現(xiàn)說(shuō)話人情感狀態(tài)的識(shí)別[6]. 西北工業(yè)大學(xué)的白潔等人采用了一種新的語(yǔ)音情感特征NAQ, 以元音段的NAQ值的均值、 方差、 最大值和最小值為特征, 分別用GMM方法和k-近鄰法對(duì)6種情感進(jìn)行識(shí)別, 結(jié)果表明NAQ特征可以作為語(yǔ)音情感識(shí)別的有力特征之一[7]. 四川大學(xué)的何凌等人采用聲門波信號(hào)幅度最大值時(shí)刻、 信號(hào)幅度最小值時(shí)刻、 聲門關(guān)閉時(shí)刻、 聲門打開(kāi)時(shí)刻、 開(kāi)商和閉商6個(gè)特征, 利用高斯混合模型進(jìn)行識(shí)別, 結(jié)果表明聲門波特征要優(yōu)于傳統(tǒng)的基音頻率和共振峰特征[8]. 由此可見(jiàn), 聲門波特征對(duì)語(yǔ)音情感的識(shí)別具有很重要的作用, 但目前很多學(xué)者對(duì)聲門波特征的研究是基于時(shí)域特征的, 提取聲門波的時(shí)域特征(如開(kāi)商、 速度商和閉商等)需要精確測(cè)量聲門波的開(kāi)啟和閉合時(shí)刻, 而目前想要精確的測(cè)量聲門波的開(kāi)啟和閉合時(shí)刻還有一定的難度, 這就使得時(shí)域特征的表達(dá)能力受到一定的限制, 因此, 在本文中采用了聲門波信號(hào)頻譜特征拋物線頻譜參數(shù)(PSP)和諧波豐富因子(HRF), 對(duì)PSP和HRF分析表明: PSP和HRF對(duì)情感具有一定的表達(dá)能力, 融合聲門波信號(hào)頻譜特征識(shí)別率更高.

1 常用特征

1.1 發(fā)音速率

發(fā)音速率是指發(fā)音音節(jié)個(gè)數(shù)與發(fā)音持續(xù)時(shí)間的比值, 在漢語(yǔ)語(yǔ)音中, 一個(gè)音節(jié)是指一個(gè)漢字. 研究表明發(fā)音速率與情感有很大的聯(lián)系, 當(dāng)人的情緒比較激動(dòng)時(shí), 發(fā)音速率會(huì)加快, 當(dāng)人的情緒比較低落時(shí), 發(fā)音速率會(huì)降低.

1.2 短時(shí)能量

語(yǔ)音信號(hào)的短時(shí)能量分析是反映語(yǔ)音信號(hào)幅度變化的一個(gè)參數(shù), 它與情感有很大的關(guān)聯(lián). 對(duì)于信號(hào){x(n)}, 短時(shí)能量的定義如下

式中:En表示在信號(hào)的第n個(gè)點(diǎn)開(kāi)始加窗函數(shù)時(shí)的短時(shí)能量;x(n)是語(yǔ)音信號(hào);w(n)是窗函數(shù);N為窗長(zhǎng).

1.3 基音頻率

語(yǔ)音信號(hào)是短時(shí)平穩(wěn)的, 尤其是在發(fā)濁音的時(shí)候, 聲帶周期性的振動(dòng)使得語(yǔ)音信號(hào)在短時(shí)間內(nèi)是周期性的, 研究表明情感與基音頻率有很大的聯(lián)系. 本文采用準(zhǔn)確率高并且魯棒性強(qiáng)的基于殘差信號(hào)諧波和的基音檢測(cè)算法進(jìn)行基頻的提取[9].

1.4 共振峰

共振峰是反映聲道的一個(gè)很重要的特征參數(shù), 人在說(shuō)話的時(shí)候, 聲源激勵(lì)中包含豐富的頻率信息, 當(dāng)聲源激勵(lì)通過(guò)聲道的時(shí)候, 聲道會(huì)對(duì)聲源激勵(lì)中豐富的頻率產(chǎn)生共振, 使某些頻率加強(qiáng), 某些頻率減弱. 通常用LPC方法估計(jì)共振峰, 它認(rèn)為聲道濾波器幅頻或相頻極點(diǎn)即為共振峰所在.

1.5 Mel頻率倒譜系數(shù)(MFCC)

耳朵處理聲音的方式相當(dāng)于一個(gè)濾波器, 其效果在1 kHz以下是線性的, 在1 kHz以上是對(duì)數(shù)尺度. MFCC是根據(jù)人耳處理聲音信號(hào)機(jī)制, 變換到Mel頻譜上, 然后轉(zhuǎn)換到倒譜域上.

2 主成分分析

2.1 主成分分析原理

運(yùn)用語(yǔ)音信號(hào)處理技術(shù)得到多維的特征向量, 但維數(shù)過(guò)多的特征向量相關(guān)程度大, 冗余性高, 并且容易造成維數(shù)災(zāi)難. 主成分分析方法是一種能夠有效減少相關(guān)性和冗余性的一種特征降維方法[10].

主成分分析方法[10]的基本思想是從特征矢量中計(jì)算出一組不相關(guān)的特征向量, 根據(jù)方差貢獻(xiàn)率選擇貢獻(xiàn)率較大的特征向量作為新的特征方向, 將原始特征投影到低維特征向量空間.

假設(shè)原始特征維數(shù)為m維, 共有n個(gè)樣本, 將其構(gòu)建成一個(gè)m*n的矩陣, 則主成分分析過(guò)程為:

1) 對(duì)數(shù)據(jù)進(jìn)行零均值和方差標(biāo)準(zhǔn)化預(yù)處理, 計(jì)算公式為

2) 計(jì)算樣本矩陣的協(xié)方差矩陣:

3) 計(jì)算矩陣COVm*m的本征值和本征向量, 每個(gè)本征值對(duì)應(yīng)一個(gè)本征向量, 組成多個(gè)本征向量對(duì)(γi, ei),將本征值從大到小排列, 使γ1≥γ2≥…≥γm.

4) 根據(jù)本征向量的方差貢獻(xiàn)率選取前k個(gè)本征值所對(duì)應(yīng)的本征向量作為主成分方向, 構(gòu)造成一個(gè)m*k維的本征向量矩陣A, 方差貢獻(xiàn)率計(jì)算如下

方差貢獻(xiàn)率一般選取75%~95%.

5) 將樣本按照式(6)投影到低維空間, 將此投影作為新的特征樣本.

PCA(x)=ATX.

2.2 主成分分析結(jié)果

采用CASIA漢語(yǔ)情感語(yǔ)料庫(kù)中情感表達(dá)能力比較強(qiáng)的一男一女發(fā)言人的語(yǔ)音數(shù)據(jù), 選取每句語(yǔ)音的發(fā)音速率、 短時(shí)能量、 基音頻率、 共振峰、 12階MFCC系數(shù)的統(tǒng)計(jì)特征共69維特征, 此69維特征如表 1 所示.

表 1 常用特征

采用主成分分析方法對(duì)69維特征進(jìn)行分析, 選取85%的方差貢獻(xiàn)率的特征向量作為新的特征方向, 最終選取了29維特征向量作為新的特征方向. 此29維特征向量的本征值及方差貢獻(xiàn)率如表 2 所示.

表 2 主成分分析結(jié)果

3 聲門波特征

語(yǔ)音的產(chǎn)生一般分為調(diào)音和發(fā)音兩部分, 調(diào)音主要是指由發(fā)音器官協(xié)調(diào)作用形成不同的聲道形狀, 從而產(chǎn)生共鳴合成不同聲音; 發(fā)音主要指聲門開(kāi)啟時(shí)釋放出來(lái)的空氣流, 其中濁音的聲源是一準(zhǔn)周期的聲門波, 清音是無(wú)規(guī)則的白噪聲. 一般采用基音同步迭代自適應(yīng)逆濾波(PSIAIF)[11]算法對(duì)聲門波進(jìn)行提取. 如圖 1 為濁音‘a(chǎn)’用不同情感演繹時(shí)的語(yǔ)音信號(hào)原始圖以及提取到的聲門波圖.

圖 1 不同情感下濁音‘a(chǎn)’的原始語(yǔ)音信號(hào)圖和聲門波信號(hào)圖Fig.1 The original speech signal and the glottal waveformof unvoiced ‘a(chǎn)’under different emotions

由圖 1 分析原始語(yǔ)音信號(hào)可知, 不同情感的語(yǔ)音信號(hào)幅度有很大差別, 生氣、 高興和驚奇的幅度整體比害怕、 中性和悲傷的幅度大. 分析聲門波信號(hào)可知, 生氣和驚奇的聲門波信號(hào)幅值整體比較大, 也就是在生氣和驚奇狀態(tài)下聲帶振動(dòng)時(shí)通過(guò)的氣流要大, 其次是高興和中性, 悲傷和害怕聲門波信號(hào)幅值比較小. 驚奇和高興狀態(tài)下原始語(yǔ)音信號(hào)幅值接近, 但聲門波信號(hào)卻有很大的差別, 這說(shuō)明不同情感狀態(tài)下聲門波信號(hào)是有區(qū)別的, 可以反映在聲門波信號(hào)的頻譜上, 其頻譜的衰減程度以及諧波能量是有差別的. 本文采用可以反映聲門波信號(hào)頻譜衰減程度的拋物線頻譜參數(shù)和諧波豐富因子這兩個(gè)特征進(jìn)行研究.

3.1 拋物線頻譜參數(shù)(PSP)

圖 2 圖中藍(lán)線為聲門波的頻譜, 紅線為擬合頻譜的拋物線函數(shù)Fig.2 The blue line in the figure is the spectrum of glottal waveform, the red line is the parabolic function of fitting spectrum

聲門波具有低通的特性[12], 其頻譜幅度隨頻率的增大而減小. 通過(guò)研究聲門波對(duì)數(shù)頻譜發(fā)現(xiàn), 在低頻部分(主瓣)的波形與拋物線極其相似, 如圖 2 所示, 通過(guò)設(shè)計(jì)一個(gè)拋物線函數(shù)能夠很準(zhǔn)確地匹配聲門波對(duì)數(shù)頻譜的低頻部分.

3.1.1 拋物線頻譜參數(shù)

拋物線的表達(dá)式為Y(k)=ak2+b, 參數(shù)a決定拋物線的形狀, 可以反映聲門波頻譜的衰減程度. 值得注意的是聲門波頻譜范圍很大, 僅通過(guò)一個(gè)拋物線函數(shù)來(lái)匹配是不可能的, 只能用拋物線去匹配一定范圍內(nèi)聲門波頻譜波形(主瓣), 這個(gè)范圍指從0 Hz到上限頻率. 對(duì)于每個(gè)聲門波來(lái)說(shuō), 其上限頻率是不一樣的, 上限頻率是由聲門波原始頻譜和拋物線模型之間的誤差所決定的, 逐漸增大頻率值, 當(dāng)平方誤差超過(guò)一個(gè)閾值時(shí)的頻率為上限頻率.

在上述提到的參數(shù)a中, 包含有基頻F0的信息, 所以采用將參數(shù)a歸一化以消除基頻影響后的PSP參數(shù). 在歸一化的過(guò)程中, 選用了頻譜衰減最大的一個(gè)函數(shù), 稱這個(gè)函數(shù)為DC函數(shù), 它的頻譜函數(shù)為Sa函數(shù)的平方. 對(duì)DC函數(shù)的頻譜進(jìn)行拋物線匹配, 得到的衰減參數(shù)記為amax, 歸一化就是聲門波頻譜衰減參數(shù)a和DC函數(shù)頻譜衰減參數(shù)amax的比值, 其計(jì)算公式為

3.1.2 衰減參數(shù)最優(yōu)化

在拋物線參數(shù)的最優(yōu)化過(guò)程中, 使用最小化平方誤差的準(zhǔn)則. 在算法中, 將得到的聲門波離散頻譜表示為X(k), 用來(lái)匹配X(k)的拋物線函數(shù)表示為Y(k), 拋物線函數(shù)表達(dá)式可以表示為Y(k)=ak2+b. 平方誤差是指聲門波頻譜X(k)與拋物線函數(shù)Y(k)差值的平方, 用E來(lái)表示, 它的計(jì)算方法為

最優(yōu)化拋物線參數(shù)是使E對(duì)系數(shù)a和b的偏導(dǎo)數(shù)為0

由式(10)可得對(duì)參數(shù)b的最優(yōu)化估計(jì)為

).

將由式(11)得到的參數(shù)b代入式(9)可得對(duì)參數(shù)的最優(yōu)化估計(jì)

圖 3 PSP特征圖, 分別為濁音‘a(chǎn)’的原始語(yǔ)音信號(hào)、 聲門波信號(hào)和PSP特征值Fig.3 PSP characteristic figure, the original speech signal, the glottal waveform and the PSP characterof voiced ‘a(chǎn)’

由式(12)可知a值依賴于N的選擇,N為拋物線函數(shù)匹配聲門波頻譜的頻率上限,N的值越大, 拋物線匹配聲門波頻譜的范圍就越大, 表明拋物線匹配聲門波頻譜的結(jié)果越好. 最優(yōu)的N值由歸一化平方誤差NE所決定, 最優(yōu)的N值與最優(yōu)頻譜衰減參數(shù)a的計(jì)算由下面的迭代步驟來(lái)實(shí)現(xiàn):

1) 初始化值N為3.

2) 由式(12)和式(11)分別計(jì)算參數(shù)a和b.

3) 計(jì)算歸一化平方誤差NE,NE由式(13)計(jì)算得到

4) 如果NE<0.01則將N值加1, 重復(fù)步驟2)~4), 直到退出循環(huán).

如圖 3 是濁音‘a(chǎn)’的原始語(yǔ)音信號(hào)、 聲門波信號(hào)和PSP特征值.

圖 4 PSP特征均值圖Fig.4 Average ofPSPcharacter figure

3.2 PSP特征分析

采用CASIA漢語(yǔ)情感語(yǔ)料庫(kù), 計(jì)算每句語(yǔ)音濁音段對(duì)應(yīng)的PSP特征均值, 如圖 4 所示.

由圖 4 可以看出對(duì)于不同的情感其對(duì)應(yīng)的PSP是有差異的, 其中, 驚奇的PSP值最大, 然后依次是生氣、 高興、 平靜、 悲傷和害怕, 害怕的PSP值最小. 由此可見(jiàn), PSP特征與情感是有一定聯(lián)系的.

3.3 HRF特征提取

諧波豐富因子(Harmonic richness factor,HRF)是反映聲門波諧波頻譜諧波能量的一個(gè)參數(shù)[13]. 在語(yǔ)音信號(hào)中, 低于第一共振峰的諧波對(duì)聲音質(zhì)量是重要的, 這是由于在這些諧波中蘊(yùn)含著比較高的能量. HRF由式(14)定義

式中:Hi是指第i個(gè)諧波的幅值;H1是指基音頻率的幅值.

圖 5 為濁音‘a(chǎn)’的原始語(yǔ)音信號(hào)、 聲門波信號(hào)和HRF特征值.

3.4 HRF特征分析

采用CASIA漢語(yǔ)情感語(yǔ)料庫(kù), 計(jì)算每句語(yǔ)音濁音段對(duì)應(yīng)的HRF特征均值, 如圖 6 所示.

由圖 6 可以看出, 不同情感的HRF值有很大差別, 平靜的HRF值最大, 接下來(lái)依次是悲傷、 害怕、 高興、 驚奇和生氣. 由此可見(jiàn), HRF特征與情感具有一定的聯(lián)系.

圖 5 HRF特征圖, 分別為濁音‘a(chǎn)’的原始語(yǔ)音信號(hào)、 聲門波信號(hào)和HRF特征值Fig.5 HRF characteristic figure, the original speech signal, the glottal waveform and the HRF character of voiced ‘a(chǎn)’

4 識(shí)別結(jié)果

4.1 棧式自編碼

棧式自編碼由稀疏自編碼網(wǎng)絡(luò)級(jí)聯(lián)一個(gè)softmax分類器構(gòu)成[14]. 其中, 稀疏自編碼網(wǎng)絡(luò)用于學(xué)習(xí)特征, 隱含層神經(jīng)元即為學(xué)習(xí)到的特征, 可以采用多個(gè)稀疏自編碼網(wǎng)絡(luò)構(gòu)成一個(gè)多層的特征學(xué)習(xí)網(wǎng)絡(luò). Softmax分類器是一個(gè)非線性分類器, 可以有效建立特征與標(biāo)簽之間的聯(lián)系. 棧式自編碼器具有如下特點(diǎn):

1) 網(wǎng)絡(luò)由多層構(gòu)成, 多層的網(wǎng)絡(luò)設(shè)計(jì)使得棧式自編碼算法能夠挖掘更多的信息.

2) 棧式自編碼的傳遞函數(shù)可微, 一般采用Sigmoid函數(shù)或Than函數(shù)作為傳遞函數(shù), 因此采用梯度下降法進(jìn)行訓(xùn)練.

圖 7 棧式自編碼網(wǎng)絡(luò)模型Fig.7 Stacked autoencodermodel

3) 棧式自編碼采用自編碼網(wǎng)絡(luò), 能夠自動(dòng)提取特征, 提取到的特征存放在隱含層. 并且在自編碼網(wǎng)絡(luò)中加入了稀疏性限制, 使得網(wǎng)絡(luò)更接近人腦的信息傳遞規(guī)則.

4) 采用softmax回歸模型作為分類器, 它是一個(gè)非線性的分類器, 能夠更好地建立特征與分類結(jié)果之間的關(guān)系.

5) 棧式自編碼是一個(gè)多層網(wǎng)絡(luò), 采用逐層貪婪算法每次只訓(xùn)練網(wǎng)絡(luò)的一層[15,16]. 當(dāng)所有層都訓(xùn)練完成后, 各層單獨(dú)訓(xùn)練得到的權(quán)重被用來(lái)初始化多層網(wǎng)絡(luò)的權(quán)重, 然后采用反向傳播算法同時(shí)對(duì)所有層的參數(shù)微調(diào), 避免陷入局部最優(yōu)和防止產(chǎn)生梯度彌散問(wèn)題.

如圖 7 是一個(gè)包含兩個(gè)隱含層的棧式自編碼網(wǎng)絡(luò)模型, 其中, 第一個(gè)隱含層是輸入為樣本的稀疏自編碼網(wǎng)絡(luò)學(xué)習(xí)到的隱含層特征Feature Set 1, 第二個(gè)隱含層是輸入為Feature Set 1的稀疏自編碼網(wǎng)絡(luò)學(xué)習(xí)到的隱含層特征Feature Set 2, 將Feature Set 2作為softmax分類器的輸入, 輸出為樣本所對(duì)應(yīng)的類別.

4.2 識(shí)別結(jié)果

4.2.1 情感語(yǔ)音數(shù)據(jù)

采用由中科院自動(dòng)化所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室人機(jī)語(yǔ)音交互課題組錄制的漢語(yǔ)情感語(yǔ)料庫(kù), 由2男2女分別用6類不同的情感(生氣、 害怕、 高興、 中性、 悲傷、 驚奇)對(duì)50句文本進(jìn)行演繹而得到, 16 kHz 采樣, 16 bit量化. 采用情感表達(dá)最準(zhǔn)確的一男一女發(fā)音人的語(yǔ)音數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù), 采用60%的數(shù)據(jù)(360句)作為訓(xùn)練數(shù)據(jù), 40%的數(shù)據(jù)(240句)作為測(cè)試數(shù)據(jù).

4.2.2 棧式自編碼識(shí)別

采用訓(xùn)練樣本訓(xùn)練一個(gè)包含兩個(gè)隱含層的棧式自編碼網(wǎng)絡(luò), 將測(cè)試特征集輸入到訓(xùn)練好的棧式自編碼網(wǎng)絡(luò)中, 將測(cè)試數(shù)據(jù)判別為softmax分類器概率值最大的一類. 整個(gè)識(shí)別過(guò)程分為兩部分, 第一部分只對(duì)29維常用特征進(jìn)行分類, 第二部分融合聲門波信號(hào)PSP和HRF特征的均值和方差進(jìn)行分類.

將網(wǎng)絡(luò)平均激活度設(shè)為0.05, 稀疏自編碼和softmax分類器迭代次數(shù)設(shè)為200, 微調(diào)迭代次數(shù)設(shè)為400次. 對(duì)于只有常用特征的分類, 經(jīng)過(guò)調(diào)整參數(shù), 當(dāng)兩個(gè)隱含層包含13個(gè)節(jié)點(diǎn), 稀疏懲罰因子設(shè)為2, 權(quán)重衰減項(xiàng)設(shè)為8×10-4時(shí), 分類效果最佳, 分類結(jié)果如表 3 所示.

表 3 棧式自編碼常用特征分類結(jié)果

對(duì)于融合聲門波特征的分類, 經(jīng)過(guò)參數(shù)調(diào)整, 當(dāng)兩個(gè)隱含層包含17個(gè)節(jié)點(diǎn), 稀疏懲罰因子設(shè)為2.4, 權(quán)重衰減項(xiàng)設(shè)為2×10-3時(shí), 分類效果最佳, 分類結(jié)果如表 4 所示.

表 4 棧式自編碼融合聲門波特征分類結(jié)果

由表 3 和表 4 可以得知, 只有常用特征時(shí), 棧式自編碼的平均準(zhǔn)確率為89.17%; 融合聲門波特征后, 棧式自編碼的平均準(zhǔn)確率可達(dá)91.25%. 融合聲門波特征后, 棧式自編碼的分類正確率提高了2.08%. 由此可見(jiàn), 聲門波信號(hào)PSP特征和HRF特征對(duì)于情感具有一定的表達(dá)能力.

5 結(jié) 論

本文將聲門波信號(hào)頻譜特征PSP和HRF應(yīng)用到語(yǔ)音的情感識(shí)別中, 結(jié)果表明PSP和HRF對(duì)情感具有一定的表征能力. 采用深度學(xué)習(xí)棧式自編碼算法分別研究了只有常用特征與融合聲門波特征后的分類效果, 結(jié)果表明: 融合聲門波頻譜特征PSP和HRF比只有常用特征的分類效果要好.

[1] Vogt T, Andre E, Wagner J. Automatic recognition of emotions from speech:a review of the literature and recommendations for practical realization[J]. Affect and emotion in HCI, 2008, (4686): 75-91.

[2] Ververidis D, Kotropoulos C. Emotionspeech recognition: resources, features, and methods[C]. Speech communication, 2006, 48(9): 1163-1181.

[3] 張石清, 李樂(lè)民, 趙知?jiǎng)? 人機(jī)交互中的語(yǔ)音情感識(shí)別研究進(jìn)展[J]. 電路與系統(tǒng)學(xué)報(bào), 2013, 18(2): 440-451. Zhang Shiqing, Li Lemin, Zhao Zhijin. A survey of speech emotion recognition in human computer interaction[J]. Journal of Circuits and Systems, 2013, 18(2): 440-451. (in Chinese)

[4] Iliev A I, Scordilis M S, Papa J P. Spoken emotion recognition through optimum-path forest classification using glottal features[J]. Computer Speech & Language, 2010, 24(3): 445-460.

[5] Sundberg J, Patel S, Bjorkner E. Interdependencies among voice source parameters in emotional speech[J]. IEEE Transactions on Affective Computing, 2011, 2(3): 162-174.

[6] Moore R, Clements M A, Peifer J W, et al. Critical analysis of the impact of glottal features in the classification of clinical depression in speech[J]. Biomedical Engineering, IEEE Transactions on, 2008, 55(1): 96-107.

[7] 白潔, 蔣冬梅. 歸一化振幅商在語(yǔ)音情感識(shí)別中的應(yīng)用[J]. 計(jì)算機(jī)仿真, 2009, 26(2): 183-186. Bai Jie, Jiang Dongmei. Normalized amplitude quotient feature in emotion recognition[J]. Computer Simulation, 2009, 26(2): 183-186. (in Chinese)

[8] 何凌, 黃華, 劉肖珩. 基于聲門特征參數(shù)的語(yǔ)音情感識(shí)別算法研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2013, 34(6): 2147-2151. He Ling, Huang Hua, Liu Xiaoheng. Speech emotion detection based on glottal signal features[J]. Computer Engineering and Design, 2013, 34(6): 2147-2151. (in Chinese)

[9] Drugman T, Alwan A. Joint robust voicing detection and pitch estimation based on residual harmonics[C]. Proceedings of the Annual Conference of the International Speech Communication Association. 2011: 1973-1976.

[10] 張學(xué)工. 模式識(shí)別[M]. 北京: 清華大學(xué)出版社, 2010.

[11] Alku P. Glottal wave analysis with pitch synchronousiterative adaptive inverse filtering[J]. Speech Communication, 1992, 11(2/3): 109-118.

[12] Alku P, Strik H, Vilkman E. Parabolic spectral parameter-a new method for quantification of the glottal flow[J]. Speech Communication, 1997, 22: 67-79.

[13] Childers D G, Lee C K, Vocal quality factors: analysis, synthesis, and perception[J]. Acoust. Soc. Amer., 90(5): 2394-2410.

[14] Lu Yaping, Zhang Li, Wang Bangjun, et al. Feature ensembel learning based on sparse autoencoder for image classification[C]. 2014 International Joint Conference on Neural Networks, 2014, Beijing, China.

[15] Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.

[16] Yoshua Bengio, Pascal Lamblin, Dan Popovici, et al. Greedylayel-wise training of deep networks. Proc of the 12th Annual Conference on Neural Information Processing System[J]. Vancouver and Whistler(CA), 2006: 153-160.

Speech Emotion Recognition Combined with the Spectrum Feature of Glottal Waveform

LI Haoxuan, SHI Honghui, QIAO Xiaoyan

(College of Physics and Electronics Engineering, Shanxi University, Taiyuan 030006, China)

In order to improve the accuracy of emotional speech recognition, the parabolic spectral parameter(PSP) and harmonic richness factor(HRF)which are frequent domain features of the glottal waveform are analyzed, and they are applicated in speech emotion recognition. First of all, acquisition the pronunciation rate and the maximum, minimum, range and average of pitch frequency, first three formant parameters, 12 order Mel frequency cepstrum coefficients(MFCC) of six different emotions speech signals(angry,fear,happy,neutral,sad, surprise) to construct a feature vector, And use principal component analysis (PCA) method to reduce the vector dimension; Then, extract PSP and HRF of the glottal waveform, and analyze the emotional expression ability of PSP and HRF; Finally, using the stacked autoencoderclassifier aims to classify the features which are traditional and have the characteristics of the glottal signal. The results show that it can achieve a higher recognition rate to combine with thethe spectrum feature of glottal waveform.

glottal waveform; parabolic spectral parameter; harmonic richness factor; stacked autoencoder; speech emotional recognition

1671-7449(2017)01-0008-09

2016-11-10

山西省回國(guó)留學(xué)人員科研資助項(xiàng)目(2014-010); 山西省自然科學(xué)基金資助項(xiàng)目(2013011016-2)

李昊璇(1982-), 男, 講師, 博士, 主要從事語(yǔ)音信號(hào)檢測(cè)與處理方面的研究.

TN912.3

A

10.3969/j.issn.1671-7449.2017.01.002

猜你喜歡
聲門拋物線頻譜
巧求拋物線解析式
賞析拋物線中的定比分點(diǎn)問(wèn)題
一種用于深空探測(cè)的Chirp變換頻譜分析儀設(shè)計(jì)與實(shí)現(xiàn)
支撐喉鏡聲門區(qū)暴露困難影響因素的logistics分析
一種基于稀疏度估計(jì)的自適應(yīng)壓縮頻譜感知算法
尷尬的打嗝
拋物線變換出來(lái)的精彩
玩轉(zhuǎn)拋物線
認(rèn)知無(wú)線電頻譜感知技術(shù)綜述
基于“聲門適度感”的聲樂(lè)演唱與教學(xué)研究
新龙县| 巴里| 兰溪市| 泸西县| 昭觉县| 西平县| 遂昌县| 鄯善县| 龙泉市| 秦安县| 涡阳县| 柯坪县| 桃江县| 宣化县| 竹山县| 紫金县| 蓝田县| 芮城县| 洪湖市| 平顶山市| 金沙县| 洛隆县| 买车| 博乐市| 陆丰市| 巴彦县| 阜新| 婺源县| 高雄市| 信宜市| 天长市| 平山县| 来凤县| 斗六市| 吉安县| 城固县| 古田县| 邻水| 长顺县| 乡城县| 浦北县|