国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時空特征的語音情感識別模型TSTNet

2021-12-14 06:15薛均曉黃世博王亞博張朝陽
關(guān)鍵詞:特征提取準(zhǔn)確率長度

薛均曉, 黃世博, 王亞博, 張朝陽, 石 磊

(1.鄭州大學(xué) 軟件學(xué)院,河南 鄭州 450002; 2.鄭州大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,河南 鄭州 450002; 3.鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001)

0 引言

語音情感識別是人機交互領(lǐng)域的重要技術(shù),在安全駕駛、采集病人情緒狀態(tài)、結(jié)合情感輔助發(fā)言等方面都有廣泛的應(yīng)用?,F(xiàn)實生活中,由于語音多樣性、環(huán)境多樣性,以及說話者的說話習(xí)慣、性別、語氣、音調(diào)、語速等問題,導(dǎo)致語音的情感識別成為一項具有挑戰(zhàn)性的工作。

近年來,隨著深度學(xué)習(xí)的迅速發(fā)展,研究人員在語音情感識別領(lǐng)域運用深度學(xué)習(xí)技術(shù),取得了很好的成果[1-4],但仍存在一些需要改進(jìn)的地方:①對于語音的分析中并沒有全部關(guān)注到語音的空間特征、時序特征以及前后語義關(guān)系;②對于語音樣本長度參差不齊的問題,填充長度過長會導(dǎo)致每個樣本中增添很多冗余信息,過短則會導(dǎo)致數(shù)據(jù)丟失。

針對上述問題,本文提出一種基于時空特征的語音情感識別方法。該方法由空間特征提取模塊、時間特征提取模塊以及特征融合模塊組成??臻g特征提取模塊關(guān)注語音的空間特征,時間特征提取模塊關(guān)注語音的時間特征和語音信號中前后語義關(guān)系。為了解決語音長度不一導(dǎo)致填充時信息丟失或冗余問題,模型采用3種補零填充長度得到3個不同尺度的語譜圖,分別提取它們的空間特征、時間特征以及前后語義關(guān)系,在特征融合模塊中將提取得到的3個特征向量融合到一起。

1 相關(guān)工作

1.1 情感描述方式

目前主要有2種描述情感的方法:基于離散的方法和基于維度的方法。

情感的離散描述方法是將情感離散化,并進(jìn)一步類別化。陳煒亮等[5]提出一種新的情感識別模型MFCCG-PCA,實現(xiàn)生氣、高興、害怕、悲傷、驚訝和中性6種情感的分類。離散的描述方式簡單并且應(yīng)用廣泛,但是情感描述單一。

情感的維度描述方法是將情感狀態(tài)描述為一種笛卡爾空間,空間的每個維度對應(yīng)1種情感屬性。Schlosberg[6]提出倒圓錐三維情感空間,從3個維度對情感進(jìn)行描述,將情感描述成1個倒立圓錐形的空間模型。基于維度的情感描述方法利用多維的數(shù)值來表示情感,能夠描述情感的微妙變化。

1.2 語音情感識別分類器

早期的語音情感識別模型主要有隱馬爾可夫模型、支持向量機等傳統(tǒng)的模型。Lin等[7]利用隱馬爾可夫模型和支持向量機識別5種情緒。Pan等[8]探究線性預(yù)測頻譜編碼(LPCC)、梅爾頻譜系數(shù)(MFCC)等特征,并在相關(guān)數(shù)據(jù)集上訓(xùn)練支持向量機。

近年來,基于深度學(xué)習(xí)的方法成為語音情感識別的研究熱點。Mao等[9]提出使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)情感顯著性特征;Trigeorgis等[10]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò),提出解決“情境感知”情感相關(guān)特征的方法;Badshah等[11]提出3個卷積神經(jīng)網(wǎng)絡(luò)結(jié)合3個全連接層的模型從語譜圖中提取特征,并預(yù)測7種情感;Tzirakis等[12]利用卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò),提出一種端到端的連續(xù)語音情感識別方法;Zhang等[13]利用預(yù)訓(xùn)練的AlexNet模型以及支持向量機預(yù)測話語級情緒。

2 方法

本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)CNN和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BiGRU)的語音情感識別模型TSTNet,模型結(jié)構(gòu)如圖1所示。在數(shù)據(jù)預(yù)處理部分,首先對一個語音信號樣本進(jìn)行傅里葉變換,針對3種補零填充長度得到3個不同尺度的語譜圖,然后將其依次輸入空間特征提取模塊和時間特征提取模塊中,得到3個特征向量,最后將這3個特征向量進(jìn)行特征融合和情感分類。

圖1 TSTNet模型結(jié)構(gòu)Figure 1 TSTNet model structure

2.1 語譜圖

在預(yù)處理部分考慮到語音長度相差很大的問題,首先將普通的WAV語音信號采用3種補零填充長度進(jìn)行填充,并轉(zhuǎn)換為語譜圖。基于對數(shù)據(jù)信號長度分布情況的分析,選擇的3種填充長度分別為400、800、1 500。語譜圖的轉(zhuǎn)換過程如圖2所示。

圖2 語譜圖轉(zhuǎn)換過程Figure 2 Spectrogram conversion process

首先對語音信號進(jìn)行采樣、量化、編碼處理,使之轉(zhuǎn)變成數(shù)字信號。通過下采樣,將語音信號的采樣率由44.1 kHz轉(zhuǎn)化為16 kHz。為避免在傅里葉變換操作期間出現(xiàn)數(shù)值問題,對模數(shù)轉(zhuǎn)換后的數(shù)據(jù)幀預(yù)加重,并進(jìn)行分幀、加窗以及短時傅里葉變換,得到需要的語譜圖(spectrogram)。

2.2 空間特征提取模塊

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)對于圖像和語音的特征提取有出色的表現(xiàn)。將2.1節(jié)中的3個不同尺度的語譜圖其中之一(維度為 [L, 200, 1],L∈ (400, 800, 1 500)) 送入CNN中,利用CNN去捕獲音頻的局部特征,其他2個語譜圖處理過程與此相同。卷積層的計算式為

Yi=f(Wi?X+bi)。

(1)

式中:X∈RL×200×1為語譜圖矩陣;Wi為卷積核的權(quán)重值;?為卷積操作;bi為卷積核的偏置值,i為卷積核數(shù);f(·)表示ReLU函數(shù),其定義為

Yi=max(0,Zi)。

(2)

式中:Zi=Wi?X+bi。將得到的特征Yi輸入平均池化層,一個池化區(qū)的計算式為

(3)

式中:Rj為池化區(qū)的像素點數(shù);j為區(qū)域數(shù);Pi為Yi一個通道中的池化區(qū);i為池化區(qū)第i個像素點。

在空間特征提取模塊,模型使用6層卷積神經(jīng)網(wǎng)絡(luò),卷積核通道分別為32、32、64、64、128、128,卷積核大小均為3×3。3個語譜圖經(jīng)過空間特征提取模塊得到3個特征向量,送入時間特征提取模塊中。

2.3 時間特征提取模塊

GRU[14](gate recurrent unit)是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNN)的變體。將空間特征提取模塊中提取的3個特征向量展開,分別輸入GRU,一個GRU單元的計算式為

zt=σ(Wt·[xt,ht-1]);

(4)

rt=σ(Wt·[xt,ht-1]);

(5)

(6)

(7)

圖3 GRU單元Figure 3 GRU unit

圖4 BiGRU模型結(jié)構(gòu)Figure 4 BiGRU model structure

At=f(ht-1,xt);

(8)

(9)

式中:f、f′分別表示GRU單元前向、后向傳播;ht-1、ht+1分別表示前向傳播中時刻(t-1)狀態(tài)輸入、后向傳播中時刻(t+1)狀態(tài)輸入。

時間特征提取模塊中BiGRU層數(shù)為2層,中間設(shè)置一層Dropout層,BiGRU序列長度設(shè)置為128。

2.4 特征融合模塊

TSTNet模型利用CNN處理由語音生成的語譜圖,提取出語音中的局部區(qū)域特征;BiGRU關(guān)注語音的時間特征以及前后語義關(guān)系,故將CNN與BiGRU結(jié)合搭建TSTNet模型。

3種尺度的語譜圖經(jīng)過空間特征提取模塊、時間特征提取模塊之后,得到3個特征向量。在特征融合模塊中,將這3個特征向量拼接在一起,得到1個新的特征向量。將該特征向量輸入1個FC層和1個Softmax函數(shù),得到最終的語音情感識別結(jié)果。如圖1中的特征融合模塊所示。

3 實驗分析

3.1 數(shù)據(jù)集

實驗數(shù)據(jù)集來自科大訊飛,數(shù)據(jù)集總共有7 004個音頻樣本,詳細(xì)描述如表1所示。樣本標(biāo)簽分布如圖5所示,可知標(biāo)簽數(shù)量分布均勻。實驗按照8∶2的比例隨機劃分?jǐn)?shù)據(jù)集,80%的樣本作為訓(xùn)練集,20%的樣本作為測試集。

表1 科大訊飛數(shù)據(jù)集Table 1 HKUST IFLYTEK data set

圖5 數(shù)據(jù)集標(biāo)簽分布情況Figure 5 Data set label distribution

3.2 實驗環(huán)境

實驗使用Keras框架搭建TSTNet模型,所用到的硬件設(shè)備為NVIDIA RTX2080Ti。模型參數(shù)配置的詳細(xì)情況如表2所示。

表2 模型參數(shù)配置Table 2 Model parameter configuration

3.3 實驗結(jié)果分析

將TSTNet模型的實驗結(jié)果和以下5個已有的情感識別模型的實驗結(jié)果進(jìn)行對比,實驗指標(biāo)為準(zhǔn)確率、精確率、召回率和F1值。

(1)MFCC+隨機森林。提取語音數(shù)據(jù)中的MFCC特征,將提取的MFCC歸一化并求最大值得到語音特征向量,用隨機森林去擬合提取的特征向量。

(2)語譜圖+CNN。通過傅里葉變換將語音轉(zhuǎn)化為語譜圖,用CNN網(wǎng)絡(luò)提取語譜圖特征。

(3)MFCC+CNN?;贛FCC+CNN的方法已經(jīng)被應(yīng)用于多種領(lǐng)域中,比如在語音識別[15]領(lǐng)域,此方法獲得了很好的效果。在語音情感識別任務(wù)中,提取語音中的MFCC特征,然后輸入CNN網(wǎng)絡(luò)中對情感進(jìn)行識別。

(4)語譜圖+CNN+RNN。在語譜圖和CNN的基礎(chǔ)上加上RNN,去捕捉語音的時序特征。

(5)語譜圖+CNN+LSTM。LSTM廣泛應(yīng)用于語音識別[16]、文本情感分析[17]中。這里將CNN和LSTM結(jié)合應(yīng)用于情感識別中。

TSTNet模型與后4種模型對比,得到實驗的訓(xùn)練準(zhǔn)確率曲線和損失值曲線,分別如圖6、7所示。從圖6、7中可知,相比于其他方法的模型,TSTNet模型在準(zhǔn)確率和損失值上都表現(xiàn)良好,得到了較好的準(zhǔn)確率;TSTNet模型訓(xùn)練的波動幅度相對平穩(wěn),對數(shù)據(jù)擬合程度較好。

圖6 準(zhǔn)確率曲線Figure 6 Accuracy curve

圖7 損失值曲線Figure 7 Loss value curve

TSTNet模型和以上模型在準(zhǔn)確率、精確率、召回率和F1上的測試集表現(xiàn)情況如表3所示。從表3中可以看出,基于深度學(xué)習(xí)的方法比傳統(tǒng)方法效果好,并且TSTNet模型在準(zhǔn)確率、精確率、召回率、F1值上都得到了較好的結(jié)果。

表3 不同模型在準(zhǔn)確率、精確率、召回率、F1值上的表現(xiàn)Table 3 Performance of different models on accuracy, precision, recall, and F1 values %

本文方法采用不同的語音填充長度,分別為400、800、1 500,最后在特征融合模塊將它們集成到一起。為了驗證模型中集成方法的有效性以及BiGRU特征提取的有效性,訓(xùn)練了4個實驗?zāi)P停畛溟L度分別為400、800、1 500以及填充長度為800但沒有使用BiGRU,對比結(jié)果如表4所示,訓(xùn)練過程準(zhǔn)確率曲線如圖8所示。

表4 TSTNet模型消融實驗Table 4 TSTNet model ablation experiment

圖8 模型訓(xùn)練準(zhǔn)確率曲線Figure 8 Model training accuracy curve

由表4和圖8可知,填充長度為800的模型比沒有使用BiGRU(填充長度為800)的模型的準(zhǔn)確率高,集成3種填充長度的TSTNet比3個單一填充的實驗效果明顯。由此可驗證TSTNet模型中的BiGRU可以關(guān)注到語音的前后語義關(guān)系。前后語義關(guān)系以及不同填充長度的集成方法對于語音情感識別準(zhǔn)確率的提高有重要的意義。

4 結(jié)論

本文提出了一種語音情感識別模型TSTNet,該模型結(jié)合CNN和BiGRU,能夠關(guān)注語音信號中的前后雙向語義關(guān)系(two-way semantic relationship)以及時空特征(spatial-temporal features)。采用3種不同的填充長度進(jìn)行特征融合,能較好緩解語音長度相差大導(dǎo)致填充時信息丟失或冗余的問題。本文方法在實驗數(shù)據(jù)集上能夠得到94.69%的識別準(zhǔn)確率,相對于基于MFCC和隨機森林等語音情感識別方法,本文方法在多項實驗指標(biāo)上效果顯著。

猜你喜歡
特征提取準(zhǔn)確率長度
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
繩子的長度怎么算
1米的長度
空間目標(biāo)的ISAR成像及輪廓特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
基于特征提取的繪本閱讀機器人設(shè)計方案
基于Daubechies(dbN)的飛行器音頻特征提取
道孚县| 修武县| 新竹市| 锡林浩特市| 年辖:市辖区| 福贡县| 周口市| 南陵县| 新乐市| 永福县| 枣强县| 龙门县| 遂昌县| 姚安县| 兰溪市| 万宁市| 聂拉木县| 凌海市| 青海省| 高淳县| 阜新市| 睢宁县| 鞍山市| 普洱| 麟游县| 西藏| 萨嘎县| 临城县| 施甸县| 宜春市| 屏东市| 闽清县| 青龙| 当阳市| 砚山县| 巴林左旗| 汉源县| 罗城| 房山区| 长乐市| 鹰潭市|