国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于融合頻域和時域特征的說話人識別

2022-08-01 04:01:10夏秀渝
現(xiàn)代計算機 2022年11期
關(guān)鍵詞:特征參數(shù)頻域語音

龍 翔,夏秀渝

(四川大學(xué)電子信息學(xué)院,成都 610065)

0 引言

不同人說出的語音具有不同的聲紋特點。根據(jù)這些特點,可以判斷某段語音是若干人中的哪一個所說,即說話人識別。說話人識別主要分為說話人鑒別、說話人確認(rèn)、說話人聚類等,具體應(yīng)用在刑偵破案、智能客服、智能家居、金融服務(wù)等方面。

隨著深度學(xué)習(xí)的蓬勃發(fā)展,和傳統(tǒng)的說話人識別模型相比,基于神經(jīng)網(wǎng)絡(luò)的說話人識別模型識別精度更高。說話人識別主要由三個步驟組成:語音數(shù)據(jù)集的建立,說話人特征提取,說話人識別。目前已經(jīng)有比較完善的語音庫,如TIMIT 庫、Thchs30 中文庫;在特征提取方面,常用的語音特征參數(shù)有基音周期、共振峰、線性預(yù)測倒譜系數(shù)(Liner Prediction Cepstral Co?efficients,LPCC)、梅 爾 倒 譜 系 數(shù)(Mel Fre?quency Cepstral Coefficients,MFCC)等。通過研究,常見的MFCC、LPCC、GFCC 等參數(shù)能夠進(jìn)行識別,但是單一的特征參數(shù)不能囊括不同說話人的全部特點。文獻(xiàn)[2]采取MFCC 與GFCC 混合特征參數(shù)進(jìn)行訓(xùn)練,純凈語音識別準(zhǔn)確率92%左右,較單獨使用MFCC 或GFCC 識別準(zhǔn)確率提高了10%??梢园l(fā)現(xiàn),根據(jù)不同語音特征參數(shù)的特點進(jìn)行特征融合對提高識別精度具有重要的研究意義。由于不同說話人的感知特性主要反映在頻域中,時域特征可以輔助頻域特征參數(shù)進(jìn)行清濁音、有聲和無聲段的區(qū)分。所以本文采取融合頻域特征參數(shù)MFCC、MFCC一階差分(ΔMFCC)、GFCC、GFCC 一階差分(Δ GFCC)和時域特征參數(shù)短時能量作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)。在說話人識別方面,動態(tài)時間規(guī)整法(Dynamic Time Warping,DTW)、矢量量化法(Vector Quantization,VQ)、隱馬爾科夫模型(Hidden Markov Model,HMM)、人工神經(jīng)網(wǎng)絡(luò)法(Artificial Neural Network,ANN)等方法先后被廣泛應(yīng)用。典型的深度學(xué)習(xí)方法有全連接前饋神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Net?works,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。其中RNN 由于在處理時序數(shù)據(jù)方面的優(yōu)勢而被廣泛應(yīng)用于自然語言的識別和處理。1997 年,Hochreiter 和Schmidhuber首次提出了長短時記憶(Long Short Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò),作為RNN 網(wǎng)絡(luò)的變形結(jié)構(gòu),LSTM 增加的門控單元能夠有效地避免RNN 存在的梯度消失和梯度爆炸的問題,且能高效地抓取到語音信號的時序特性。但是LSTM只考慮了單向的時序數(shù)據(jù),忽視了后文信息對前文信息的重要性。針對以上問題,本文識別模型采取雙向長短時記憶(Bidirectional Long Short-Term Memory,BiLSTM)神經(jīng)網(wǎng)絡(luò),其在LSTM 基礎(chǔ)上添加了反向運算,考慮到了上下文信息間的關(guān)聯(lián)性。

綜上,本文采取一種基于融合頻域和時域特征的說話人識別模型,旨在提高模型的識別準(zhǔn)確率。實驗表明,本文模型相較于其他模型具有更高的識別精度。

1 特征參數(shù)的提取

語音特征參數(shù)主要分為時域特征參數(shù)和頻域特征參數(shù)。人類能夠準(zhǔn)確地分辨不同人說話的音色和音調(diào),是因為人類的聽覺系統(tǒng)對語音信號的音高、音強、聲波的動態(tài)頻譜具有較強的分析處理能力。所以頻域分析在語音信號分析處理中尤為重要,時域分析次之。

頻域特征參數(shù)MFCC 和GFCC 是利用人耳聽覺模型建立的倒譜系數(shù),但是只反映了語音參數(shù)的靜態(tài)特性,ΔMFCC 和ΔGFCC 彌補了動態(tài)特征的缺失,時域特征參數(shù)短時能量用來表示語音信號能量的大小和超音段信息。

本 文 將13 維MFCC、13 維GFCC、13 維ΔMFCC、13維ΔGFCC 和1維短時能量進(jìn)行拼接,組合成53維特征參數(shù)。

1.1 MFCC特征參數(shù)的提取

低頻聲音在內(nèi)耳蝸基底膜上行波傳遞的距離大于高頻聲音,低音容易掩蔽高音,所以相較于高頻信息,低頻部分更易被人類感知,MFCC 就是根據(jù)這種特點設(shè)計的。

將線性頻譜映射到基于聽覺感知的Mel非線性頻譜,然后再轉(zhuǎn)換到倒譜上,最終形成MFCC 特征參數(shù)。線性頻率與Mel 頻率之間的轉(zhuǎn)換公式如下:

MFCC參數(shù)的提取過程流程如圖1所示。

圖1 MFCC的提取過程

流程包括了信號預(yù)處理(預(yù)加重、分幀、加窗),對預(yù)處理后的語音信號進(jìn)行快速傅里葉變換,將信息轉(zhuǎn)換到頻域上,接著對每一幀頻域數(shù)據(jù)計算其譜線的能量,然后計算通過Mel濾波器的能量并取對數(shù),最后對數(shù)濾波器組能量求離散余弦變換(DCT)。相應(yīng)的計算公式如下:

式中,(,)是Mel濾波能量;為梅爾濾波器的個數(shù);為第幀;是DCT后的譜線。

1.2 GFCC特征參數(shù)的提取

人耳耳蝸中大部分的基底膜負(fù)責(zé)處理聲音信號的低頻部分?;啄た梢园巡煌l率的聲音信號組成的混合音頻,經(jīng)過大腦分析濾除不被聽者所重視的語音信息后,使聽者接收到所需信號。GFCC 就是根據(jù)這種特點所設(shè)計的,Gammatone 濾波器的排列也是根據(jù)人類基底膜的排列,其表達(dá)式為:

式中,為濾波器增益,為濾波器階數(shù),b為衰減因子系數(shù),f為濾波器中心頻率,()為階躍函數(shù),φ為偏移相位。

GFCC參數(shù)的提取過程流程如圖2所示。

圖2 GFCC的提取過程

GFCC 特征參數(shù)的提取流程和MFCC 提取流程類似,只是將求得的每幀譜線能量通過Gam?matone濾波器來替代Mel濾波器。

1.3 ΔMFCC和ΔGFCC的提取

MFCC 和GFCC 為語音信號的靜態(tài)特征,不符合語音動態(tài)變化的特性,對MFCC 和GFCC 分別進(jìn)行差分運算就得到了ΔMFCC 和ΔGFCC,Δ MFCC和ΔGFCC的運算公式分別為:

式中Δ()表示第個一階差分,(+)表示第+個倒譜系數(shù)的階數(shù),表示差分幀的區(qū)間。

式中Δ()表示第個一階差分,(+)表示第+個倒譜系數(shù)的階數(shù),表示差分幀的區(qū)間。

1.4 短時能量特征參數(shù)的提取

語音信號的能量變化比較明顯,清音部分的能量要低于濁音,對短時能量分析可以描述語音的特征變化情況。語音信號的短時能量公式為:

式中()代表第幀語音信號的短時能量,y()代表第幀語音信號,代表幀數(shù)。

2 主成分分析法特征參數(shù)降維

上文提取的53維混合特征參數(shù)的維度過大,不僅會增大模型的時間復(fù)雜度和空間復(fù)雜度,還會產(chǎn)生多重共線性的問題,從而對模型訓(xùn)練的精度造成影響。所以本文通過主成分分析法(Principal Component Analysis,PCA)對上文混合特征參數(shù)進(jìn)行降維。PCA 的任務(wù)是找到能夠主要表示原始維度信息的成分,從而達(dá)到降維的目的。

假設(shè)一個樣本空間位Y,對其進(jìn)行降維的主要步驟有:

(1)首先求出樣本均值

(2)計算樣本空間的協(xié)方差矩陣

(3)計算協(xié)方差矩陣的特征值和特征向量,特征值按照從大到小的順序排列

當(dāng)特征值>1 時,說明該主成分所含有的信息較為充分,通常降維后只保留特征值>1 的主成分。因此,本文進(jìn)行PCA 降維后保留前30維主成分組成本文目標(biāo)特征參數(shù)。

(4)計算在每一維的投影

3 BiLSTM神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是基于生物學(xué)的基本理論,模擬人類大腦的神經(jīng)系統(tǒng)對復(fù)雜信息的處理機制的一種數(shù)學(xué)模型。其本質(zhì)是由很多小的非線性函數(shù)組成的非線性函數(shù)網(wǎng),網(wǎng)絡(luò)反映的是輸入特征參數(shù)與輸出標(biāo)簽之間的對應(yīng)關(guān)系。

目前神經(jīng)網(wǎng)絡(luò)的基本架構(gòu)有深度學(xué)習(xí)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。

DNN 由于都是全連接形式的結(jié)構(gòu),隨著網(wǎng)絡(luò)層數(shù)的增加,參數(shù)增長可能會出現(xiàn)爆炸的情況;CNN 盡管可以解決過度擬合和局部最優(yōu)解的問題,但是在神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,每一層的神經(jīng)元進(jìn)行的操作都只與前后毗鄰的一層神經(jīng)元直接相關(guān),無法對有時序關(guān)系的信號進(jìn)行建模;RNN 網(wǎng)絡(luò)中神經(jīng)元的輸出依賴當(dāng)前的輸入和記憶,很好地模擬了人類擁有記憶的能力,但正是由于RNN 網(wǎng)絡(luò)結(jié)構(gòu)在自然語言處理方面的優(yōu)越性,其網(wǎng)絡(luò)結(jié)構(gòu)較DNN 和CNN 復(fù)雜很多,在反向傳播規(guī)模過大時會帶來梯度爆炸和梯度消失的問題;而LSTM 神經(jīng)網(wǎng)絡(luò)只考慮了單向數(shù)據(jù)的信息,忽視了后文信息對前文的影響。

BiLSTM 神經(jīng)網(wǎng)絡(luò),其在LSTM 基礎(chǔ)上添加了反向運算,考慮到了上下文信息的互相影響。BiLSTM 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)由正反向2 個LSTM 神經(jīng)網(wǎng)絡(luò)組成,LSTM的單元基本結(jié)構(gòu)如圖3所示。

圖3 LSTM基本單元結(jié)構(gòu)

圖3 中x代表當(dāng)前時刻的輸入,h代表上一時刻的輸出,C代表上一時刻的單元狀態(tài),h代表當(dāng)前時刻的輸出,C代表當(dāng)前時刻的單元狀態(tài),代表Sigmoid 激活函數(shù),tanh 代表tanh激活函數(shù),f代表遺忘門,i代表輸入門,C'代表單元狀態(tài)更新值,O代表輸出門。

遺忘門f決定了上一時刻的單元狀態(tài)有多少需要保留到當(dāng)前時刻,其計算公式如下:

式中,W代表遺忘門的權(quán)值,b代表遺忘門的偏置。

輸入門決定了當(dāng)前時刻網(wǎng)絡(luò)的輸入數(shù)據(jù)需要保存多少到單元狀態(tài),其計算公式如下:

式中,W代表輸入門輸出i的權(quán)值,b代表輸入門輸出i的偏置。

單元狀態(tài)更新值C'計算公式如下:式中,W代表輸入門單元狀態(tài)的輸出C'的權(quán)值,b代表輸入門單元狀態(tài)的輸出C'的偏置。

輸出門O決定了當(dāng)前時刻的單元狀態(tài)有多少需要輸出到當(dāng)前的輸出值,其計算公式如下:

最終,整個單元的輸出計算公式如下:

基于眾多研究實驗表明,BiLSTM 神經(jīng)網(wǎng)絡(luò)不僅能夠很好地考慮到語音信號的時序關(guān)系,并且通過各種“門”的結(jié)構(gòu)能夠有效地解決長序列訓(xùn)練過程中的梯度爆炸、梯度消失和長距離依賴的問題,同時可以充分利用語音數(shù)據(jù)上下文的相互影響以提高模型識別準(zhǔn)確率。所以本文選擇BiLSTM 神經(jīng)網(wǎng)絡(luò)作為說話人識別的網(wǎng)絡(luò)模型。

4 實驗

4.1 實驗設(shè)置

本文仿真實驗在Pycharm 平臺上實現(xiàn),神經(jīng)網(wǎng)絡(luò)的框架采用tensorflow2.0,神經(jīng)網(wǎng)絡(luò)模型第一層為輸入層,輸入本文提取的目標(biāo)特征參數(shù);第二、三層為BiLSTM 層,每層256 個神經(jīng)元;第四層為全連接層,神經(jīng)元的數(shù)量等于說話人標(biāo)簽數(shù);第五層為SoftMax 層,實現(xiàn)標(biāo)簽的分類。Batch_size 設(shè)置為128,迭代次數(shù)設(shè)置為100。

4.2 實驗設(shè)計

本文基于TIMIT 英文語音庫進(jìn)行實驗,語音庫中包含美國8 個地區(qū)630 個人的純凈語音數(shù)據(jù)。實驗采用不同地區(qū)50 個人的語音數(shù)據(jù),每人10條語音,每條語音6 s左右。隨機選取每個說話人的8 條語音作為訓(xùn)練數(shù)據(jù),2 條語音作為測試數(shù)據(jù),即訓(xùn)練數(shù)據(jù)400 條語音,測試數(shù)據(jù)100條語音,訓(xùn)練集:測試集比例為8 ∶2。

分 別采用13 維MFCC、13 維GFCC、13 維MFCC+13 維GFCC、13 維MFCC+1 維短時能量、13 維GFCC+1 維短時能量、13 維MFCC+13 維GFCC+1維短時能量、13維MFCC+13維ΔMFCC+13維GFCC+13維ΔGFCC+1維短時能量(53維混合特征參數(shù))以及本文目標(biāo)特征參數(shù)進(jìn)行對比實驗。

4.3 實驗結(jié)果

圖4和圖5分別給出了各種特征參數(shù)在訓(xùn)練集和測試集上的準(zhǔn)確率(accuracy)和誤差(loss)曲線。

從圖4 和圖5 可以看出,所有參數(shù)在BiL?STM 模型上的準(zhǔn)確率都隨著迭代次數(shù)的增加而平穩(wěn)上升,最終達(dá)到收斂。本文所提取的目標(biāo)參數(shù)在訓(xùn)練集上的準(zhǔn)確率在50 輪迭代后達(dá)到收斂,穩(wěn)定在99.6%左右,在測試集上的最佳識別準(zhǔn)確率達(dá)到99.61%。從實驗結(jié)果可以看出,本文模型較文獻(xiàn)[14]、文獻(xiàn)[2]中模型的識別精度分別提高了7.50%和3.00%。表1 列出了個不同參數(shù)在訓(xùn)練集和測試集上的最佳識別率。

圖4 測試集上不同特征參數(shù)的準(zhǔn)確率和損失值的對比曲線

圖5 訓(xùn)練集上不同特征參數(shù)的準(zhǔn)確率和損失值的對比曲線

表1 訓(xùn)練集和測試集上不同特征參數(shù)的最佳識別率對比

從表1 可以看出,將時域特征參數(shù)(短時能量)和頻域特征參數(shù)融合后,都比只采取頻域特征進(jìn)行訓(xùn)練的模型效果好。同時,對維度多的特征參數(shù)進(jìn)行降維,既降低了模型訓(xùn)練的時間和空間復(fù)雜度,也降低了語音的無聲段和背景噪聲對識別精度的影響,提高了模型的識別準(zhǔn)確率。

5 結(jié)語

結(jié)合語音特征參數(shù)的特點和深度學(xué)習(xí)在說話人識別領(lǐng)域的研究成果,本文提出基于融合特征參數(shù)-BiLSTM 的說話人識別研究方法,將不同特征參數(shù)和本文目標(biāo)特征參數(shù)送入雙向長短時記憶(BiLSTM)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最終得到一種識別精度高的說話人識別模型。實驗結(jié)果表明,在TIMIT 數(shù)據(jù)庫上,本文模型取得了99.61%的識別準(zhǔn)確率。相對于其他特征參數(shù)和模型匹配的識別模型,本文提出的方法具有更高的識別精度。下一步研究可針對說話人識別的同時進(jìn)行語音文本識別,以達(dá)到模型的廣泛實用性。

猜你喜歡
特征參數(shù)頻域語音
故障診斷中信號特征參數(shù)擇取方法
基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
魔力語音
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
頻域稀疏毫米波人體安檢成像處理和快速成像稀疏陣列設(shè)計
基于PSO-VMD的齒輪特征參數(shù)提取方法研究
基于改進(jìn)Radon-Wigner變換的目標(biāo)和拖曳式誘餌頻域分離
一種基于頻域的QPSK窄帶干擾抑制算法
玛沁县| 交城县| 通渭县| 锦屏县| 舟山市| 门头沟区| 瓮安县| 美姑县| 慈溪市| 堆龙德庆县| 都兰县| 多伦县| 团风县| 杂多县| 迁安市| 维西| 桦甸市| 富阳市| 长丰县| 清流县| 丹阳市| 孙吴县| 南阳市| 黑河市| 泰兴市| 军事| 东兴市| 新蔡县| 准格尔旗| 永平县| 安仁县| 东乌珠穆沁旗| 怀远县| 阳东县| 鄂托克旗| 缙云县| 龙陵县| 佛学| 交口县| 阿勒泰市| 德令哈市|