国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

噪聲環(huán)境下穩(wěn)健的說話人識別特征研究

2017-12-01 03:32:53程小偉王健曾慶寧謝先明龍超
聲學(xué)技術(shù) 2017年5期
關(guān)鍵詞:階數(shù)識別率濾波器

程小偉,王健,曾慶寧,謝先明,龍超

?

噪聲環(huán)境下穩(wěn)健的說話人識別特征研究

程小偉,王健,曾慶寧,謝先明,龍超

(桂林電子科技大學(xué)信息與通信學(xué)院,廣西桂林 541004)

針對噪聲環(huán)境下說話人識別率較低的問題,提出一種基于正規(guī)化線性預(yù)測功率譜的說話人識別特征。首先對語音信號線性預(yù)測分析和正規(guī)化處理求出語音頻譜包絡(luò),然后通過伽馬通濾波器組得到對數(shù)子帶能量,最后對特征參數(shù)進(jìn)行離散余弦變換,得到了一種說話人識別特征正規(guī)化線性預(yù)測伽馬通濾波器倒譜系數(shù)(Regularized Linear Prediction Gammatone Filter Cepstral Coefficient, RLP-GFCC)。仿真結(jié)果表明,在噪聲環(huán)境說話人辨認(rèn)試驗(yàn)中,相比傳統(tǒng)特征美爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)和伽馬通濾波器倒譜系數(shù)(Gammatone Filter Cepstral Coefficient,GFCC)的系統(tǒng)識別率得到了明顯提高,對噪聲環(huán)境的魯棒性得到了增強(qiáng)。

線性預(yù)測;正規(guī)化;說話人識別;伽馬通濾波器組;魯棒性

0 引言

說話人識別技術(shù)是一種重要的生物特征識別技術(shù),應(yīng)用于身份確認(rèn)、信息安全、遠(yuǎn)程控制等領(lǐng)域[1]。如何提取有效的說話人識別特征是識別技術(shù)的關(guān)鍵,說話人識別特征要能夠描述說話人聲道特性,有較高的區(qū)分度,對外界環(huán)境具有較強(qiáng)的魯棒性[2]。

線性預(yù)測理論應(yīng)用于語音信號處理,能夠提供說話人的聲道模型[3],因此,線性預(yù)測系數(shù)(Linear Prediction Coefficient,LPC)成為比較普遍的說話人識別特征,基于線性預(yù)測理論的特征線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstral Coefficient,LPCC)[4]能夠用于說話人識別特征。這些特征在安靜環(huán)境下能夠取得很高的識別率,但對噪聲環(huán)境的魯棒性卻很差。梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)[5]是語音識別和說話人識別最有效的特征之一,該特征基于聽覺模型,對噪聲環(huán)境具有一定的魯棒性,但在低信噪比環(huán)境下識別率仍然較低。為應(yīng)對噪聲環(huán)境下說話人系統(tǒng)識別率較低的問題,研究人員通過對基于人耳耳蝸聽覺模型伽馬通濾波器的研究,提出了用于說話人識別的特征——伽馬通濾波器倒譜系數(shù)(Gammatone Filter Cepstral Coefficient,GFCC)[6],經(jīng)實(shí)驗(yàn)論證該特征在不同背景噪聲環(huán)境下可取得比MFCC更好的識別率。

為了進(jìn)一步提高說話人識別系統(tǒng)對噪聲環(huán)境的魯棒性,結(jié)合線性預(yù)測分析理論和伽馬通濾波器組的特殊性質(zhì),本文提出一種新的說話人識別特征,先求出語音信號的線性預(yù)測功率譜,并對線性預(yù)測功率譜進(jìn)行正規(guī)化處理[7],得到的頻譜代替?zhèn)鹘y(tǒng)傅里葉變換功率譜,最后結(jié)合特征GFCC的提取方法,得到說話人識別特征正規(guī)化線性預(yù)測伽馬通濾波器倒譜系數(shù)(Regularized Linear Prediction Gammatone Filter Cepstral Coefficient, RLP-GFCC),仿真實(shí)驗(yàn)表明,該特征在噪聲環(huán)境下能夠取得比GFCC和線性預(yù)測伽馬通濾波器倒譜系數(shù)(Linear Prediction Gammatone Filter Cepstral Coefficient, LP-GFCC)更好的系統(tǒng)識別率。

1 語音信號短時功率譜

1.1 線性預(yù)測功率譜

傳統(tǒng)語音信號功率譜是通過對語音信號進(jìn)行加窗分幀,然后對每幀語音信號進(jìn)行離散傅里葉變換得到其頻譜,即通過式(1)實(shí)現(xiàn):

其中:為離散頻率;()和()分別為加窗函數(shù)和語音采樣信號;為離散傅里葉變換點(diǎn)數(shù)。本文實(shí)驗(yàn)中加窗函數(shù)()采用漢明窗。

一般通過自相關(guān)方法[12]求取線性預(yù)測系數(shù),即通過式(2)求得:

線性預(yù)測功率譜比傳統(tǒng)離散傅里葉變換頻譜更加光滑,能夠較好地表示語音信號的頻譜包絡(luò),同時能提供說話人的聲道模型。

1.2 正規(guī)化線性預(yù)測功率譜

L. Anders Ekman[7]等在2008年提出了語音信號的正規(guī)化線性預(yù)測,正規(guī)化線性預(yù)測比傳統(tǒng)線性預(yù)測能更好地描述語音信號的頻譜包絡(luò)。

正規(guī)化線性預(yù)測系數(shù)通過式(5)求得:

圖1運(yùn)用FFT、LP和RLP三種頻譜分析方法生成了頻譜對比圖,使用的語音來自TIMIT語音庫,圖1(b)為圖1(a)中同一幀語音加0 dB信噪比的機(jī)槍(machinegun)噪聲。LP和RLP所用階數(shù)為=20,RLP中參數(shù)=10-10,為了便于觀察,RLP頻譜上移20 dB。從圖1中可以看出,LP譜和RLP能夠體現(xiàn)出短時語音信號的共振峰特性和頻譜包絡(luò)。正規(guī)化線性預(yù)測通過補(bǔ)償方法處理非光滑部分,比傳統(tǒng)線性預(yù)測頻譜包絡(luò)的估計(jì)失真低。

(a) 純凈語言

(b) 帶噪語言

圖1 純凈語音與帶噪語音頻譜對比圖

Fig.1 Comparison of spectrum between clean speech and noisy speech

2 基于線性預(yù)測功率譜的特征提取過程

特征LP-GFCC和RLP-GFCC提取過程如圖2所示:

圖2 魯棒性特征提取流程圖

首先對語音信號進(jìn)行預(yù)加重處理,通過高通濾波器,提升高頻分量;然后利用語音信號的短時平穩(wěn)性,對語音信號進(jìn)行加窗分幀,本文采用漢明窗;利用上述計(jì)算方法求取LP或RLP系數(shù),按照式(3)或式(6)對每組預(yù)測系數(shù)進(jìn)行離散傅里葉變換(Discrete Fourier Transform,DFT),得到的能量譜通過64通道的伽馬通濾波器組[15],對子帶能量取對數(shù),最后對子帶對數(shù)能量進(jìn)行離散余弦變換(Discrete Cosine Transform,DCT),得到特征LP- GFCC或RLP-GFCC。

3 實(shí)驗(yàn)分析

本文所用的基線系統(tǒng)是與文本無關(guān)的說話人辨認(rèn)系統(tǒng),實(shí)驗(yàn)使用的語音來自TIMIT語音庫[16],采樣率是16 kHz,單通道錄音,采樣精度為16 bit,從中選取85個說話人(其中男45人,女40人),每一個說話人有10句語音段,每段語音時長約3 s。訓(xùn)練模型使用7句語音,測試使用3句語音,總共測試語音255句。說話人識別訓(xùn)練模型采用高斯混合模型(Gaussian Mixture Model,GMM)。實(shí)驗(yàn)所用噪聲來自noisex-92噪聲庫,語音信號信噪比設(shè)為-5、0、5、10、15、20、25、30 dB。

高斯混合模型階數(shù)由說話人辨認(rèn)樣本數(shù)量決定,本次實(shí)驗(yàn)樣本數(shù)量較少,階數(shù)過高會造成過擬合使識別率降低,階數(shù)過低不能充分表達(dá)說話人的特征空間。實(shí)驗(yàn)使用的參數(shù)直接影響系統(tǒng)識別率,文獻(xiàn)[2]的實(shí)驗(yàn)參數(shù)在說話人辨認(rèn)實(shí)驗(yàn)中能夠取得較好的識別率,因此本文采用文獻(xiàn)[2]的實(shí)驗(yàn)參數(shù),實(shí)驗(yàn)1在基線系統(tǒng)上對GMM階數(shù)取值做了對比實(shí)驗(yàn),GMM階數(shù)取32時,基線系統(tǒng)性能達(dá)到最好。語音信號預(yù)加重系數(shù)典型取值在0.92~0.97之間,本文取值0.93,采用漢明窗加窗分幀,幀長為32 ms,即512個采樣點(diǎn),幀移為8 ms,即128個采樣點(diǎn)。實(shí)驗(yàn)中的端點(diǎn)檢測采用基音檢測算法。特征MFCCD取12階靜態(tài)MFCC和一階動態(tài)特征,總共24維特征參數(shù)。在提取說話人識別特征GFCC的過程中,采用64通道伽馬通濾波器組,依照等效矩形帶寬(Equivalent Rectangular Bandwidth,ERB)頻率分布在50 Hz和8 000 Hz之間,對對數(shù)子帶能量進(jìn)行DCT之后,24維系數(shù)作為實(shí)驗(yàn)所用的說話人特征。本文實(shí)驗(yàn)特征LP-GFCC和RLP-GFCC線性預(yù)測階數(shù)為20,RLP-GFCC的參數(shù)取固定值10-10。

3.1 實(shí)驗(yàn)1 GMM階數(shù)對基線系統(tǒng)影響

本文實(shí)驗(yàn)采用高斯混合模型進(jìn)行說話人辨認(rèn)實(shí)驗(yàn),其中GMM階數(shù)直接影響說話人識別系統(tǒng)。實(shí)驗(yàn)中采用高斯混合模型階數(shù)分別為4、8、16、32、64,測試語音采用純凈語音,特征使用24維MFCCD作為說話人識別系統(tǒng)特征,實(shí)驗(yàn)結(jié)果如表1所示。

表1 GMM階數(shù)對基線系統(tǒng)的影響

從表1可以看出,隨著GMM階數(shù)的增加,系統(tǒng)識別性能逐漸變好,當(dāng)階數(shù)為32時,識別性能最好,識別率達(dá)到98.43%,隨后開始降低。因此對于實(shí)驗(yàn)所用的基線系統(tǒng),GMM階數(shù)取值32時,系統(tǒng)識別率達(dá)到最好,本文實(shí)驗(yàn)采用32階GMM。

3.2 實(shí)驗(yàn)2 平穩(wěn)噪聲環(huán)境識別結(jié)果

為了驗(yàn)證平穩(wěn)噪聲環(huán)境下特征LP-GFCC和RLP-GFCC識別的魯棒性,分別用MFCCD、GFCC、LP-GFCC和RLP-GFCC做仿真實(shí)驗(yàn),四種特征均為24維,平穩(wěn)噪聲選用白噪聲,信噪比設(shè)為30、25、20、15、10、5、0 dB。系統(tǒng)識別率如表2所示。

從表2可以看出,特征LP-GFCC和RLP-GFCC在噪聲環(huán)境下系統(tǒng)識別率優(yōu)于MFCCD,在高噪聲環(huán)境下系統(tǒng)識別率稍差于GFCC,在低信噪比時識別率明顯優(yōu)于特征GFCC,RLP-GFCC特征對噪聲的魯棒性優(yōu)于LP-GFCC。在0 dB噪聲環(huán)境下,四種特征在系統(tǒng)中識別率都很低,在15 dB白噪聲環(huán)境下,特征RLP-GFCC的識別率較特征MFCC、GFCC和LP-GFCC分別提高了41.96%、8.23%和3.92%。

表2 白噪聲環(huán)境下的特征識別率

3.3 實(shí)驗(yàn)3 非平穩(wěn)噪聲環(huán)境識別結(jié)果

為了驗(yàn)證非平穩(wěn)噪聲環(huán)境下特征LP-GFCC和RLP-GFCC識別的魯棒性,同實(shí)驗(yàn)2的實(shí)驗(yàn)參數(shù),從noisex-92噪聲庫選取pink、babble、machinegun噪聲,信噪比設(shè)為30、25、20、15、10、5、0、-5 dB。說話人識別系統(tǒng)仿真結(jié)果如圖3~5所示。

從圖3~5仿真結(jié)果可以看出,在不同信噪比噪聲環(huán)境下,特征LP-GFCC和RLP-GFCC系統(tǒng)識別率明顯高于傳統(tǒng)特征MFCCD和GFCC,特征RLP-GFCC系統(tǒng)識別率稍微高于LP-GFCC,在5 dB 噪聲環(huán)境下,LP-GFCC平均識別率比傳統(tǒng)特征MFCCD和GFCC分別高出39.48%和26.80%。由于本文實(shí)驗(yàn)在求取特征RLP-GFCC時,參數(shù)取固定值10-10,特征RLP-GFCC系統(tǒng)識別率稍微高于特征LP-GFCC。文獻(xiàn)[7]關(guān)于正規(guī)化線性預(yù)測功率譜,對參數(shù)提出了一種自適應(yīng)方法,參數(shù)是隨基音變化的數(shù),能夠減少傳統(tǒng)線性預(yù)測對語音信號造成的失真。

圖3 粉紅噪聲環(huán)境下的特征識別率

圖4 嘈雜噪聲環(huán)下的境特征識別率

圖5 機(jī)槍噪聲環(huán)境下的特征識別率

3.4 實(shí)驗(yàn)4 說話人識別特征計(jì)算時間對比

表3列舉了特征MFCCD、GFCC、LP-GFCC、RLP-GFCC的平均計(jì)算時間,測試語音時長為5 s,每種特征測試20次,最后取平均時間。實(shí)驗(yàn)仿真軟件平臺為Matlab R2014a,計(jì)算機(jī)CPU為酷睿i3-2310,主頻為2.1 GHz。雖然特征LP-GFCC和RLP-GFCC的計(jì)算時間較MFCC、GFCC稍長,但在性能好的計(jì)算機(jī)實(shí)驗(yàn)平臺上計(jì)算時間還會縮短,能夠滿足一定的實(shí)時性。在下一步的研究工作中,需要改進(jìn)特征的計(jì)算復(fù)雜度,期望能夠有更好的實(shí)時性能。

表3 說話人識別特征計(jì)算時間對比結(jié)果

4 結(jié)論

環(huán)境噪聲對語音信號影響很大,不僅影響語音質(zhì)量以及可懂度,而且造成語音識別和說話人識別系統(tǒng)識別率的迅速下降。本文通過結(jié)合線性預(yù)測分析理論和伽馬通濾波器的特殊性質(zhì),提出了說話人識別特征LP-GFCC和RLP-GFCC,利用TIMIT語音庫和noisex-92噪聲庫,Matlab仿真實(shí)驗(yàn)表明,這兩種特征在說話人識別系統(tǒng)中性能優(yōu)于傳統(tǒng)特征MFCC和GFCC,提高了系統(tǒng)的說話人識別率和對噪聲環(huán)境的魯棒性。但RLP-GFCC的識別性能稍微優(yōu)于特征LP-GFCC,補(bǔ)償參數(shù)對說話人識別系統(tǒng)的識別率影響較大,因此在后續(xù)的說話人識別研究工作中,可以引入相關(guān)文獻(xiàn)中的自適應(yīng)方法。

[1] 吳朝暉. 說話人識別模型與方法[M]. 北京: 清華大學(xué)出版社, 2009. WU Chaohui. The model and method of speaker recognition[M]. Beijing: Tsinghua University Press, 2009.

[2] 蔣曄. 基于短語音和信道變化的說話人識別研究[D]. 南京: 南京理工大學(xué), 2013. JIANG Ye. Research on speaker recognition over short utterance and varying channels[D]. Nanjing: Nanjing University of Science and Technology, 2013.

[3] Pati D, Prasanna S R M. Processing of linear prediction residual in spectral and cepstral domains for speaker information[J]. International Journal of Speech Technology, 2015, 18(3):1-18.

[4] 周燕, 胡志峰. 基于免疫聚類的RBF網(wǎng)絡(luò)在說話人識別中的應(yīng)用[J]. 聲學(xué)技術(shù), 2010, 29(2): 184-187. ZHOU Yan, HU Zhifeng. Application of immune algorithm based RBF network to human speaker recognition[J]. Technical Acoustics, 2010, 29(2): 184-187.

[5] 林琳, 陳虹, 陳建. 基于魯棒聽覺特征的說話人識別[J]. 電子學(xué)報(bào), 2013, 41(3): 619-624. LIN Lin, CHEN Hong, CHEN Jian. Speaker recognition based on robust auditory feature[J]. Acta Electronica Sinica, 2013, 41(3): 619-624.

[6] 王玥, 錢志鴻, 王雪, 等. 基于伽馬通濾波器組的聽覺特征提取算法研究[J]. 電子學(xué)報(bào), 2010, 38(3): 525-528. WANG Yue, QIAN Zhihong, WANG Xue, et al. An auditory feature extraction algorithm based on γ-tone filter-banks[J]. Acta Electronica Sinica, 2010, 38 (3): 525-528.

[7] Ekman L A, Kleijn W B, Murthi M N. Regularized linear prediction of speech[J]. IEEE Transactions on Audio Speech & Language Processing, 2008, 16(1): 65-73.

[8] Bastys A, Kisel A, Alna B. The use of group delay features of linear prediction model for speaker recognition[J]. Informatica, 2010, 21(1): 1-12.

[9] Bastys A, Kisel A, Alna B. The use of group delay features of linear prediction model for speaker recognition[J]. Informatica, 2010, 21(1): 1-12.

[10] Saeidi R, Alku P, Backstrom T. Feature extraction using power-law adjusted linear prediction with application to speaker recognition under severe vocal effort mismatch[J]. Audio Speech & Language Processing IEEE/ACM Transactions on, 2016, 24(1): 42-53.

[11] Makhoul J. Linear prediction: a tutorial review. Proc IEEE 63: 561-580[J]. Proceedings of the IEEE, 1975, 63(4): 561-580.

[12] 宋知用. MATLAB在語音信號分析與合成中的應(yīng)用[M]. 北京: 北京航空航天大學(xué)出版社, 2013. SONG Zhiyong. Application of MATLAB in speech signal analysis and synthesis[M]. Beijing: Beihang University Press, 2013.

[13] Shimamura T, Nguyen N D. Autocorrelation and double autocorrelation based spectral representations for a noisy word recognition system[C]// INTERSPEECH 2010, Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September. 2010.

[14] Hanil?i C, Kinnunen T, Erta? F, et al. Regularized all-pole models for speaker verification under noisy environments[J]. IEEE Signal Processing Letters, 2012, 19(3): 163-166.

[15] D. P. W. Ellis (2009). Gammatone-like spectrograms. http://www. ee.co-lumbia.edu/~dpwe/resources/matlab/gamatonegram/.

[16] Li Q, Reynolds D A. Corpora for the evaluation of speaker recognition systems[C]// Acoustics, Speech, and Signal Processing, 1999. on 1999 IEEE International Conference. IEEE Computer Society, 1999: 829-832.

A study of robust speaker recognition feature under noisy environment

CHENG Xiao-wei, WANG Jian, ZENG Qing-ning, XIE Xian-ming, LONG Chao

(School of Information and Communication, Guilin University of Electronic Technology, Guilin 541004, Guangxi, China)

In order to solve the problem that speaker recognition rate is low under noisy environment, a speaker recognition feature based on regularized linear predictive power spectrum is proposed. The method uses linear prediction analysis and regularization of speech signal to get speech spectral envelope and then to get logarithmic sub-band energy through the Gammatone filter group, and finally uses discrete cosine transform to compute feature parameters to get a kind of speaker recognition feature named regularized linear predicted Gammatone filter cepstral coefficients (RLP-GFCC). The simulation results show that the recognition rate of the system is significantly improved in comparison with the systems of traditional feature MFCC and GFCC under noisy environment, and the robustness of the system to noise environment is improved.

linear prediction; regularization; speaker recognition; Gammatone filter bank; robustness

TN912.3

A

1000-3630(2017)-05-0479-05

10.16300/j.cnki.1000-3630.2017.05.014

2016-12-06;

2017-04-01

國家自然科學(xué)基金項(xiàng)目(61461011); 教育部重點(diǎn)實(shí)驗(yàn)室2016年主任基金項(xiàng)目資助(CRKL160107); 廣西自然科學(xué)基金(2014 GXNSFBA118273)項(xiàng)目。

程小偉(1990-), 男, 河南漯河人, 碩士研究生, 研究方向?yàn)檎Z音增強(qiáng)和說話人識別。

龍超, E-mail: chengzai05@163.com

猜你喜歡
階數(shù)識別率濾波器
關(guān)于無窮小階數(shù)的幾點(diǎn)注記
確定有限級數(shù)解的階數(shù)上界的一種n階展開方法
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
開關(guān)電源EMI濾波器的應(yīng)用方法探討
電子制作(2018年16期)2018-09-26 03:26:50
提升高速公路MTC二次抓拍車牌識別率方案研究
基于Canny振蕩抑制準(zhǔn)則的改進(jìn)匹配濾波器
高速公路機(jī)電日常維護(hù)中車牌識別率分析系統(tǒng)的應(yīng)用
基于TMS320C6678的SAR方位向預(yù)濾波器的并行實(shí)現(xiàn)
长春市| 息烽县| 汉阴县| 肃南| 沾化县| 民乐县| 米易县| 富蕴县| 东安县| 西贡区| 宿松县| 西藏| 遂溪县| 黔江区| 且末县| 河北区| 满洲里市| 宁武县| 宁夏| 大港区| 海城市| 棋牌| 舞钢市| 论坛| 寿宁县| 康定县| 杭锦后旗| 巧家县| 玉龙| 云霄县| 长武县| 金湖县| 双峰县| 呼图壁县| 洛阳市| 玛多县| 东宁县| 土默特右旗| 庐江县| 高邑县| 台北市|