国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CFCC-PCA的說話人辨識方法

2015-09-21 07:02:16劉雪燕袁寶玲
成都工業(yè)學院學報 2015年2期
關鍵詞:實時性特征參數(shù)魯棒性

劉雪燕*,李 明,袁寶玲

(1.中山火炬職業(yè)技術學院 信息工程系,廣東 中山528436;2.蘭州理工大學 計算機與通信學院,蘭州 730050)

基于CFCC-PCA的說話人辨識方法

劉雪燕1*,李 明2,袁寶玲1

(1.中山火炬職業(yè)技術學院 信息工程系,廣東 中山528436;2.蘭州理工大學 計算機與通信學院,蘭州 730050)

針對說話人訓練和識別時間長、噪音環(huán)境下識別率低的問題,提出一種CFCC-PCA特征參數(shù)的說話人辨識方法。首先提取具有聽覺特性的CFCC特征參數(shù),然后對其進行PCA變換,找出具有分辨能力的參數(shù),最后再用這些參數(shù)在云服務器中訓練和識別說話人。實驗表明:該方法可以提高說話人辨識的魯棒性和識別率,云服務可提高系統(tǒng)實時性。

CFCC-PCA;說話人辨識;支持向量機;云服務器

說話人辨識技術因其不容易模仿、隨身攜帶等生物特證優(yōu)點,在身份識別領域中具有廣泛的應用[1]?,F(xiàn)有的說話人辨識技術在安靜環(huán)境下識別率很高,但在噪音環(huán)境中識別率低、識別實時性不強,因此不能得到廣泛的應用[2-3]。很多學者做了大量的研究來提高實時性和魯棒性,文獻[4]提出耳蝸倒譜系數(shù)(Cochlear Filter Cepstral Coefficients,CFCC)的特征參數(shù)以提高在噪音環(huán)境下的識別率;文獻[5]提出將軟件能力成熟度模型(Capability Maturity Model,CMM)說話人模型的距離定義為相似度,即將聲音類似的說話人聚集為同一類。CFCC特征參數(shù)具有很好的抗噪聲能力,其性能優(yōu)于Mel倒譜系數(shù)(Mel Cepstrum Coefficients,MFCC),但是其分類能力不強。文獻[6]提出高斯混合模型(Gaussian Mixture Model,GMM)是一種概率統(tǒng)計說話人模型,隨著注冊用戶的增多,語音特征參數(shù)之間重疊比較嚴重,系統(tǒng)識別率降低很快。文獻[7]指出主成分分析(Principal Component Analysis,PCA)是不需要訓練的分類器,直接可由語音特征參數(shù)得到,實現(xiàn)比較快速、簡單。文獻[8]指出支持向量機(Support Vector Machine,SVM)是一種基于結構風險最小化原則的模式識別方法,在處理非線性、高維數(shù)樣本時具有很大的優(yōu)勢,在基于語音樣本的說話人辨識上有良好的效果。本文提出一種融合PCA分類和CFCC特征參數(shù)的辨識方法,以提高魯棒性,并用云服務器訓練SVM模型,提高系統(tǒng)實時性。

1 算法

說話人辨識的前期工作有語音信號的錄入、語音特征參數(shù)的提取、說話人模型的訓練等。當進行說話人身份識別時,錄入待測語音,系統(tǒng)根據(jù)待測語音提取語音特征參數(shù),然后與已經(jīng)訓練好的說話人模型進行匹配,從而確定身份,完成說話人辨識。語音特征參數(shù)的提取、說話人模型的訓練及匹配都是通過算法來完成,因數(shù)據(jù)比較大,處理這些數(shù)據(jù)會花費較多的時間,影響系統(tǒng)的實時性,為減少運算時間,本研究將這些算法搬移到搭建的云服務器中進行。

1.1 耳蝸倒譜系數(shù)CFCC

CFCC參數(shù)是人耳聽覺感知特征,PCA具有很好的分類能力,本實驗先提取注冊說話人語音的CFCC特征參數(shù),得到分類能力比較好的重構信號。將n個需要注冊的說話人描述為s∈(1,n),每一個注冊說話人的語音用M段需要訓練的語音段)組成,這些語音段反映了注冊說話人的不同發(fā)音以及語音韻律等特征。根據(jù)文獻[4]提出的基于聽覺變換的CFCC語音特征參數(shù)算法,將錄入的語音信號,代入CFCC變換公式,得到經(jīng)過聽覺變換的T(a,b):

其中:耳蝸濾波函數(shù)為:

耳蝸濾波函數(shù)滿足的條件:

其中:α>0;β>0;θ為初始相位,取值滿足式(3);u(t)為單位步進函數(shù);b為隨時間可變的參數(shù);a=fL/fc為尺度變量,且0<a≤1;fc為最低濾波器組的中心頻率;fL為當前要實現(xiàn)濾波器的最低中心頻率。

人耳能夠聽到的聲音的頻率范圍為20 Hz~20 kHz,且對于頻率的分辨能力是非均勻的。α和β的取值會影響降噪效果,經(jīng)多次實驗證明:當α=3,β=0.2時,降噪效果良好。由此得到的T(a,b)的頻譜變換平滑,沒有噪音。下面對T(a,b)進行變換,以得到基于人耳耳蝸的語音。

其中:d=max{3.5τi,20 ms};τj=1/fi;L=1/fc=10 ms。

最后將 y(i,j)進行離散余弦變換,從而得到CFCC特征參數(shù):

1.2 CFCC-PCA語音特征參數(shù)

1)計算語音特征參數(shù)矢量的均值向量:

2)計算中心化的語音特征矢量:m'(i)=m(i)-u。

3)計算協(xié)方差矩陣:

4)計算協(xié)方差矩陣的特征值λ1≥λ2≥…≥λ24和對應的特征矢量w1,w2,…,w32,取最具有分辨力的特征向量(特征值最大的前q個)組成變換矩陣W=(w1,w2,…,wq),再由 KL 變換公式得到主成分:Y(i)=WTX'(i),同時保存變換矩陣W,在二次判決中使用。

5)重構語音信號X^(i)=WY(i),得到降低維數(shù)和去除噪音后的語音。

1.3 計算平臺

云計算平臺具有運算能力強、服務虛擬化、安全性好、可靠性高等優(yōu)點,正被應用于不同的領域[9-10]。Hadoop是一個基于云計算平臺框架,可以把大量廉價硬件設備組成云計算集群,并進行大規(guī)模的計算。本實驗利用Hadoop技術將現(xiàn)有的8臺普通計算機和1臺普通服務器組合在一起,普通計算機配置2.30 GHz,內存32.0 GB,64位操作系統(tǒng),服務器配置為Intel Celeron(R)CPU 2.7 GHz。采用MapReduce并行數(shù)據(jù)處理模型,將語音特征參數(shù)的提取、說話人模型的訓練及匹配等計算復雜度比較大的3個算法植入Hadoop MapReduce框架。

說話人模型訓練:語音數(shù)據(jù)通過客戶端的麥克風輸入,然后客戶端將語音發(fā)送到云服務器,因語音數(shù)據(jù)參數(shù)比較多,參數(shù)提取算法、說話人模型的訓練算法等計算復雜度比較大,服務器將語音數(shù)據(jù)分塊,存儲在各個節(jié)點上。然后調用MapReduce編程框架中的CFCC倒譜系數(shù)、CFCC-PCA語音特征參數(shù)算法,對語音特征參數(shù)進行提取,并將提取之后的語音特征參數(shù)儲存在各個節(jié)點,再調用SVM說話人模型訓練算法程序,并行訓練SVM子模型,從而完成說話人模型的訓練。此方法可以節(jié)省大量的訓練時間。

說話人辨識:將待測語音通過客戶端輸入,客戶端將語音發(fā)送到云服務器,在云服務器和各節(jié)點提取CFCC-PCA語音特征參數(shù),并與各節(jié)點儲存SVM說話人子模型進行匹配,完成模式識別后,將識別結果返回客戶端。

圖1 云服務器說話人辨識模型

2 結果與討論

2.1 系統(tǒng)的實時性

為檢測實驗的實時性,分別利用云服務器和普通PC機進行模型訓練和識別。第1組:在1.3中描述的計算平臺中進行,8臺普通計算機和1臺普通服務器;第2組:普通客戶終端配置為2.30 GHz,內存32.0 GB,64位操作系統(tǒng)。第1組實驗時,從客戶端錄入語音,傳送至云服務器,由云服務器將語音數(shù)據(jù)分到各節(jié)點提取參數(shù)并訓練模型。第2組:語音錄入、參數(shù)提取、模型的訓練和說話人識別都在普通PC機中進行。通過對比可以發(fā)現(xiàn):云計算平臺占有絕對優(yōu)勢,如圖2、圖3所示。

圖2 訓練時間對比

圖3 識別時間對比

2.2 系統(tǒng)的魯棒性

為檢測基于CFCC-PCA特征參數(shù)的系統(tǒng)魯棒性,抽取實驗中的100人,分別提取32維的MFCC、LPCC、CFCC-PCA等不同的特征參數(shù),測試在不同高斯白噪音下的正確識別率,測試結果如圖4所示。由圖4可知:基于CFCC-PCA特征參數(shù)的說話人辨識具有較好的魯棒性。

圖4 特征參數(shù)在噪音環(huán)境下的比較

3 結語

本研究提出基于PCA分類和CFCC聽覺特性的特征參數(shù)提取方法,用CFCC-PCA特征參數(shù)訓練說話人模型,并訓練和識別說話人都在云服務器中進行,實驗表明:CFCC-PCA特征參數(shù)具有很好的魯棒性,而云服務器具有高效的處理能力,提高了識別效率,保證了系統(tǒng)的實時性。

[1]JAIN A K,HONG L,KULKARNI Y A.Multimodal biometric sys-tem using fingerprints,face and speech[C]//2nd Int'l Conferenceon Audio-and Video-based Biometric Person Authentication,Washington D.C.,1999:182-187.

[2]曹潔,余麗珍.改進的說話人聚類初始化和GMM的多說話人識別[J].計算機應用研究,2012,29(2):590-593.

[3]GARAU G,DIELMANN A,BOURLARD H.Audio-visual synchronisation for speaker diarisation[C]//Proc of International Conference on Speech and Language Processing.Makuhari,Chiba:[s n.],2010:2654-2657.

[4]LI Q,HUANG Y.An Auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions[J].Audio,Speech,and Language Processing,IEEE Transactions on,2010,19(6):1791-1801.

[5]TSAIW H,CHHEN S S,WANG H M.Automatic speaker clutering using a voice characteristic reference space and maximum purity estination[J].IEEE Transactions on Audio Speech and Languager Processing,2013,15(4):1461-1471.

[6]LIUM H,XIEY L,YAO Z Q,et al.A new hybrid GMM/SVM for speaker verification[C]//The 18th International Conference on Pattern Recognition,Hong Kong:IEEE Press,2006:314-317.

[7]ZHANG W F,YANG Y C,WU Z H,Exploition PCA classifiers to speaker recognition[C]//Proceddings of the International Joint Conference on the Neural Networks Portland IEEE Press,2003(1):820-823.

[8]BURGES C L C.A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery,1998,2(2):121-167.

[9]GAO Y,JIN L W,HE C,et al.Handwriting character recognition as a service:a new handwriting recognition system based on cloud Computing[C]//Document Analysis and Recognition(ICDAR),2011 International Conference on,2011:885-889.

[10]羅希,劉錦高.基于NIOS的ANN語音識別系統(tǒng)[J].計算機系統(tǒng)應用,2009(12):144-146.

Speaker Identification Based on CFCC-PCA

LIU Xueyan1* ,LI Ming2,YUAN Baoling1

(1.Department of Information Engineering,Zhongshan Torch Polytechnic,Zhongshan 528436,China;2.College of Computer&Communication,Lanzhou University Of Technology,Lanzhou 730050,China)

Training speaker system and speaker identification need a long time,and in the noise environment,the recognition rate is very low,A CFCC-PCA characteristic parameter method is proposed.Firstly,the acoustic characteristics of CFCC characteristic parameters are extracted.Then,

CFCC-PCA parameters are extracted by PCA transformation of CFCC characteristic parameters.Finally the speaker models are trained and recognized in cloud.Experiments show that the CFCC-PCA characteristic parameters can improve the robustness and recognition rate of the speaker,the cloud services with efficient processing ability to improve system real-time performance.

CFCC-PCA;speaker identification;Support Vector Machine(SVM);cloud server

TP391.4

A

2095-5383(2015)02-0032-03

10.13542/j.cnki.51-1747/tn.2015.02.010

2015-03-17

中山市科技發(fā)展專項基金項目“基于云計算的生物身份認證技術研究及應用”(2013A3FC0350);中山市科技發(fā)展專項基金項目“基于中山地貌的最優(yōu)化無線網(wǎng)絡模型研究”(2013A3FC0318)

劉雪燕(1980— ),女(漢族),河南周口人,講師,碩士,研究方向:生物身份識別、模式識別,通信作者郵箱:hnqiaolu@163.com。

李明(1959— ),男(漢族),河北辛集人,教授,碩士,研究方向:智能信息處理。

猜你喜歡
實時性特征參數(shù)魯棒性
故障診斷中信號特征參數(shù)擇取方法
基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
基于規(guī)則實時性的端云動態(tài)分配方法研究
高技術通訊(2021年3期)2021-06-09 06:57:24
荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡增邊優(yōu)化魯棒性分析
基于確定性指標的弦支結構魯棒性評價
中華建設(2019年7期)2019-08-27 00:50:18
基于虛擬局域網(wǎng)的智能變電站通信網(wǎng)絡實時性仿真
基于PSO-VMD的齒輪特征參數(shù)提取方法研究
航空電子AFDX與AVB傳輸實時性抗干擾對比
基于非支配解集的多模式裝備項目群調度魯棒性優(yōu)化
非接觸移動供電系統(tǒng)不同補償拓撲下的魯棒性分析
应用必备| 澳门| 满城县| 榕江县| 英德市| 明星| 尼木县| 东源县| 勃利县| 新平| 渝北区| 萝北县| 彭州市| 吉木乃县| 婺源县| 鹤庆县| 东城区| 梅河口市| 长岛县| 渝中区| 聂荣县| 中卫市| 平利县| 宁乡县| 南陵县| 芜湖市| 永济市| 沧州市| 三江| 长汀县| 吴旗县| 兰溪市| 巫山县| 定州市| 安丘市| 隆安县| 堆龙德庆县| 铜陵市| 德庆县| 广东省| 高密市|