劉雪燕*,李 明,袁寶玲
(1.中山火炬職業(yè)技術學院 信息工程系,廣東 中山528436;2.蘭州理工大學 計算機與通信學院,蘭州 730050)
基于CFCC-PCA的說話人辨識方法
劉雪燕1*,李 明2,袁寶玲1
(1.中山火炬職業(yè)技術學院 信息工程系,廣東 中山528436;2.蘭州理工大學 計算機與通信學院,蘭州 730050)
針對說話人訓練和識別時間長、噪音環(huán)境下識別率低的問題,提出一種CFCC-PCA特征參數(shù)的說話人辨識方法。首先提取具有聽覺特性的CFCC特征參數(shù),然后對其進行PCA變換,找出具有分辨能力的參數(shù),最后再用這些參數(shù)在云服務器中訓練和識別說話人。實驗表明:該方法可以提高說話人辨識的魯棒性和識別率,云服務可提高系統(tǒng)實時性。
CFCC-PCA;說話人辨識;支持向量機;云服務器
說話人辨識技術因其不容易模仿、隨身攜帶等生物特證優(yōu)點,在身份識別領域中具有廣泛的應用[1]?,F(xiàn)有的說話人辨識技術在安靜環(huán)境下識別率很高,但在噪音環(huán)境中識別率低、識別實時性不強,因此不能得到廣泛的應用[2-3]。很多學者做了大量的研究來提高實時性和魯棒性,文獻[4]提出耳蝸倒譜系數(shù)(Cochlear Filter Cepstral Coefficients,CFCC)的特征參數(shù)以提高在噪音環(huán)境下的識別率;文獻[5]提出將軟件能力成熟度模型(Capability Maturity Model,CMM)說話人模型的距離定義為相似度,即將聲音類似的說話人聚集為同一類。CFCC特征參數(shù)具有很好的抗噪聲能力,其性能優(yōu)于Mel倒譜系數(shù)(Mel Cepstrum Coefficients,MFCC),但是其分類能力不強。文獻[6]提出高斯混合模型(Gaussian Mixture Model,GMM)是一種概率統(tǒng)計說話人模型,隨著注冊用戶的增多,語音特征參數(shù)之間重疊比較嚴重,系統(tǒng)識別率降低很快。文獻[7]指出主成分分析(Principal Component Analysis,PCA)是不需要訓練的分類器,直接可由語音特征參數(shù)得到,實現(xiàn)比較快速、簡單。文獻[8]指出支持向量機(Support Vector Machine,SVM)是一種基于結構風險最小化原則的模式識別方法,在處理非線性、高維數(shù)樣本時具有很大的優(yōu)勢,在基于語音樣本的說話人辨識上有良好的效果。本文提出一種融合PCA分類和CFCC特征參數(shù)的辨識方法,以提高魯棒性,并用云服務器訓練SVM模型,提高系統(tǒng)實時性。
說話人辨識的前期工作有語音信號的錄入、語音特征參數(shù)的提取、說話人模型的訓練等。當進行說話人身份識別時,錄入待測語音,系統(tǒng)根據(jù)待測語音提取語音特征參數(shù),然后與已經(jīng)訓練好的說話人模型進行匹配,從而確定身份,完成說話人辨識。語音特征參數(shù)的提取、說話人模型的訓練及匹配都是通過算法來完成,因數(shù)據(jù)比較大,處理這些數(shù)據(jù)會花費較多的時間,影響系統(tǒng)的實時性,為減少運算時間,本研究將這些算法搬移到搭建的云服務器中進行。
CFCC參數(shù)是人耳聽覺感知特征,PCA具有很好的分類能力,本實驗先提取注冊說話人語音的CFCC特征參數(shù),得到分類能力比較好的重構信號。將n個需要注冊的說話人描述為s∈(1,n),每一個注冊說話人的語音用M段需要訓練的語音段)組成,這些語音段反映了注冊說話人的不同發(fā)音以及語音韻律等特征。根據(jù)文獻[4]提出的基于聽覺變換的CFCC語音特征參數(shù)算法,將錄入的語音信號,代入CFCC變換公式,得到經(jīng)過聽覺變換的T(a,b):
其中:耳蝸濾波函數(shù)為:
耳蝸濾波函數(shù)滿足的條件:
其中:α>0;β>0;θ為初始相位,取值滿足式(3);u(t)為單位步進函數(shù);b為隨時間可變的參數(shù);a=fL/fc為尺度變量,且0<a≤1;fc為最低濾波器組的中心頻率;fL為當前要實現(xiàn)濾波器的最低中心頻率。
人耳能夠聽到的聲音的頻率范圍為20 Hz~20 kHz,且對于頻率的分辨能力是非均勻的。α和β的取值會影響降噪效果,經(jīng)多次實驗證明:當α=3,β=0.2時,降噪效果良好。由此得到的T(a,b)的頻譜變換平滑,沒有噪音。下面對T(a,b)進行變換,以得到基于人耳耳蝸的語音。
其中:d=max{3.5τi,20 ms};τj=1/fi;L=1/fc=10 ms。
最后將 y(i,j)進行離散余弦變換,從而得到CFCC特征參數(shù):
1)計算語音特征參數(shù)矢量的均值向量:
2)計算中心化的語音特征矢量:m'(i)=m(i)-u。
3)計算協(xié)方差矩陣:
4)計算協(xié)方差矩陣的特征值λ1≥λ2≥…≥λ24和對應的特征矢量w1,w2,…,w32,取最具有分辨力的特征向量(特征值最大的前q個)組成變換矩陣W=(w1,w2,…,wq),再由 KL 變換公式得到主成分:Y(i)=WTX'(i),同時保存變換矩陣W,在二次判決中使用。
5)重構語音信號X^(i)=WY(i),得到降低維數(shù)和去除噪音后的語音。
云計算平臺具有運算能力強、服務虛擬化、安全性好、可靠性高等優(yōu)點,正被應用于不同的領域[9-10]。Hadoop是一個基于云計算平臺框架,可以把大量廉價硬件設備組成云計算集群,并進行大規(guī)模的計算。本實驗利用Hadoop技術將現(xiàn)有的8臺普通計算機和1臺普通服務器組合在一起,普通計算機配置2.30 GHz,內存32.0 GB,64位操作系統(tǒng),服務器配置為Intel Celeron(R)CPU 2.7 GHz。采用MapReduce并行數(shù)據(jù)處理模型,將語音特征參數(shù)的提取、說話人模型的訓練及匹配等計算復雜度比較大的3個算法植入Hadoop MapReduce框架。
說話人模型訓練:語音數(shù)據(jù)通過客戶端的麥克風輸入,然后客戶端將語音發(fā)送到云服務器,因語音數(shù)據(jù)參數(shù)比較多,參數(shù)提取算法、說話人模型的訓練算法等計算復雜度比較大,服務器將語音數(shù)據(jù)分塊,存儲在各個節(jié)點上。然后調用MapReduce編程框架中的CFCC倒譜系數(shù)、CFCC-PCA語音特征參數(shù)算法,對語音特征參數(shù)進行提取,并將提取之后的語音特征參數(shù)儲存在各個節(jié)點,再調用SVM說話人模型訓練算法程序,并行訓練SVM子模型,從而完成說話人模型的訓練。此方法可以節(jié)省大量的訓練時間。
說話人辨識:將待測語音通過客戶端輸入,客戶端將語音發(fā)送到云服務器,在云服務器和各節(jié)點提取CFCC-PCA語音特征參數(shù),并與各節(jié)點儲存SVM說話人子模型進行匹配,完成模式識別后,將識別結果返回客戶端。
圖1 云服務器說話人辨識模型
為檢測實驗的實時性,分別利用云服務器和普通PC機進行模型訓練和識別。第1組:在1.3中描述的計算平臺中進行,8臺普通計算機和1臺普通服務器;第2組:普通客戶終端配置為2.30 GHz,內存32.0 GB,64位操作系統(tǒng)。第1組實驗時,從客戶端錄入語音,傳送至云服務器,由云服務器將語音數(shù)據(jù)分到各節(jié)點提取參數(shù)并訓練模型。第2組:語音錄入、參數(shù)提取、模型的訓練和說話人識別都在普通PC機中進行。通過對比可以發(fā)現(xiàn):云計算平臺占有絕對優(yōu)勢,如圖2、圖3所示。
圖2 訓練時間對比
圖3 識別時間對比
為檢測基于CFCC-PCA特征參數(shù)的系統(tǒng)魯棒性,抽取實驗中的100人,分別提取32維的MFCC、LPCC、CFCC-PCA等不同的特征參數(shù),測試在不同高斯白噪音下的正確識別率,測試結果如圖4所示。由圖4可知:基于CFCC-PCA特征參數(shù)的說話人辨識具有較好的魯棒性。
圖4 特征參數(shù)在噪音環(huán)境下的比較
本研究提出基于PCA分類和CFCC聽覺特性的特征參數(shù)提取方法,用CFCC-PCA特征參數(shù)訓練說話人模型,并訓練和識別說話人都在云服務器中進行,實驗表明:CFCC-PCA特征參數(shù)具有很好的魯棒性,而云服務器具有高效的處理能力,提高了識別效率,保證了系統(tǒng)的實時性。
[1]JAIN A K,HONG L,KULKARNI Y A.Multimodal biometric sys-tem using fingerprints,face and speech[C]//2nd Int'l Conferenceon Audio-and Video-based Biometric Person Authentication,Washington D.C.,1999:182-187.
[2]曹潔,余麗珍.改進的說話人聚類初始化和GMM的多說話人識別[J].計算機應用研究,2012,29(2):590-593.
[3]GARAU G,DIELMANN A,BOURLARD H.Audio-visual synchronisation for speaker diarisation[C]//Proc of International Conference on Speech and Language Processing.Makuhari,Chiba:[s n.],2010:2654-2657.
[4]LI Q,HUANG Y.An Auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions[J].Audio,Speech,and Language Processing,IEEE Transactions on,2010,19(6):1791-1801.
[5]TSAIW H,CHHEN S S,WANG H M.Automatic speaker clutering using a voice characteristic reference space and maximum purity estination[J].IEEE Transactions on Audio Speech and Languager Processing,2013,15(4):1461-1471.
[6]LIUM H,XIEY L,YAO Z Q,et al.A new hybrid GMM/SVM for speaker verification[C]//The 18th International Conference on Pattern Recognition,Hong Kong:IEEE Press,2006:314-317.
[7]ZHANG W F,YANG Y C,WU Z H,Exploition PCA classifiers to speaker recognition[C]//Proceddings of the International Joint Conference on the Neural Networks Portland IEEE Press,2003(1):820-823.
[8]BURGES C L C.A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery,1998,2(2):121-167.
[9]GAO Y,JIN L W,HE C,et al.Handwriting character recognition as a service:a new handwriting recognition system based on cloud Computing[C]//Document Analysis and Recognition(ICDAR),2011 International Conference on,2011:885-889.
[10]羅希,劉錦高.基于NIOS的ANN語音識別系統(tǒng)[J].計算機系統(tǒng)應用,2009(12):144-146.
Speaker Identification Based on CFCC-PCA
LIU Xueyan1* ,LI Ming2,YUAN Baoling1
(1.Department of Information Engineering,Zhongshan Torch Polytechnic,Zhongshan 528436,China;2.College of Computer&Communication,Lanzhou University Of Technology,Lanzhou 730050,China)
Training speaker system and speaker identification need a long time,and in the noise environment,the recognition rate is very low,A CFCC-PCA characteristic parameter method is proposed.Firstly,the acoustic characteristics of CFCC characteristic parameters are extracted.Then,
CFCC-PCA parameters are extracted by PCA transformation of CFCC characteristic parameters.Finally the speaker models are trained and recognized in cloud.Experiments show that the CFCC-PCA characteristic parameters can improve the robustness and recognition rate of the speaker,the cloud services with efficient processing ability to improve system real-time performance.
CFCC-PCA;speaker identification;Support Vector Machine(SVM);cloud server
TP391.4
A
2095-5383(2015)02-0032-03
10.13542/j.cnki.51-1747/tn.2015.02.010
2015-03-17
中山市科技發(fā)展專項基金項目“基于云計算的生物身份認證技術研究及應用”(2013A3FC0350);中山市科技發(fā)展專項基金項目“基于中山地貌的最優(yōu)化無線網(wǎng)絡模型研究”(2013A3FC0318)
劉雪燕(1980— ),女(漢族),河南周口人,講師,碩士,研究方向:生物身份識別、模式識別,通信作者郵箱:hnqiaolu@163.com。
李明(1959— ),男(漢族),河北辛集人,教授,碩士,研究方向:智能信息處理。