周 雷, 龍艷花, 魏浩然
(上海師范大學 信息與機電工程學院, 上海 200234)
一種新型的與文本相關(guān)的說話人識別方法研究
周 雷, 龍艷花*, 魏浩然
(上海師范大學 信息與機電工程學院, 上海 200234)
在與文本相關(guān)的說話人識別研究中,既要包含說話人身份的識別,又要包含語音文本內(nèi)容的識別.提出一種基于語音識別的與文本相關(guān)的說話人識別方法,從而建立說話人的聲紋模型和語音文本模型,與傳統(tǒng)的僅建立一種模型的方法相比,該方法能更精確地描述說話人身份信息和語音的文本信息,較好地解決了短時語音樣本識別效果不佳的問題.測試實驗表明,和傳統(tǒng)與文本相關(guān)的說話人識別方法(如基于動態(tài)時間規(guī)整、高斯混合-通用背景模型)相比,由本方法建立的系統(tǒng)虛警概率降低了8.9%,識別性能得到了提高.
文本相關(guān); 說話人識別; 語音識別
伴隨著網(wǎng)絡(luò)化、信息化時代的到來,傳統(tǒng)的以密碼為特征的身份認證技術(shù)暴露出巨大的弊端,很難滿足高安全性和長效安全性的要求.語音是人的自然屬性之一,不會丟失或遺忘.說話人發(fā)聲器官的生理以及后天形成的行為存在差異,每個人的語音都帶有強烈的個人色彩,故聲紋信息具有唯一性.此外語音信號容易采集,系統(tǒng)設(shè)備的成本低等優(yōu)勢都為說話人識別技術(shù)提供了廣闊的應用前景.
根據(jù)說話人的訓練和測試語音文本,說話人識別可分為與文本無關(guān)的和與文本相關(guān)兩類.前者識別過程中建立模型需要的語音數(shù)據(jù)量大,而且單純依靠說話人聲紋信息的方式識別率低,且存在說話人語音被竊取錄制,語音被模仿等風險,在安全性能要求很高的情況下,很難單獨使用這項技術(shù)進行識別.而與文本相關(guān)的說話人識別要求訓練和識別的時候使用內(nèi)容相同的語音文本,僅采用較少的訓練和測試語音數(shù)據(jù)就能達到較高的識別率;同時語音文本內(nèi)容也是識別過程中一項重要的判定信息,相同文本的語音幾乎是不可能被竊取錄制,在文本不知情況下,也不能被模仿,安全性能很高,具有很大的實際意義及研究價值[1],在說話人識別的多數(shù)應用案例中,與文本相關(guān)說話人識別占了多數(shù)[1],比如微信近期推出的聲紋鎖.
現(xiàn)階段,與文本相關(guān)的說話人識別方法主要有基于動態(tài)時間規(guī)整(DTW)[2-3]、高斯混合模型(GMM)[4]和高斯混合-通用背景模型等方法(GMM-UBM)[5].文獻[3]采用DTW算法實現(xiàn)了與文本相關(guān)的說話人識別,該算法雖然實現(xiàn)起來較簡單,但它是基于非統(tǒng)計的匹配方法,穩(wěn)健性能差;文獻[4]在GMM-UBM系統(tǒng)的基礎(chǔ)上構(gòu)建了一個與文本相關(guān)的說話人識別系統(tǒng),并針對訓練與測試語音的文本內(nèi)容固定的特點做出相應調(diào)整,提出了內(nèi)容相關(guān)的通用背景模型概念,因為GMM和GMM-UBM是一種統(tǒng)計概率模型,其模型的建立需要統(tǒng)計分析大量的特征樣本,因此對于短訓練語音的情形容易出現(xiàn)統(tǒng)計失真,從而導致識別性能下降[6-7].針對以上問題,本文作者提出了一種基于語音識別的與文本相關(guān)的說話人識別方法,具體為一方面利用語音識別技術(shù)對語音的文本信息進行判定,另一方面利用GMM-UBM方法對語音的說話人身份信息進行判定,兩種判定智能結(jié)合,讓兩者的判定結(jié)果互相影響,互相制約,較好地解決了短時語音樣本的識別效果不佳和系統(tǒng)穩(wěn)健性差的問題.
GMM-UBM也稱為高斯混合-通用背景模型,最初由Reynolds[6]成功應用在說話人確認系統(tǒng)中.基于GMM-UBM說話人識別系統(tǒng)主要包括語音信號的前端處理和特征提取[8]、UBM模型的訓練及說話人模型自適應、測試階段的似然對數(shù)打分等.
1.1 訓練階段
訓練語音首先需要進行前端處理和特征提取,前端處理主要包括去除靜音、 去除能量偏移以及消除信道影響等[9];采用的特征參數(shù)為13維的梅爾倒譜系數(shù)(MFCC)特征值及其一階和二階差分.然后,通過最大似然估計的方法訓練獲得一個與說話人無關(guān)的通用背景模型(UBM).UBM其實是一個大型的GMM模型,它的訓練數(shù)據(jù)是各個信道下的所有待識別說話人的語音,用來訓練表示與所有說話人均無關(guān)的語音特征空間分布.最后,與傳統(tǒng)的直接基于最大期望(EM)算法訓練GMM的方法不同,每個說話人的GMM是通過采用最大后驗概率(MAP)的方法從UBM上自適應得到,從而大大減少了訓練時間[10].
每個說話人的GMM由均值向量、協(xié)方差矩陣和混合權(quán)重組成,表示為:
λ={ωi,ui,∑i},i=1,2,3,…,M.
(1)
M是GMM的混合高斯數(shù)目,一個混合度為M的GMM概率密度函數(shù)是由M個多維高斯分布加權(quán)疊加得到:
(2)
式中,X為D維語音特征矢量;pi(X)為高斯混合模型分量的密度函數(shù);wi為各高斯分量的加權(quán)系數(shù);M為高斯混合模型中分量的個數(shù).對于pi(X),它滿足以下式子
(3)
式中ui為均值向量,Σi為協(xié)方差矩陣.
將每個說話人語音特征參數(shù)通過MAP從UBM上自適應得到的GMM參數(shù)權(quán)重、均值和方差更新:
(4)
1.2 測試階段
因為GMM是從UBM自適應得到的,所以它們可以共享UBM模型的高斯分量,因此可以采用topN的測試方法[11],N一般取5.
在測試階段,對于給定說話人的測試語音,經(jīng)過前期處理和特征提取之后,假定得到的測試語音的特征向量序列為X,每個訓練模型的對數(shù)似然函數(shù)為:
(5)
式中λhyp代表訓練時說話人的GMM模型,λubm表示UBM模型.
本節(jié)闡述一種新的基于語音識別的與文本相關(guān)的說話人識別方法,即先通過語音識別技術(shù)識別出說話人語音的文本內(nèi)容然后通過基于GMM-UBM的說話人識別技術(shù)識別出說話人的身份信息,然后將兩種信息進行智能結(jié)合來給出最終的判決,完成與文本相關(guān)的說話人識別,該方法記為ASR-GMMUBM法.由該算法建立的系統(tǒng)基本框圖,分為訓練階段聲學模型創(chuàng)建和測試階段的說話人識別如圖1所示.
圖1 基于ASR-GMMUBM與文本相關(guān)的說話人識別系統(tǒng)設(shè)計框圖
2.1 特征參數(shù)提取
本系統(tǒng)主要提取是12維MFCC、1維的能量特征及其13維的一階差分和13維的二階差分,總共39維的特征參數(shù).其中MFCC提取過程分為預加重、端點檢測、分幀、加窗、快速傅里葉變換(FFT)、梅爾頻率濾波和離散余弦變換(DCT)等主要步驟:
1) 預加重:預加重的目的是將更有用的高頻部分的頻譜進行提升,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于進行頻譜分析或聲道參數(shù)分析.
2) 端點檢測:對輸入語音信號進行判斷,從背景噪聲中準確找出語音段的起始點和終止點.
3) 分幀:由于語音信號的準平穩(wěn)特性,只在短時段上才可看做是一個平穩(wěn)過程,若用對平穩(wěn)過程的分析方法來分析,必須將信號劃分為一個一個的短時段,每一短時段稱為1幀,每一幀的長度大概為10~30 ms.分幀采用連續(xù)分段的方法,但為了使幀與幀之間平滑過渡,一般采用交疊分段的方法,即每一幀的幀尾與下一幀的幀頭是重疊的.
4) 加窗:為了減小語音幀的截斷效應,降低幀兩端的坡度,使語音幀的兩端不引起急劇變化而平滑過渡到0,就要讓語音幀乘以一個窗函數(shù).使用的窗函數(shù)為:
w(n)=0.54-0.46cos[2πn/(N-1)],0≤n≤N-1.
(6)
式中N為一幀的采樣點數(shù).
5) FFT:由于離散傅立葉變換(DFT)的運算量較大,可以采用高效的FFT來把語音幀由時域變換到頻域.
6) 梅爾頻率濾波:把5)步變換得到的離散頻譜用序列三角濾波器進行濾波處理,得到一組系數(shù)m1,m2…….該濾波器組的個數(shù)p由信號的截止頻率決定,所有濾波器總體上覆蓋從0 Hz到奈奎斯特頻率,即采樣率的二分之一.
7) DCT:把上一步獲得的梅爾頻譜變換到時域,其結(jié)果就是MFCC系數(shù).因為梅爾頻譜系數(shù)都是實數(shù),可以使用DCT把它們變換到時域.MFCC倒譜系數(shù)的計算公式如下:
(7)
式中p為濾波器組個數(shù),N為一幀的采樣點數(shù).
2.2 說話人模型和語音文本模型的構(gòu)建
與傳統(tǒng)建立單一說話人模型的方法相比,本系統(tǒng)提出了一種構(gòu)建雙重模型的方法,即分別建立說話人的聲紋模型及其對應的語音文本模型.其中說話人聲紋模型建立的方法為1.2小節(jié)所述的GMM-UBM,為訓練集合內(nèi)的每個說話人建立各自的聲紋模型,標識著每個說話人的身份信息.而語音文本模型建立方法為使用訊飛開放平臺提供的語音聽寫服務:首先搭建一個孤立詞的語音識別系統(tǒng),將待識別的語音通過該系統(tǒng),把識別出的文本信息保存,即為說話人語音的文本模型.
圖2 與文本相關(guān)的說話人模型生成過程
如圖2所示,對于訓練集合內(nèi)的每個說話人的訓練語音,先分別用來搭建說話人聲紋模型和語音文本模型,然后將兩個模型進行綁定,實現(xiàn)孤立的說話人身份信息和孤立的語音文本信息結(jié)合,綜合構(gòu)建一個與文本相關(guān)的說話人模型.
2.3 智能判決
智能判決部分首先包含對測試語音中的身份信息和文本信息的分析和判定,最終綜合分析身份和文本信息,智能判決測試語音來自訓練階段的哪個與文本相關(guān)的說話人模型.
測試語音的身份信息判定方法如1.2節(jié)所述得分最高者即為該測試語音對應的目標說話人.
在測試語音的文本信息的判定中,將測試語音通過已經(jīng)建立好的孤立詞的語音識別系統(tǒng),輸出測試語音的文本內(nèi)容,選擇內(nèi)容完全相同的語音文本模型,即為該測試語音的文本模型.
如圖3所示,在完成以上兩個步驟之后,將選擇出的說話人模型和語音文本模型綁定,分析是否能與訓練階段構(gòu)建的某個綁定模型匹配,這個過程稱之為初次匹配,如圖3(a)所示,若初次匹配成功,直接判定測試語音來自該綜合綁定模型(與文本無關(guān)的說話人識別模型);如圖3(b)若初次匹配失敗,系統(tǒng)自動開啟再次匹配模式,具體為先將選出的語音文本模型與訓練階段構(gòu)建的綜合綁定模型語音文本部分匹配,成功后再將測試特征序列通過綜合綁定模型中的說話人聲紋模型打分,與先前的說話人模型最高得分做比較:
(8)
式中Sspeaker為說話人模型最高得分,Sspeech為綜合綁定模型中語音文本模型所對應的聲紋模型的得分,R指差值比.
若R值很小,說明綁定模型中聲紋模型的打分接近最高得分,在文本匹配已經(jīng)成功前提下,聲紋信息非常接近,此時將該綜合綁定模型判為測試語音的模型;同理若R值很大,說明綁定模型中的聲紋模型與系統(tǒng)判定出來的聲紋模型差距很大,故不予匹配.a為R的閾值大小,是一個實驗中的經(jīng)驗值,本次實驗中選取0.15.
如果R>a,則判定測試語音為集合外語音;如果R≤a,則判定測試語音來自先前選定的與文本相關(guān)的說話人模型.
圖3 測試語音與文本相關(guān)的說話人模型匹配流程
3.1 實驗數(shù)據(jù)
實驗采用了作者錄制的語音庫,首先錄制100個說話人任意文本的語音,總長度為300 min,用于訓練背景模型.然后另外選擇10條不同文本短語,由10個說話人分別讀取所有短語并錄制,每條短語讀5遍,所有語音都是在實驗室安靜環(huán)境下,由安卓手機上Skyro軟件錄制,普通話發(fā)音,語音信號的采樣率為8000 Hz,量化精度為16 bit.實驗中,選取每個說話人的1條語音作為訓練語音(不同說話人語音的文本各不相同),為每個說話人訓練一個與文本相關(guān)的聲紋模型;從剩下語音中選取100條作為測試語音(每個說話人選10條文本不同語音),用測試語音對建立好的模型進行測試.
3.2 系統(tǒng)描述
為了驗證引入的構(gòu)建雙重綁定模型和智能判決機制等方法的ASR-GMMUBM系統(tǒng)在與文本相關(guān)的說話人識別領(lǐng)域的優(yōu)勢,這里選擇采用了DTW系統(tǒng)、GMM系統(tǒng)和GMM-UBM系統(tǒng)做對比系統(tǒng).這四個系統(tǒng)都采用39維的MFCC特征.其中,ASR-GMMUBM、GMMUBM系統(tǒng)的背景模型取32個高斯分量,采用經(jīng)典的相關(guān) MAP 自適應方式由 UBM 模型得到具體的每個人的 GMM 模型,相關(guān)因子為 16;GMM系統(tǒng)的每個人的GMM模型也取32個高斯分量.
3.3 實驗結(jié)果與分析
4個系統(tǒng)都需要設(shè)置一個閾值Q,判定測試語音是否為集合外冒充者的語音,首先經(jīng)過多次實驗研究,選擇出各個系統(tǒng)的最優(yōu)閾值,表1~4為不同閾值下各個系統(tǒng)的漏警概率和虛警概率的大小.
表1 ASR-GMMUBM系統(tǒng)在不同閾值下的虛警率和漏警率
表2 DTW系統(tǒng)在不同閾值下的虛警率和漏警率
表3 GMMUBM系統(tǒng)在不同閾值下的虛警率和漏警率
表4 GMM系統(tǒng)在不同閾值下的虛警率和漏警率
從表1~4中選擇出各個系統(tǒng)的最優(yōu)閾值,即虛警概率和漏警概率同時最小的情況下,閾值的大小選擇如表5所示.
表5 各個系統(tǒng)Q閾值的設(shè)定值
當語音時長較短且測試語音集合中存在著大量冒充語音時,在各個系統(tǒng)選擇最優(yōu)閾值情況下,實驗結(jié)果如表6所示.
表6 各系統(tǒng)在最優(yōu)閾值下的虛警率和漏警率
從表6中可以看出,ASR-GMMUBM系統(tǒng)虛警概率得到明顯的降低,虛警概率越低,說明系統(tǒng)錯誤識別的個數(shù)越少,系統(tǒng)識別能力得到了提高.因為ASR-GMMUBM系統(tǒng)一方面可以對測試語音的文本信息進行判定,另一方面對測試語音包含的身份信息進行判定,又通過智能判決模塊,對身份信息做二次判定,選擇最準確的聲紋模型,防止某些測試語音對個別說話人聲紋模型打分過高因素的干擾,故該系統(tǒng)虛警率降低.
本文作者提出了一種結(jié)合語音識別的與文本相關(guān)的說話人識別方法,充分利用GMM-UBM說話人識別技術(shù)和語音識別技術(shù)各自的優(yōu)點,先為每個說話人訓練一個文本無關(guān)GMM模型,能更好地表征說話人的身份特性,然后通過語音識別技術(shù)更好的捕捉語音的文本信息,綜合綁定構(gòu)建更準確表征語音身份和文本的模型.由實驗結(jié)果可看出,在短時語音,訓練數(shù)據(jù)不充分的情況下,由該方法建立的系統(tǒng)虛警率明顯下降,判別能力有了進一步的提高,安全性能得到提升.
[1] Wu H L,Du C D,Mao H.Research and application of speaker recognition algorithm based on GMM [J].Modern Computer,2014,14(5):31-35.
[2] Tan R L.Research on speaker recognition technology based on DTW [J].Heilongjiang Science and Technology Information,2010(13):42.
[3] Shen Z S.Research on embedded system and key technology of text-dependent speaker recognition [D].Tianjing:Hebei University of Technology,2011.
[4] Li X M.Robust text dependent speaker identification and application [D].Xiamen:Xiamen University,2013.
[5] Jiang Y,Tang Z C.Research on GMM text-independent speaker recognition [J].Computer Engineering and Applications,2010(11):179-182.
[6] Reynolds D A,Quatieri T F,Dunn R B.Speaker verification using adapted gaussian mixture models [J].Digital Signal Processing,2000(10):19-41.
[7] Li Z P.Design and implementation of speaker recognition system for short speech text [D].Chengdu:Southwest Jiao Tong University,2009.
[8] Hui Z Q,Zeng S M,Zong Y.Improvement of MFCC parameters extraction in speaker recognition [J].Computer Engineering and Applications,2014(1):217-220.
[9] Wang Y Q,Yui Y B.Adaptive gaussian mixture model and Its application in speaker recognition [J].Communications Technology,2014(1):738-743.
[10] Zhao Y X,Gu X X,Zhang E H.Test-independent speaker recognition [J].Computer and Digital Engineering,2014(42):243-247.
[11] Jiang H C,Zheng L,Zhang S B.SDC Feature-based language identification using GMM-UBM [J].Journal of Chinese Information Processing,2007(1):49-53.
(責任編輯:包震宇)
A new study on text-related speaker recognition
Zhou Lei, Long Yanhua*, Wei Haoran
(College of Information,Mechanical and Electrical Engineering,Shanghai Normal University,Shanghai 200234,China)
In the study of text-related speaker recognition,it is to include the identity recognition as well as the speech text recognition.This paper proposes a new kind of text-related speaker recognition method based on the speech recognition.The model built by this method can describe both the identity information and the speech text information more accurately.Besides,it can also solve the problem that the short-term speech samples have poor recognition effect.The experiments show that compared with the traditional text-related speaker recognition system such as dynamic time warping(DTW) and Gaussian mixture model-universal background model(GMM-UBM),the false alarm probability of the system established by the present method is reduced by 8.9% and the recognition performance is improved.
text-related; speaker recognition; speech recognition
2015-10-16
上海高校青年教師培養(yǎng)計劃(zzshsfl14026)
周 雷(1990-),男,碩士研究生,從事說話人識別、語音識別等方面的研究.E-mail:348746330@qq.com
導師簡介: 龍艷花(1983-),女,副研究員,從事說話人識別、語音識別等方面的研究.E-mail:Yanhua@shnu.edu.cn
TP 391.4
A
1000-5137(2017)02-0224-07
*通信作者