賴麗旻,洪青陽
(1.廈門大學 環(huán)境與生態(tài)學院,福建 廈門361005;2.廈門大學 信息科學與技術學院,福建 廈門361005)
為了提高科研經費的使用效益,貴重儀器一般對外開放,共享使用.由于時間和精力限制,儀器管理員很難對儀器監(jiān)管到位,機時統(tǒng)計不真實,儀器故障率高.為了規(guī)范化管理儀器,降低儀器的故障率,需要在儀器周邊安裝攝像頭進行監(jiān)控.但外加設備成本較高,且受限于攝像頭的安裝位置,往往難以拍攝到所需的畫面.因此,需要發(fā)展一種能有效識別儀器使用者,并記錄儀器使用機時和使用狀況的管理系統(tǒng).傳統(tǒng)的方式是通過賬號識別儀器使用者,但賬號容易被人借用,存在較大的管理漏洞[1].為確保身份的唯一性,更有效的方式是采用生物特征識別技術.聲紋識別也稱說話人識別[2-4],由于每個人的聲帶震動頻率不同,聲道結構不同,再加上發(fā)音習慣不同,組合形成了各具一色的聲紋特征.不同人說同樣的話,對應的語譜圖也會不一樣.因此,可用來比對兩段語音的同一性,即是否來自同一人.聲紋采集方便、硬件成本低、用戶容易接受,因此,得到越來越多的應用.本文將聲紋識別技術應用到儀器管理中,并創(chuàng)造性地采用語音動態(tài)口令,達到防錄音冒充的效果.
圖1 系統(tǒng)結構圖Fig.1 System structure diagram
大部分貴重儀器是通過計算機上的工作站控制,在計算機上加入聲紋識別系統(tǒng),控制儀器軟件的開啟,以達到只有通過審核的人才能使用儀器的目的.用戶無需任何其他設備,直接采用電腦麥克風錄音,進行聲紋采集.系統(tǒng)結構圖,如圖1所示.
利用聲紋的唯一性確認儀器用戶身份,實現(xiàn)無人監(jiān)管.電腦麥克風可設置比較高的采樣率,并可持續(xù)錄音,使送到驗證服務器的聲紋信息最大限度地不失真,這樣聲紋驗證更可靠.對于部分沒有連接計算機的儀器,可通過增加聲紋識別模塊,控制儀器電源的開關,從而達到控制儀器使用的目的.基于聲紋識別技術的共享儀器平臺管理系統(tǒng),具體包括以下5個步驟.
步驟1聲紋登記.用戶通過儀器培訓后,在儀器管理員監(jiān)督和指導下,通過麥克風錄音,朗讀計算機屏幕上的文字,進行聲紋特征值的采集.達到有效時長后,提示用戶錄音結束,系統(tǒng)檢測語音合格后,登記該聲紋模型,屏幕顯示聲紋登記成功.
步驟2用戶開啟儀器工作站時,自動啟動聲紋驗證程序.用戶通過麥克風朗讀屏幕上的文字,達到有效時長后,提示用戶錄音結束.
步驟3系統(tǒng)判斷用戶聲紋是否與登記聲紋模型一致,識別用戶身份是否為授權用戶.
步驟4已授權用戶,儀器可正常啟動,用戶正常使用儀器,后臺記錄用戶信息和統(tǒng)計機時.
步驟5若用戶為非授權用戶,儀器則不能正常啟動,用戶無法使用該儀器.用戶可聯(lián)系儀器管理員,告知存在的問題.
聲紋識別是一個模式識別過程,其基本原理如圖2所示.首先對目標說話人的語音特征提取;然后進行聲紋建模,驗證語音也要經過特征提取,才能進行聲紋比對;聲紋比對得分與事先設定的閾值比對,最后得到驗證結果.圖2 是一個典型的模式識別過程,關鍵是聲紋特征要與語音信號建立一一對應的關系.如果語音信號包含噪聲等雜音,則還需進行降噪等前端處理.后端模型用來刻畫聲紋的統(tǒng)計分布,比較通用的是采用高斯混合模型(Gaussian mixture model,GMM)[5-6].
GMM 通過若干個高斯概率密度函數(shù)的線性組合逼近任意分布,從而模擬出各種形式的語音特征分布,以區(qū)分不同的說話人.GMM 能很好地刻畫參數(shù)空間中訓練數(shù)據(jù)的空間分布及其特征,并且具有簡單高效的特點,已廣泛應用于與文本無關的聲紋識別系統(tǒng).
為解決錄音冒充問題,進一步結合隱馬爾可夫模型(hidden Markov model,HMM)[7],采用一種語音動態(tài)口令的建模和驗證方法[8],把聲紋識別和語音識別技術更好地融合在一起,使得身份認證系統(tǒng)更加可靠.
圖2 聲紋識別基本原理Fig.2 Principle of voiceprint recognition
系統(tǒng)依據(jù)說話人的訓練語音,進行語音預處理,提取說話人特征,并通過相應的建模算法,生成聲紋模型.聲紋動態(tài)口令系統(tǒng)訓練模型所需要的語音是N段文本內容不同的短語音,一般取3至5段.訓練過程,如圖3所示.用戶錄完的語音,將被訓練成與該用戶相關的聲紋模型(包括說話人模型和語音模型).其中,說話人模型為GMM 模型,采用最大后驗概率(MAP)方法[6],由全局背景模型(UBM)自適應而來.具體實現(xiàn)時,只需要自適應均值參數(shù),即
式(1)中:i是UBM 所包含的每個高斯函數(shù)對應的索引;Ei(x)為自適應數(shù)據(jù)x的均值期望;μi為原始UBM 的均值;為自適應后得到的均值;β為調節(jié)系數(shù).
語音模型采用隱馬爾可夫模型.基于HMM 的通用語音識別器,也可實現(xiàn)自適應訓練,變成與目標說話人相關的特定識別器,如圖4所示.
圖3 聲紋建模過程Fig.3 Modeling process of voiceprint
Hong等[8]采用單音子(monophone)模型,沒有考慮音素的上下文關聯(lián),一定程度上會導致識別率的下降.而文中進一步采用了三音子(triphone)模型,使聲韻母之間的關聯(lián)性也能得到建模.經過重新組合[7-8],采用的三音子模型(不考慮yi和yao)包括sil,+i_one,s-i_one,sp,s+an,san,_w+u,_w-u,q+i,q-i,b+a,b-a,l+ing,l-ing,j+iou,j-iou,_e+er,_e-er,l+iou,l-iou.
圖4 HMM 自適應訓練Fig.4 Adaptation of HMM
在驗證階段,聲紋系統(tǒng)根據(jù)說話人的語音,判決說話人是否為其所申明的身份(identity claimed).這個階段有2個輸入信息,即說話人的語音和其所申明的身份信息.首先,系統(tǒng)對語音進行預處理;然后,提取聲紋特征,將其與對應的聲紋模型進行模式匹配;最后,判決這段語音是否屬于該說話人.
在文中方法里,聲紋驗證過程是個融合的過程.輸入語音經特征提取后,分別進行基于HMM 的語音識別和基于GMM 的聲紋確認,得到相應的語音識別得分和聲紋確認得分.基于HMM 的語音識別,是根據(jù)提示文本,產生相應的受限語法.如數(shù)字串“43825769”,其對應的受限語法如下
$digit1=si;
$digit2=san;
$digit3=ba;
$digit4=er;
$digit5=wu;
$digit6=qi;
$digit7=liu;
$digit8=jiu;
(SENT-START[$digit1][$digit2][$digit3][$digit4][$digit5][$digit6][$digit7][$digit8]SENT-END)
其中:$digit1表示第一個數(shù)字;si對應數(shù)字4;括號里的SENT-START 是句子的開頭;SENT-END 是句子的結尾;[$digit1][$digit2][$digit3][$digit4][$digit5][$digit6][$digit7][$digit8]表示只能識別為8個數(shù)字.
基于以上受限語法,采用Viterbi解碼算法[7],就可得到語音識別得分.由于受限語法是與提示文本關聯(lián)的,也就是相當于為文本內容建立了對應的語言模型.如果用戶故意說別的數(shù)字串,或用錄音設備錄制回放別的數(shù)字串,則正確識別到的數(shù)字個數(shù)就很少,識別得分也會很低.因此,該方法可起到內容鑒別的作用,有效避免錄音冒充.
系統(tǒng)融合得分計算,表達為
式(2)中:SF為系統(tǒng)融合得分;SASR為基于HMM 的語音識別得分;SVPR為GMM 的聲紋確認得分;α是調節(jié)系數(shù),可根據(jù)實際應用調節(jié).
聲紋驗證過程,如圖5所示.由圖5可知:系統(tǒng)融合得分將與預設閾值比對,超過閾值則表示接受通過,未超過則予以拒絕.閾值可根據(jù)實際應用做調整.
圖5 聲紋驗證過程Fig.5 Verification process of voiceprint
進行了兩組語音動態(tài)口令實驗.一組在辦公室進行聲紋的登記和測試,采集對象以年輕人為主.說話人與麥克風之間的距離在0.3~1m 之間,以說話人感覺舒適為度.采樣率為8K,量化位數(shù)為16bit.樣本總共20人,每人錄音20句以上,隨機抽取16句作為登記,其他剩下的作為本人認證測試,不同人之間進行交叉測試.測試結果,如表1所示.表1中:RFR表示錯誤拒絕率,即本人認證被拒絕的比例;RFA表示錯誤接受率,即他人冒充通過的比例.
表1 語音動態(tài)口令的測試結果Tab.1 Experimental results of speech dynamic password
從表1可以看出:RFR為2.55%,即本人通過率為97.45%,說明本文系統(tǒng)對真實用戶通過率較高,已可滿足應用需求;RFA為0.63%,即他人冒充通過的可能性低于1%,說明文中系統(tǒng)具有很強的防冒充能力,能有效地保證貴重儀器的安全管理.有文獻[9]報道基于指紋識別的開放式儀器管理系統(tǒng),RFR為2.50%,RFA為1.11%.
第2組實驗數(shù)據(jù)是在比較復雜的環(huán)境下采集的.采集環(huán)境可能在辦公室、馬路邊、商場、家里等地方,以模擬各種噪聲背景.樣本總共30人,每個人用智能手機采集8個隨機數(shù)字,登記語音5遍,驗證語音3遍以上.采樣率為16K,量化位數(shù)為16bit.本人測試149次,冒充測試7 305次.實驗結果采用DET 曲線[10]繪制,如圖6所示.圖6中:RFA為錯誤接受率;RFR為錯誤拒絕率.圖6中:曲線越靠近零點表示識別效果越好;曲線與對角線的交叉點是等錯誤率(REE,即RFA與RFR相等的地方).由圖6可知:三音子模型明顯優(yōu)于單音子模型,三音子的REE約為1%.
與文獻[9]方法相比,在本人通過率相差不大的情況下,文中方法的他人冒充通過率更低.考慮到指紋識別的開放式儀器管理系統(tǒng)需要部署指紋采集儀,成本較高,因此,文中方法具有較高的性價比.
文中方法將基于傳統(tǒng)模型GMM 和HMM的聲紋識別技術有機地結合起來,應用到實際系統(tǒng)中,實現(xiàn)內容+身份的識別,而不是簡單的GMM 身份識別.尤其采用了8 個數(shù)字隨機動態(tài)口令,非法用戶無法通過錄音冒充通過,有效地提高了儀器管理的安全性.
在實際應用中,聲紋采集時,操作是否規(guī)范直接影響聲紋識別效果.因此,需要儀器管理員在現(xiàn)場指導.這樣,一方面提高聲紋采集樣本的質量;另一方面,從源頭防止冒充他人使用儀器的可能.
圖6 聲紋驗證結果Fig.6 Verification results of voiceprint
在貴重儀器現(xiàn)有的工作站系統(tǒng)內加入聲紋識別部分,通過聲紋識別判定儀器使用者的身份[11],并從后臺記錄儀器使用機時,有利于儀器的規(guī)范化管理,防止儀器使用者漏登記機時.通過測試發(fā)現(xiàn),語音動態(tài)口令的效果很好,錯誤接受率低于1%,可有效防范冒充,保證了系統(tǒng)的可靠性.
[1]王云平.國外大學實驗室管理及其對國內開放實驗室的啟示[J].實驗技術與管理,2010,27(3):149-151.
[2]HONG Q Y,KWONG S.Discriminative training for speaker identification based on maximum model distance algorithm[C]∥IEEE International Conference on Acoustics,Speech,and Signal Processing.Montreal:IEEE Press,2004:25-28.
[3]張彩紅,洪青陽,陳燕.基于GMM-UBM 的說話人確認系統(tǒng)的研究[J].心智與計算,2007,1(4):420-425.
[4]陳燕,洪青陽,張彩虹.聲紋識別在司法身份鑒定中的應用[J].心智與計算,2008,2(1):1-7.
[5]REYNOLDS D A.Speaker identification and verification using Gaussian mixture speaker models[J].Speech Communication,1995,17(1/2):91-108.
[6]REYNOLDS D A,QUATIERI T F,DUNN R B.Speaker verification using adapted Gaussian mixture models[J].Digital Signal Processing,2000,10(1/2/3):19-41.
[7]韓紀慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學出版社,2004:200-213,239-241.
[8]HONG Qing-yang,WANG Sheng,LIU Zhi-jian.A robust speaker-adaptive and text-prompted speaker verification system[J].Lecture Notes in Computer Science,2014,8833:385-393.
[9]盧暢.基于指紋檢測識別的開放式實驗室管理系統(tǒng)研究與設計[J].實驗室研究與探索,2013,32(12):211-215.
[10]DODDINGTON G R,PRZYBOCKI M A,MARTIN A F,et al.The NIST speaker recognition evaluation:Overview,methodology,systems,results,perspective[J].Speech Communication,2000,31(2/3):225-254.
[11]DEHAK N,KENNY P,DEHAK R,et al.Front-end factor analysis for speaker verification[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4):788-798.