杜海濤,張峰,高曼穎,胡入禎,楊光華
(1 中國移動通信集團公司研究院, 北京 100053; 2 中國移動通信集團公司信息安全管理與運行中心, 北京 100053)
基于話音識別的騷擾電話呼叫檢測技術(shù)分析
杜海濤1,張峰1,高曼穎2,胡入禎2,楊光華1
(1 中國移動通信集團公司研究院, 北京 100053; 2 中國移動通信集團公司信息安全管理與運行中心, 北京 100053)
通過對話音識別中的模板匹配技術(shù)DTW算法的研究和改進,實現(xiàn)了一種應(yīng)用于判別騷擾電話錄音的話音識別系統(tǒng)。實驗結(jié)果表明,該系統(tǒng)具有較高的識別精度,是一種有效的應(yīng)用于判別騷擾電話的話音識別系統(tǒng),能顯著提高騷擾電話人工審核的效率,進一步完善騷擾電話治理工作。
話音識別;騷擾電話;MFCC;DTW
隨著通信技術(shù)的不斷發(fā)展,利用移動通信網(wǎng)絡(luò)撥打騷擾電話的現(xiàn)象大量出現(xiàn),為了更好地凈化網(wǎng)絡(luò)通信環(huán)境,各運營商已經(jīng)建立了騷擾電話監(jiān)控系統(tǒng),騷擾電話的識別需要大量人工進行審核。近年來,隨著話音識別技術(shù)的成熟,話音識別已經(jīng)廣泛應(yīng)用于辦公室和商務(wù)系統(tǒng)、電話話音撥號、移動終端話音控制等許多領(lǐng)域,通過引入話音識別技術(shù)對錄音文件進行判別,可以極大提高騷擾電話的審核效率。本文通過對話音識別數(shù)學(xué)模型DTW的研究和改進,實現(xiàn)了一個應(yīng)用于判別騷擾電話錄音的話音識別系統(tǒng)。
目前騷擾電話監(jiān)控系統(tǒng)收集各省信令監(jiān)測平臺的詳單數(shù)據(jù),經(jīng)過騷擾電話監(jiān)控策略篩選出疑似騷擾電話,然后經(jīng)過自動撥測錄音,進一步的篩選認(rèn)證,最后通過人工審核判別出騷擾電話?,F(xiàn)有方案設(shè)計的騷擾電話監(jiān)控系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 騷擾電話監(jiān)控系統(tǒng)
(1)數(shù)據(jù)收集模塊:數(shù)據(jù)收集模塊負(fù)責(zé)收集各省信令監(jiān)測平臺的詳單數(shù)據(jù),作為策略管理模塊的數(shù)據(jù)源。
(2)策略管理模塊:策略管理模塊負(fù)責(zé)制定監(jiān)控策略和策略的參數(shù)、約束,通過策略監(jiān)控,判定出疑似騷擾電話。
(3)自動取證模塊:自動取證模塊負(fù)責(zé)對策略管理模塊輸出的疑似騷擾電話進行撥測錄音,并對呼叫成功的通話自動錄音,錄音過程中可根據(jù)配置向被叫用戶播放提示音,從而進行進一步的篩選。
(4)人工審核模塊:人工審核模塊是疑似騷擾電話的審核與處理中心。審核模塊匯總疑似騷擾電話,根據(jù)設(shè)定好的審核規(guī)則,由人工自動對全部的疑似騷擾電話進行審核。
疑似騷擾電話主要分為忙音、來電提醒等提示音和代孕、假中獎、詐騙類等騷擾電話,通過對錄音的內(nèi)容進行歸類和分析,發(fā)現(xiàn)提示音類電話重復(fù)性比較高,騷擾電話重復(fù)性不是很高。目前騷擾電話判定主要依靠人工審核的方法,隨著話音識別技術(shù)的逐步成熟,尤其是針對重復(fù)內(nèi)容的識別處理技術(shù)更是具有不可替代的作用。騷擾電話的分類和比例,如表1所示。
目前,話音識別方法可以分為兩類,一類是基于內(nèi)容的(連續(xù)話音識別),主要利用高層信息對音頻進行分類和識別,另一類是基于特征相似度的(或稱基于模版匹配)。因此,對于代孕、假中獎、詐騙類等騷擾電話的審核,可引入連續(xù)話音識別技術(shù),該技術(shù)的應(yīng)用場景有待進一步探索;對于重復(fù)性比較高的提示音類電話的審核,可引入話音識別的模板匹配技術(shù),該技術(shù)比較成熟,可行性較好,也是本文研究實現(xiàn)的重點,能顯著提高騷擾電話的審核效率,從而進一步完善騷擾電話的治理工作。
話音識別系統(tǒng)化本質(zhì)上是一種模板匹配系統(tǒng),包括預(yù)處理、端點檢測、特征提取、模板庫、模板匹配等基本單元,基本結(jié)構(gòu)圖如圖2所示。
2.1 預(yù)處理
話音信號的預(yù)處理包括預(yù)加重、分幀和加窗、端點檢測3個步驟。其主要目的是對話音信號采樣、去噪,便于后期的特征提取。
表1 騷擾電話的分類和比例
預(yù)加重通過濾波提升高頻分量并消除工頻干擾,常用一階數(shù)字濾波器來實現(xiàn),其系統(tǒng)函數(shù)為:
其中α為預(yù)加重系數(shù),一般取值為0.95。
為了得到短時平穩(wěn)信號,要對話音進行分幀處理,分幀采用滑動的有限窗口進行加權(quán),保持話音流的連續(xù)性。實驗中采用的窗函數(shù)為漢明窗,其形式:
其中,L為窗長。
話音的端點檢測就是根據(jù)某些特征參數(shù)準(zhǔn)確地判斷出話音的起點和終點,排除話音的噪聲段、靜音段等。常用的端點檢測參數(shù)是短時能量和短時過零率。為提取有效的話音信號,通常采用短時能量和短時過零率相結(jié)合的方法進行端點檢測,即雙門限端點檢測。
圖2 話音識別基本結(jié)構(gòu)圖
2.2 特征提取
特征提取是話音識別的關(guān)鍵環(huán)節(jié),常用的特征提取方法有線性預(yù)測倒譜系數(shù)LPCC和Mel頻率倒譜特征參數(shù)MFCC。線性預(yù)測倒譜系數(shù)LPCC是從人的發(fā)聲模型角度出發(fā),利用線性預(yù)測編碼技術(shù),而Mel頻率倒譜特征參數(shù)MFCC充分考慮了人耳的聽覺特性。研究表明,MFCC具有更好的魯棒性,所含的信息量比LPCC更多,能較好的表現(xiàn)話音信號,因此,選用MFCC作為特征參數(shù)具有一定的優(yōu)勢,MFCC的提取流程如圖3所示。
Mel頻率表示公式為:
式中f為頻率,單位為Hz。
MFCC的提取過程中,首先對話音信號進行分幀、加窗,然后作離散傅立葉變換得頻譜分布信息,求出頻譜平方,即能量譜,再用Mel濾波器組(通常為三角形帶通濾波器)進行濾波,得到功率譜。將每個濾波器的輸出取對數(shù)并進行反離散余弦變換,得到MFCC系數(shù),MFCC系數(shù)計算公式:
由于MFCC只反映了話音參數(shù)的靜態(tài)特性,需對MFCC系數(shù)進行差分計算得到反映話音動態(tài)變化的差分參數(shù)。
2.3 模板匹配
話音信號具有相當(dāng)大的隨機性,即使是同一個人在不同時刻所講的同一句話、發(fā)的同一個音,也不可能具有完全相同的時間長度。在模板匹配過程中,為了確定參考模板和測試模板的時間對應(yīng)關(guān)系,通常采用動態(tài)時間規(guī)整DTW算法,該算法基于動態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是話音識別中出現(xiàn)較早、較為經(jīng)典的算法之一。
假設(shè)參考模板的特征矢量序列為:{R(1),R(2),…R(m),…R(M)}
圖3 MFCC提取流程圖
其中,m為參考模板話音信號的第m幀,m=1時表示話音幀開始,m=M時表示話音幀結(jié)束,即M模板話音的幀數(shù),并且R(m)為第m幀的特征向量。
測試模板的特征矢量序列為:
{T(1),T(2),… T(n),… T(N)}
其中,n為測試模板話音信號的第n幀,n=1時表示話音幀開始,n=M時表示話音幀結(jié)束,即M模板話音的幀數(shù),并且T(n)為第n幀的特征向量。
DTW就是通過尋找一個時間規(guī)整函數(shù),將測試矢量的時間軸非線性的映射到參考模板的時間軸上。通常規(guī)整函數(shù)被限制在一個平行四邊形的網(wǎng)格內(nèi),如圖4所示,它的一條邊斜率為2,另一條邊斜率為1/2。規(guī)整函數(shù)的起點是(1,1),終點為(M,N)。DTW的目的是在此平行四邊形內(nèi)由起點到終點尋找一個規(guī)整函數(shù),使其具有最小的代價函數(shù)。
圖4 DTW算法搜索路徑約束圖
一般的DTW算法在匹配過程中限定了彎折的斜率,許多格點是達不到的,即平行四邊形之外的格點對應(yīng)的幀匹配距離是不需要計算的,也沒有必要保存所有的幀匹配距離矩陣和累積距離矩陣,并且每一列格點上的匹配計算只用到了前一列的3個網(wǎng)格,充分利用這兩個特點,為了減少計算量和節(jié)省存儲空間,出現(xiàn)了一種改進的DTW算法。在圖4平行四邊形的基礎(chǔ)上,將其分成動態(tài)彎折的3段,其動態(tài)彎折的3段為(1,Xa),
表2 待測錄音的正確識別情況表
此時X軸上的每一幀不再需要與Y軸上的每一幀進行比較,而只與Y軸上[Ymin,Ymax]間的幀進行比較。如圖中點A、點B、點C所示,實線表示有效路徑,虛線表示無效路徑,這樣就避免了整個過程中每次搜索路徑按3點匹配的繁瑣,可以大大縮短匹配中的計算量,提高匹配速度。
系統(tǒng)的主程序是Voice Harass,基于Linux操作系統(tǒng)運行,系統(tǒng)的組成模塊與話音識別系統(tǒng)的構(gòu)成基本一致。模板訓(xùn)練過程中,首先對模板錄音生成音頻列表Addlist,然后對模板錄音進行預(yù)處理,對音頻進行去除靜音和切分,將音頻切分為數(shù)個音頻片段,將預(yù)處理后的音頻片段送入聲學(xué)特征提取模塊,將音頻片段轉(zhuǎn)換為對應(yīng)的特征矢量MFCC,作為模板話音的識別特征,生成模板庫Template。為了增強系統(tǒng)的魯棒性和話音識別的準(zhǔn)確率,在實驗中選擇不同類別的錄音進行模板訓(xùn)練,不斷豐富模板庫。在識別階段,首先也需要對待測錄音生成音頻列表Wavlist,然后對待測錄音進行預(yù)處理和特征提取,提取話音的特征矢量MFCC,最后進行音頻匹配,即將待測錄音的特征矢量與模板庫中話音模板逐一進行相似性度量的比較,從而得出最佳的匹配結(jié)果。
本實驗采用的錄音是騷擾電話監(jiān)控平臺的自動取證模塊對疑似騷擾電話進行撥測后錄取的通話錄音,并且選取重復(fù)性比較高的提示音作為樣本數(shù)據(jù),錄音采用的錄音格式為wav格式,話音的采樣率為8kHz,量化精度為8bit。通過進行多次的模板訓(xùn)練,實驗數(shù)據(jù)表明,模板訓(xùn)練的正確識別率為99.23%。實驗分別對模板數(shù)量增加前后的待檢測錄音的識別率進行了統(tǒng)計,識別率1和識別率2分別是模板數(shù)量增加前后的實驗結(jié)果,待測錄音的正確識別情況詳見表2和圖5,平均識別率分別為59.66%和85.26%,由表2和圖5可知,話音識別的模板匹配技術(shù)識別效果較好,且增加模板數(shù)量,可大大提高話音的識別率。
圖5 待測錄音識別率對比
本文介紹了目前騷擾電話的治理現(xiàn)狀,分析了騷擾電話治理中存在的問題,提出引入話音識別檢測技術(shù)的方法,可準(zhǔn)確識別出提示音錄音。通過對DTW算法的改進,以及對系統(tǒng)各個部分詳細(xì)的探究和實驗,實現(xiàn)了一種基于話音識別的騷擾電話判別系統(tǒng),實驗數(shù)據(jù)表明話音識別的模板匹配技術(shù)識別效果較好,并且增加模板數(shù)量,可顯著提高話音的識別率。但是對于代孕類、假中獎類、金融詐騙類等騷擾電話,利用連續(xù)話音識別技術(shù)進行檢測,將是下一步工作的重點和難點。
[1] 林波,呂明.基于DTW改進算法的孤立詞識別系統(tǒng)的仿真與分析[J].信息技術(shù),2006(4).
[2] 靳月英. 話音識別ASIC中端點檢測算法研究與實現(xiàn)[J]. 計算機與現(xiàn)代化, 2011(12).
[3] 王令斌.特定音頻過濾算法的研究[D]. 天津大學(xué),2008.
[4] 胡亞洲,王新民,曹江濤. 基于改進DTW的機器人話音指令識別系統(tǒng)研究[J]. 計算機技術(shù)與發(fā)展, 2013(7).
[5] 徐利軍. 基于DTW的孤立詞話音識別研究[J]. 軟件導(dǎo)刊,2012(2).
[6] 王娜, 劉政連. 基于DTW的孤立詞話音識別系統(tǒng)的研究與實現(xiàn)[J]. 九江學(xué)院學(xué)報, 2010(3).
News
中國移動物聯(lián)卡業(yè)務(wù)正式商用
11月26日,中國移動物聯(lián)網(wǎng)專網(wǎng)專號(物聯(lián)卡)業(yè)務(wù)正式商用。據(jù)悉,該業(yè)務(wù)由中國移動總部統(tǒng)一負(fù)責(zé)產(chǎn)品規(guī)劃和管理,由物聯(lián)網(wǎng)公司承擔(dān)全網(wǎng)運營支撐工作。
據(jù)了解,中國移動物聯(lián)網(wǎng)專網(wǎng)專號業(yè)務(wù)采用物聯(lián)網(wǎng)專用號段作為MSISDN的移動通信接入業(yè)務(wù),商用后使用名將由原來的“機器卡”更名為“物聯(lián)卡”。2013年9月,中國移動物聯(lián)網(wǎng)機器卡業(yè)務(wù)開始試商用,試商用省區(qū)業(yè)務(wù)發(fā)展趨于規(guī)?;?,非試商用省區(qū)業(yè)務(wù)功能也逐漸完善,為正式商用奠定了良好基礎(chǔ)。商用期間,中國移動物聯(lián)網(wǎng)專網(wǎng)將為客戶提供物聯(lián)卡與業(yè)務(wù)平臺之間的無線數(shù)據(jù)傳輸和短信通信基本功能,并通過物聯(lián)網(wǎng)專網(wǎng)業(yè)務(wù)管理平臺向客戶提供智能通道服務(wù),包括通信管理、終端管理、位置定位等。
記者獲悉,中國移動物聯(lián)卡業(yè)務(wù)將在今年年底具備4G功能,屆時,物聯(lián)卡將在4G的基礎(chǔ)上充分發(fā)揮碼號資源豐富、漫游結(jié)算成本低、計費靈活、業(yè)務(wù)管理能力強等優(yōu)勢,在前裝、大流量、業(yè)務(wù)管理和非實時交互四大類應(yīng)用領(lǐng)域?qū)崿F(xiàn)突破,滿足物聯(lián)網(wǎng)億量級用戶終端連接需求。 (高雅)
Analysis and experiment of disturbing call detection technology based on speech recognition
DU Hai-tao1, ZHANG Feng1, GAO Man-ying1, HU Ru-zhen1, YANG Guang-hua1
(1 China Mobile Research Institute, Beijing 100053, China; 2 China Mobile Information Security Center, Beijing 100053, China)
Based on the research and improvement of template matching technology DWT algroithm in speech recongnition, speech recongnition technology is applied to disturbing call syetem. The experimental results shows that the technology is more accuracy and effective to call record, so it can signif cantly improve artif cial audit eff ciency, and elevate the management work of telephone harassment.
speech recognition; disturbing call; MFCC; DTW
TN918
A
1008-5599(2014)12-0005-05
2014-11-16