郭東岳,林 毅,楊 波,2
(1.四川大學(xué)視覺合成圖形圖像技術(shù)國防重點學(xué)科實驗室,成都 610065; 2.四川大學(xué)計算機(jī)學(xué)院,成都 610065)
隨著空管自動化概念的提出,許多前沿技術(shù)都在空中交通管制中進(jìn)行了探索與應(yīng)用.其中,地空通話語音識別、聲紋識別等是研發(fā)空中管制安全輔助系統(tǒng)[1]、通話數(shù)據(jù)分析系統(tǒng)的主要技術(shù)手段.地空通話實時自動切分是從地空通話語音流中將不同說話人的語音切分出來,為語音降噪、語音識別、聲紋識別等應(yīng)用提供可靠的語料信息,是大型空管語音應(yīng)用系統(tǒng)中不可或缺的環(huán)節(jié).
目前主流的語音切分方法一般是基于語音端點檢測VAD(Voice Activity Detection)方法實現(xiàn),從技術(shù)原理來看主要分為三類:(1) 是基于聲音能量特征,比如過零率、短時能量、雙門限法[2]等,這類方法抗噪性較差,只能進(jìn)行簡單的聲音與靜音的檢測,適用于語音信道噪聲較小的場景;(2) 是基于語音統(tǒng)計學(xué)特征,比如高斯混合模型GMM(Gaussian Mixed Model)[3]、隱馬爾科夫模型HMM(Hidden Markov Model)[4]、譜熵法[5]等,這類方法抗噪性較好,能區(qū)分一般噪聲與人聲的區(qū)別,就魯棒性而言要優(yōu)于第一類.其中,Google 開源的基于GMM的webrtcvad語音切分算法以其普適性、靈活性在工業(yè)界頗受歡迎.但是這類方法不能應(yīng)對特殊噪聲,如電話鈴聲,特殊設(shè)備噪聲等;(3) 是基于深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)、卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)等深度學(xué)習(xí)的方法[6-14].這類方法通過監(jiān)督學(xué)習(xí)訓(xùn)練分類模型以區(qū)分語音幀與非語音幀的特征,既可以適用于普通語音環(huán)境下,又可以針對特殊環(huán)境下的語音信道進(jìn)行采樣、學(xué)習(xí),以適應(yīng)特殊信道、提高切分的準(zhǔn)確率.
本文前期研究[6]證明了地空通話語音切分中基于CNN深度神經(jīng)網(wǎng)絡(luò)的方法的性能優(yōu)于基于GMM的方法.該方法在幀級別上對語音幀和非語音幀進(jìn)行了區(qū)分,加入噪聲幀訓(xùn)練后,模型具有一定的抗噪性,能有效規(guī)避噪聲的干擾.但是,該方法在通話停頓時間較長時仍然會將語句切斷.基于以上不足之處,本文做了以下幾點研究.
(1) CGRU神經(jīng)網(wǎng)絡(luò):基于本文的前期研究工作[6],改進(jìn)了CNN卷積結(jié)構(gòu),并在CNN卷積之后加入了基于RNN的門控循環(huán)單元GRU(Gated Recurrent Unit)網(wǎng)絡(luò)層,即本文提出的CGRU結(jié)構(gòu).實驗結(jié)果表明,CGRU網(wǎng)絡(luò)進(jìn)一步提高了卷積核的音頻特征提取能力,同時提高了幀級別的分類精度.
(3) 多特征輸入:對比了LPS(log-power Spectrum)、MFCC(Mel Frequency Cepstral Coefficents)、Fbank(Filter Bank)以及MFE(MFCC、Fbank、Energy) 聯(lián)合特征在地空通話語音切分中的性能.
實驗結(jié)果證明,本文提出的方法網(wǎng)絡(luò)參數(shù)較少,在保證實時切分的前提下準(zhǔn)確度明顯提高,同時在未訓(xùn)練過的地空通話信道中表現(xiàn)良好,是一種穩(wěn)定、高效的地空通話自動切分的方法.
地空通話主要依靠高頻無線電收發(fā)語音信號,實時性強(qiáng),但是易受天氣、設(shè)備等因素干擾,從而影響通話質(zhì)量.地空通話自動切分的主要難點是從實時的語音流中檢測一句話的開始與結(jié)束,尤其是語音結(jié)束點.飛行流量、說話人習(xí)慣、語速、信道質(zhì)量等都是影響判斷語音端點的關(guān)鍵.根據(jù)大量通話數(shù)據(jù)分析發(fā)現(xiàn),地空通話語音切分技術(shù)較一般語音切分主要有以下難點.
(1) 地空通話往往是以對話的形式出現(xiàn),管制員發(fā)出管制指令后,飛行員要馬上復(fù)誦以確認(rèn)指令.如圖1(a)所示,由于應(yīng)答時間間隔短,對話產(chǎn)生粘連,傳統(tǒng)方法難以切分對話.
(2) 飛行流量高峰時段信道中說話人較多、通話密集,各說話人語速、習(xí)慣等不盡相同,對算法的魯棒性要求較高.
(3) 信道易受天氣、通話設(shè)備等因素的影響,在惡劣的生產(chǎn)環(huán)境下信道中出現(xiàn)大量隨機(jī)不穩(wěn)定噪聲.
本文通過對成都、北京、太原等地區(qū)管制中心的大量歷史通話數(shù)據(jù)分析發(fā)現(xiàn),在多數(shù)信道中每人通話結(jié)尾均存在一種特殊的音頻幀,幀長在30~60 ms不等.經(jīng)分析驗證,該幀是釋放通話設(shè)備(PTT)開關(guān)時產(chǎn)生的一種特殊信號.一般而言,該幀的出現(xiàn)標(biāo)志著說話人釋放了PTT開關(guān),即說話結(jié)束,本文定義該幀為結(jié)束幀.以結(jié)束幀作為語音結(jié)束標(biāo)志并結(jié)合靜噪音檢測將大幅度提高語音端點檢測的準(zhǔn)確性,從而提高切分精度.在實際應(yīng)用中,由于各管制中心通話設(shè)備不盡相同,結(jié)束幀也存在一定的差異,目前數(shù)據(jù)集中約存在6類結(jié)束幀,其波形-頻譜圖樣例如圖1(b)和(c)所示,而隨著應(yīng)用場景的增加結(jié)束幀的類別也將隨之增加.目前亟需一種通用的技術(shù)手段以辨別不同的結(jié)束幀,提高切分方法魯棒性,以達(dá)到自適應(yīng)切分各地區(qū)地空通話的目的.
2.not only...but also...意思是“不但……而且……”,主要用于連接兩個對等的成分;若連接兩個成分作主語,其后謂語動詞與靠近的主語保持一致。
因此,針對地空通話的特性,本文從各管制中心歷史地空通話語音中采集特殊噪音、結(jié)束幀樣本,經(jīng)數(shù)據(jù)清洗、人工標(biāo)注后加入數(shù)據(jù)集進(jìn)行訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),旨在應(yīng)對極端天氣或復(fù)雜環(huán)境下的不穩(wěn)定噪聲,提高語音切分準(zhǔn)確率.
(b) 結(jié)束幀1
(c) 結(jié)束幀2圖1 地空通話的特點Fig.1 Examples audio of air-ground communication
根據(jù)地空通話的特點,需要設(shè)計一種抗噪性強(qiáng)、魯棒性較好、計算速度快的網(wǎng)絡(luò)結(jié)構(gòu)完成地空通話實時切分任務(wù).文獻(xiàn)[16]研究表明,Convolutional Recurrent Neural Networks在音頻分類任務(wù)中的表現(xiàn)優(yōu)異.本文在改進(jìn)前期研究[6]中的CNN卷積結(jié)構(gòu)的同時,加入了GRU網(wǎng)絡(luò)層,將模型的輸出類別為三類,包含語音幀、結(jié)束幀和其他幀,并提出了一種簡單平滑算法.
為了保證空管安全輔助系統(tǒng)的實時性、降低切分時延,與一般使用上下文多幀輸入的深度學(xué)習(xí)方法不同,本文采用幀長35 ms,步長15 ms的單幀預(yù)測策略,分別提取13維的MFCC特征、Fbank特征、短時能量三種特征組成3×13維的MFE聯(lián)合特征,特征向量經(jīng)數(shù)據(jù)歸一化后作為神經(jīng)網(wǎng)絡(luò)的輸入.MFE聯(lián)合特征能夠有效彌補(bǔ)單幀預(yù)測引起的輸入信息不足,同時MFE聯(lián)合多種音頻特征作為模型輸入,音頻信號經(jīng)過MFE聯(lián)合特征抽取的預(yù)處理,初步抽象出了音頻信號的高維特征,其計算代價要遠(yuǎn)遠(yuǎn)小于原始波形、LPS等特征,大大減少了模型的計算時間.
首先,MFE聯(lián)合特征經(jīng)過3層卷積模塊,每個卷積模塊包含Conv2D、BatchNorm、MaxPooling和Dropout等4個部分,每層使用ELU[17-18]非線性激活函數(shù).其表示如式(1)所示,X和Y分別表示卷積模塊的輸入和輸出矩陣,β(x)、φ(x)、δ(x)分別表示歸一化、非線性激活和下采樣的過程.conv(x,W)是卷積層,其主要作用是進(jìn)一步的聚合MFE聯(lián)合特征,得到高維語音信號的時域和頻域非線性特征.其中,W是權(quán)重矩陣,b是偏置矩陣.β(x)基于卷積操作參數(shù)共享的優(yōu)勢對卷積結(jié)果進(jìn)行歸一化以減小數(shù)據(jù)分布的離散度,可以加快模型收斂速度,大大減少模型訓(xùn)練時間.δ(x)是對特征進(jìn)行下采樣,在保留主要特征的同時,對數(shù)據(jù)降維處理.同時,下采樣操作可以有效防止過擬合,減少網(wǎng)絡(luò)參數(shù),增強(qiáng)模型的泛化能力.Dropout負(fù)責(zé)剪枝不必要的網(wǎng)絡(luò)參數(shù),加快模型計算速度.
Y=δ(φ(β(conv(X,W)+b)))
(1)
隨后,將CNN卷積模塊提取出的非線性特征饋入GRU網(wǎng)絡(luò)層[19-20].GRU門控循環(huán)神經(jīng)網(wǎng)絡(luò)是RNN的變體,它引入了重置門(reset gate)和更新門(update gate)概念.假設(shè)給定時間步t的語音高維聚合特征Xt和上一時間步的隱藏狀態(tài)Ht-1,重置門Rt、更新門Zt的計算如式(2)和式(3)所示.
Rt=σ(XtWxr+Ht-1Whr+br)
(2)
Zt=σ(XtWxz+Ht-1Whz+bz)
(3)
其中,σ(x)為激活函數(shù),Wxr、Whr、Wxz、Whz是權(quán)重矩陣,br、bz是偏置矩陣.GRU層通過可學(xué)習(xí)的門控單元控制信息流動,捕捉短時平穩(wěn)的音頻信號內(nèi)部的變化關(guān)系,有助于提高分類精度.并且GRU在保持RNN特性的同時又擁有更加簡單的結(jié)構(gòu),大大減少了訓(xùn)練時間和訓(xùn)練難度.最后,由softmax層輸出音頻幀的所屬類別的概率.
本文提出的CGRU網(wǎng)絡(luò)結(jié)構(gòu)如圖2(a)所示,網(wǎng)絡(luò)參數(shù)細(xì)節(jié)如表1所示.CGRU網(wǎng)絡(luò)改進(jìn)了前期研究[6]CNN網(wǎng)絡(luò)結(jié)構(gòu)(圖2(c))中的卷積模塊,采用3×3的小卷積核,在保證足夠感受野的前提下,減少了網(wǎng)絡(luò)參數(shù),并且在卷積過程中加入batch normalization層,以提升訓(xùn)練速度和模型精度.并且在卷積模塊之后加入GRU網(wǎng)絡(luò)層捕獲音頻信號的時序變化,使得網(wǎng)絡(luò)的特征提取能力顯著提升.在實驗階段,本文也實現(xiàn)了文獻(xiàn)[9]中的RAW CLDNN(圖2(b))方法,與之相比本文提出的MFE輸入特征經(jīng)過音頻信號預(yù)處理更加適用于復(fù)雜環(huán)境,而原始波形作為輸入易受環(huán)境影響,泛華能力相對較弱.并且,使用GRU網(wǎng)絡(luò)層代替LSTM,可以縮減訓(xùn)練時間,降低訓(xùn)練難度,更適用于工程應(yīng)用.
表1 CGRU網(wǎng)絡(luò)參數(shù)表Tab.1 Configurations of the proposed CGRU
圖2 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure
實驗結(jié)果表明,CGRU網(wǎng)絡(luò)結(jié)構(gòu)中的CNN卷積模塊可以抽取地空通話語音中的語音幀、結(jié)束幀以及不穩(wěn)定的噪聲幀的局部特征,GRU門控循環(huán)單元能捕捉幀內(nèi)信息短時變化的依賴關(guān)系,能較好的完成幀分類任務(wù).并且該網(wǎng)絡(luò)結(jié)構(gòu)簡單,模型總參數(shù)不足40 K,能夠滿足實時切分的需要.
本文從地空通話內(nèi)話系統(tǒng)引接音頻信號到專業(yè)音頻采集設(shè)備,編程讀取實時語音流,并進(jìn)行音頻信號分幀、預(yù)處理等操作,然后饋入訓(xùn)練好的模型預(yù)測所屬類別,完成切分任務(wù).為了提高切分的準(zhǔn)確率,降低語音幀間的短暫停頓、信道噪聲等因素對切分效果影響,本文提出了如下平滑算法.對于輸入音頻幀序列Xn={x1,x2,x3,……,xn-1,xn}(n>0),分類模型預(yù)測類別序列為Yn={y1,y2,y3,……,yn-1,yn},yi={ls,le,lo}.其中,yi為one-hot編碼,當(dāng)ls為真時表示輸出結(jié)果為語音幀;le為真時表示輸出結(jié)果為結(jié)束幀;lo為真時表示輸出結(jié)果為其它幀.幀的最終標(biāo)簽由預(yù)測本身以及上下文共同決定.當(dāng)音頻幀xi的預(yù)測結(jié)果yi為語音,且語音幀子序列{xi-1……xi-m}對應(yīng)的預(yù)測序列{yi-1……yi-m}中的語音幀ls之和大于ξ,則認(rèn)為檢測到語音開始.其中,m,ξ為適應(yīng)性參數(shù),根據(jù)當(dāng)前傳輸信道質(zhì)量等因素設(shè)置.當(dāng)語音開始后,若檢測到xi結(jié)束幀le,認(rèn)為語音結(jié)束,單句實時切分完成;同理,若檢測到xi為其他幀,當(dāng)語音幀子序列{xi+1……xi+m'}預(yù)測序列{yi-1……yi+m'}中其他幀lo之和大于μ,認(rèn)為語音結(jié)束,否則認(rèn)為是不平穩(wěn)的短噪聲.定義語音開始端點為ssp(Speech start point),結(jié)束端點為sep(Speech end point),則語音端點Li計算方法如式(4)所示.
(4)
通過調(diào)整平滑算法中的參數(shù)能夠避免信道中的不穩(wěn)定噪聲以及通話時的短暫停頓引起的抖動,避免將句子切斷,從而保證語料的完整性,為后端應(yīng)用提供可靠的輸入.因此,平滑算法能一定程度上提升語音切分的準(zhǔn)確率.
與文獻(xiàn)[6]中數(shù)據(jù)集不同,本文實驗數(shù)據(jù)取自成都、太原、北京和上海等區(qū)域管制中心的歷史地空通話語音數(shù)據(jù),數(shù)據(jù)中復(fù)雜環(huán)境下的帶噪語音占比較高.該數(shù)據(jù)經(jīng)過人工清洗、標(biāo)注后作為實驗數(shù)據(jù)集.本文采用8 K采樣率、16 bit采樣精度的原始音頻樣本數(shù)據(jù),總時長約100 h.其中包括語音數(shù)據(jù)時長約45 h,靜音/噪音時長約50 h,結(jié)束幀時長約 5 h.實驗中將原始數(shù)據(jù)分為以下子集以驗證模型性能:80%為訓(xùn)練集,10%為驗證集,其余10%用作測試集.
訓(xùn)練服務(wù)器采用Ubuntu 16.04操作系統(tǒng),NVIDIA GTX 1080顯卡提高模型訓(xùn)練速度.測試環(huán)境嚴(yán)格仿真地空通話生產(chǎn)環(huán)境,采用模擬音頻信號仿真地空通話內(nèi)話系統(tǒng)作為專業(yè)音頻采集設(shè)備的輸入.
GMM-webrtcvad: webrtcvad是google開源的語音端點檢測工具,該算法基于GMM提取音頻幀子帶能量對語音/非語音建立統(tǒng)計學(xué)模型,使用假設(shè)檢驗的方法確定音頻幀的類型,是一種無監(jiān)督的學(xué)習(xí)方法.其主要特點是簡單易用、適用場景廣泛,并且模型參數(shù)根據(jù)時間上下文實時更新,目前在工業(yè)界頗受歡迎.經(jīng)多次實驗,將其初始化參數(shù)設(shè)置為2(aggressive mode),幀長設(shè)置為30 ms,在地空通話信道中效果達(dá)到最優(yōu),在本次對比實驗中均采用最優(yōu)參數(shù).
CNN: 實驗把本文的前期研究[6]中的CNN網(wǎng)絡(luò)的softmax層的輸出神經(jīng)元修改為3個,選取幀長32 ms為一幀,提取1×256的LPS特征向量作為網(wǎng)絡(luò)輸入.損失函數(shù)尊選取交叉熵函數(shù),優(yōu)化器選擇SGD(Stochastic Gradient Descent)算法,網(wǎng)絡(luò)參數(shù)采用glorot uniform算法進(jìn)行初始化,配置學(xué)習(xí)率為0.01,batch size設(shè)置為80,訓(xùn)練至網(wǎng)絡(luò)收斂.
Raw Waveform CLDNN: 本文實現(xiàn)了文獻(xiàn)[9]中表現(xiàn)較好CLDNN_100 K的網(wǎng)絡(luò),將輸出改為3個神經(jīng)元,旨在探究其在地空通話中的應(yīng)用效果.實驗選取幀長35 ms的音頻幀作為輸入,使用ASGD(Asynchronous Stochastic Gradient Descent)算法作為優(yōu)化器、交叉熵?fù)p失函數(shù).
CGRU:為驗證MFE聯(lián)合特征的有效性,除本文提出的MFE特征輸入的CGRU網(wǎng)絡(luò)結(jié)構(gòu)之外,實驗中還對比了MFCC、Fbank單獨作為輸入特征的分類效果.實驗中均取35 ms幀長,網(wǎng)絡(luò)細(xì)節(jié)及參數(shù)與表1描述相同.
此外,實驗對比了上述所有分類器原生切分效果和加入本文提出的平滑算法后的切分效果,以驗證平滑算法的有效性.
4.3.1 評價標(biāo)準(zhǔn) ROC(Receiver Operator Characteristic Curve)曲線又稱受試者工作特征曲線,是反映敏感度和特異度連續(xù)變量的綜合指標(biāo),其特點是在數(shù)據(jù)樣本不均衡的情況下可以直觀的評估分類器性能.而受限于地空通話數(shù)據(jù)特點,數(shù)據(jù)集結(jié)束幀樣本占比較低.因此,實驗使用ROC曲線作為分類器性能的評估方法.AUC (Area Under Curve)值是指ROC曲線下的面積,是定量評價分類器性能的指標(biāo).
4.3.2 實驗結(jié)果與分析 實驗結(jié)果如表2所示,其中Accuracy指未使用本文提出的平滑算法的準(zhǔn)確率,Accuracy-S代表平滑過后的切分準(zhǔn)確率,Delay代表預(yù)測一幀的時間代價.實驗結(jié)果表明,本文提出的平滑算法根據(jù)模型的性能不同,將切分的準(zhǔn)確率提升了約1%~9%不等.同時,平滑后的準(zhǔn)確率提升幅度可以作為衡量各方法穩(wěn)定性的依據(jù),準(zhǔn)確率提升幅度越高,說明相鄰幀之間預(yù)測結(jié)果抖動越大,方法在測試集上越不穩(wěn)定.
表2 實驗結(jié)果 Tab.2 Experimental result
從實驗結(jié)果來看,基于GMM無監(jiān)督學(xué)習(xí)的webrtcvad并不適用于復(fù)雜環(huán)境的地空通話語音切分,在仿真測試集上準(zhǔn)確率僅有83.2%,加入平滑算法后準(zhǔn)確率約提升了5%,在不穩(wěn)定噪聲環(huán)境下預(yù)測結(jié)果抖動較大.在基于深度學(xué)習(xí)的方法中,基于LPS特征的CNN、CGRU網(wǎng)絡(luò)以及基于MFCC的CGRU網(wǎng)絡(luò)準(zhǔn)確率在90%左右,經(jīng)平滑后效果提升約3%,幀之間預(yù)測結(jié)果也存在抖動.基于Fbank特征的CGRU網(wǎng)絡(luò)模型準(zhǔn)確率表現(xiàn)良好,AUC值達(dá)到了0.95,平滑后切分準(zhǔn)確率達(dá)到98%.基于原始波形輸入的Raw CLDNN網(wǎng)絡(luò)在地空通話中準(zhǔn)確率僅有82.3%,經(jīng)平滑后準(zhǔn)確率提升了約9%,幅度較大,ROC曲線對比圖如圖3所示.經(jīng)分析,該方法使用原始采樣數(shù)據(jù)作為輸入,原始采樣數(shù)據(jù)在地空通話中受不穩(wěn)定噪聲、采樣設(shè)備、說話人等因素的影響較大,導(dǎo)致測試集輸出結(jié)果與訓(xùn)練集差別較大,同時,該網(wǎng)絡(luò)參數(shù)較多,時間代價約是其他網(wǎng)絡(luò)的一倍,并不適用于地空通話的切分.基于MFE聯(lián)合特征的CGRU網(wǎng)絡(luò)在仿真測試集上表現(xiàn)最好,分類器準(zhǔn)確率達(dá)到98.5%,AUC值為0.98,經(jīng)平滑后切分準(zhǔn)確率約99.3%,預(yù)測輸出較穩(wěn)定.
圖3 ROC曲線對比圖Fig.3 Chart of ROC curve
由圖3可知,本文提出的MEF聯(lián)合特征在音頻信息有限的單幀預(yù)測策略上具有明顯優(yōu)勢,并且CGRU網(wǎng)絡(luò)結(jié)構(gòu)在進(jìn)一步深入挖掘音頻信號隱藏信息的同時,優(yōu)化了模型參數(shù),縮短了模型預(yù)測的時間代價,是一種穩(wěn)定、高效的地空通話實時切分方法.
本文在基于空管語音識別的安全防護(hù)系統(tǒng)的應(yīng)用背景下,提出了一種基于CGRU神經(jīng)網(wǎng)絡(luò)的地空通話語音實時切分的方法.該方法基于對地空通話特點的全面分析以及地空通話語音特征的深入挖掘的基礎(chǔ)上,經(jīng)過多次對比試驗,采用MFE聯(lián)合特征輸入的方式訓(xùn)練語音幀分類器.同時,在嚴(yán)格、精確地對語音幀分類情況下,為了應(yīng)對信道中的不穩(wěn)定噪聲、不同說話人的語速習(xí)慣等,采用單幀預(yù)測、多幀預(yù)測結(jié)果平滑的方法,從一定程度上輔助語音切分,提高了語音切分準(zhǔn)確率.與已有語音切分方法相比,本文提出的方法具有明顯優(yōu)勢,為后端語音降噪、語音識別、聲紋識別和語義理解等應(yīng)用提供了可靠的語料輸入.但平滑算法參數(shù)需要人為參照生產(chǎn)環(huán)境的復(fù)雜度設(shè)置,并非自適應(yīng)參數(shù),語音幀中語種、說話人性別等信息還待進(jìn)一步挖掘.因此,平滑算法自適應(yīng)參數(shù)的改進(jìn),繼續(xù)挖掘語音幀中的隱藏信息將是下一步工作的重點.