華英杰, 劉晶, 邵玉斌, 朵琳
(昆明理工大學(xué) 信息工程與自動化學(xué)院, 云南 昆明 650500)
語種識別(LID)是將一段未知的語音音頻文件輸入到語種系統(tǒng)端,提取其中的語種信息特征與訓(xùn)練好的語種模型進(jìn)行判別,輸出語種類型[1]。隨著各國頻繁的進(jìn)行聯(lián)合演習(xí),各國軍隊之間的通信也成為一大關(guān)鍵問題。軍隊通信往往伴隨著軍用設(shè)備噪聲源,導(dǎo)致各國軍隊無法很好地進(jìn)行軍事聯(lián)合作戰(zhàn),也影響海陸空多兵種之間的配合。目前,語種識別技術(shù)在高信噪比和平穩(wěn)噪聲環(huán)境下已經(jīng)取得了不錯的進(jìn)展。然而軍用設(shè)備噪聲具有非平穩(wěn)性和噪聲大的特點,導(dǎo)致識別性能不佳。
傳統(tǒng)的語種識別主要基于聲學(xué)層特征和音素層特征?;诼晫W(xué)層特征是通過對語音進(jìn)行預(yù)處理再提取聲學(xué)層特征,采用多分類模型或統(tǒng)計模型。目前主流的聲學(xué)特征包括梅爾頻率倒譜系數(shù)[2](MFCC)、滑動差分倒譜[3]、感知線性預(yù)測系數(shù)[4]、伽瑪通頻率倒譜系數(shù)[5](GFCC)。主流的識別模型包括支持向量機(jī)[6]和混合高斯模型-全局背景模型[7]等?;谝羲貙犹卣髦饕紤]的是不同語種有不同的音素集合[8]。主流模型包括并行音素識別器后接語言模型[9]等。
近年來,深度神經(jīng)網(wǎng)絡(luò)[10](DNNs)模型在語種識別領(lǐng)域得到快速發(fā)展。Jiang等[11]考慮到DNNs強(qiáng)大的特征抽取能力,提取了深度瓶頸特征。隨著圖像識別被引入到語種識別領(lǐng)域,Montavon等[12]提取線性灰度語譜圖特征(LGSS),將語種識別轉(zhuǎn)為圖像識別,取得了很大進(jìn)展。Lopez等[13]將特征提取、特征變換和分類器融于一個神經(jīng)網(wǎng)絡(luò)模型,后續(xù)在此基礎(chǔ)上又研發(fā)出不同的神經(jīng)網(wǎng)絡(luò),包括延時神經(jīng)網(wǎng)絡(luò)[14]、殘差神經(jīng)網(wǎng)絡(luò)[15](ResNet)等。Wang等[16]將注意力機(jī)制模型結(jié)合長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)搭建的端到端系統(tǒng)也取得了不錯的效果。Jin等[17]從網(wǎng)絡(luò)中間層中提取LID-senone特征。同年Cai等[18]提出了一種基于可學(xué)習(xí)的字典編碼層的端對端系統(tǒng),從底層聲學(xué)特征直接學(xué)習(xí)語種類別的信息,摒棄了聲學(xué)模型,也取得了較優(yōu)的識別性能。Deshwal等[19]提出了一種基于混合特征提取技術(shù)和前饋反向傳播神經(jīng)網(wǎng)絡(luò)分類器的語言識別方法。Li等[20]提出了基于多特征和多任務(wù)模型的深度聯(lián)合學(xué)習(xí)策略的識別方法。Bhanja等[21]提出了基于自動聲調(diào)和非聲調(diào)預(yù)分類的語種識別方法。
目前,針對戰(zhàn)場環(huán)境下進(jìn)行語種識別研究鮮見報道。本文基于國內(nèi)外語種識別技術(shù)和圖像處理技術(shù)進(jìn)行研究,提出了一種基于語譜圖灰度變換的戰(zhàn)場環(huán)境下的語種識別方法。本文的主要貢獻(xiàn)有3個方面:
1)根據(jù)語音和噪聲信息在頻率上分布的規(guī)律,提出一種帶通濾波的處理方法,在盡可能減少信息丟失的情況下,一定程度上抑制高頻段噪聲的影響。
2)提出模擬人耳聽覺特性的對數(shù)灰度語譜圖特征,增強(qiáng)了特征的抗干擾能力。
3)目前語音學(xué)的方法對復(fù)雜噪聲信號的抑制不理想,導(dǎo)致低信噪比環(huán)境下的語種識別率不高。本文提出了一種基于語譜圖灰度變換的噪聲抑制方法,通過自動色階算法對對數(shù)灰度語譜圖的語音信息部分進(jìn)行增強(qiáng),對噪聲部分進(jìn)行抑制。實驗結(jié)果表明,本文方法對于戰(zhàn)場環(huán)境下的語種識別效果良好。
本文搭建了主流的圖像識別網(wǎng)絡(luò)作為語種識別系統(tǒng):基于ResNet的語種識別系統(tǒng),是一種卷積神經(jīng)網(wǎng)絡(luò),由微軟亞洲研究院He等[15]提出。以美國俄亥俄州立大學(xué)Nonspeech公開噪聲庫中的噪聲來構(gòu)建不同噪聲源下不同信噪比的語料庫。
普通的卷積網(wǎng)絡(luò)是非線性的,即每層卷積連乘。而ResNet向前過程是線性的,即原始輸入加上這層殘差結(jié)果作為下一層的輸入。ResNet的最大特點就是解決了梯度爆炸和梯度消失問題,而且與普通卷積網(wǎng)絡(luò)相比誤差更小,在圖像識別領(lǐng)域的誤差只有3.57%,比人眼誤差小1.53%。
本文研究戰(zhàn)場環(huán)境下的語種識別問題,采用Nonspeech公開噪聲庫中的9種不同噪聲源:白噪聲(WN),驅(qū)逐艦作戰(zhàn)室背景噪聲(DORBN),軍用車輛噪聲(MVN),高頻信道噪聲(HFCN),粉紅噪聲(PN),車內(nèi)噪聲(VN),F16座艙噪聲(F16CN),掠奪者戰(zhàn)斗機(jī)駕駛艙噪聲(BFCN),機(jī)槍噪聲(MGN),構(gòu)建信噪比SNR為-10~25 dB的語料。平均信噪比定義如下:
(1)
本文提出的基于語譜圖灰度變換的特征提取處理方法流程如圖1所示。首先將語音信號進(jìn)行帶通濾波,得到中低頻段的語音;之后提取中低頻段語音的對數(shù)灰度語譜圖;最后將對數(shù)灰度語譜圖通過自動色階算法進(jìn)行圖像增強(qiáng)處理,得到噪聲抑制后的對數(shù)灰度語譜圖。
圖1 特征提取流程
語音學(xué)研究表明,語音中低頻信息能量高、高頻部分能量較少,而且人耳對高頻信息分辨率不高[22]。圖2包括Nonspeech公開噪聲庫中9種不同噪聲和一段4 min、采樣率為fs=8 000 Hz、單通道的wav格式的語音信息和噪聲信息功率密度隨頻率的分布圖。
圖2 語音信息和噪聲信息功率密度隨頻率分布圖
由圖2可知,語音信息集中在中低頻部分,有6種噪聲的能量在高頻部分超過語音信息,有8種噪聲能量在極低頻部分高于語音信息。因此采用帶通濾波器濾掉高頻部分和極低頻部分。濾波只會使得語音略顯低沉,稍微降低語言的清晰度,但是保留了大部分語種信息,濾除大量噪聲信息,間接提升了信噪比。本文采用的是巴特沃斯帶通濾波器,實驗結(jié)果表明通帶帶寬B的范圍為1 000~1 500 Hz,濾波器階數(shù)為4階時效果較好。
下面以高斯白噪聲為例,因為WN均勻分布在各個頻率段上,濾波后噪聲損失的能量大于語音損失的能量,所以濾波后信噪比計算公式為
(2)
(3)
語音的時域分析和頻域分析是語音分析的兩種重要方式,時域分析目前有共振峰、短時平均能量等,頻域分析有MFCC、GFCC等[23]。兩種單獨分析方式都有一定局限性,時域分析沒有對頻域進(jìn)行直觀了解,而頻域分析又沒有分析語音信號隨時間的變換關(guān)系[24]。因此本文引入一種既包含頻譜圖的特點也包含時域波形圖的特點的三維頻譜圖,即語譜圖。語譜圖具有語音頻譜隨時間變化的信息,還包含了大量與語種相關(guān)的信息。由于耳蝸的構(gòu)造決定了頻率的空間分布不是線性的,而是接近對數(shù)的,采用對數(shù)灰度語譜圖可以更好地模擬人耳的聽覺特性,增強(qiáng)語譜圖可辨識度[25]。語譜圖是采用二維平面表達(dá)三維信息,橫軸為時間,縱軸為頻率,任意給定頻率成分在給定時刻的強(qiáng)弱用相應(yīng)點的灰度來表示。
對數(shù)灰度語譜圖生成步驟包括分幀加窗、離散傅里葉變換、計算能量密度譜,并生成對數(shù)灰度語譜圖。具體流程如下:
1)分幀:對帶通濾波的語音信號x(n)分幀,實驗取幀長256,幀移128,分幀后的第i幀信號為xi(n)。
2)加窗:對第i幀信號xi(n)進(jìn)行加窗處理,實驗使用的是漢明窗,加窗后的第i幀信號為si(n)。
3)離散傅里葉變換:將第i幀信號si(n)進(jìn)行短時傅里葉變換,定義如下:
(4)
式中:Si(k)為信號si(n)的短時傅里葉變換,k為頻譜系數(shù);N為采樣點數(shù)。
4)能量密度譜:是一個二維的非負(fù)數(shù)實值的函數(shù),定義如下:
Pi(ω)=|Si,t(k)|2
(5)
式中:Pi(ω)為第i幀能量;Si,t(k)為信號在t時刻和頻率k處的復(fù)數(shù)振幅。
5)能量密度譜對數(shù)化:將能量譜分貝化,
(6)
6)頻率對數(shù)化:將頻率對數(shù)化,從而模擬人耳聽覺構(gòu)造,公式如下:
ω1=log2(ω)
(7)
式中:ω1為頻率的對數(shù)化。
圖3 線性灰度語譜圖和對數(shù)灰度語譜圖
為了在傳統(tǒng)的噪聲抑制信號處理中取得好的效果,需要確保所做的假設(shè)符合該場景,而且濾波采用的統(tǒng)計量也要估計正確,但這些假設(shè)在真實的噪聲環(huán)境下很難準(zhǔn)確做到。目前,研究人員采用深度學(xué)習(xí)算法進(jìn)行噪聲抑制,然而該類方法需要大量的訓(xùn)練數(shù)據(jù)集,不然魯棒性極差,可能在某個環(huán)境下性能良好,換個環(huán)境則性能急劇下降。而且深度學(xué)習(xí)方法的性能和優(yōu)化指標(biāo)很有關(guān)系。針對上述問題,本文提出了一種基于語譜圖灰度變換的噪聲抑制方法。采用圖像處理方法進(jìn)行戰(zhàn)場環(huán)境下噪聲信號的抑制。對數(shù)灰度語譜圖上噪聲信息的像素值和大部分語音信息的像素值相差明顯,因此采用自動色階算法進(jìn)行圖像增強(qiáng),以降低噪聲的影響、增強(qiáng)語種信息。
自動色階算法[26]主要利用直方圖統(tǒng)計各個像素值,將像素值高于高閾值的像素點設(shè)為255,低于低閾值的像素點設(shè)為0,最后將像素值經(jīng)過線性量化重新分配像素值,這樣既可以使其他部分噪聲像素值變小,也增強(qiáng)了圖像的可辨識度。算法流程圖如圖4所示。
圖4 自動色階算法流程
閾值定義如下:
Tmin=max (u1),u1(n)=u0(n),1≤n≤K×α
(8)
Tmax=max(u2),u2(n)=u0(n),1≤n≤K×(1-β)
(9)
式中:Tmin為低閾值;Tmax為高閾值;u0為直方圖統(tǒng)計的總像素值從小到大的向量;u1為低于低閾值的向量;u2為低于高閾值的向量;α、β為可控的色階因子;K為像素點的總個數(shù)。
本文采用線性量化方式得到最終增強(qiáng)的圖像,將像素值在高低閾值之間的像素值通過線性量化重新分配像素值,量化公式如下:
(10)
式中:R為量化后的像素值;Rs為高低像素閾值之間的像素值;s為每個通道得到的最小值;l為每個通道的最大值。
在9種不同噪聲源下,5 dB語音原始圖像和經(jīng)過自動色階算法增強(qiáng)的圖像如圖5所示。從圖5中可以看到,經(jīng)過自動色階處理的圖像相對于原始圖像更加清晰,噪聲掩蔽信息的效果也減小,使得語種信息更加凸顯,圖像更具辨識性。
圖5 不同噪聲源下5 dB原始語譜圖(左)和增強(qiáng)語譜圖(右)
1)訓(xùn)練集:語料庫采用中國各大廣播電臺的廣播音頻,共包含5個語種:漢語、藏語、維吾爾語(簡稱維語)、英語、哈薩克斯坦語(簡稱哈語)。每個語種包含600條、采樣率fs=8 000 Hz、單通道的wav格式、時長10 s的音頻文件。采用Nonspeech公開噪聲庫中的WN作為背景噪聲,每個語種包含信噪比等級SNR=[5 dB,10 dB,15 dB,20 dB,25 dB]的語音各100條,以及未加噪的語音100條。
2)測試集:語料庫采用區(qū)別于訓(xùn)練集的其他廣播電臺的廣播音頻。每個語種171條,分別與Nonspeech公開噪聲庫中的9種噪聲源,構(gòu)建9種不同噪聲源的語料庫,每種語料庫包含信噪比等級SNR=[-10 dB,-5 dB,0 dB,5 dB,10 dB]的音頻,從而構(gòu)成45個測試數(shù)據(jù)庫。
(11)
式中:Ap、Az、Aw、Ay、Ah分別為不同語種的識別正確個數(shù);A為總識別個數(shù)。
F1分?jǐn)?shù)定義如下:
(12)
(13)
式中:V為語種個數(shù);F1n為每個語種的F1分?jǐn)?shù),
(14)
Precisionn和Recalln為每個語種的精確率和召回率,
(15)
(16)
TP表示預(yù)測為正確的正樣本,FP表示預(yù)測為錯誤的正樣本,FN表示預(yù)測為錯誤的負(fù)樣本。
3.2.1 可控色階因子參數(shù)選取
表1給出了可控色階因子α、β不同數(shù)值在測試和訓(xùn)練都是WN環(huán)境下的識別率。由于WN相對更加平穩(wěn),在所有類型噪聲中相當(dāng)于中間值,當(dāng)調(diào)節(jié)好WN信號所適合的色階因子后,其他非平穩(wěn)噪聲信號就可以在這個基礎(chǔ)上得到相對較好的噪聲抑制效果。從表1中可以發(fā)現(xiàn),當(dāng)α=0.45、β=0.35時效果最佳。
表1 α、β不同數(shù)值時的識別率平均值
3.2.2 語種模型構(gòu)建與參數(shù)選取
本文構(gòu)建的Resnet模型主要由多個殘差模塊堆疊實現(xiàn),圖6為ResNet的語種模型基本結(jié)構(gòu)單元。
圖6 ResNet模型的基本結(jié)構(gòu)單元
在基本結(jié)構(gòu)單元中,s為輸入,relu為激活函數(shù),σ如下:
(17)
F(s)為結(jié)構(gòu)單元在第2層激活函數(shù)之前的輸出。最后殘差單元的輸出是經(jīng)過relu激活后得到的激活值σ(F(s)+s)。非線性映射過程F(s)為
F(s)=λ2σ(λ1s)
(18)
式中:λ1和λ2分別為第1層和第2層卷積的權(quán)重。
本文搭建的網(wǎng)絡(luò)主要由一個卷積層、一個最大池化層、8個殘差模塊、一個平均池化層和一個全連接層組成。采用交叉熵作為損失函數(shù)、Adam作為優(yōu)化器,未采用預(yù)訓(xùn)練模型。針對本文搭建的語種模型,調(diào)整模型的層數(shù)、學(xué)習(xí)率及迭代次數(shù)。根據(jù)實驗過程中的識別正確率及損失函數(shù)值,最終本文采用的模型層數(shù)為18層,學(xué)習(xí)率為0.000 1,迭代次數(shù)為30次。
3.2.3 戰(zhàn)場環(huán)境下的語種識別實驗
為驗證9種戰(zhàn)場噪聲環(huán)境下本文方法的有效性及魯棒性,并分析其優(yōu)劣的原因,設(shè)計了8組實驗。
實驗1:提取文獻(xiàn)[27]中64維的梅爾尺度濾波器能量(Fbank)作為語種特征。
實驗2:提取文獻(xiàn)[12]中的LGSS作為語種特征。
實驗3:提取文獻(xiàn)[11]中的DBF特征作為語種特征。
實驗4:提取文獻(xiàn)[28]中的FRSCIRT特征作為語種特征。
實驗5:提取對數(shù)灰度語譜圖(TGSS)作為特征訓(xùn)練識別,驗證對數(shù)灰度語譜圖的有效性。
實驗6:提取濾波對數(shù)灰度語譜圖(FTGSS)作為語種特征,驗證濾波可以消除部分噪聲的影響。
實驗7:提取圖像增強(qiáng)的濾波對數(shù)灰度語譜圖(FTGSSE),驗證本文最終方法的有效性及魯棒性。
由實驗1~實驗5可知,在WN環(huán)境及5種信噪比等級下,TGSS特征均優(yōu)于Fbank特征和LGSS特征。由于TGSS更好地模擬了人耳的聽覺效應(yīng),抗干擾能力更強(qiáng)。在較高信噪比下相對于DBF特征有所不足,DBF特征經(jīng)過多層神經(jīng)網(wǎng)絡(luò)減少了說話人信息的干擾,但是信噪比較低時DBF特征不能通過網(wǎng)絡(luò)層數(shù)濾除噪聲信息,導(dǎo)致識別性能不佳。與FRSCIRT特征相比,TGSS特征識別性能不佳,盡管FRSCIRT特征很好地解決了說話人信息的干擾,又融合了抗干擾能力強(qiáng)的特征,但是在低信噪比下,識別性能依然不佳。
對比實驗5、實驗6可知,FTGSS特征相對于TGSS特征,識別性能有了些許提高,由于FTGSS特征引入了帶通濾波,將高頻和極低頻部分的大量噪聲濾除,從而間接提高了信噪比。
對比實驗4、實驗6、實驗7可知,FTGSSE特征相對于FTGSS特征在識別性能上有了大幅度提升。由于FTGSSE特征對FTGSS特征進(jìn)行了圖像噪聲抑制,間接增強(qiáng)語種信息,使得語種之間的特征區(qū)分度更高。相對于FRSCIRF特征,在5種信噪比下,分別提升了23.5%、15.8%、6.5%、4.3%和2.2%。由于FRSCIRF特征沒有從根本上對噪聲進(jìn)行抑制,導(dǎo)致低信噪比下識別性能不佳。在較高信噪比下,FTGSSE提升不明顯,是由于一部分語種信息被抑制了。
根據(jù)表2所示其他8種噪聲環(huán)境下的實驗結(jié)果可知,在訓(xùn)練集背景噪聲為WN的情況下,對不同背景噪聲的測試集進(jìn)行測試,本文提出的FTGSSE特征在大部分場景下具有明顯的優(yōu)勢,而且保持較高的識別性能和高魯棒性。在VN源和MGN源環(huán)境極低信噪比下,識別性能不如FTGSS特征,是由于噪聲集中在低頻部分,導(dǎo)致采用圖像處理方法不能很好地抑制掉噪聲,反而語種信息被抑制掉一部分。從表2中可知,本文提出的TGSS特征在所有場景下都優(yōu)于LGSS特征,是由于TGSS特征模擬了人耳的聽覺特性,從而具有更好的抗噪性能。FTGSS特征相對于TGSS特征在所有場景下識別性能也取得了一定的提升,由于FTGSS特征濾除了高頻和極低頻部分,間接地提升了整段語音的信噪比,識別性能有所提升。
表2 不同噪聲源和不同信噪比下的語種識別正確率
根據(jù)表3所示實驗所得的F1分?jǐn)?shù)可知,本文提出的FTGSSE相對于LGSS,在保持較高識別正確率的前提下,依然具有較高的召回率和精確率,表明本文提出方法的魯棒性高。圖7為不同噪聲源在信噪
表3 不同噪聲源和不同信噪比下的語種識別F1分?jǐn)?shù)
圖7 不同噪聲源0 dB下FTGSSE方法的混淆矩陣圖
比為0 dB環(huán)境下的語種識別混淆矩陣圖,從中可知,除了漢語外,其他4種語言在4種噪聲環(huán)境下都保持較高的識別精度。
圖8為9種噪聲環(huán)境下,采用FTGSSE特征和LGSS特征的平均識別正確率。從圖8中可知,在9種噪聲環(huán)境下,FTGSSE特征平均識別正確率都高于LGSS特征,分別提升了31.5%、39.2%、25.3%、32.0%、19.8%、10.1%、29.6%、31.8%和2.8%。而且在訓(xùn)練集為WN的情況下,測試其他噪聲依然保持較高的識別正確率。由理論和實驗結(jié)果可知,本文提出的FTGSSE特征具有較高的魯棒性和識別性能。平均識別正確率的定義如下:
圖8 不同噪聲環(huán)境下的平均識別正確率
(19)
本文針對戰(zhàn)場環(huán)境下噪聲類型復(fù)雜多樣性,導(dǎo)致目前語種識別方法很難在戰(zhàn)場環(huán)境下很好地應(yīng)用,提出了FTGSSE特征解決戰(zhàn)場環(huán)境下的語種識別問題。在訓(xùn)練集背景噪聲為WN、測試集為9種噪聲環(huán)境下,FTGSSE特征依然保持較高的識別性能和高魯棒性。后續(xù)考慮對模型進(jìn)行改進(jìn),引入注意力機(jī)制及多任務(wù)學(xué)習(xí)機(jī)制,實現(xiàn)對不同噪聲環(huán)境下采用不同的噪聲抑制方法。