華英杰,朵 琳,劉 晶,邵玉斌
(昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500)
語種識別(Language Identification,LID)是通過計算機判斷某段未知語音的所屬類別,是跨語言智能語音處理系統(tǒng)的前端[1],其被廣泛應(yīng)用于各種實際場景,如:國際會議、軍事監(jiān)聽、出國旅游等.目前,語種識別技術(shù)在無噪環(huán)境和長語音上已經(jīng)達(dá)到工業(yè)水準(zhǔn),但是在嘈雜環(huán)境、短語音和高度混淆語種等情況下,識別性能依然不佳.
傳統(tǒng)的語種識別主要基于聲學(xué)特征和音素層特征.底層聲學(xué)特征主要包括感知線性預(yù)測系數(shù)(Perceptual Linear Predictive,PLP)[2]、梅爾頻率倒譜系數(shù)(Mel-frequency Cepstral Coefficient,MFCC)[3]、伽瑪通頻率倒譜系數(shù)(Gammatone Frequency Cepstrum Coefficient,GFCC)[4]、對數(shù)Mel 尺度濾波器能量(Log Mel-Scale Filter Bank Energies,Fbank)[5]等.目前主流的語種識別模式主要是支持向量機(Support Vector Machines,SVM)[6]和混合高斯模型?全局背景模型(Gaussian Mixture Model-Universal Back-ground Model,GMM-UBM)[7]等.基于音素層特征主要解決的是不同語種的不同音素集合問題.其主流模型包括并行音素識別器后接語言模型(Parallel Phone Recognition followed by Language Modeling,PPRLM)[8]等.
由于神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,越來越多的研究傾向于將神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于語種識別中,主要包括卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等.與傳統(tǒng)的語種識別模型相比,取得了更高的識別準(zhǔn)確率.Montavon[9]將含有時域和頻域信息的語譜圖作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,獲得高于聲學(xué)特征的識別準(zhǔn)確率.Jiang 等[10]通過深度神經(jīng)網(wǎng)絡(luò)較強的特征提取能力,在i-vector 語種識別方法上引入深瓶頸層特征方法,該特征在面對大量的語料信息時,尤其是對于實時性要求比較高的語種識別任務(wù)時,實用性較好.Lopez-Moreno 等[11]利用特征提取、特征變換以及分類器融合在一個神經(jīng)網(wǎng)絡(luò)模型中,提出一種端到端的語種識別模型.Geng 等[12]將注意力機制模型引入到語種識別的模型中,并取得了較大的性能提升.Watanabe 等[13]提出一種基于語種無關(guān)架構(gòu)的端到端模型處理多語種識別的問題.Cai 等[14]利用底層聲學(xué)特征直接學(xué)習(xí)語種類別信息,提出一種基于可學(xué)習(xí)的字典編碼層的端對端系統(tǒng),使得語種識別性能得到提升.Snyder等[15]提出了X-vector 方法,將不定長度的語音片段應(yīng)用在時延神經(jīng)網(wǎng)絡(luò)映射到固定維度的embedding 中,這個embedding 便稱作X-vector,相比基于I-vector 方法,在短時語音識別取得了更好的效果.Jin 等[16]提出了從網(wǎng)絡(luò)中間層獲取語種區(qū)分性的基本單元特征.Bhanja 等[17]利用色度特征與MFCC 特征融合,使得語種識別性能得到很大的提高,但計算量增大.Garain 等[18]利用底層聲學(xué)特征將其轉(zhuǎn)化為圖像信息,放入到卷積神經(jīng)網(wǎng)絡(luò)中進行識別,此方法魯棒性能較差,特征表現(xiàn)形式單一.在時延神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,韓玉蓉等[19]利用多頭自注意力雙支流Xvector 網(wǎng)絡(luò),使用多頭自注意力機制替換池化層,增大了有效特征權(quán)重,并針對樣本數(shù)不均衡及難分類問題引入類別權(quán)重因子和調(diào)制因子,使得訓(xùn)練模型的損失函數(shù)得到了改進.但上述方法在復(fù)雜噪聲環(huán)境下,語種識別正確率較低.
針對在低信噪比環(huán)境下語種識別性能不佳問題,本文提出了一種結(jié)合人的聽覺特性和發(fā)聲特性的語種識別方法,在很大程度上提高了低信噪比環(huán)境下識別準(zhǔn)確率.首先根據(jù)人耳聽覺感知具有的非線性特點,引入耳蝸濾波器模擬聽覺特性,并提取耳蝸倒譜系數(shù)(Cochlear Filer Cepstral Coefficents,CFCC)特征;再根據(jù)人的發(fā)聲特性提取聲道沖激響應(yīng)頻譜參數(shù)(Spectral Parameters of Channel Impulse Response,SCIR)特征,減少說話人信息的影響,增強語種信息;最后融合聽覺特性和發(fā)聲特性得到融合特征CFCC+SCIR 特征.測試結(jié)果表明,該特征在噪聲環(huán)境下識別性能較高,具有一定的抗干擾性.
1.1 構(gòu)建帶噪語音模型帶噪語音信號定義為x(n)=s(n)+w(n),其中,s(n)為原語音,w(n)為高斯白噪聲,其均值為0,平均信噪比(Signal Noise Ratio,SNR)定義為:
1.2 GMM-UBM 語種識別模型采用混合高斯模型?全局背景模型(Gaussian Mixture Model-Universal Back-ground Model,GMM-UBM)作為語種識別后端,能夠準(zhǔn)確識別判斷出不同語言在共同背景環(huán)境之間的區(qū)別,具有較高的魯棒性,并且在訓(xùn)練集數(shù)據(jù)量少的環(huán)境下能夠得到高混合度的模型.基于GMM-UBM 的語種識別模型框架如圖2 所示.該模型先對輸入的M種語種背景語音分別進行聽覺特征提取和發(fā)聲特征提取,將兩種特征進行融合,輸入到UBM 模型進行訓(xùn)練;再對目標(biāo)語音也分別提取聽覺特征和發(fā)聲特征后進行特征融合;然后輸入到GMM 模型進行訓(xùn)練.訓(xùn)練完后將UBM 訓(xùn)練得到的公共模型與GMM 訓(xùn)練得到的語種模型通過模型自適應(yīng)得到K種語種模型,根據(jù)測試語種與語種模型對比結(jié)果判定語種.
圖2 GMM-UBM 語種識別模型框架Fig.2 The model framework of GMM-UBM language recognition
特征提取是語種識別中非常關(guān)鍵的步驟之一,特征的魯棒性高低與否以及能否高效區(qū)分語種都對后期語種識別性能有著關(guān)鍵的影響.本文提出的基于聽覺特性和發(fā)聲特性的融合特征提取流程如下:首先提取耳蝸倒譜系數(shù)特征,再提取聲道沖激響應(yīng)頻譜參數(shù)特征,最后從幀級別的角度進行特征融合,得到融合特征集.具體流程如圖3 所示.
圖3 特征提取流程圖Fig.3 The flowchart of feature extraction
2.1 基于聽覺特性的語種特征提取人耳對聲音的敏感度主要受聲音的方位、響度、音調(diào)及音色等因素的影響.對于細(xì)微的聲音,只增加響度,人耳便可以感受到,但當(dāng)響度增大到某一值后,再增大響度人耳聽覺卻沒有明顯的變化.因此將人耳受響度因素影響的這一聽覺特性定義為“非線性”特性.CFCC 可以很好地模擬了人耳聽覺這一特性.CFCC 特征參數(shù)提取過程主要包括聽覺變換、毛細(xì)胞函數(shù)、非線性變換和離散余弦變換[20].聽覺變換是利用小波變換實現(xiàn)濾波的,能夠很好地實現(xiàn)人耳窩聽覺感知的非線性結(jié)構(gòu).首先定義一個耳蝸濾波函數(shù) ξ(n)∈L2(R),要求 ξ(n)滿足下面4 個公式.
圖1 不同信噪比下的語音局部波形圖Fig.1 Partial waveforms of speech under different signal-to-noise ratios
式中:ξ(n)為定義的耳蝸濾波函數(shù),C為任意正數(shù).并假設(shè)z(n)為任意一個平方可積的語音信號函數(shù),經(jīng)過聽覺變換輸出為:
式中:ξa,b(n)為耳蝸濾波函數(shù),其表達(dá)式見公式(7).
式中:α>0,β>0,α和 β的取值決定了耳蝸濾波函數(shù)的頻域形狀和寬度,這里取經(jīng)驗值 α=3,β=0.2.u(n) 為單位步進函數(shù),b為隨時間可變的實數(shù),a為尺度變量,θ為初始相位.在一般情況下,a可由濾波器組的中心頻率fC和最低中心頻率fL決定,即:
將式(7)代入(6)即可得到z(n)經(jīng)聽覺變換的輸出T(a,b).毛細(xì)胞函數(shù)可以將耳蝸的內(nèi)毛細(xì)胞經(jīng)聽覺變換輸出后的語音信號轉(zhuǎn)變?yōu)槿四X可分析的電信號,其模擬過程表達(dá)式為:
式中:d=max{3.5τi,20 ms},d是第i頻帶毛細(xì)胞函數(shù)的窗長;τi是第i個濾波器中心頻帶中心頻率的時間長度,τi=1/fC;L為幀移,一般情況下,取L=d/2;j是窗的個數(shù).
將式(10)的輸出S(i,j)再次進行響度函數(shù)的尺度變換.文獻(xiàn)[20]采用非線性冪函數(shù)變換,利用
進行模擬.非線性冪函數(shù)可粗略近似為聽覺神經(jīng)元發(fā)放率?強度曲線,且非線性冪函數(shù)的特性與人耳聽覺相符,即輸出的動態(tài)特性不完全取決于輸入量的幅度.最終利用離散余弦變換對y(i,j)進行去相關(guān)性得到 15×j維的特征矩陣Y,得出CFCC 特征參數(shù).
2.2 基于發(fā)聲特性的語種特征提取在整個發(fā)聲系統(tǒng)中主要包含兩種參數(shù)模型,即聲門激勵脈沖頻譜(激勵模型)和聲道沖激響應(yīng)頻譜(聲道模型)[21].聲道是由聲道的氣管控制的,屬于分布參數(shù)系統(tǒng),可以看作是諧振腔,包含很多諧振頻率.諧振頻率是由每一瞬間的聲道外形決定的,這些諧振頻率稱為共振頻率,是聲道的重要聲學(xué)特性.SCIR 特征還包含元音和發(fā)聲方式等語種信息,因此可以將其作為語種特征.SCIR 特征參數(shù)提取過程具體步驟如下:
步驟 1對x(n)進行預(yù)加重處理,提升信號的高頻部分,得到z(n).
步驟 2對z(n) 進行分幀處理,幀長 ?=256,幀移 ε=128,對于分幀后得到j(luò)幀信號,第i幀的信號為zi(n).
步驟 3對每一幀信號zi(n)進行離散傅里葉變換得到zi(k),并對zi(k)每個數(shù)據(jù)取模得到ui(k).
步驟 4根據(jù)Savitzky-Golay 濾波器原理,利用每個窗口上擬合的二次多項式對數(shù)據(jù)進行平滑處理,使之減少語音噪聲以及頻譜突變的影響.在最大限度地保留語音特征的條件下對噪聲進行抑制,平滑處理后的信號為:
式中:h(η)為平滑濾波器的抽樣響應(yīng);M為平滑處理窗口長度的一半,由實驗結(jié)果證實,當(dāng)M=5時,效果較好.
步驟 5對yi(k)取對數(shù),更好地描述聽覺系統(tǒng):
步驟 6對si(k)進行逆離散傅里葉變換處理,即取倒譜,目的是將聲門激勵脈沖和聲道沖激響應(yīng)更好有效分離,求倒譜后得到ci(n).
步驟 7因為倒譜具有對稱性的特點,所以將倒譜中的第30 條譜線為界進行劃分.因此1~30和227~256 區(qū)間構(gòu)成聲道沖激響應(yīng)倒譜序列:
式中:gi(n)為聲道沖激響應(yīng)倒譜序列,其構(gòu)建的長度為256.
步驟 8對gi(n)進行離散傅里葉變換,然后取實數(shù)部分.由于兩邊是對稱性的,因此可以只取前半部分,得到聲道沖激響應(yīng)頻譜ri(k).
步驟 9對ri(k)取樣,由實驗可得間隔點個數(shù)C=6,為了使訓(xùn)練的數(shù)據(jù)量少且大量語種信息不被破壞,故加快訓(xùn)練速度和識別速度,得到 22×1的第i幀取樣后的SCIR 特征向量,將每幀特征向量融合得到該段語音的 22×j維的特征矩陣G:
式中:D為最后一個取樣點對應(yīng)ri(k)中的位置.
2.3 基于聽覺和發(fā)聲特性的語種特征融合CFCC 特征只模擬了聽覺特性,并沒有進行說話人信息的抑制,說話人信息屬于干擾信息,而SCIR特征可以有效地抑制說話人信息的干擾,但是無法很好地反映人耳聽覺特性及語音信息.因此為了得到抗干擾性能更佳的語種特征集,本文提出將包含聽覺特性的特征CFCC 和包含發(fā)聲特性的特征SCIR 融合得到新的特征集CFCC+SCIR.在提取CFCC 特征的基礎(chǔ)上,加入反映不同語種的發(fā)聲方式和聲道形態(tài)上存在差異的SICR 特征.融合特征既模擬了人耳的聽覺特性又包含了不同語種的發(fā)聲特性,還在一定程度上抑制了說話人信息和噪聲信息的干擾,可以更好地表示不同語種的本質(zhì)特征,具有更好的魯棒性.
本文從幀級別的角度進行特征融合,將15 維的CFCC 特征矩陣G和22 維的SCIR 特征矩陣Y特征進行融合,融合公式如下:
式中:R為 37×j維的融合特征矩陣CFCC+SCIR.
本研究采用的數(shù)據(jù)集來自中國國際廣播電臺的廣播音頻語料庫,音頻經(jīng)過人工處理,剔除了干擾因素,為采樣率f=8 000 Hz、時長t=10 s的單通道的語音段.包括漢語、藏語、維吾爾語、英語、哈薩克斯坦語等5 種語種.訓(xùn)練集采用的語種數(shù)目K=5,每種語種300 條,其中50 條為純凈語音,其他250 條分別與白噪聲構(gòu)建 SNR=[5 ~25]dB的帶噪語音.測試集每種語種171 條,分別與白噪聲構(gòu)建形成 SNR=[?5,0,5,10]dB的4 種帶噪測試語料庫.UBM 自適應(yīng)模型采用的語種數(shù)目隨機,只要該數(shù)據(jù)為廣播數(shù)據(jù)即可,選取1 675 條隨機廣播音頻.采用識別正確率作為評價指標(biāo),計算公式如下:
式中:Ah、Az、Aw、Ay、As為每種語種識別正確數(shù),N為總識別數(shù),R為平均識別正確率.
3.1 GMM-UBM 模型混合度實驗本文選用13維靜態(tài)CFCC 特征參數(shù),分別對16、32、64、128等4 種不同混合度進行訓(xùn)練測試.不同混合度的GMM-UBM 模型的識別正確率如表1 所示.
表1 不同混合度的GMM-UBM 模型識別正確率Tab.1 Recognition accuracy of GMM-UBM models with different mixture degrees %
從表1 可知,在?5 dB 和0 dB 下識別性能沒有太大的差別,識別性能都不佳.在5 dB 和10 dB 下混合度在64 時識別性能最佳,但是只比混合度為32 時分別提高0.6 和0.3 個百分點,然而訓(xùn)練識別時間卻多出1 倍.因此,綜合考慮本文的模型混合度設(shè)為32.
3.2 基于聽覺特性的語種識別實驗本文設(shè)計4組實驗,實驗1~3 為對比實驗,實驗4 為本文提出基于聽覺特性的識別方法.在背景噪聲為白噪聲的環(huán)境下,分別驗證不同信噪比下所提出的語種識別方法的有效性及性能,并分析其優(yōu)劣的原因.實驗1~4 分別提取64 維對數(shù)Mel 尺度濾波器能量(Fbank)[5]、13 維靜態(tài)MFCC[3]、13 維靜態(tài)GFCC[4]、15 維CFCC 特征作為語種特征,實驗結(jié)果如表2 所示.
表2 基于聽覺特性的語種識別正確率Tab.2 Correct rate of language recognition based on auditory characteristics %
從表2 可以看出,與常見的MFCC 特征和GFCC 特征相比,本文提出的CFCC 特征在識別性能上具有明顯的優(yōu)勢.相對于GFCC 特征,4 種信噪比下分別提升了3.5、3.6、6.6 和8.8 個百分點.由于CFCC 特征采用的是非線性冪函數(shù),可以更好地模擬聽覺神經(jīng)元發(fā)放率,而且CFCC 特征是基于耳蝸濾波器的聽覺變換特征,更好地模擬了人的聽覺特性.與Fbank 特征相比,CFCC 特征在5 dB 和10 dB 下識別性能更好,在?5 dB 和0 dB 下識別性能有所下降.由于Fbank 特征采用的是殘差神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練識別,對噪聲具有一定的抑制作用,但是在高信噪比下,CFCC 特征的優(yōu)勢就更加明顯,在5 dB 和10 dB 下分別提升了3.6 和6.7 個百分點.
3.3 基于聽覺特性和發(fā)聲特性的語種識別實驗從表2 可知本文提出的CFCC 特征具有在高信噪比下具有明顯優(yōu)勢,在低信噪比下依然性能不佳.因此本文基于人的聽覺特性和發(fā)聲特性出發(fā),提出了融合兩種特性的融合特征集(CFCC+SCIR).下面設(shè)計的4 組實驗,實驗1~3 為對比實驗,實驗4為本文提出的融合特征實驗.分別驗證不同信噪比下,本文提出的基于聽覺特性和發(fā)聲特性的語種識別方法的有效性及其優(yōu)劣的原因.實驗1~4 分別提取64 維Fbank、13 維S-GFCC+PCA[22]、22 維SCIR[21]、37 維CFCC+SCIR 特征作為語種特征,實驗結(jié)果如表3 所示.
表3 基于聽覺特性和發(fā)聲特性的語種識別正確率Tab.3 Correct rate of language recognition based on auditory and vocal characteristics %
從表3 可以看出,本文提出CFCC+SCIR 特征具有明顯優(yōu)勢.相對于采用深度學(xué)習(xí)的Fbank 特征,在4 種信噪比下分別提升了12.3、26.6、14.1 和11.2 個百分點.由于CFCC+SCIR 特征從人的發(fā)聲和聽覺進行出發(fā),具有一定的抗干擾能力.與SCIR 特征相比,也在性能上具有一定的提升,由于SCIR 特征只研究了人的發(fā)聲特性,而CFCC+SCIR 特征還結(jié)合了人的聽覺特性.與S-GFCC+PCA 特征相比,CFCC+SCIR 特征在0 dB 和5 dB上提升明顯,分別提升了9.8 和8.1 個百分點.
3.4 不同語種識別方法的平均識別正確率從平均識別正確率對比本文方法的優(yōu)勢,不同方法的平均識別正確率如圖4 所示.平均識別正確率的定義如下:
圖4 不同方法的平均識別正確率Fig.4 Average recognition accuracy of different methods
式中:R?5dB、R0dB、R5dB、R10dB分別是不同信噪比下的識別正確率,Ra是4 種信噪比下的平均識別正確率.
從圖4 可以看出,4 種信噪比下,MFCC 特征識別性能最差,CFCC+SCIR 特征識別性能最佳.相對于Fbank 特征、MFCC 特征、GFCC 特征、SGFCC+PCA 特征、SCIR 特征分別提升了16.1、24、20.7、7.3 和9.8 個百分點.本文提出的方法很好地結(jié)合了人的聽覺特性和發(fā)聲特性,從而增強了特征的抗干擾能力.
針對低信噪比環(huán)境下語種識別性能不佳,提出一種基于人耳的聽覺特性和人的發(fā)聲特性的語種識別方法.首先利用人的發(fā)聲特性提取SCIR 特征,再模擬人耳的聽覺特性提取CFCC 特征,從而得到最終的CFCC+SCIR 特征.從理論分析和仿真實驗結(jié)果可以看出,本文提出的CFCC+SCIR 特征具有一定的抗噪性能,在4 種信噪比下明顯優(yōu)于其他方法.后續(xù)針對該方法在極低信噪比下識別性能不佳繼續(xù)進行研究,并針對真實的噪聲環(huán)境展開研究.