周大春 邵玉斌 張昊閣 杜慶治
摘要: 在進(jìn)行語(yǔ)種識(shí)別研究時(shí),使用的聲學(xué)特征矩陣維度往往很高,為了解決語(yǔ)種識(shí)別中聲學(xué)特征維度過(guò)高的問(wèn)題,本文提出一種聲學(xué)特征提取過(guò)程改進(jìn)方法. 對(duì)一些常用的聲學(xué)特征進(jìn)行統(tǒng)計(jì)特性分析,再結(jié)合其提取流程及部分文獻(xiàn)論證,通過(guò)計(jì)算特征各維在幀上的均值,再對(duì)其進(jìn)行向量歸一化消除量綱的影響得到改進(jìn)后的特征,實(shí)現(xiàn)了將傳統(tǒng)特征矩陣優(yōu)化為一維特征向量. 最后,根據(jù)改進(jìn)后特征的特性,在2 個(gè)不同的數(shù)據(jù)集下,選取BP 神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)作為基線系統(tǒng)進(jìn)行語(yǔ)種識(shí)別實(shí)驗(yàn). 實(shí)驗(yàn)結(jié)果表明,對(duì)于目前常用的5 種聲學(xué)特征,所提改進(jìn)方法相比于傳統(tǒng)做法,在降低了99. 8% 的數(shù)據(jù)量情況下,數(shù)據(jù)集1 在2 種模型下仍能取得95. 6% 的平均識(shí)別率,數(shù)據(jù)集2 在2 種模型下仍能取得90. 2% 的平均識(shí)別率. 此外,由于所提方法降低了大部分的計(jì)算量,使得算法能夠更適應(yīng)硬件設(shè)施相對(duì)較弱的嵌入式環(huán)境,擴(kuò)大了算法的使用場(chǎng)景.
關(guān)鍵詞: 語(yǔ)種識(shí)別; 聲學(xué)特征; 統(tǒng)計(jì)特性; 特征提取
中圖分類號(hào): TN912. 3 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 033004
1 引言
語(yǔ)種識(shí)別(Language Identification,LID)是計(jì)算機(jī)自動(dòng)判別輸入語(yǔ)音所屬語(yǔ)言種類的一項(xiàng)技術(shù)[1]. 作為語(yǔ)音識(shí)別技術(shù)的前端,語(yǔ)種識(shí)別在廣播監(jiān)聽(tīng)、機(jī)器自動(dòng)翻譯、信息檢索等領(lǐng)域扮演著重要角色. 基于聲學(xué)層特征的語(yǔ)種識(shí)別方法作為主流的語(yǔ)種識(shí)別方法之一,具有特征提取過(guò)程簡(jiǎn)單、訓(xùn)練時(shí)長(zhǎng)較短及易于擴(kuò)展學(xué)習(xí)等優(yōu)勢(shì). 目前,常用的聲學(xué)特征主要有對(duì)數(shù)梅爾濾波器尺度(log-FilterBank,F(xiàn)Bank)特征[2]、梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)特征[3]、伽馬通濾波器倒譜系數(shù)(Gammatone Filter CepstralCoefficients,GFCC)特征[4]、感知線性預(yù)測(cè)(PerceptualLinear Prediction,PLP)系數(shù)特征[5]及滑動(dòng)差分倒譜(Shifted Delta Cepstra,SDC)特征[6]等.
聲學(xué)特征雖然容易提取,但提取得到的特征往往是一個(gè)矩陣,維度很高. 在進(jìn)行訓(xùn)練識(shí)別時(shí),將整個(gè)特征矩陣作為輸入,無(wú)形中加重了計(jì)算機(jī)的負(fù)載,也增加了模型訓(xùn)練的時(shí)長(zhǎng). 為了解決這個(gè)問(wèn)題,部分研究學(xué)者提出了特征選擇及特征提取兩類降維技術(shù). 其中,特征提取類的主成分分析[7](Principal Component Analysis,PCA)法及線性判別分析[8](Linear Discriminant Analysis,LDA)法是目前最常用的2 個(gè)降維方法. Albadr 等[9]基于標(biāo)準(zhǔn)差計(jì)算和PCA 對(duì)MFCC 特征進(jìn)行降維,并以優(yōu)化極限學(xué)習(xí)機(jī)[10]作為分類器對(duì)兩個(gè)語(yǔ)言數(shù)據(jù)集進(jìn)行訓(xùn)練識(shí)別,在保證準(zhǔn)確率分別高達(dá)91% 的情況下,最終實(shí)現(xiàn)了只需幾秒鐘就可以識(shí)別語(yǔ)言. 劉晶等[11]對(duì)提取的S-GFCC 特征進(jìn)行PCA,提取出對(duì)識(shí)別任務(wù)貢獻(xiàn)率大的前幾維特征,并融合每個(gè)有聲段的Teager 能量算子倒譜參數(shù)形成新的組合特征,最終在噪聲環(huán)境取得了不錯(cuò)的語(yǔ)種識(shí)別效果.此外,Rachmad 等[12]還表明Fisher 線性判別分析也是一種廣泛用于模式識(shí)別的線性降維方法.
大多數(shù)學(xué)者提出的語(yǔ)種識(shí)別方法都以語(yǔ)音的幀為單位,將語(yǔ)音每一幀所對(duì)應(yīng)的特征或者其他信息提取出來(lái),再將其送入到后端網(wǎng)絡(luò)進(jìn)行訓(xùn)練與識(shí)別,這樣做會(huì)使得語(yǔ)音特征數(shù)據(jù)量過(guò)大,并且目前很多語(yǔ)種識(shí)別采用的特征均適用于語(yǔ)音識(shí)別. 但語(yǔ)種識(shí)別不同于語(yǔ)音識(shí)別,語(yǔ)種識(shí)別不需要將語(yǔ)音的每一句話都識(shí)別出來(lái),不用了解某句話具體的含義,僅需要根據(jù)部分特征,將待測(cè)語(yǔ)音的所屬語(yǔ)種正確識(shí)別出來(lái)即可,故不需要類似語(yǔ)音識(shí)別特征矩陣的大數(shù)據(jù)量即可達(dá)到識(shí)別出語(yǔ)種的目的. 目前常見(jiàn)的方法雖然都在一定程度上壓縮了聲學(xué)特征數(shù)據(jù)的量級(jí),但這些方法都是基于特征矩陣的特征向量、協(xié)方差矩陣等理論進(jìn)行的,并沒(méi)有考慮到聲學(xué)特征本身的統(tǒng)計(jì)特性. 因此,本文提出一種聲學(xué)特征提取改進(jìn)方法,從聲學(xué)特征本身的統(tǒng)計(jì)特性出發(fā),對(duì)常用的聲學(xué)特征提取過(guò)程進(jìn)行改進(jìn),在特征提取的過(guò)程中達(dá)到對(duì)特征維度的壓縮,并在2 個(gè)不同的數(shù)據(jù)集及二者的混合數(shù)據(jù)集下,分別采用BP 神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SupportVector Machine,SVM)對(duì)壓縮后特征進(jìn)行語(yǔ)種識(shí)別分類. 實(shí)驗(yàn)結(jié)果表明,本文所提方法大大降低了聲學(xué)特征的維度,應(yīng)用到分類系統(tǒng)中也能獲得較高的識(shí)別率.
2 聲學(xué)特征提取改進(jìn)
2. 1 常用聲學(xué)特征的提取
引言中已指出常見(jiàn)的一些聲學(xué)特征,其中姜洪臣等[13]指出SDC 特征是基于MFCC 等特征的改進(jìn)特征配置,因此本文不加以考慮. PLP 特征是一種基于聽(tīng)覺(jué)模型的特征,其參數(shù)是一組來(lái)自全極點(diǎn)預(yù)測(cè)多項(xiàng)式模型的系數(shù). 該特征參數(shù)最大的特點(diǎn)是從臨界頻帶分析、等響度曲線預(yù)加重、信號(hào)強(qiáng)度-聽(tīng)覺(jué)響度變換三個(gè)層次來(lái)模擬人耳聽(tīng)覺(jué)感知,其詳細(xì)提取流程可參考文獻(xiàn)[14],此處不再贅述. 本文參考FBank 特征,令未進(jìn)行DCT 前的GFCC 特征為對(duì)數(shù)Gammatone 濾波器尺度(GammatoneFilter Bank,GBank)特征,主要介紹前三個(gè)常用聲學(xué)特征及GBank 的提取過(guò)程,具體歸納如圖1 所示.
圖1 中,F(xiàn)Bank、MFCC、GBank 和GFCC 特征的提取過(guò)程都包含預(yù)加重、分幀加窗、快速傅里葉變換、求譜線能量等步驟. 其中,預(yù)加重的是為了提升語(yǔ)音信號(hào)中的高頻分量以減少后序處理中高頻分量的損失,而分幀加窗的目的則是為了使分析的信號(hào)近似平穩(wěn)信號(hào),并盡量減少頻譜泄露,快速傅里葉變換及求譜線能量則是為了從頻域分析語(yǔ)音的特征,且人耳對(duì)頻率也比較敏感. 不同的是,MFCC 及FBank 特征提取過(guò)程中使用的是Mel濾波器組,這是一些重疊的三角濾波器組,而GBank 特征及GFCC 提取過(guò)程使用的是Gammatone濾波器,這是一組用來(lái)模擬人耳耳蝸頻率分解特點(diǎn)的濾波器組,相鄰兩個(gè)濾波器之間也有重疊,但其幅度響應(yīng)波形并不是簡(jiǎn)單的三角形. 取對(duì)數(shù)是為了模擬人耳對(duì)聲音的聽(tīng)覺(jué)感知,使特征具有更強(qiáng)的魯棒性. 而離散傅里葉變換則是為了去除特征之間的相關(guān)性以適應(yīng)許多分類統(tǒng)計(jì)模型.FBank 特征相較于MFCC 特征只是缺少最后的離散傅里葉變換,保留了特征之間的相關(guān)性,因此多適用于深度學(xué)習(xí),GBank 特征也同理.