李志偉
摘 要:海量視音頻信息檢索一直是人們研究與應(yīng)用的熱點(diǎn)。文章介紹的一種關(guān)鍵音檢索系統(tǒng),使用MFCC算法提取語音特征,調(diào)用Viterbi解碼算法和國際音標(biāo)模式庫,解碼得出該音頻文件對(duì)應(yīng)的國際音標(biāo)序列。并利用距離編輯算法計(jì)算得出關(guān)鍵詞在音頻文件各個(gè)時(shí)間點(diǎn)處的置信度,獲取檢索模塊輸出的檢索結(jié)果。本系統(tǒng)具有與待檢測語言無關(guān)的特點(diǎn),對(duì)普通話和英語的檢索準(zhǔn)確率不低于90%,且支持敏感度調(diào)節(jié)和多詞匯并行檢測的優(yōu)點(diǎn)。
關(guān)鍵詞:語音檢索;MFCC算法;IPA
中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8937(2016)02-0048-02
1 概 述
面對(duì)海量的視音頻信息流,依靠傳統(tǒng)的人工處理技術(shù)費(fèi)時(shí)費(fèi)力,急需要采用自動(dòng)化的監(jiān)控和高效的信息檢索技術(shù)。而傳統(tǒng)的視音頻檢索技術(shù)主要依賴于人工標(biāo)注,所能搜索的范圍也受限于標(biāo)注信息,這遠(yuǎn)不能滿足快速增長的海量數(shù)據(jù)處理的需求,不能提供更準(zhǔn)確的基于內(nèi)容的檢索。與詞匯無關(guān)的關(guān)鍵詞檢測方法(Key Word Spotting,KWS),是在一段連續(xù)語音中找出給定的目標(biāo)詞的發(fā)音所出現(xiàn)的準(zhǔn)確時(shí)間段,并給出每個(gè)候選段的置信度。其缺點(diǎn)在于無法處理集外詞,對(duì)于比較自然隨意的語音(Spontaneous Speech)和在噪音的環(huán)境下,識(shí)別率會(huì)下降。
國際音標(biāo),又稱國際語音字母(International Phonetic Alphabet,IPA),是用于為全世界所有語言注音的符號(hào)系統(tǒng)。它根據(jù)一符一音的原則把發(fā)音規(guī)則表示成相應(yīng)符號(hào)。通過最小的音素發(fā)音方式,就可以對(duì)任何語音進(jìn)行標(biāo)注。
對(duì)于常用的語言,如漢語可以使用44個(gè)音標(biāo)標(biāo)注,英語50個(gè)標(biāo)注。
本文介紹的語音檢索系統(tǒng)就是利用國際音標(biāo)的一符一音的原則,對(duì)于最小的發(fā)音單元“音素”進(jìn)行計(jì)算機(jī)建模。該系統(tǒng)基于MFCC算法,通過轉(zhuǎn)換預(yù)料庫成對(duì)應(yīng)的國際音標(biāo),經(jīng)Viterbi解碼和距離編輯算法檢索出結(jié)果,系統(tǒng)具備與詞匯無關(guān)和多關(guān)鍵詞檢測的特點(diǎn)。
下面分別從MFCC算法、系統(tǒng)設(shè)計(jì)及其優(yōu)缺點(diǎn)三個(gè)方面進(jìn)行介紹。
2 MFCC算法
2.1 MFCC算法綜述
目前最有效的提取語音特征的方法是MFCC或線性預(yù)測倒譜系數(shù)(LPCC)法。
其中,MFCC特征提取方法是根據(jù)人耳對(duì)不同頻率的聲音信號(hào)具有不同的感知能力,且在頻域上聲音信號(hào)呈現(xiàn)非線性關(guān)系而提出。
該方法首先對(duì)語音信號(hào)預(yù)加重、分幀、加窗處理,然后對(duì)每幀進(jìn)行離散傅里葉變換,得到在頻率域上的能量分布。
根據(jù)人耳特性設(shè)置一組三角濾波器組,計(jì)算每個(gè)濾波器輸出的能量的對(duì)數(shù),再經(jīng)過離散余弦變換,得到一組系數(shù)即MFCC。
2.2 具體步驟
具體步驟如下:
①原始語音信號(hào)經(jīng)過預(yù)加重、分幀、加窗,用FFT轉(zhuǎn)化為頻域信號(hào)x(m),并計(jì)算其短時(shí)能量譜P(f)。將P(f)轉(zhuǎn)化為美爾坐標(biāo)上的頻率P(fmel)。
②在美爾頻域內(nèi)將三角帶通濾波器加于Mel坐標(biāo),得到濾波器組Hm(k),0≤m≤M0,M0為濾波器個(gè)數(shù).每個(gè)濾波器的中心頻率為f(m),每個(gè)帶通濾波器的傳遞參數(shù)為:
MFCC充分考慮了人的聽覺特性,沒有任何前提假設(shè),具有良好的識(shí)別性能和抗噪能力。
3 系統(tǒng)設(shè)計(jì)
語音檢索系統(tǒng)的第一步,即是對(duì)獲取的音頻文件進(jìn)行去噪處理。
其次,提取音頻文件的MFCC特征,并通過對(duì)不同語言的語料庫進(jìn)行訓(xùn)練,完善國際音標(biāo)模式庫,也即國際音標(biāo)的隱馬爾科夫模型。
通過系統(tǒng)內(nèi)部“漢子—拼音—國際音標(biāo)”的映射表將待檢索的關(guān)鍵詞轉(zhuǎn)化為國際音標(biāo)。調(diào)用Viterbi解碼算法和國際音標(biāo)模式庫,解碼得出該音頻文件對(duì)應(yīng)的國際音標(biāo)序列。
最后,利用距離編輯算法計(jì)算得出關(guān)鍵詞在音頻文件各個(gè)時(shí)間點(diǎn)處的置信度,獲取檢索模塊輸出的檢索結(jié)果,然后根據(jù)用戶對(duì)置信度區(qū)間的調(diào)節(jié)而動(dòng)態(tài)的顯示。
系統(tǒng)設(shè)計(jì)流程,如圖1所示。
4 系統(tǒng)優(yōu)缺點(diǎn)
建設(shè)國際音標(biāo)(IPA)的語音模式庫是音標(biāo)檢索系統(tǒng)的重要一環(huán)。對(duì)于該檢索系統(tǒng)來講,只要語言(或方言)能夠用國際音標(biāo)進(jìn)行標(biāo)注,均可以檢索。具體優(yōu)缺點(diǎn)如下。
4.1 具有語言無關(guān)性
將音頻文件轉(zhuǎn)換為國際音標(biāo)標(biāo)注,具有語言無關(guān)性的優(yōu)點(diǎn),支持任何一種語言的檢索。不需要知道語言的具體含義,只需要獲得關(guān)鍵詞的發(fā)音,即可用國際音標(biāo)進(jìn)行標(biāo)注,對(duì)音頻文件快速檢索。
4.2 準(zhǔn)確率高,誤報(bào)率低
普通話和英語檢索準(zhǔn)確率應(yīng)達(dá)到90%以上,誤報(bào)率低于10%。30 min音頻,搜索5個(gè)音素,耗時(shí)<1s。1h音頻,搜索5個(gè)音素,耗時(shí)約3~5 s。由于系統(tǒng)采用Viterbi算法對(duì)音頻MFCC特征文件進(jìn)行解碼,參與解碼的冗余音素較多,對(duì)系統(tǒng)的檢索速度和精度有一定影響。
4.3 支持敏感度調(diào)節(jié)
關(guān)鍵詞的音素序列在對(duì)本地音頻解碼得到的音素序列上進(jìn)行檢索,通過距離編輯算法計(jì)算得出每個(gè)音素對(duì)應(yīng)時(shí)間點(diǎn)處的置信度,從而在音頻的各個(gè)時(shí)間點(diǎn)處貼上了與關(guān)鍵詞的相似值(也稱置信度)的標(biāo)簽,從而用戶可以任意篩選自己需要得到的置信區(qū)間的音頻時(shí)間點(diǎn),具有敏感度調(diào)節(jié)的功能。
5 結(jié) 語
本文介紹了一種基于MFCC特征提取的關(guān)鍵音標(biāo)檢索系統(tǒng),該系統(tǒng)對(duì)提取的特征加以訓(xùn)練,并加入國際音標(biāo)映射表,經(jīng)Viterbi解碼,輸出音素序列,再經(jīng)距離編輯算法得出檢索結(jié)果。的音標(biāo)轉(zhuǎn)換的關(guān)鍵音檢索系統(tǒng),采用了基于MFCC算法。它具備與詞匯無關(guān)的關(guān)鍵詞檢測能力,同時(shí)又能夠提供較快速的搜索速度和準(zhǔn)確的檢測結(jié)果。支持多關(guān)鍵字并行檢索和敏感度調(diào)節(jié)的能力,對(duì)語音檢索系統(tǒng)的研究具有一定的理論參考意義。
參考文獻(xiàn):
[1] 王明合,張二華,唐振民,等.基于Fisher線性判別分析的語音信號(hào)端點(diǎn) 檢測方法[J].電子與信息學(xué)報(bào),2015,(6).
[2] 李偉,吳及,呂萍.面向海量數(shù)據(jù)的語音敏感信息檢測系統(tǒng)[J].信息工程 大學(xué)學(xué)報(bào),2010,(5).
[3] 牛濱,孔令志,羅森林,等.基于MFCC和GMM的個(gè)性音樂推薦模型[J].北 京理工大學(xué)學(xué)報(bào),2009,(4).