一種基于MFCC和IPA轉(zhuǎn)換的關(guān)鍵音檢索系統(tǒng)研究

2016-07-04 06:20:35李志偉

企業(yè)技術(shù)開發(fā)·中旬刊 2016年1期

李志偉

摘要：海量視音頻信息檢索一直是人們研究與應(yīng)用的熱點(diǎn)。文章介紹的一種關(guān)鍵音檢索系統(tǒng)，使用MFCC算法提取語音特征，調(diào)用Viterbi解碼算法和國際音標(biāo)模式庫，解碼得出該音頻文件對(duì)應(yīng)的國際音標(biāo)序列。并利用距離編輯算法計(jì)算得出關(guān)鍵詞在音頻文件各個(gè)時(shí)間點(diǎn)處的置信度，獲取檢索模塊輸出的檢索結(jié)果。本系統(tǒng)具有與待檢測語言無關(guān)的特點(diǎn)，對(duì)普通話和英語的檢索準(zhǔn)確率不低于90%，且支持敏感度調(diào)節(jié)和多詞匯并行檢測的優(yōu)點(diǎn)。

關(guān)鍵詞：語音檢索；MFCC算法；IPA

中圖分類號(hào)：TN912.34 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1006-8937（2016）02-0048-02

1 概述

面對(duì)海量的視音頻信息流，依靠傳統(tǒng)的人工處理技術(shù)費(fèi)時(shí)費(fèi)力，急需要采用自動(dòng)化的監(jiān)控和高效的信息檢索技術(shù)。而傳統(tǒng)的視音頻檢索技術(shù)主要依賴于人工標(biāo)注，所能搜索的范圍也受限于標(biāo)注信息，這遠(yuǎn)不能滿足快速增長的海量數(shù)據(jù)處理的需求，不能提供更準(zhǔn)確的基于內(nèi)容的檢索。與詞匯無關(guān)的關(guān)鍵詞檢測方法（Key Word Spotting，KWS），是在一段連續(xù)語音中找出給定的目標(biāo)詞的發(fā)音所出現(xiàn)的準(zhǔn)確時(shí)間段，并給出每個(gè)候選段的置信度。其缺點(diǎn)在于無法處理集外詞，對(duì)于比較自然隨意的語音（Spontaneous Speech）和在噪音的環(huán)境下，識(shí)別率會(huì)下降。

國際音標(biāo)，又稱國際語音字母（International Phonetic Alphabet，IPA），是用于為全世界所有語言注音的符號(hào)系統(tǒng)。它根據(jù)一符一音的原則把發(fā)音規(guī)則表示成相應(yīng)符號(hào)。通過最小的音素發(fā)音方式，就可以對(duì)任何語音進(jìn)行標(biāo)注。

對(duì)于常用的語言，如漢語可以使用44個(gè)音標(biāo)標(biāo)注，英語50個(gè)標(biāo)注。

本文介紹的語音檢索系統(tǒng)就是利用國際音標(biāo)的一符一音的原則，對(duì)于最小的發(fā)音單元“音素”進(jìn)行計(jì)算機(jī)建模。該系統(tǒng)基于MFCC算法，通過轉(zhuǎn)換預(yù)料庫成對(duì)應(yīng)的國際音標(biāo)，經(jīng)Viterbi解碼和距離編輯算法檢索出結(jié)果，系統(tǒng)具備與詞匯無關(guān)和多關(guān)鍵詞檢測的特點(diǎn)。

下面分別從MFCC算法、系統(tǒng)設(shè)計(jì)及其優(yōu)缺點(diǎn)三個(gè)方面進(jìn)行介紹。

2 MFCC算法

2.1 MFCC算法綜述

目前最有效的提取語音特征的方法是MFCC或線性預(yù)測倒譜系數(shù)（LPCC）法。

其中，MFCC特征提取方法是根據(jù)人耳對(duì)不同頻率的聲音信號(hào)具有不同的感知能力，且在頻域上聲音信號(hào)呈現(xiàn)非線性關(guān)系而提出。

該方法首先對(duì)語音信號(hào)預(yù)加重、分幀、加窗處理，然后對(duì)每幀進(jìn)行離散傅里葉變換，得到在頻率域上的能量分布。

根據(jù)人耳特性設(shè)置一組三角濾波器組，計(jì)算每個(gè)濾波器輸出的能量的對(duì)數(shù)，再經(jīng)過離散余弦變換，得到一組系數(shù)即MFCC。

2.2 具體步驟

具體步驟如下：

①原始語音信號(hào)經(jīng)過預(yù)加重、分幀、加窗，用FFT轉(zhuǎn)化為頻域信號(hào)x（m），并計(jì)算其短時(shí)能量譜P（f）。將P（f）轉(zhuǎn)化為美爾坐標(biāo)上的頻率P（fmel）。

②在美爾頻域內(nèi)將三角帶通濾波器加于Mel坐標(biāo)，得到濾波器組Hm（k），0≤m≤M0，M0為濾波器個(gè)數(shù).每個(gè)濾波器的中心頻率為f（m），每個(gè)帶通濾波器的傳遞參數(shù)為：

MFCC充分考慮了人的聽覺特性，沒有任何前提假設(shè)，具有良好的識(shí)別性能和抗噪能力。

3 系統(tǒng)設(shè)計(jì)

語音檢索系統(tǒng)的第一步，即是對(duì)獲取的音頻文件進(jìn)行去噪處理。

其次，提取音頻文件的MFCC特征，并通過對(duì)不同語言的語料庫進(jìn)行訓(xùn)練，完善國際音標(biāo)模式庫，也即國際音標(biāo)的隱馬爾科夫模型。

通過系統(tǒng)內(nèi)部“漢子—拼音—國際音標(biāo)”的映射表將待檢索的關(guān)鍵詞轉(zhuǎn)化為國際音標(biāo)。調(diào)用Viterbi解碼算法和國際音標(biāo)模式庫，解碼得出該音頻文件對(duì)應(yīng)的國際音標(biāo)序列。

最后，利用距離編輯算法計(jì)算得出關(guān)鍵詞在音頻文件各個(gè)時(shí)間點(diǎn)處的置信度，獲取檢索模塊輸出的檢索結(jié)果，然后根據(jù)用戶對(duì)置信度區(qū)間的調(diào)節(jié)而動(dòng)態(tài)的顯示。

系統(tǒng)設(shè)計(jì)流程，如圖1所示。

4 系統(tǒng)優(yōu)缺點(diǎn)

建設(shè)國際音標(biāo)（IPA）的語音模式庫是音標(biāo)檢索系統(tǒng)的重要一環(huán)。對(duì)于該檢索系統(tǒng)來講，只要語言（或方言）能夠用國際音標(biāo)進(jìn)行標(biāo)注，均可以檢索。具體優(yōu)缺點(diǎn)如下。

4.1 具有語言無關(guān)性

將音頻文件轉(zhuǎn)換為國際音標(biāo)標(biāo)注，具有語言無關(guān)性的優(yōu)點(diǎn)，支持任何一種語言的檢索。不需要知道語言的具體含義，只需要獲得關(guān)鍵詞的發(fā)音，即可用國際音標(biāo)進(jìn)行標(biāo)注，對(duì)音頻文件快速檢索。

4.2 準(zhǔn)確率高，誤報(bào)率低

普通話和英語檢索準(zhǔn)確率應(yīng)達(dá)到90%以上，誤報(bào)率低于10%。30 min音頻，搜索5個(gè)音素，耗時(shí)<1s。1h音頻，搜索5個(gè)音素，耗時(shí)約3～5 s。由于系統(tǒng)采用Viterbi算法對(duì)音頻MFCC特征文件進(jìn)行解碼，參與解碼的冗余音素較多，對(duì)系統(tǒng)的檢索速度和精度有一定影響。

4.3 支持敏感度調(diào)節(jié)

關(guān)鍵詞的音素序列在對(duì)本地音頻解碼得到的音素序列上進(jìn)行檢索，通過距離編輯算法計(jì)算得出每個(gè)音素對(duì)應(yīng)時(shí)間點(diǎn)處的置信度，從而在音頻的各個(gè)時(shí)間點(diǎn)處貼上了與關(guān)鍵詞的相似值（也稱置信度）的標(biāo)簽，從而用戶可以任意篩選自己需要得到的置信區(qū)間的音頻時(shí)間點(diǎn)，具有敏感度調(diào)節(jié)的功能。

5 結(jié) 語

本文介紹了一種基于MFCC特征提取的關(guān)鍵音標(biāo)檢索系統(tǒng)，該系統(tǒng)對(duì)提取的特征加以訓(xùn)練，并加入國際音標(biāo)映射表，經(jīng)Viterbi解碼，輸出音素序列，再經(jīng)距離編輯算法得出檢索結(jié)果。的音標(biāo)轉(zhuǎn)換的關(guān)鍵音檢索系統(tǒng)，采用了基于MFCC算法。它具備與詞匯無關(guān)的關(guān)鍵詞檢測能力，同時(shí)又能夠提供較快速的搜索速度和準(zhǔn)確的檢測結(jié)果。支持多關(guān)鍵字并行檢索和敏感度調(diào)節(jié)的能力，對(duì)語音檢索系統(tǒng)的研究具有一定的理論參考意義。

參考文獻(xiàn)：

[1] 王明合，張二華，唐振民，等.基于Fisher線性判別分析的語音信號(hào)端點(diǎn) 檢測方法[J].電子與信息學(xué)報(bào)，2015，（6）.

[2] 李偉，吳及，呂萍.面向海量數(shù)據(jù)的語音敏感信息檢測系統(tǒng)[J].信息工程大學(xué)學(xué)報(bào)，2010，（5）.

[3] 牛濱，孔令志，羅森林，等.基于MFCC和GMM的個(gè)性音樂推薦模型[J].北京理工大學(xué)學(xué)報(bào)，2009，（4）.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于MFCC和IPA轉(zhuǎn)換的關(guān)鍵音檢索系統(tǒng)研究