国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于MFCC和IPA轉(zhuǎn)換的關(guān)鍵音檢索系統(tǒng)研究

2016-07-04 06:20:35李志偉
關(guān)鍵詞:國際音標(biāo)音頻文件檢索系統(tǒng)

李志偉

摘 要:海量視音頻信息檢索一直是人們研究與應(yīng)用的熱點(diǎn)。文章介紹的一種關(guān)鍵音檢索系統(tǒng),使用MFCC算法提取語音特征,調(diào)用Viterbi解碼算法和國際音標(biāo)模式庫,解碼得出該音頻文件對(duì)應(yīng)的國際音標(biāo)序列。并利用距離編輯算法計(jì)算得出關(guān)鍵詞在音頻文件各個(gè)時(shí)間點(diǎn)處的置信度,獲取檢索模塊輸出的檢索結(jié)果。本系統(tǒng)具有與待檢測語言無關(guān)的特點(diǎn),對(duì)普通話和英語的檢索準(zhǔn)確率不低于90%,且支持敏感度調(diào)節(jié)和多詞匯并行檢測的優(yōu)點(diǎn)。

關(guān)鍵詞:語音檢索;MFCC算法;IPA

中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8937(2016)02-0048-02

1 概 述

面對(duì)海量的視音頻信息流,依靠傳統(tǒng)的人工處理技術(shù)費(fèi)時(shí)費(fèi)力,急需要采用自動(dòng)化的監(jiān)控和高效的信息檢索技術(shù)。而傳統(tǒng)的視音頻檢索技術(shù)主要依賴于人工標(biāo)注,所能搜索的范圍也受限于標(biāo)注信息,這遠(yuǎn)不能滿足快速增長的海量數(shù)據(jù)處理的需求,不能提供更準(zhǔn)確的基于內(nèi)容的檢索。與詞匯無關(guān)的關(guān)鍵詞檢測方法(Key Word Spotting,KWS),是在一段連續(xù)語音中找出給定的目標(biāo)詞的發(fā)音所出現(xiàn)的準(zhǔn)確時(shí)間段,并給出每個(gè)候選段的置信度。其缺點(diǎn)在于無法處理集外詞,對(duì)于比較自然隨意的語音(Spontaneous Speech)和在噪音的環(huán)境下,識(shí)別率會(huì)下降。

國際音標(biāo),又稱國際語音字母(International Phonetic Alphabet,IPA),是用于為全世界所有語言注音的符號(hào)系統(tǒng)。它根據(jù)一符一音的原則把發(fā)音規(guī)則表示成相應(yīng)符號(hào)。通過最小的音素發(fā)音方式,就可以對(duì)任何語音進(jìn)行標(biāo)注。

對(duì)于常用的語言,如漢語可以使用44個(gè)音標(biāo)標(biāo)注,英語50個(gè)標(biāo)注。

本文介紹的語音檢索系統(tǒng)就是利用國際音標(biāo)的一符一音的原則,對(duì)于最小的發(fā)音單元“音素”進(jìn)行計(jì)算機(jī)建模。該系統(tǒng)基于MFCC算法,通過轉(zhuǎn)換預(yù)料庫成對(duì)應(yīng)的國際音標(biāo),經(jīng)Viterbi解碼和距離編輯算法檢索出結(jié)果,系統(tǒng)具備與詞匯無關(guān)和多關(guān)鍵詞檢測的特點(diǎn)。

下面分別從MFCC算法、系統(tǒng)設(shè)計(jì)及其優(yōu)缺點(diǎn)三個(gè)方面進(jìn)行介紹。

2 MFCC算法

2.1 MFCC算法綜述

目前最有效的提取語音特征的方法是MFCC或線性預(yù)測倒譜系數(shù)(LPCC)法。

其中,MFCC特征提取方法是根據(jù)人耳對(duì)不同頻率的聲音信號(hào)具有不同的感知能力,且在頻域上聲音信號(hào)呈現(xiàn)非線性關(guān)系而提出。

該方法首先對(duì)語音信號(hào)預(yù)加重、分幀、加窗處理,然后對(duì)每幀進(jìn)行離散傅里葉變換,得到在頻率域上的能量分布。

根據(jù)人耳特性設(shè)置一組三角濾波器組,計(jì)算每個(gè)濾波器輸出的能量的對(duì)數(shù),再經(jīng)過離散余弦變換,得到一組系數(shù)即MFCC。

2.2 具體步驟

具體步驟如下:

①原始語音信號(hào)經(jīng)過預(yù)加重、分幀、加窗,用FFT轉(zhuǎn)化為頻域信號(hào)x(m),并計(jì)算其短時(shí)能量譜P(f)。將P(f)轉(zhuǎn)化為美爾坐標(biāo)上的頻率P(fmel)。

②在美爾頻域內(nèi)將三角帶通濾波器加于Mel坐標(biāo),得到濾波器組Hm(k),0≤m≤M0,M0為濾波器個(gè)數(shù).每個(gè)濾波器的中心頻率為f(m),每個(gè)帶通濾波器的傳遞參數(shù)為:

MFCC充分考慮了人的聽覺特性,沒有任何前提假設(shè),具有良好的識(shí)別性能和抗噪能力。

3 系統(tǒng)設(shè)計(jì)

語音檢索系統(tǒng)的第一步,即是對(duì)獲取的音頻文件進(jìn)行去噪處理。

其次,提取音頻文件的MFCC特征,并通過對(duì)不同語言的語料庫進(jìn)行訓(xùn)練,完善國際音標(biāo)模式庫,也即國際音標(biāo)的隱馬爾科夫模型。

通過系統(tǒng)內(nèi)部“漢子—拼音—國際音標(biāo)”的映射表將待檢索的關(guān)鍵詞轉(zhuǎn)化為國際音標(biāo)。調(diào)用Viterbi解碼算法和國際音標(biāo)模式庫,解碼得出該音頻文件對(duì)應(yīng)的國際音標(biāo)序列。

最后,利用距離編輯算法計(jì)算得出關(guān)鍵詞在音頻文件各個(gè)時(shí)間點(diǎn)處的置信度,獲取檢索模塊輸出的檢索結(jié)果,然后根據(jù)用戶對(duì)置信度區(qū)間的調(diào)節(jié)而動(dòng)態(tài)的顯示。

系統(tǒng)設(shè)計(jì)流程,如圖1所示。

4 系統(tǒng)優(yōu)缺點(diǎn)

建設(shè)國際音標(biāo)(IPA)的語音模式庫是音標(biāo)檢索系統(tǒng)的重要一環(huán)。對(duì)于該檢索系統(tǒng)來講,只要語言(或方言)能夠用國際音標(biāo)進(jìn)行標(biāo)注,均可以檢索。具體優(yōu)缺點(diǎn)如下。

4.1 具有語言無關(guān)性

將音頻文件轉(zhuǎn)換為國際音標(biāo)標(biāo)注,具有語言無關(guān)性的優(yōu)點(diǎn),支持任何一種語言的檢索。不需要知道語言的具體含義,只需要獲得關(guān)鍵詞的發(fā)音,即可用國際音標(biāo)進(jìn)行標(biāo)注,對(duì)音頻文件快速檢索。

4.2 準(zhǔn)確率高,誤報(bào)率低

普通話和英語檢索準(zhǔn)確率應(yīng)達(dá)到90%以上,誤報(bào)率低于10%。30 min音頻,搜索5個(gè)音素,耗時(shí)<1s。1h音頻,搜索5個(gè)音素,耗時(shí)約3~5 s。由于系統(tǒng)采用Viterbi算法對(duì)音頻MFCC特征文件進(jìn)行解碼,參與解碼的冗余音素較多,對(duì)系統(tǒng)的檢索速度和精度有一定影響。

4.3 支持敏感度調(diào)節(jié)

關(guān)鍵詞的音素序列在對(duì)本地音頻解碼得到的音素序列上進(jìn)行檢索,通過距離編輯算法計(jì)算得出每個(gè)音素對(duì)應(yīng)時(shí)間點(diǎn)處的置信度,從而在音頻的各個(gè)時(shí)間點(diǎn)處貼上了與關(guān)鍵詞的相似值(也稱置信度)的標(biāo)簽,從而用戶可以任意篩選自己需要得到的置信區(qū)間的音頻時(shí)間點(diǎn),具有敏感度調(diào)節(jié)的功能。

5 結(jié) 語

本文介紹了一種基于MFCC特征提取的關(guān)鍵音標(biāo)檢索系統(tǒng),該系統(tǒng)對(duì)提取的特征加以訓(xùn)練,并加入國際音標(biāo)映射表,經(jīng)Viterbi解碼,輸出音素序列,再經(jīng)距離編輯算法得出檢索結(jié)果。的音標(biāo)轉(zhuǎn)換的關(guān)鍵音檢索系統(tǒng),采用了基于MFCC算法。它具備與詞匯無關(guān)的關(guān)鍵詞檢測能力,同時(shí)又能夠提供較快速的搜索速度和準(zhǔn)確的檢測結(jié)果。支持多關(guān)鍵字并行檢索和敏感度調(diào)節(jié)的能力,對(duì)語音檢索系統(tǒng)的研究具有一定的理論參考意義。

參考文獻(xiàn):

[1] 王明合,張二華,唐振民,等.基于Fisher線性判別分析的語音信號(hào)端點(diǎn) 檢測方法[J].電子與信息學(xué)報(bào),2015,(6).

[2] 李偉,吳及,呂萍.面向海量數(shù)據(jù)的語音敏感信息檢測系統(tǒng)[J].信息工程 大學(xué)學(xué)報(bào),2010,(5).

[3] 牛濱,孔令志,羅森林,等.基于MFCC和GMM的個(gè)性音樂推薦模型[J].北 京理工大學(xué)學(xué)報(bào),2009,(4).

猜你喜歡
國際音標(biāo)音頻文件檢索系統(tǒng)
國際音標(biāo)和漢語拼音之間的關(guān)聯(lián)
收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫
收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫
本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
自然拼讀法和國際音標(biāo)在英語教學(xué)中的應(yīng)用比較
國際音標(biāo)的發(fā)展變化對(duì)我國教材音標(biāo)注音規(guī)范的啟示
基于Android手機(jī)的音頻文件取證技術(shù)研究
初中英語國際音標(biāo)教學(xué)模式初探
提取APP中的音頻文件
電腦愛好者(2015年5期)2015-09-10 07:22:44
天台县| 康平县| 铜陵市| 扎鲁特旗| 江山市| 临潭县| 汕头市| 司法| 曲阜市| 浦东新区| 谢通门县| 大洼县| 南投县| 磐石市| 宜丰县| 伊川县| 无棣县| 南汇区| 富锦市| 中阳县| 汾阳市| 新宾| 黎城县| 肃南| 兴文县| 尉氏县| 大同市| 康定县| 清丰县| 德钦县| 交口县| 汕头市| 德令哈市| 郧西县| 永寿县| 射阳县| 新津县| 宣威市| 东乡族自治县| 平江县| 九江县|