国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LBG的藏語(yǔ)字母識(shí)別算法研究

2018-02-28 02:31:28王德欣卓嘎張瑞
電子技術(shù)與軟件工程 2018年20期
關(guān)鍵詞:語(yǔ)音識(shí)別

王德欣 卓嘎 張瑞

摘要

在語(yǔ)音識(shí)別的領(lǐng)域內(nèi),BP神經(jīng)網(wǎng)絡(luò)和VQ有著廣泛的運(yùn)用。本文中主要內(nèi)容為:采用VQ技術(shù)中LBG來(lái)實(shí)現(xiàn)對(duì)藏文字母的識(shí)別,并使用MATLAB R2014a進(jìn)行算法的仿真。此算法對(duì)已經(jīng)采集好的藏語(yǔ)30個(gè)字母的語(yǔ)音進(jìn)行了語(yǔ)音預(yù)處理和端點(diǎn)檢測(cè),并提取了MFCC特征參數(shù),隨后開始進(jìn)行識(shí)別工作的開展。

【關(guān)鍵詞】語(yǔ)音識(shí)別 矢量量化 LBG算法

1 矢量量化

1.1 矢量量化概述

矢量量化的步驟是:首先,通過(guò)k個(gè)樣本值在k維空間Rk中形成矢量,然后量化在第一步驟中形成的數(shù)據(jù)。接著,通過(guò)一些適當(dāng)?shù)母纳?,盡可能的降低失真和量化噪聲。與標(biāo)量量化相比,矢量量化具有顯著的數(shù)字速率的降低。矢量量化可以看作是一種壓縮方法,是不可逆的,它可以有效地利用矢量中各分量的相互特性(線性相關(guān)、非線性相關(guān)等),以消除冗余度,具備比特率低、譯碼簡(jiǎn)單、失真較小等優(yōu)點(diǎn)。矢量量化的理論基礎(chǔ)是香農(nóng)的速率失真理論。

1.2 率一失真理論

速率失真理論是通過(guò)給定的失真D,計(jì)算率一失真函數(shù)R(D),并且R(D)是:給定的失真條件可以達(dá)到的最小速率(按維度計(jì)算);或者,他的反函數(shù)可以計(jì)算,并且將D(R)稱為失真率函數(shù),定義為在給定的速率條件下所能夠達(dá)到的最小失真。

1.3 失真測(cè)度

編碼器的設(shè)計(jì)是矢量量化器設(shè)計(jì)過(guò)程中非常重要的一個(gè)部分,解碼器的工作只是一個(gè)簡(jiǎn)單的表查找過(guò)程。在設(shè)計(jì)的過(guò)程中,我們會(huì)接觸到失真測(cè)度,并且,它的選擇會(huì)對(duì)VQ的性能產(chǎn)生直接的影響。

1.4 矢量量化器原理

矢量量化器原理框圖如圖1所示。

2 語(yǔ)音處理

2.1 語(yǔ)音提取

本設(shè)計(jì)中語(yǔ)音的讀取用的是wavread函數(shù),提取出來(lái)后直接對(duì)提取出來(lái)的參數(shù)進(jìn)行了1024點(diǎn)的快速傅里葉變換;隨后,用plot函數(shù)將原始語(yǔ)音的時(shí)域圖以及頻譜圖畫了出來(lái)。

2.2 語(yǔ)音的預(yù)處理

在該算法中,語(yǔ)音的預(yù)處理的步驟分別是量化處理和預(yù)加重處理。在量化處理中,本設(shè)計(jì)設(shè)置的階數(shù)為16階,隨后用MATLAB中的1pc函數(shù)對(duì)信號(hào)進(jìn)行了進(jìn)一步的處理,并畫出了相關(guān)的圖形,以方便后續(xù)的操作。在預(yù)加重過(guò)程中,先將語(yǔ)音數(shù)據(jù)用double函數(shù)轉(zhuǎn)換為雙精度浮點(diǎn)數(shù),再用filter函數(shù)(一維數(shù)字濾波器)對(duì)高頻部分進(jìn)行處理,隨后在對(duì)其進(jìn)行1024點(diǎn)的fft變換,最后畫出經(jīng)過(guò)此過(guò)程處理后的信號(hào)的波形和頻譜。在此設(shè)計(jì)中預(yù)加重的系數(shù)為0.9375。

2.3 分幀加窗

本設(shè)計(jì)中采用的是漢明窗。在本設(shè)計(jì)分幀處理的過(guò)程中,幀移設(shè)置的為80。在加窗過(guò)程中,窗長(zhǎng)設(shè)定的為256。本階段處理完成后,將二者處理后的信號(hào)的波形和頻譜圖都畫了出來(lái)。

2.4 語(yǔ)音特征參數(shù)提取

本設(shè)計(jì)中采用的倒譜系數(shù)。

2.5 語(yǔ)音端點(diǎn)檢測(cè)

本設(shè)計(jì)中采用的是雙門限的檢測(cè)。其中,幀長(zhǎng)設(shè)定為256,未重疊部分設(shè)定為128,短時(shí)能量門限設(shè)定為10,能量的兩個(gè)閾值設(shè)定為2,過(guò)零率的閾值為10,過(guò)零率的兩個(gè)閾值為5。

3 LBG算法的設(shè)計(jì)與實(shí)現(xiàn)

3.1 LBG算法的實(shí)現(xiàn)流程

LBG算法在VQ中是一個(gè)基本算法。LBG算法可用于已知源的分布特征和未知源分布的特征的情況,但有必要知道其輸出值(稱為訓(xùn)練序列)。在實(shí)際應(yīng)用中,它經(jīng)常用于訓(xùn)練序列中以設(shè)計(jì)矢量量化器。

設(shè)計(jì)算法的流程圖如圖2所示。

4 MATLAB仿真

4.1 MATLAB R2014a平臺(tái)簡(jiǎn)介以及語(yǔ)音數(shù)據(jù)來(lái)源

MATLAB在語(yǔ)音方面的應(yīng)用:

4.1.1 語(yǔ)音分析(語(yǔ)音信號(hào)的特征參數(shù)提?。?/p>

我們從語(yǔ)音信號(hào)中提取特征參數(shù),比較合成語(yǔ)音與自然語(yǔ)音的特征參數(shù)并計(jì)算其距離,通過(guò)特征參數(shù)距離來(lái)描述合成語(yǔ)音與自然語(yǔ)音之間的距離。

經(jīng)過(guò)大量實(shí)驗(yàn),人們提出了基于不同頻率人耳感知的梅爾頻率概念。由于藏文是一種調(diào)諧語(yǔ)言,梅爾頻率是人耳聽到的藏文音調(diào)的量度。通過(guò)MATLAB工具計(jì)算這個(gè)參數(shù)將很好地描述藏語(yǔ)語(yǔ)音的感知。

4.1.2 語(yǔ)音識(shí)別

在本設(shè)計(jì)中,我們的語(yǔ)音數(shù)據(jù)來(lái)自項(xiàng)目小組成員的親自錄制。在錄制過(guò)程中,我們采用個(gè)人手機(jī)先進(jìn)行錄制;隨后,將錄制好的語(yǔ)音傳到電腦中,再利用快轉(zhuǎn)軟件將語(yǔ)音格式轉(zhuǎn)換為wav格式,從而得到可以進(jìn)行相關(guān)處理和識(shí)別的語(yǔ)音資料。同時(shí),語(yǔ)音的說(shuō)話人都是藏族同學(xué),從而,在一定程度上可以保證藏文語(yǔ)音的發(fā)音的標(biāo)準(zhǔn)性和準(zhǔn)確性。

4.2 LBG算法仿真

在這個(gè)程序中利用MATLAB來(lái)編譯程序。碼本的選擇是通過(guò)隨機(jī)選擇方法實(shí)現(xiàn)的。

具體實(shí)現(xiàn)這個(gè)過(guò)程的參數(shù)設(shè)計(jì)是在本設(shè)計(jì)中,碼書的大小為8,碼書的維數(shù)維7,參加訓(xùn)練樣本的個(gè)數(shù)為100,碼書訓(xùn)練循環(huán)次數(shù)設(shè)定為25。在初始碼書的選取中,我們每隔2個(gè)樣本取一個(gè)樣本,從而得到初始碼書。隨后對(duì)初始碼書進(jìn)行處理,當(dāng)相對(duì)失真小于。一。是結(jié)束循環(huán),從而得到訓(xùn)練好的碼書,也就是最終碼書。隨后,我們把訓(xùn)練好的碼書寫到了文本中;最后我們逐個(gè)顯示了,算法的執(zhí)行時(shí)間、算法的平均失真、每個(gè)碼書的樣本個(gè)數(shù)、程序的循環(huán)次數(shù),以及最終訓(xùn)練好的碼書。

4.3 仿真結(jié)果

由程序結(jié)果我們可以看出,LBG算法的理論算法結(jié)構(gòu)相對(duì)嚴(yán)謹(jǐn),并且較為容易實(shí)現(xiàn);與此同時(shí),此算法還能作為其他算法的附加算法,以優(yōu)化提取的初始碼本。由圖6可以看出在每次迭代的過(guò)程中平均失真具有單調(diào)遞減的特性,所以可以實(shí)現(xiàn)上述要求。

在對(duì)比上述仿真結(jié)果的基礎(chǔ)上,我們通過(guò)改變初始語(yǔ)音的含義以及說(shuō)話人,利用MATLAB仿真工具對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行相關(guān)處理;隨后,根據(jù)程序的運(yùn)行結(jié)果進(jìn)行數(shù)據(jù)分析,與此同時(shí),我們還研究了:在LBG算法中,語(yǔ)音中少許的噪音和語(yǔ)音聲音的大小,不同的說(shuō)話人的音色對(duì)算法識(shí)別效果的影響。

數(shù)據(jù)結(jié)果分析:根據(jù)以上不同說(shuō)話人和語(yǔ)音聲音大小,以及是否有噪音下的語(yǔ)音識(shí)別結(jié)果可以看出,循環(huán)次數(shù)逐漸加大,平均失真和相對(duì)失真只有著些許的變化,識(shí)別結(jié)果根據(jù)語(yǔ)音的不同,識(shí)別結(jié)果也不同。如表I所示。

4.4 仿真結(jié)論

LBG算法在保持著初始變量不變的情況下,平均失真和相對(duì)失真的變化不大,但是循環(huán)次數(shù)和運(yùn)行時(shí)間卻因?yàn)檎Z(yǔ)音數(shù)據(jù)的不同,存在著一些少許的變化。

與此同時(shí),根據(jù)識(shí)別結(jié)果可以看出LBG識(shí)別算法對(duì)語(yǔ)音的要求較高。語(yǔ)音信號(hào)在非純凈語(yǔ)音的情況下,語(yǔ)音噪音的不同,說(shuō)話人聲音大小的不同等因素都會(huì)影響識(shí)別結(jié)果。

5 總結(jié)

本設(shè)計(jì)重點(diǎn)采用矢量量化LBG算法,在碼書的選取過(guò)程中,我們選擇了隨機(jī)選取的方法;隨后依靠MATLAB R2014a仿真工具得到仿真結(jié)果;接著,通過(guò)仿真結(jié)果對(duì)LBG算法的性能參數(shù)進(jìn)行了一些分析。通過(guò)上述的一系列測(cè)試,我們可以看出,LBG算法對(duì)語(yǔ)音的質(zhì)量要求相對(duì)較高,語(yǔ)音中一些噪音會(huì)影響識(shí)別的結(jié)果,說(shuō)話人聲音的大小也會(huì)影響語(yǔ)音識(shí)別的結(jié)果。另外,我們還發(fā)現(xiàn):在同一語(yǔ)音錄制的環(huán)境中,一些藏語(yǔ)語(yǔ)音(同一個(gè)藏文字母,不同的發(fā)音人)會(huì)對(duì)采樣頻率以及進(jìn)行傅里葉變換的點(diǎn)數(shù)有要求,若采樣頻率或者進(jìn)行傅里葉變換的點(diǎn)數(shù)不能滿足要求,則程序不能正常運(yùn)行;同時(shí),一些藏語(yǔ)語(yǔ)音(同一個(gè)藏文字母,不同的發(fā)音人)提取出來(lái)的特征參數(shù)也會(huì)有著比較大的差距,從而會(huì)對(duì)初始碼書的選取有著一些影響。

目前關(guān)于上述現(xiàn)象,我們還沒有弄明白問(wèn)題出現(xiàn)的原因。我們猜測(cè)可能是因?yàn)椴卣Z(yǔ)是拼音型文字,每個(gè)人在發(fā)音時(shí),發(fā)音的部位可能不相同,或是不準(zhǔn)確,從而導(dǎo)致這種現(xiàn)象出現(xiàn);另外,我們也有著這樣的猜測(cè):程序依舊存在一些缺陷,從而導(dǎo)致不能很好的對(duì)語(yǔ)音進(jìn)行處理和識(shí)別。但是,以上觀點(diǎn)僅僅是本項(xiàng)目小組成員的猜測(cè)。由于項(xiàng)目組成員的能力有限,以上的問(wèn)題僅僅只停留于猜測(cè)的層面,還未進(jìn)行進(jìn)一步的研究和實(shí)踐。

本設(shè)計(jì)所做的主要工作有:

首先,介紹了本設(shè)計(jì)中的一些步驟以及所涉及到的基本概念和原理,另外還包括一些重點(diǎn)步驟中的一些重要參數(shù)和部分用到的函數(shù)。隨后,根據(jù)需求寫出程序,利用MATLABR2014a對(duì)算法進(jìn)行了仿真,得到仿真結(jié)果。最后,根據(jù)仿真結(jié)果對(duì)性能進(jìn)行了一些分析與猜測(cè)。

綜上所述,由于個(gè)人的能力,本文只實(shí)現(xiàn)了語(yǔ)音識(shí)別算法,沒有根據(jù)識(shí)別成功率的大小和影響識(shí)別成功的一些因素對(duì)程序進(jìn)行進(jìn)一步優(yōu)化。同時(shí),也并未對(duì)我們的猜測(cè)進(jìn)行進(jìn)一步的研究和證明。

參考文獻(xiàn)

[1]數(shù)字語(yǔ)音處理及MATLAB仿真/張雪英主編[M].北京:電子工業(yè)出版社,2016.

[2]賀玲玲,周元.基于改進(jìn)MFCC的異常聲音識(shí)別算法[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,29(02):52-57.

[3]張俊.基于VQ和DTW相結(jié)合的語(yǔ)音識(shí)別算法研究[D].武漢理工大學(xué)碩士論文,2016.

[4]蔣剛毅,張禮和,鄭義.語(yǔ)音信號(hào)的矢量量化碼書特性研究[J].電子學(xué)報(bào),1995(11):55-59.

[5]周萍,李曉盼,李杰,景新幸.混合MFCC特征參數(shù)應(yīng)用于語(yǔ)音情感識(shí)別[J].計(jì)算機(jī)測(cè)量與控制,2013,21(07):1966-1968+1986.

[6]黃成玉,張全柱,賴斌.聲紋識(shí)別中MEL參數(shù)的提取研究[J].電源技術(shù),2011,35(04):433-435.

[7]吳婷婷.矢量量化中碼書設(shè)計(jì)的研究[D].南京師范大學(xué)碩士論文,2016.

[8]黃榜.矢量量化圖像編碼算法的研究[D].江南大學(xué),2011.

[9]閥大順,趙永安,文先林,李蓓基于DHMM和VQ的關(guān)鍵詞識(shí)別系統(tǒng)研究[J].武漢理工大學(xué)學(xué)報(bào),2011,33(02):140-143+152.

[10]王彪.一種改進(jìn)的語(yǔ)音信號(hào)特征參數(shù)提取算法研究[J].電子設(shè)計(jì)工程,2011,19(21):59-61.

[11]祝鵬.短語(yǔ)音條件下的說(shuō)話人識(shí)別研究[D].燕山大學(xué),2012.

[12]郭浩.基于矢量量化編碼技術(shù)的數(shù)據(jù)壓縮方法[J].科技與企業(yè),2012(15):126.

[13]歐陽(yáng)星辰.語(yǔ)音信號(hào)的優(yōu)化處理[J].中國(guó)電子商務(wù),2012(10): 68-68.

[14]呂晶晶,陳娟,張培,馬艷娥.基于VQ的語(yǔ)音識(shí)別技術(shù)研究[J].伺服控制,2011(04):68-69+36.

猜你喜歡
語(yǔ)音識(shí)別
空管陸空通話英語(yǔ)發(fā)音模板設(shè)計(jì)與應(yīng)用
通話中的語(yǔ)音識(shí)別技術(shù)
面向移動(dòng)終端的語(yǔ)音簽到系統(tǒng)
淺析智能語(yǔ)音技術(shù)及其應(yīng)用
語(yǔ)音識(shí)別的SVM模型選擇分析
農(nóng)業(yè)物聯(lián)網(wǎng)平臺(tái)手機(jī)秘書功能分析與實(shí)現(xiàn)
基于LD3320的非特定人識(shí)別聲控?zé)粝到y(tǒng)設(shè)計(jì)
航天三維可視化系統(tǒng)中語(yǔ)音控制技術(shù)的研究與應(yīng)用
基于語(yǔ)音識(shí)別的萬(wàn)能遙控器的設(shè)計(jì)
基于語(yǔ)音技術(shù)的商務(wù)英語(yǔ)移動(dòng)學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
江西省| 临海市| 赤水市| 志丹县| 乡城县| 昭觉县| 长宁区| 兴仁县| 徐水县| 从化市| 房产| 札达县| 临猗县| 苍山县| 文水县| 汾西县| 阿拉善右旗| 南雄市| 衡东县| 应城市| 柘荣县| 宜黄县| 伊川县| 双城市| 永和县| 黄大仙区| 沙洋县| 新民市| 东莞市| 江城| 抚松县| 通许县| 芒康县| 大同市| 五华县| 镇宁| 舟曲县| 韶关市| 建宁县| 泗阳县| 霍城县|