張莉 李文鈞 岳克強(qiáng)
摘 要:當(dāng)今人工智能發(fā)展迅速,語音識(shí)別成為人機(jī)交互的重要方式。為提高語音識(shí)別準(zhǔn)確度,在分析語音信號(hào)前去除語音信號(hào)噪聲干擾并提高語音信號(hào)能量尤為重要。在實(shí)際應(yīng)用中,不同語音信號(hào)包含不同的噪聲。針對(duì)不同的語音噪聲,在傳統(tǒng)譜減法基礎(chǔ)上,通過判斷算法窗函數(shù),根據(jù)不同的噪聲能量改變多窗譜減法的過減因子參數(shù),以增強(qiáng)算法自適應(yīng)能力。仿真結(jié)果表明,在低信噪比情況下,通過改變過減因子值,可取得一個(gè)最優(yōu)過減因子值以改進(jìn)譜減法下的音樂噪聲和失真度。自適應(yīng)多窗譜減法改進(jìn)后與基本譜減法相比,信噪比提高了29%;與多窗譜減法相比,信噪比提高了16%。該自適應(yīng)多窗譜減法可適應(yīng)不同噪聲環(huán)境下的語音信號(hào),增強(qiáng)語音信號(hào)中的關(guān)鍵信息并減少噪聲干擾。
關(guān)鍵詞:譜減法;自適應(yīng)參數(shù);多窗函數(shù);語音降噪
DOI:10. 11907/rjdk. 191973 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP312文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)005-0074-04
0 引言
人工智能與互聯(lián)網(wǎng)衍生出各類智能產(chǎn)品。人類可在嘈雜的環(huán)境下提取有效信息進(jìn)行溝通,當(dāng)轉(zhuǎn)換到機(jī)器上時(shí),如何使其更有效地識(shí)別并提取有用信息成為研究重點(diǎn)。
在語音信號(hào)處理中,接收到的語音信號(hào)大多含有噪聲,語音增強(qiáng)技術(shù)應(yīng)運(yùn)而生。語音增強(qiáng)的目的是提高語音質(zhì)量,需在降噪和語音失真之間找到一個(gè)最好的權(quán)衡點(diǎn)。文獻(xiàn)[1-2]對(duì)譜減算法進(jìn)行改進(jìn),在傳統(tǒng)譜減算法的基礎(chǔ)上,對(duì)無聲段進(jìn)行平滑處理,得到噪聲功率;文獻(xiàn)[3-4]通過約束先驗(yàn)信噪比與調(diào)整后驗(yàn)信噪比,提出基于[MMSE]的短時(shí)譜幅度增益函數(shù)計(jì)算方法,即根據(jù)信噪比取值范圍對(duì)増益函數(shù)進(jìn)行適當(dāng)調(diào)整;文獻(xiàn)[5]提出一種基于約束方差頻譜平滑與極小值跟蹤(VCSS-ML)的噪聲譜估計(jì)算法;文獻(xiàn)[6-7]研究了譜減法與深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)算法;文獻(xiàn)[9]提出基于優(yōu)化迭代譜減法的音樂無噪聲語音增強(qiáng)方法?,F(xiàn)有研究在低信噪比下的改進(jìn)效果并不明顯,如何選取最優(yōu)參數(shù)值,使該算法既能減少“音樂噪聲”,又不會(huì)使波形失真成為研究熱點(diǎn)。因此本文提出一種改進(jìn)的譜減法,通過調(diào)整參數(shù)得到相對(duì)情況下較優(yōu)的參數(shù)值。
1 基本譜減法
基本譜減法從輸入的含有噪聲的信號(hào)總能量中減去噪聲能量,從而獲得有用信號(hào)的能量。設(shè)含噪語言信號(hào)為[xn],加窗分幀處理后得到第[?]幀語音信號(hào)為[xi(m)],幀長(zhǎng)為[N],對(duì)[xi(m)]作離散傅里葉變換(DFT)后[Xi(k)]為:
譜減算法增強(qiáng)處理后的信號(hào)會(huì)殘留較多噪聲,因?yàn)橛幸欢ǖ墓?jié)奏感,所以又稱為音樂噪聲[2]。產(chǎn)生音樂噪聲的元音與噪聲信號(hào)的特點(diǎn)有關(guān),因?yàn)槠浞细咚狗植迹入S機(jī)變化的范圍較寬[3]。所以引用無語音期間噪聲統(tǒng)計(jì)方差表示噪聲時(shí),會(huì)根據(jù)信號(hào)幀噪聲分量大小,殘留一部分較大的噪聲,在頻譜上表現(xiàn)為隨機(jī)凸起。增強(qiáng)后的語音信號(hào)會(huì)有節(jié)奏地殘留噪聲,這些音樂噪聲嚴(yán)重影響語音自然度質(zhì)量。
2 基于多窗譜改進(jìn)的譜減法
窗函數(shù)一般具有低通性,選擇不同窗函數(shù)會(huì)有不同的帶寬和頻譜泄漏,語音信號(hào)分析常用的窗函數(shù)有矩形窗、海寧窗和漢明窗。其定義為:
數(shù)據(jù)窗是一組相互正交的離散橢球序列。為克服譜減法不靈活的問題,融合不同窗函數(shù)和自適應(yīng)參數(shù)的選擇,讓該算法變得靈活,具體方法如下:
(1)對(duì)帶噪的語音信號(hào)進(jìn)行預(yù)處理。一般語音信號(hào)預(yù)處理包含加窗分幀,在加窗部分對(duì)其進(jìn)行判斷,并根據(jù)窗函數(shù)是否為漢明窗的條件選擇不同方法。若為漢明窗,以自適應(yīng)參數(shù)進(jìn)行分析;若不為漢明窗,以不同的窗函數(shù)進(jìn)行分析。
(2)對(duì)加窗分幀后的信號(hào)[xi(m)]進(jìn)行傅里葉變換,求出其幅度譜和相位譜。其中平均幅度譜[Xi(k)]為:
3 實(shí)驗(yàn)結(jié)果分析
3.1 加窗對(duì)比
實(shí)驗(yàn)語言信號(hào)頻率為16khz的純語音信號(hào)。將一段純語音信號(hào)與白噪聲疊加,得到信噪比為-5、0、5dB的帶噪信號(hào),分別采用矩形窗、海寧窗和漢明窗對(duì)語音信號(hào)進(jìn)行分幀處理,其中語言信號(hào)頻率為16khz,采用漢明窗對(duì)語言信號(hào)進(jìn)行加窗分幀,幀長(zhǎng)為25ms、幀移為10ms。純語音信號(hào)(見圖2(a))疊加白噪聲信號(hào)(見圖2(b))后采取不同的窗函數(shù)進(jìn)行分幀,采用改進(jìn)的多窗譜方法降噪后的結(jié)果見圖2(c)-(e)所示,其信噪比變化情況如表1所示。
從表1可以看出采用多窗譜的譜減法,分別選用不同的窗函數(shù)進(jìn)行對(duì)比,發(fā)現(xiàn)矩形窗頻譜泄露均大于漢明窗和海寧窗,其中對(duì)頻譜包容性更佳的是海寧窗,所以在噪聲環(huán)境下,多窗譜算法選擇海寧窗。
3.2 自適應(yīng)參數(shù)對(duì)比
在相同漢明窗和信噪比的條件下運(yùn)用該自適應(yīng)多窗譜減法,從而得到一個(gè)關(guān)于參數(shù)與提高的信噪比曲線圖,如圖3所示。
從圖3可得到最優(yōu)參數(shù),將得到的參數(shù)與相鄰參數(shù)在不同的白噪聲下進(jìn)行對(duì)比,結(jié)果如圖4所示。其中,虛線代表在一定噪聲環(huán)境下對(duì)其進(jìn)行自適應(yīng)得到的最優(yōu)參數(shù),另外兩種代表該最優(yōu)參數(shù)的鄰近參數(shù),不同參數(shù)下運(yùn)用譜減法得到的波形如圖5(a)-(c)所示。
結(jié)合圖4、圖5可看出過減因子參數(shù)變化明顯影響了譜減法。從圖5可看出當(dāng)過減因子過小時(shí),譜減后的波形帶有大量音樂噪聲,從而使得到的語音信號(hào)難以分辨;若過減因子過大,則會(huì)引起語音信號(hào)失真,從而丟失語音幀。本文實(shí)驗(yàn)采用融合多窗譜譜減法與參數(shù)自適應(yīng)算法,得到的最優(yōu)參數(shù)優(yōu)于在同樣條件下的其它參數(shù)。
將改進(jìn)的自適應(yīng)多窗譜減法與基本譜減法和多窗譜減法進(jìn)行對(duì)比,在相同噪聲環(huán)境(這里的噪聲使用對(duì)純凈語音加高斯白噪聲進(jìn)行模擬)下,分別采用3種譜減法對(duì)其進(jìn)行實(shí)驗(yàn),改進(jìn)的自適應(yīng)多窗譜減法與基本譜減法相比,其信噪比提高了29%,與多窗譜減法相比其信噪比提高了16%。
4 結(jié)語
在語音識(shí)別中,語音前端處理尤為重要。語音識(shí)別精度在一定程度上依賴于原始語音增強(qiáng)和去噪。對(duì)原始語音進(jìn)行增強(qiáng)有利于突出原始語音中最重要的信號(hào),而對(duì)原始語音去噪可減少外界對(duì)語音識(shí)別的影響,有利于提高語音識(shí)別精度。
本文著重研究了語音識(shí)別中的前端處理,在基本譜減法的基礎(chǔ)上增強(qiáng)窗函數(shù),發(fā)現(xiàn)在同一噪聲環(huán)境下,海寧窗語音信號(hào)包含度優(yōu)于另外兩種窗函數(shù),在窗函數(shù)相同的情況下可通過輸入語音信號(hào)噪聲,自適應(yīng)地改變譜減法參數(shù),提高算法自適應(yīng)能力。下一步將利用本文算法處理語音信號(hào),通過語音識(shí)別準(zhǔn)確率進(jìn)一步驗(yàn)證算法有效性。
參考文獻(xiàn):
[1] 董鶴. ?噪聲環(huán)境下基于譜減法的語音識(shí)別研究[D]. ?哈爾濱:哈爾濱工程大學(xué),2016.
[2] 劉辰晨. 噪聲下的語音識(shí)別算法研究[D]. 南京:南京大學(xué),2014.
[3] 張建偉. 基于噪聲譜估計(jì)和信噪比約束的語音增強(qiáng)研究[D]. 合肥:安徽大學(xué),2016.
[4] 陳紫強(qiáng),曾慶寧,劉慶華. 基于先驗(yàn)信噪比參數(shù)自適應(yīng)的頻域聯(lián)合語音增強(qiáng)方法[J]. 電子與信息學(xué)報(bào),2007(2):439-442.
[5] 方瑜. 語音增強(qiáng)相關(guān)問題研究[D]. 北京:北京郵電大學(xué),2012.
[6] 魏泉水. 基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法研究[D]. 南京:南京大學(xué),2016.
[7] HINTON G E. Training products of experts by minimizing contrastive divergence[J]. Neural Computation,2002(8):1771-1801.
[8] MIYAZAKI R,SARUWATARI H,INOUE T. Musical-noise-free speech enhancement based on optimized iterative spectral subtraction[J]. IEEE Transactions on Audio Speech and Language Processing,2012,20(7):2080-2094?.
[9] 盧景,趙風(fēng)海. 一種基于小波變換和譜減法的改進(jìn)的語音增強(qiáng)算法[J]. 電聲技術(shù),2018,42(12):8-12,69.
[10] 張青,吳進(jìn). 基于多窗譜估計(jì)的改進(jìn)維納濾波語音增強(qiáng)[J]. 計(jì)算機(jī)應(yīng)用與軟件,2017,34(3):67-70,118.
[11] 趙發(fā). 基于多窗譜估計(jì)譜減法和能熵比法的語音端點(diǎn)檢測(cè)算法[J]. 巢湖學(xué)院學(xué)報(bào),2016,18(6):80-85.
[12] EL-FATTAH M A,DESSOUKY M I,ABBAS A M,et al.?Speech enhancement with an adaptive Wiener filter[J]. International Journal of Speech Technology,2014(1):53-64?.
[13] 嚴(yán)思偉,屈曉旭,婁景藝. 基于連續(xù)噪聲譜估計(jì)的譜減法語音增強(qiáng)算法[J]. 通信技術(shù),2018,51(6):1296-1301.
[14] 張悅. 基于過量功率譜減的語音增強(qiáng)算法研究[J]. 蘭州文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2017,31(5):89-92.
[15] 屈曉旭,李朝輝,婁景藝. 改進(jìn)譜減法語音增強(qiáng)研究[J]. 通信技術(shù),2017,50(9):1925-1928.
[16] 代龍翔,李冠宇,馬寧. 基于譜減法語音增強(qiáng)效果研究[J]. 西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,38(2):21-25,87.
[17] 齊立萍,孫昊,楊鵬,等. 基于參數(shù)自適應(yīng)的改進(jìn)譜減法[J]. 科學(xué)技術(shù)與工程,2016,16(3):192-196.
[18] 閔姝君. ?基于自適應(yīng)譜估計(jì)的語音增強(qiáng)算法研究及應(yīng)用[D]. 濟(jì)南:山東大學(xué),2011.
[19] 田莎莎,田艷. 基于改進(jìn)譜減法的語音識(shí)別系統(tǒng)去噪[J]. 大眾科技,2012,14(12):47-48.
[20] 白靜,史燕燕,薛珮蕓,等. 融合非線性冪函數(shù)和譜減法的CFCC特征提取[J]. 西安電子科技大學(xué)學(xué)報(bào),2019,46(1):86-92.
(責(zé)任編輯:江 艷)