国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于正交非負(fù)矩陣分解的多通道線性預(yù)測(cè)語音去混響方法

2018-11-15 10:21:02何沖王冬霞王旭東蔣茂松
聲學(xué)技術(shù) 2018年5期
關(guān)鍵詞:混響麥克風(fēng)協(xié)方差

何沖,王冬霞,王旭東,蔣茂松

?

一種基于正交非負(fù)矩陣分解的多通道線性預(yù)測(cè)語音去混響方法

何沖,王冬霞,王旭東,蔣茂松

(遼寧工業(yè)大學(xué)電子與信息工程學(xué)院,遼寧錦州 121001)

在相對(duì)封閉的聲學(xué)環(huán)境中,由于受到混響的影響,麥克風(fēng)陣列采集到的信號(hào)清晰度降低、甚至混淆不清。為了解決這一問題,文章在多通道線性預(yù)測(cè)(Multi-Channel Linear Prediction, MCLP)語音去混響的基礎(chǔ)上,提出了一種改進(jìn)的多通道線性預(yù)測(cè)(Multi-Channel Linear Prediction, MCLP)方法即正交非負(fù)矩陣線性預(yù)測(cè)(Orthogonal Non-negative Matrix Factorization Multi-Channel Linear Prediction, ONMFMCLP)方法。該方法利用純凈語音的短時(shí)譜域的稀疏性,構(gòu)建了基于正交的非負(fù)矩陣分解(Non-negative Matrix Factorization, NMF)的Kullback-Leibler(KL)問題,通過對(duì)矩陣求跡、利用梯度下降法給出迭代規(guī)則,進(jìn)而改進(jìn)了MCLP中目標(biāo)信號(hào)矩陣的協(xié)方差估計(jì)。實(shí)驗(yàn)結(jié)果表明,相對(duì)于其他方法,ONMFMCLP方法具有更好的去混響效果。

麥克風(fēng)陣列;去混響;多通道線性預(yù)測(cè);非負(fù)矩陣分解

0 引 言

在一些相對(duì)封閉的聲學(xué)環(huán)境中使用免提電話、電話會(huì)議、助聽器、語音控制系統(tǒng)等通信系統(tǒng)時(shí),麥克風(fēng)采集到的信號(hào)往往會(huì)受到混響的影響導(dǎo)致語音的清晰度、可懂度等降低,進(jìn)而影響通信系統(tǒng)的整體功能。因此研究如何去除語音混響即語音去混響也顯得愈發(fā)重要。

經(jīng)過多年的發(fā)展,人們提出了諸多去混響方法。主要包括基于多通道均衡的去混響方法[1]、基于譜估計(jì)和空間濾波器相結(jié)合的去混響方法[2]以及基于概率模型的去混響方法[3]。I Kodrasi等[1]提出的多通道均衡去混響方法在理論上可以實(shí)現(xiàn)較好的去混響效果,但該方法在實(shí)際中會(huì)受到房間沖激響應(yīng)估計(jì)準(zhǔn)確性的影響;Adam等[2]根據(jù)多通道維納濾波(Multi-channel Wiener Filter, MWF)理論將MWF分解為一個(gè)最小方差無失真響應(yīng)(Minimum Variance Distortionless Response, MVDR)波束形成器和一個(gè)單通道維納濾波器進(jìn)行去混響處理。該類方法同樣也可以實(shí)現(xiàn)較好的去混響效果,但需要估計(jì)目標(biāo)信號(hào)方向角等參數(shù);而A Jukic等[3]提出的多通道線性預(yù)測(cè)(Multi-Channel Linear Prediction, MCLP)去混響方法既可以實(shí)現(xiàn)較好的去混響效果,又不需要估計(jì)任何參數(shù)。但該方法會(huì)出現(xiàn)目標(biāo)信號(hào)協(xié)方差等于零的情況,當(dāng)情況嚴(yán)重時(shí)會(huì)出現(xiàn)輸出信號(hào)失真。

非負(fù)矩陣分解(Non-negative Matrix Factorization, NMF)自提出以來便得到學(xué)者們的深入研究和廣泛的應(yīng)用[4-5]。根據(jù)NMF的分解特性可知,NMF的分解矩陣具有非負(fù)的性質(zhì),而這種非負(fù)性使得這種描述數(shù)據(jù)的方法具有一定的稀疏性。研究表明,純凈語音的短時(shí)傅里葉系數(shù)具有一定的稀疏性且大于混響語音信號(hào)的短時(shí)系數(shù)稀疏特性[6-7]。鑒于此,考慮將NMF應(yīng)用到MCLP去混響中,這樣即可以避免目標(biāo)信號(hào)協(xié)方差出現(xiàn)等于零的情況,又可以進(jìn)一步提高語音的去混響性能。

本文介紹了混響的聲學(xué)模型及MCLP方法,提出了一種正交非負(fù)矩陣線性預(yù)測(cè)(Orthogonal Non-negative Matrix Factorization Multi-Channel Linear Prediction, ONMFMCLP) 方法,最后進(jìn)行了實(shí)驗(yàn)和結(jié)果分析。

1 混響信號(hào)模型及MCLP方法

在一個(gè)單聲源的封閉聲學(xué)環(huán)境中,有一個(gè)由個(gè)全向麥克風(fēng)組成的均勻線性陣列,則第個(gè)麥克風(fēng)接收到的語音信號(hào)的表達(dá)式為[3]

則式(5)的向量表達(dá)式為

2 基于NMF的協(xié)方差估計(jì)

在原則上,純凈語音的任何特性都可以加以利用。研究表明,純凈語音的短時(shí)傅里葉變換系數(shù)具有一定的稀疏性[9],因此可以利用提高輸出信號(hào)的稀疏性來產(chǎn)生一個(gè)近似于純凈語音的信號(hào),根據(jù)這一特性可以將其應(yīng)用到去混響中。

根據(jù)式(9)的非負(fù)性,首先構(gòu)造一個(gè)矩陣[10]:

同理,再定義一個(gè)非負(fù)矩陣也就是協(xié)方差矩陣:

式(11)和式(12)中的和分別表示幀總數(shù)和頻帶總數(shù)。根據(jù)式(10)中協(xié)方差與目標(biāo)信號(hào)的關(guān)系,首先用NMF對(duì)式(11)進(jìn)行處理。則其低維表示形式為

式(13)中的表示基矩陣,表示系數(shù)矩陣,表示特征維數(shù)。則協(xié)方差的估計(jì)矩陣為

實(shí)際使用過程中,為了能夠?qū)?shù)據(jù)進(jìn)行有效的數(shù)據(jù)特征提取并進(jìn)行有效的表述,需要提高NMF分解的稀疏性。

在已知文獻(xiàn)中,NMF直接被應(yīng)用到語音去混響中,而沒有考慮對(duì)NMF進(jìn)行處理,如提高NMF分解的稀疏性。本文將對(duì)NMF進(jìn)行深入的研究以達(dá)到進(jìn)一步提高語音去混響的目的。

以Kullback-Leibler(KL)為代價(jià)函數(shù)的NMF的系數(shù)矩陣不具有正交性即變量之間存在冗余信息。為了去除變量中的冗余信息,可以對(duì)其進(jìn)行正交化處理[11]。這與稀疏性的思想是契合的,也就是說這樣能夠提高NMF整體的稀疏性。因此,基于式(11)以正交的KL為代價(jià)函數(shù)的NMF的優(yōu)化問題可以歸納為

將式(23)、(24)代入到式(21)、(22)中,則

圖1 MCLP去混響算法框圖

3 仿真實(shí)驗(yàn)與結(jié)果分析

3.1 仿真環(huán)境

為分析本文方法ONMFMCLP的有效性,實(shí)驗(yàn)選取了經(jīng)典三種方法即MCLP[3]、MCLP+TVG+ NMF[10]和IRLS[3]進(jìn)行了性能比較和分析。

3.2 仿真結(jié)果分析

由圖2~4可以看出,在各自的混響時(shí)間條件下,純凈語音譜的譜分布條理清晰,稀疏性最好。

在輕度混響條件下,混響語音譜的稀疏性仍然比較好;相對(duì)于陣列采集信號(hào)所對(duì)應(yīng)的混響語音譜,MCLP+TVG+NMF、MCLP、IRLS、NMFMCLP、ONMFMCLP五種方法的去混響效果不明顯。

在中度、重度混響條件下,混響語音譜的譜分布布滿整個(gè)時(shí)頻域,稀疏性比較差。相對(duì)于麥克風(fēng)陣列采集信號(hào)所對(duì)應(yīng)的混響語音譜,MCLP+TVG+NMF、MCLP、IRLS、NMFMCLP、ONMFMCLP五種方法的去混響語音譜的譜分布不再布滿整個(gè)時(shí)頻域內(nèi),稀疏性得到了明顯的提高。

表1是采用主觀評(píng)測(cè)MOS(Mean Opinion Score)法對(duì)去混響語音的評(píng)價(jià)結(jié)果。

表 1 主觀評(píng)價(jià)結(jié)果

由表1可知,在輕度混響條件下,混響語音及各去混響方法的去混響效果并不是很明顯。在中度和重度混響條件下,各去混響方法均起到了一定去混響的效果。

圖5、6分別為各混響條件下采用相應(yīng)客觀評(píng)價(jià)指標(biāo)即FWSegSNR和PESQ得到的實(shí)驗(yàn)結(jié)果曲線圖。

圖5 去混響FWSegSNR曲線圖

圖6 去混響PESQ曲線圖

從圖5、6中可以看出,在各種混響條件下,相對(duì)于混響語音,無論是去混響參數(shù)FWSegSNR或PESQ,MCLP+TVG+NMF、MCLP、IRLS、NMFMCLP、ONMFMCLP五種去混響方法的評(píng)估參數(shù)都得到了顯著的提高。

在輕度混響條件下,MCLP、IRLS、NMFMCLP、ONMFMCLP四種方法的FWSegSNR的提高明顯優(yōu)于MCLP+TVG+NMF方法。而MCLP+TVG+NMF方法的PESQ提高優(yōu)于其它幾種方法。

在中度、重度混響條件下,NMFMCLP,ONMFMCLP兩種方法的性能參數(shù)明顯高于MCLP+TVG+NMF、MCLP、IRLS三種方法且MCLP+TVG+NMF方法去混響性能最差;綜合以上FWSegSNR和PESQ兩個(gè)性能參數(shù),ONMFMCLP去混響方法幾乎等價(jià)于NMFMCLP。

各種語音去混響方法的程序運(yùn)行時(shí)間柱狀圖如圖7所示。

由圖7可知,MCLP、IRLS兩種方法的程序運(yùn)行時(shí)間一致且最短;NMFMCLP方法的運(yùn)行時(shí)間次之;MCLP+TVG+NMF、ONMFMCLP方法的運(yùn)行時(shí)間最長(zhǎng)。故改進(jìn)方法即NMFMCLP/ONMFMCLP方法雖然進(jìn)一步提高了語音的去混響性能,但是其計(jì)算復(fù)雜度有明顯增加。

圖7 各去混響方法的運(yùn)行時(shí)間柱狀圖

4 結(jié)論

本文充分考慮了語音的時(shí)頻域稀疏性及其NMF的特性,對(duì)陣列接收目標(biāo)信號(hào)的協(xié)方差進(jìn)行了改進(jìn),即通過構(gòu)建正交KL為代價(jià)函數(shù)的NMF優(yōu)化問題,利用梯度下降法對(duì)其進(jìn)行推導(dǎo),得到了協(xié)方差矩陣的估計(jì)值,以達(dá)到進(jìn)一步提高語音的去混響性能。實(shí)驗(yàn)結(jié)果表明,相對(duì)于其他去混響方法,在不需要估計(jì)混響時(shí)間等參數(shù)的前提下,NMFMCLP/ONMFMCLP去混響方法在一定程度上改善了語音去混響性能。但是該方法也有一定的不足之處,例如計(jì)算復(fù)雜度有明顯增加;另外,NMF的初始化具有隨機(jī)性。

[1] KODRASI I, JUKIC A, DOCLO S. Robust sparsity promoting acoustic multi-channel equalization for speech dereverberation[C]//IEEE International Conference on Acoustics, 2016: 166-170.

[2] KUKLASINSKI A, DOCLO S. Maximum likelihood PSD estimation for speech enhancement in reverberation and noise[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2016, 24 (9): 1595-1608.

[3] JUKIC A, WATERSCHOOT T V, GERKMANN T, et al. Multi channel linear prediction-based speech dereverberation with sparse priors[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2015, 23 (9):1509-1520.

[4] MOHAMMADIHA N, SMARAGDIS P, LEIJON A. Supervised and unsupervised speech enhancement using nonnegative matrix factorization[J]. IEEE Transactions on Audio Speech and Language Processing, 2013, 21(10): 2140-2151.

[5] AKARSH K A, SELVI R S. Speech enhancement using non-negative matrix factorization and enhanced NMF[C]//International Conference on Circuit, 2015: 1-7.

[6] MOHAMMADIHA N, DOCLO S. Speech dereverberation using non-negative convolutive transfer function and spectro-temporal modeling[J]. IEEE Transactions on Audio Speech & Language Processing, 2016, 24(2): 276-289.

[7] MOHAMMADIHA N, SMARAGDIS P, DOCLO S. Joint acoustic and spectral modeling for speech dereverberation using non-negative representations[C]//IEEE International Conference on Acoustics, 2015, 8(4): 4410-4414.

[8] BRADLEY J S, SATO H, PICARD M. On the importance of early reflections for speech in rooms[J]. J. Acoust. Soc. Am., 2003, 113(6): 3233-3244.

[9] TASHEV I, ACERO A. Statistical modeling of the speech signal[C]//International Workshop on Acoustic Echo & Noise Control Tel Aviv Israel, 2010.

[10] JUKIC A, MOHAMMADIHA N, WATERSCHOOT T V. Multi-channel linear prediction-based on speech dereverberation with low-rank power spectrogram approximation[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, 2015, 23(9): 96-100.

[11] 崔建. β散度的非負(fù)矩陣分解在基因聚類中的應(yīng)用研究[D]. 重慶: 重慶大學(xué), 2015.

CUI Jian. The application of non negative matrix factorization of beta divergence in gene clustering[D]. Chongqing: Chongqing University, 2015.

[12] FéVOTTE C, BERTIN N, DURRIEU J L. Nonnegative matrix factorization with the Itakura-Saito divergence: with application to music analysis[J]. Neural Computation, 2009, 21(3): 793.

[13] GAROFOLO J S, LAMEL L, FISHER W, et al. TIMIT Acoustic-Phonetic Continuous Speech Corpus[J]. Journal of the Acoustical Society of Amercia, 1993, 88(88): 210-221.

[14] HADAD E, HEESE F, VARY P, et al. Multichannel audio database in various acoustic environments[C]//International Workshop on Acoustic Echo and Noise Control, Antibes, France, 2014: 313-317.

[15] HU Y, LOIZOU P C. Evaluation of objective quality measures for speech enhancement[J]. Transactions on Audio Speech and Language Processing, 2008, 16(1): 229-238.

Speech dereverbration based on MCLP using orthogonal NMF

HE Chong, WANG Dong-xia, WANG Xu-dong, JIANG Mao-song

(School of Electronic and Information Engineering, Liaoning University of Technology, Jinzhou 121001, Liaoning, China)

In a relatively closed acoustic environment, the speech signals can be severely affected by reverberation, which degrades the intelligibility of speech and even results in confusion. In order to solve this problem, this paper presents a new dereverbration algorithm called ONMFMCLP based on the well-known multi-channel linear prediction (MCLP). This algorithm utilizes the sparse nature of clean speech in the short time spectrum domain to construct the KL optimization problem based on the orthogonal NMF. The iterative rules are given through solving the matrix trace and utilizing the gradient descent method, thereby improving the signal covariance matrix in the MCLP algorithm. Experimental results show that the ONMFMCLP algorithm can achieve a better dereverberation performance compared with other algorithms.

microphone array; dereverbration; Multi-Channel Linear Prediction (MCLP); Non-negative Matrix Factorization (NMF)

TN912.35

A

1000-3630(2018)-05-0468-07

10.16300/j.cnki.1000-3630.2018.05.011

2017-06-29;

2017-08-13

遼寧省自然科學(xué)基金(201302022)資助項(xiàng)目。

何沖(1990-), 男, 河南南陽人, 碩士研究生, 研究方向?yàn)楝F(xiàn)代信號(hào)處理與多媒體技術(shù)。

王冬霞, E-mail: dxwang_lg@126.com

猜你喜歡
混響麥克風(fēng)協(xié)方差
Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
基于數(shù)字麥克風(fēng)的WIFI語音發(fā)射機(jī)
海洋混響特性分析與建模仿真研究?
淺談音響效果器的應(yīng)用
劇作家(2018年2期)2018-09-10 01:47:18
麥克風(fēng)的藝術(shù)
不確定系統(tǒng)改進(jìn)的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報(bào)器
一種基于廣義協(xié)方差矩陣的欠定盲辨識(shí)方法
用于室內(nèi)環(huán)境說話人識(shí)別的混響補(bǔ)償方法
麥克風(fēng)
闵行区| 新干县| 乐亭县| 伊金霍洛旗| 兰考县| 宁城县| 宽甸| 梧州市| 望都县| 濮阳县| 东乌| 苏尼特左旗| 米易县| 曲阳县| 东乌珠穆沁旗| 尉犁县| 丰镇市| 高淳县| 海门市| 盖州市| 双城市| 平遥县| 和田市| 屯昌县| 开封市| 昌图县| 威信县| 文登市| 通榆县| 旬阳县| 鹤壁市| 海淀区| 新野县| 和硕县| 监利县| 措美县| 石家庄市| 荆门市| 昌乐县| 海城市| 扎兰屯市|