稀疏低秩模型下的單通道自學(xué)習(xí)語(yǔ)音增強(qiáng)算法

2014-07-25 04:29李軼南楊吉斌吳海佳張立偉

數(shù)據(jù)采集與處理 2014年2期

李軼南賈沖楊吉斌吳海佳張立偉

（解放軍理工大學(xué)指揮信息系統(tǒng)學(xué)院，南京，210007）

引言

語(yǔ)音信號(hào)在實(shí)際的應(yīng)用中不可避免地會(huì)受到來(lái)自周圍環(huán)境噪聲的污染，導(dǎo)致語(yǔ)音質(zhì)量和可懂度的下降。學(xué)者們一直致力于研究增強(qiáng)算法以期實(shí)現(xiàn)從被噪聲污染的語(yǔ)音信號(hào)中盡可能準(zhǔn)確地恢復(fù)出原始語(yǔ)音信號(hào)。自20世紀(jì)70年代以來(lái)，出現(xiàn)了諸如譜減法、卡爾曼濾波法、信號(hào)子空間法等諸多經(jīng)典算法［1-2］，相應(yīng)的改進(jìn)算法也層出不窮，然而這些算法在去除實(shí)際環(huán)境中的噪聲，特別是非平穩(wěn)噪聲以及類語(yǔ)音噪聲時(shí)，其效果往往難以令人滿意。

近年來(lái)，字典學(xué)習(xí)算法不斷涌現(xiàn)［3-4］，基于字典學(xué)習(xí)的語(yǔ)音增強(qiáng)算法成為學(xué)者們研究的熱點(diǎn)，新的算法不斷被提出，這些新算法的出現(xiàn)為解決傳統(tǒng)增強(qiáng)算法難以解決的棘手問(wèn)題帶來(lái)了新的曙光。

文獻(xiàn)［5］對(duì)語(yǔ)音和噪聲分別進(jìn)行字典學(xué)習(xí)，得到二者的非負(fù)聯(lián)合字典，通過(guò)將帶噪語(yǔ)音在聯(lián)合字典上進(jìn)行投影，分離出純凈語(yǔ)音。文獻(xiàn)［6］發(fā)展了聯(lián)合字典的思想，將卷積模型引入字典學(xué)習(xí)的過(guò)程中，使字典中的原子能夠更好地反映出語(yǔ)音的時(shí)頻域結(jié)構(gòu)特征。盡管上述增強(qiáng)算法能夠獲得較好的增強(qiáng)效果，但是這種基于全監(jiān)督字典學(xué)習(xí)的增強(qiáng)算法需要大量語(yǔ)音和噪聲的先驗(yàn)知識(shí)，使得這些方法難以推廣到實(shí)際應(yīng)用之中。

學(xué)者們提出了很多新的更加實(shí)用的增強(qiáng)算法。文獻(xiàn)［7］基于非負(fù)稀疏編碼（Non-negative sparse coding，NNSC）提出一種半監(jiān)督增強(qiáng)算法，只需要預(yù)先訓(xùn)練出噪聲字典，就能夠?qū)崿F(xiàn)對(duì)于帶噪語(yǔ)音中特定噪聲的去除。文獻(xiàn)［8］使用K-SVD算法預(yù)先訓(xùn)練得到語(yǔ)音字典，利用話音激活檢測(cè)（Voice activity detection，VAD）在無(wú)語(yǔ)音期間獲取噪聲字典，實(shí)現(xiàn)了純凈語(yǔ)音信號(hào)的提取。這些方法雖然降低了對(duì)于先驗(yàn)知識(shí)的需求，但是依然無(wú)法實(shí)現(xiàn)無(wú)監(jiān)督條件下的語(yǔ)音增強(qiáng)，使得上述算法仍然具有其自身的局限性。

自文獻(xiàn)［9］提出魯棒主成分分析（Robust principal component analysis，RPCA）以來(lái)，語(yǔ)音的稀疏低秩建模逐漸成為研究熱點(diǎn)［10-11］。受RPCA思想的啟發(fā)，本文將稀疏低秩模型引入到基于字典學(xué)習(xí)的語(yǔ)音增強(qiáng)中去，提出一種自學(xué)習(xí)語(yǔ)音增強(qiáng)算法。該算法根據(jù)噪聲是否易于進(jìn)行低秩建模將噪聲區(qū)分為結(jié)構(gòu)化噪聲和非結(jié)構(gòu)化噪聲兩類。首先通過(guò) Go Decomposition（GoDec）算法［12］將帶噪語(yǔ)音幅度譜分解為稀疏、低秩和噪聲3部分，通過(guò)舍棄噪聲部分去除非結(jié)構(gòu)化噪聲；然后，通過(guò)字典學(xué)習(xí)算法對(duì)低秩部分進(jìn)行自學(xué)習(xí)，得到結(jié)構(gòu)化噪聲的字典；最后，使用所得噪聲字典和迭代公式，分離出純凈語(yǔ)音的幅度譜。實(shí)驗(yàn)結(jié)果表明，本文算法能夠在保留語(yǔ)音固有諧波特性的同時(shí)有效移除噪聲，增強(qiáng)效果顯著優(yōu)于諸如RPCA和多帶譜減法等無(wú)監(jiān)督增強(qiáng)算法。

1 語(yǔ)音的稀疏低秩模型

主成分分析（Principal component analysis，PCA）是最常用的降維方法，該方法能夠較好地挖掘出高維數(shù)據(jù)樣本中潛在的低維特征。然而，當(dāng)樣本數(shù)據(jù)中存在少數(shù)數(shù)值偏差較大的樣本時(shí)，其分解所得的結(jié)果往往會(huì)嚴(yán)重偏離實(shí)際。為此，Candès等人利用凸優(yōu)化相關(guān)理論提出了一種新的解決方法——魯棒主成分分析（Robust principal component analysis，RPCA）。RPCA能夠?qū)⒁粋€(gè)被任意大小的稀疏噪聲所污染的數(shù)據(jù)矩陣分解為一個(gè)稀疏矩陣和一個(gè)低秩矩陣之和，從而克服了傳統(tǒng)PCA算法對(duì)于稀疏的高強(qiáng)度噪聲敏感的不足。

1.1 魯棒主成分分析

假設(shè)被噪聲污染的幅度譜為Y，且Y中的噪聲具有潛在的低秩結(jié)構(gòu)，由于語(yǔ)音信號(hào)具有時(shí)頻域上的稀疏性，那么就能夠?qū)分解為低秩部分L和稀疏部分S之和，如式（1）所示

式（1）可以使用下面的優(yōu)化問(wèn)題來(lái)進(jìn)一步描述

對(duì)于式（3）可以使用增廣拉格朗日乘子法（Augmented lagrange multiplier，ALM）［13］來(lái) 方便地進(jìn)行求取。

1.2 稀疏低秩模型在語(yǔ)音分離中的應(yīng)用

文獻(xiàn)［10］首次將RPCA算法應(yīng)用到語(yǔ)音分離中，實(shí)現(xiàn)了歌唱語(yǔ)音和音樂(lè)伴奏的無(wú)監(jiān)督分離。文獻(xiàn)［10］指出，音樂(lè)伴奏往往具有明顯的重復(fù)結(jié)構(gòu)，所對(duì)應(yīng)的幅度譜具備明顯的低秩特征；與此同時(shí)，歌唱語(yǔ)音具有顯著的諧波結(jié)構(gòu)，這使得歌唱語(yǔ)音在整個(gè)歌曲的幅度譜上表現(xiàn)地十分稀疏。依據(jù)上述事實(shí)，文獻(xiàn)通過(guò)RPCA算法分解歌曲的幅度譜，所得的低秩部分代表了音樂(lè)伴奏，而稀疏部分則對(duì)應(yīng)于歌唱語(yǔ)音，據(jù)此實(shí)現(xiàn)了二者的分離。

然而，實(shí)際環(huán)境中的背景噪聲較上面所述場(chǎng)景更為復(fù)雜，既有類似于音樂(lè)伴奏的低秩噪聲，又有諸如高斯噪聲一類的高維噪聲，因此，直接應(yīng)用RPCA進(jìn)行增強(qiáng)往往效果并不理想，后面的實(shí)驗(yàn)將會(huì)證明這一點(diǎn)。進(jìn)一步的研究顯示，將帶噪語(yǔ)音幅度譜分解為低秩、稀疏和噪聲3部分之和的分解模型更加合理。在此分解模型下，低秩部分代表了噪聲中結(jié)構(gòu)性強(qiáng)的部分；語(yǔ)音信號(hào)由于其固有的短時(shí)平穩(wěn)性，將會(huì)被分解到稀疏部分中去；噪聲部分則代表了密集的非結(jié)構(gòu)化噪聲，是噪聲中結(jié)構(gòu)特征不明顯的部分。本文算法依據(jù)上述分解模型實(shí)現(xiàn)了無(wú)監(jiān)督條件下的單通道語(yǔ)音增強(qiáng)。

2 單通道自學(xué)習(xí)語(yǔ)音增強(qiáng)算法

增強(qiáng)算法對(duì)于傳統(tǒng)的語(yǔ)音加性噪聲模型進(jìn)行了進(jìn)一步的細(xì)化和完善：假設(shè)y（t）為帶噪語(yǔ)音信號(hào)，s（t）為純凈語(yǔ)音信號(hào)，n（t）為噪聲信號(hào)。根據(jù)n（t）是否易于進(jìn)行低秩建模將噪聲進(jìn)一步細(xì)化區(qū)分為結(jié)構(gòu)化噪聲和非結(jié)構(gòu)化噪聲兩部分

式中：ns（t）是噪聲中結(jié)構(gòu)性強(qiáng)的部分，即結(jié)構(gòu)化噪聲部分；nu（t）則噪聲中結(jié)構(gòu)性不明顯的部分，即非結(jié)構(gòu)化噪聲部分。

本文增強(qiáng)算法如圖1所示。首先對(duì)于帶噪語(yǔ)音進(jìn)行短時(shí)傅里葉變換（Short time Fourier transformation，STFT），求取帶噪語(yǔ)音的幅度譜，然后使用矩陣的稀疏低秩分解將帶噪語(yǔ)音的幅度譜分解為低秩、稀疏和噪聲3部分，通過(guò)舍棄噪聲部分移除非結(jié)構(gòu)化噪聲nu（t），通過(guò)對(duì)于低秩部分進(jìn)行學(xué)習(xí)得到結(jié)構(gòu)化噪聲部分ns（t）的字典Dn；最后利用所得的噪聲字典和相應(yīng)的乘性迭代公式分離出純凈語(yǔ)音信號(hào)。

圖1 增強(qiáng)算法流程圖Fig.1 Pipeline of the proposed algorithm

2.1 語(yǔ)音幅度譜表示

首先對(duì)帶噪語(yǔ)音信號(hào)y（t）進(jìn)行分幀加窗，然后計(jì)算每一幀的快速傅里葉變換（Fast Fourier transformation，F(xiàn)FT）得到y(tǒng)（t）的短時(shí)傅里葉變換（Short time Fourier transformation，STFT ）。

式中：W為所取語(yǔ)音幀幀長(zhǎng)和FFT的長(zhǎng)度，h（n）（n＝0，…，W-1）為歸一化語(yǔ)音窗，R＝titi-1為相鄰語(yǔ)音幀之間交疊的樣點(diǎn)個(gè)數(shù)，取R＝L/2。若帶噪語(yǔ)音信號(hào)的幀數(shù)為N，則經(jīng)STFT變換后所得矩陣的大小為W×N。通過(guò)對(duì)求取絕對(duì)值就可以得到帶噪語(yǔ)音的幅度譜

記錄下中相應(yīng)的相位信息∠，以便在語(yǔ)音重構(gòu)時(shí)對(duì)語(yǔ)音波形進(jìn)行恢復(fù)。

2.2 語(yǔ)音幅度譜的稀疏低秩分解

GoDec算法是在RPCA的基礎(chǔ)上優(yōu)化了矩陣的稀疏低秩分解模型而得到的一種矩陣分解算法。使用該算法可以將帶噪語(yǔ)音的幅度譜分解為3個(gè)矩陣之和，即

式中：rank（L）表示的是矩陣L的秩，card（S）表示的是矩陣S的勢(shì)，即矩陣中非零元素的數(shù)目。

為了求解式（7），將其轉(zhuǎn)化為兩個(gè)最優(yōu)化的子問(wèn)題，其本質(zhì)是在殘差最小化的條件下，對(duì)低秩和稀疏矩陣分別進(jìn)行估計(jì)，如式（8）

在求解式（8）中兩個(gè)子問(wèn)題的迭代過(guò)程中計(jì)算量開銷最大的運(yùn)算為SVD運(yùn)算，GoDec算法采用雙邊隨機(jī)投影（Bilateral random projection，BRP）來(lái)代替SVD運(yùn)算，大大提高了運(yùn)算效率，顯著降低了算法的計(jì)算復(fù)雜度。

使用GoDec算法將所得的幅度譜矩陣Y分解為低秩L，稀疏S和噪聲N三個(gè)部分。由于非結(jié)構(gòu)化噪聲部分很難用稀疏部分S或是低秩部分L來(lái)表示，此類噪聲通常被GoDec算法分解到噪聲部分即矩陣N中，直接去除此部分即可移除非結(jié)構(gòu)化噪聲。

根據(jù)上述分析，直接將帶噪語(yǔ)音的幅度譜分解為低秩、稀疏和噪聲3部分似乎就能實(shí)現(xiàn)對(duì)于語(yǔ)音信號(hào)的增強(qiáng)。然而，實(shí)際的實(shí)驗(yàn)結(jié)果顯示直接將矩陣進(jìn)行稀疏低秩分解難以實(shí)現(xiàn)對(duì)非平穩(wěn)噪聲環(huán)境下3部分的完美分離，這主要是因?yàn)閱渭兊南∈璧椭确纸馑玫牡椭炔糠指P(guān)注語(yǔ)音信號(hào)在時(shí)頻域上的重復(fù)性，而并不側(cè)重于研究這些重復(fù)信號(hào)所具有的具體特征。為了克服這個(gè)缺點(diǎn)，本文算法引入字典學(xué)習(xí)算法來(lái)學(xué)習(xí)這些不斷重復(fù)的噪聲信號(hào)所具有的獨(dú)特特征，從而進(jìn)一步提升語(yǔ)噪分離的性能。

2.3 稀疏低秩模型下的自學(xué)習(xí)語(yǔ)音增強(qiáng)

結(jié)構(gòu)化噪聲部分通常具有比語(yǔ)音信號(hào)更加明顯的重復(fù)和冗余結(jié)構(gòu)。通過(guò)選取合適的秩，就能夠在矩陣分解所得的低秩部分，即在矩陣L中獲取到此類噪聲的結(jié)構(gòu)信息，通過(guò)對(duì)低秩部分進(jìn)行字典學(xué)習(xí)，就能夠獲取相應(yīng)的噪聲字典，從而實(shí)現(xiàn)自學(xué)習(xí)。

相關(guān)研究表明，由局部到整體的累加方式更符合人類感官?gòu)木植康秸w的認(rèn)知過(guò)程且人耳對(duì)聲音相位不敏感，這里首先對(duì)L求模值，然后通過(guò)非負(fù)矩陣分解（Non-negative matrix factorization，NMF）［14］的方式獲得結(jié)構(gòu)化噪聲的歸一化非負(fù)字典Dn。設(shè)結(jié)構(gòu)化噪聲字典中原子的個(gè)數(shù)為num，則有

式中：∈RW×N為稀疏低秩分解所得的低秩矩陣的模值，Dn∈RW×num和C′n∈Rnum×N分別為結(jié)構(gòu)化噪聲的歸一化非負(fù)字典和對(duì)應(yīng)的增益系數(shù)矩陣。

假設(shè)移除非結(jié)構(gòu)化噪聲以后的語(yǔ)音幅度譜為，純凈語(yǔ)音的字典為Ds，對(duì)應(yīng)的增益系數(shù)矩陣為Cs，結(jié)構(gòu)化噪聲字典為Dn，相應(yīng)的增益系數(shù)矩陣為Cn。語(yǔ)音增強(qiáng)問(wèn)題就轉(zhuǎn)化為

固定從低秩部分中學(xué)習(xí)得到的結(jié)構(gòu)化噪聲字典Dn，并使用下面的基于梯度下降的乘性更新公式［15］更新剩下的3個(gè)矩陣

式中：1為全1矩陣，λs和λn是控制增益矩陣稀疏度的常數(shù)，符號(hào)?表示矩陣或向量中對(duì)應(yīng)元素的乘。

2.4 增強(qiáng)語(yǔ)音波形重構(gòu)

經(jīng)過(guò)式（11-13）的若干次的迭代后，就能夠分離出純凈語(yǔ)音和對(duì)應(yīng)噪聲。本文采用Wiener濾波法進(jìn)行后處理，來(lái)進(jìn)一步提升算法的增強(qiáng)效果，使得增強(qiáng)后的語(yǔ)音聽起來(lái)更自然。

Wiener濾波可以認(rèn)為是對(duì)于語(yǔ)音時(shí)頻域上的最小均方誤差估計(jì)，其頻域表達(dá)式為

式中：Ys＝DsCs，Yn＝DnCn，∠為STFT時(shí)記錄下的帶噪語(yǔ)音相位信息。

將估計(jì)出的語(yǔ)音頻譜進(jìn)行逆STFT就可以重構(gòu)出增強(qiáng)后的語(yǔ)音波形。

3 增強(qiáng)算法性能評(píng)估

實(shí)驗(yàn)選用的純凈語(yǔ)音來(lái)自TIMIT標(biāo)準(zhǔn)語(yǔ)音庫(kù)中的男女語(yǔ)音片段各5句，噪聲則來(lái)自Noisex-92標(biāo)準(zhǔn)噪聲庫(kù)［16］，將二者下采樣到8kHz，信噪比分別選取-5，0，5和10dB對(duì)算法分別進(jìn)行評(píng)估。在稀疏低秩分解中，設(shè)定低秩部分的秩為1，來(lái)獲取重復(fù)性明顯的噪聲部分，同時(shí)避免語(yǔ)音信號(hào)過(guò)多地泄露到低秩部分中。純凈語(yǔ)音和噪聲字典的原子個(gè)數(shù)均設(shè)定為40。在字典更新的過(guò)程中，乘性迭代公式進(jìn)行不超過(guò)200次的迭代。

測(cè)試實(shí)驗(yàn)著重選取了Pink，F(xiàn)16，Machinegun和Babble 4種具有代表性的噪聲進(jìn)行測(cè)試。其中Pink是自然界中最常見的噪聲，其頻率分量功率主要分布在中低頻段，并沒有明顯的時(shí)頻結(jié)構(gòu)，代表了非結(jié)構(gòu)化噪聲；F16為美軍雙座F16戰(zhàn)斗機(jī)巡航過(guò)程中座艙內(nèi)的噪聲，能量集中在在0～700Hz和2 750Hz頻帶附近且呈現(xiàn)出不均勻的變化特性；Machinegun為機(jī)槍掃射時(shí)所發(fā)出的噪聲，能夠代表瞬時(shí)噪聲；Babble為有容納大約100個(gè)人個(gè)同時(shí)在講話的人的餐廳中的背景噪聲，能量主要集中在低頻段，是類語(yǔ)音噪聲的代表）

采用BSS-EVAL評(píng)價(jià)體系［17］、短時(shí)客觀可懂度測(cè)量（Short-Time objective intelligibility measure，STOI）［18］和語(yǔ)音質(zhì)量客觀評(píng)估方法（Perceptual evaluation of speech quality，PESQ）［19］對(duì)語(yǔ)音的性能進(jìn)行評(píng)估。其中，BSS-EVAL是目前公認(rèn)的性能比較好的盲源分離算法評(píng)估體系，該評(píng)估體系通過(guò)計(jì)算信源引入噪聲比（Signal artifacts ratio，SAR）、信干比（Signal to interference ratio，SIR）、信源失真比（Signal to distortion ratio，SDR），從不同方面反映了增強(qiáng)算法的效果；STOI是一種比較新的機(jī)器驅(qū)動(dòng)的可懂度客觀評(píng)估方法，其計(jì)算值與人對(duì)于語(yǔ)音的實(shí)際可懂度高度相關(guān)；PESQ是用來(lái)評(píng)價(jià)語(yǔ)音的主觀試聽效果的客觀計(jì)算方法，能夠很好地近似平均意見得分（Mean opinion score，MOS）。

將本文所提出的基于稀疏低秩模型的自學(xué)習(xí)語(yǔ)音增強(qiáng)算法與RPCA算法和多帶譜減法（Multiband spectral subtraction，MBSS）［20］兩種無(wú)監(jiān)督算法進(jìn)行比較來(lái)對(duì)本文算法進(jìn)行評(píng)估。其中，RPCA算法是一種基于稀疏低秩分解的無(wú)監(jiān)督分離方法，在分離歌唱和伴奏時(shí)，體現(xiàn)出很好的性能；MBSS是一種性能比較好的增強(qiáng)算法，在多種噪聲環(huán)境下均能獲得較好的增強(qiáng)效果。

圖2給出了4種噪聲環(huán)境下BSS-EVAL評(píng)價(jià)體系中3個(gè)關(guān)鍵指標(biāo)的平均測(cè)量值。在這3個(gè)指標(biāo)中，SAR對(duì)于分離過(guò)程中引入噪聲的大小進(jìn)行評(píng)估，SIR是表征增強(qiáng)算法對(duì)噪聲抑制程度的一個(gè)值，SDR則反映了分離算法的總體性能。3個(gè)指標(biāo)越高的算法，相應(yīng)的性能也就越好。

由圖2中可以看出，本文算法的SAR測(cè)度平均比 RPCA方法高出3.3dB，比 MBSS高出5.5dB。在SIR測(cè)度方面，本文算法平均比RPCA高出2.3dB，比 MBSS高出5.8dB。SDR測(cè)度顯示，本文算法比RPCA高出2.1dB，比MBSS高出5.3dB。這些指標(biāo)說(shuō)明相較于其他兩種算法，本文算法引入更少的噪聲，具有更好的噪聲抑制能力，其綜合性能指標(biāo)也更加優(yōu)越。

圖2 BSS-EVAL評(píng)價(jià)體系平均測(cè)量值Fig.2 Performance of MBSS，RPCA and the proposed algorithm in terms of BSS-EVAL metrics

圖3 STOI平均測(cè)量值Fig.3 Average short-time objective intelligibility measures of different algorithms

圖3列出了3種增強(qiáng)方法的STOI測(cè)量值。可以看出，本文算法具有比其他兩種方法更高的測(cè)量值。這說(shuō)明，本文算法的可懂度要高于其他兩種算法，并且隨著信噪比的下降，本文算法的可懂度下降相對(duì)緩慢，這說(shuō)明本文算法在低信噪比下仍具有較好的可懂度。

表1列舉了3種增強(qiáng)方法在4種不同噪聲環(huán)境和輸入信噪比下的PESQ測(cè)量值，這些測(cè)量值進(jìn)一步驗(yàn)證本文算法的性能。

表1 不同算法和噪聲下的PESQ值Table 1 PESQ scores of different algorithms and noises

然而，無(wú)論是BSS-EVAL評(píng)價(jià)體系、STOI測(cè)度還是PESQ值，都只能夠從宏觀上反映算法的性能，為了更好地觀察出增強(qiáng)語(yǔ)音信號(hào)的細(xì)節(jié)特征，本文給出了3種增強(qiáng)算法對(duì)于輸入信噪比為5dB，被F16飛機(jī)噪聲所污染的純凈語(yǔ)音進(jìn)行增強(qiáng)前后的語(yǔ)譜圖，如圖4所示。

可見，RPCA比MBSS更好地去除了噪聲，然而也帶來(lái)了更大的語(yǔ)音損傷。在2 750Hz的頻帶附近，使用RPCA進(jìn)行增強(qiáng)的結(jié)果依然存在少量噪聲殘留，導(dǎo)致了類似音樂(lè)噪聲的試聽感受。本文算法在繼承了RPCA優(yōu)點(diǎn)的同時(shí)，很好地克服了RPCA的缺點(diǎn)，能夠在有效去除噪聲的前提下，較好地保持語(yǔ)音信號(hào)的固有諧波特性，增強(qiáng)效果明顯優(yōu)于前兩種算法。

4 結(jié)束語(yǔ)

本文基于矩陣的稀疏低秩分解提出一種單通道自學(xué)習(xí)語(yǔ)音增強(qiáng)算法，實(shí)現(xiàn)了對(duì)于語(yǔ)音信號(hào)的無(wú)監(jiān)督增強(qiáng)，該算法能夠在保留語(yǔ)音信號(hào)固有諧波特性的同時(shí)很好地移除噪聲。在低信噪比條件下，本文算法的增強(qiáng)結(jié)果依然能夠保持較高的可懂度，其增強(qiáng)性能顯著優(yōu)于魯棒主成分分析方法和多帶譜減法。

圖4 語(yǔ)音語(yǔ)譜圖Fig.4 Spectrograms

［1］Mohammadiha N，Smaragdis P，Leijon A.Supervised and unsupervised speech enhancement using nonnegative matrix factorization［J］.IEEE Transactions on Audio，Speech and Language Processing，2013，21（10）：2140-2151.

［2］張麗艷，殷福亮.一種改進(jìn)的奇異值分解語(yǔ)音增強(qiáng)方法［J］.電子與信息學(xué)報(bào)，2008，30（2）：357-361.

Zhang Liyan，Yin Fuliang.An improved speech enhancement method based on SVD［J］.Jounal of E-lectronics ＆Information Technology，2008，30（2）：357-361.

［3］曾理，張雄偉，陳亮，等.基于壓縮感知的K-L分解語(yǔ)音稀疏表示算法［J］.數(shù)據(jù)采集與處理，2013，28（3）：267-273.

Zeng Li，Zhang Xiongwei，Chen Liang，et al.Compressed-sensing-based speech sparse representation with K-L expansion［J］.Journal of Data Acquisition and Processing，2013，28（3）：357-361.

［4］王天荊，鄭寶玉，楊震.基于自適應(yīng)冗余字典的語(yǔ)音信號(hào)稀疏表示算法［J］.電子與信息學(xué)報(bào).2011，33（10）：2372-2377.

Wang Tianjing，Zheng Baoyu，Yang Zhen.A speech signal sparse representation algorithm based on adaptive overcomplete dictionary［J］.Journal of Electronics ＆Information Technology，2011，33（10）：2372-2377.

［5］Wilson K，Raj B，Smaragdis P，et al.Speech denoising using nonnegative matrix factorization with priors［C］∥ICASSP.Las Vegas：IEEE，2008：4029-4032.

［6］Smaragdis P.Convolution speech bases and their application to supervised speech separation［J］.IEEE Transactions on Audio，Speech and Language Processing，2007，15（1）：1-12.

［7］Mikkel N S，Jan L，F(xiàn)u-Tien，et al.Wind noise reduction using non-negative sparse coding［C］∥IEEE Workshop on Machine Learning for Signal Processing.Thessaloniki：IEEE，2007：431-436.

［8］Christian D S，Tomas D，Joachim M，et al.Speech enhancement using generative dictionary learning［J］.IEEE Transactions on Audio，Speech and Language Processing，2012，20（6）：1698-1712.

［9］Emmanuel J C，Xiaodong Li，Yi Ma，et al.Robust principal component analysis［J］.Journal of the ACM，2011，58（3）：1-37.

［10］Huang Po-Sen，Chen S D，Smaragdis P，et al.Singing-voice separation from monaural recordings using robust principal component analysis［C］∥ICASSP.Kyoto：IEEE，2012：57-60.

［11］Sprechmann P，Bronstein A，Bronstein M，et al.Learnable low rank sparse models for speech denoising［C］∥ICASSP.Vancouver，Canada：IEEE，2013：136-140.

［12］Zhou Tianyi，Tao Dacheng.GoDec：randomized lowrank ＆sparse matrix decomposition in noisy case［C］∥28th International Conference on Machine Learning.Bellevue，Washington：Springer Berlin Heidelberg，2011：33-40.

［13］Lin Z，Chen M，Ma Y.The augmented Lagrange multiplier method for exact recovery of a corrupted low-rank matrices［EB/OL］.http：∥arxiv.org/abs/1009.5055，2010-9-26.

［14］Lee D D，Seung H S.Learning parts of objects by non-negative matrix factorization［J］.Nature，1999，401（6755）：788-791.

［15］Kristian T A.Wind noise reduction in single channel speech signals［D］.Technical University of Demark，2008：25-37.

［16］Rice University Digital Signal （DSP） group.Noisex92Noise Database［EB/OL］.http：∥spib.rice.edu/spib/select＿noise.html.1996-8-16.

［17］Vincent E，Gribonval R，F(xiàn)evotte C.Performance measurement in blind audio source separation［J］.IEEE Transaction on Audio，Speech，and Language Processing，2006，14（4）：1462-1469.

［18］Cees H T，Richard C，Hendriks，et al.An algorithm for intelligibility prediction of time-frequency weighted noisy speech［J］.IEEE Transactions on Audio，Speech and Language Processing，2011，19（7）：2125-2136.

［19］International Telecommunication Union.Perceptual evaluation of speech quality （PESQ）：an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs，recommendation-862［S］.P.862.Switzerland Geneva：ITU-T，2001.

［20］Philipos C，Loizou.Speech enhancement：Theory and practice［M］.Boca Raton，F(xiàn)lorida：Taylor and Francis，2007：120-125.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡