李軼南 賈 沖 楊吉斌 吳海佳 張立偉
(解放軍理工大學(xué)指揮信息系統(tǒng)學(xué)院,南京,210007)
語(yǔ)音信號(hào)在實(shí)際的應(yīng)用中不可避免地會(huì)受到來(lái)自周圍環(huán)境噪聲的污染,導(dǎo)致語(yǔ)音質(zhì)量和可懂度的下降。學(xué)者們一直致力于研究增強(qiáng)算法以期實(shí)現(xiàn)從被噪聲污染的語(yǔ)音信號(hào)中盡可能準(zhǔn)確地恢復(fù)出原始語(yǔ)音信號(hào)。自20世紀(jì)70年代以來(lái),出現(xiàn)了諸如譜減法、卡爾曼濾波法、信號(hào)子空間法等諸多經(jīng)典算法[1-2],相應(yīng)的改進(jìn)算法也層出不窮,然而這些算法在去除實(shí)際環(huán)境中的噪聲,特別是非平穩(wěn)噪聲以及類語(yǔ)音噪聲時(shí),其效果往往難以令人滿意。
近年來(lái),字典學(xué)習(xí)算法不斷涌現(xiàn)[3-4],基于字典學(xué)習(xí)的語(yǔ)音增強(qiáng)算法成為學(xué)者們研究的熱點(diǎn),新的算法不斷被提出,這些新算法的出現(xiàn)為解決傳統(tǒng)增強(qiáng)算法難以解決的棘手問(wèn)題帶來(lái)了新的曙光。
文獻(xiàn)[5]對(duì)語(yǔ)音和噪聲分別進(jìn)行字典學(xué)習(xí),得到二者的非負(fù)聯(lián)合字典,通過(guò)將帶噪語(yǔ)音在聯(lián)合字典上進(jìn)行投影,分離出純凈語(yǔ)音。文獻(xiàn)[6]發(fā)展了聯(lián)合字典的思想,將卷積模型引入字典學(xué)習(xí)的過(guò)程中,使字典中的原子能夠更好地反映出語(yǔ)音的時(shí)頻域結(jié)構(gòu)特征。盡管上述增強(qiáng)算法能夠獲得較好的增強(qiáng)效果,但是這種基于全監(jiān)督字典學(xué)習(xí)的增強(qiáng)算法需要大量語(yǔ)音和噪聲的先驗(yàn)知識(shí),使得這些方法難以推廣到實(shí)際應(yīng)用之中。
學(xué)者們提出了很多新的更加實(shí)用的增強(qiáng)算法。文獻(xiàn)[7]基于非負(fù)稀疏編碼(Non-negative sparse coding,NNSC)提出一種半監(jiān)督增強(qiáng)算法,只需要預(yù)先訓(xùn)練出噪聲字典,就能夠?qū)崿F(xiàn)對(duì)于帶噪語(yǔ)音中特定噪聲的去除。文獻(xiàn)[8]使用K-SVD算法預(yù)先訓(xùn)練得到語(yǔ)音字典,利用話音激活檢測(cè)(Voice activity detection,VAD)在無(wú)語(yǔ)音期間獲取噪聲字典,實(shí)現(xiàn)了純凈語(yǔ)音信號(hào)的提取。這些方法雖然降低了對(duì)于先驗(yàn)知識(shí)的需求,但是依然無(wú)法實(shí)現(xiàn)無(wú)監(jiān)督條件下的語(yǔ)音增強(qiáng),使得上述算法仍然具有其自身的局限性。
自文獻(xiàn)[9]提出魯棒主成分分析(Robust principal component analysis,RPCA)以來(lái),語(yǔ)音的稀疏低秩建模逐漸成為研究熱點(diǎn)[10-11]。受RPCA思想的啟發(fā),本文將稀疏低秩模型引入到基于字典學(xué)習(xí)的語(yǔ)音增強(qiáng)中去,提出一種自學(xué)習(xí)語(yǔ)音增強(qiáng)算法。該算法根據(jù)噪聲是否易于進(jìn)行低秩建模將噪聲區(qū)分為結(jié)構(gòu)化噪聲和非結(jié)構(gòu)化噪聲兩類。首先通過(guò) Go Decomposition(GoDec)算法[12]將帶噪語(yǔ)音幅度譜分解為稀疏、低秩和噪聲3部分,通過(guò)舍棄噪聲部分去除非結(jié)構(gòu)化噪聲;然后,通過(guò)字典學(xué)習(xí)算法對(duì)低秩部分進(jìn)行自學(xué)習(xí),得到結(jié)構(gòu)化噪聲的字典;最后,使用所得噪聲字典和迭代公式,分離出純凈語(yǔ)音的幅度譜。實(shí)驗(yàn)結(jié)果表明,本文算法能夠在保留語(yǔ)音固有諧波特性的同時(shí)有效移除噪聲,增強(qiáng)效果顯著優(yōu)于諸如RPCA和多帶譜減法等無(wú)監(jiān)督增強(qiáng)算法。
主成分分析(Principal component analysis,PCA)是最常用的降維方法,該方法能夠較好地挖掘出高維數(shù)據(jù)樣本中潛在的低維特征。然而,當(dāng)樣本數(shù)據(jù)中存在少數(shù)數(shù)值偏差較大的樣本時(shí),其分解所得的結(jié)果往往會(huì)嚴(yán)重偏離實(shí)際。為此,Candès等人利用凸優(yōu)化相關(guān)理論提出了一種新的解決方法——魯棒主成分分析(Robust principal component analysis,RPCA)。RPCA能夠?qū)⒁粋€(gè)被任意大小的稀疏噪聲所污染的數(shù)據(jù)矩陣分解為一個(gè)稀疏矩陣和一個(gè)低秩矩陣之和,從而克服了傳統(tǒng)PCA算法對(duì)于稀疏的高強(qiáng)度噪聲敏感的不足。
假設(shè)被噪聲污染的幅度譜為Y,且Y中的噪聲具有潛在的低秩結(jié)構(gòu),由于語(yǔ)音信號(hào)具有時(shí)頻域上的稀疏性,那么就能夠?qū)分解為低秩部分L和稀疏部分S之和,如式(1)所示
式(1)可以使用下面的優(yōu)化問(wèn)題來(lái)進(jìn)一步描述
對(duì)于式(3)可以使用增廣拉格朗日乘子法(Augmented lagrange multiplier,ALM)[13]來(lái) 方便地進(jìn)行求取。
文獻(xiàn)[10]首次將RPCA算法應(yīng)用到語(yǔ)音分離中,實(shí)現(xiàn)了歌唱語(yǔ)音和音樂(lè)伴奏的無(wú)監(jiān)督分離。文獻(xiàn)[10]指出,音樂(lè)伴奏往往具有明顯的重復(fù)結(jié)構(gòu),所對(duì)應(yīng)的幅度譜具備明顯的低秩特征;與此同時(shí),歌唱語(yǔ)音具有顯著的諧波結(jié)構(gòu),這使得歌唱語(yǔ)音在整個(gè)歌曲的幅度譜上表現(xiàn)地十分稀疏。依據(jù)上述事實(shí),文獻(xiàn)通過(guò)RPCA算法分解歌曲的幅度譜,所得的低秩部分代表了音樂(lè)伴奏,而稀疏部分則對(duì)應(yīng)于歌唱語(yǔ)音,據(jù)此實(shí)現(xiàn)了二者的分離。
然而,實(shí)際環(huán)境中的背景噪聲較上面所述場(chǎng)景更為復(fù)雜,既有類似于音樂(lè)伴奏的低秩噪聲,又有諸如高斯噪聲一類的高維噪聲,因此,直接應(yīng)用RPCA進(jìn)行增強(qiáng)往往效果并不理想,后面的實(shí)驗(yàn)將會(huì)證明這一點(diǎn)。進(jìn)一步的研究顯示,將帶噪語(yǔ)音幅度譜分解為低秩、稀疏和噪聲3部分之和的分解模型更加合理。在此分解模型下,低秩部分代表了噪聲中結(jié)構(gòu)性強(qiáng)的部分;語(yǔ)音信號(hào)由于其固有的短時(shí)平穩(wěn)性,將會(huì)被分解到稀疏部分中去;噪聲部分則代表了密集的非結(jié)構(gòu)化噪聲,是噪聲中結(jié)構(gòu)特征不明顯的部分。本文算法依據(jù)上述分解模型實(shí)現(xiàn)了無(wú)監(jiān)督條件下的單通道語(yǔ)音增強(qiáng)。
增強(qiáng)算法對(duì)于傳統(tǒng)的語(yǔ)音加性噪聲模型進(jìn)行了進(jìn)一步的細(xì)化和完善:假設(shè)y(t)為帶噪語(yǔ)音信號(hào),s(t)為純凈語(yǔ)音信號(hào),n(t)為噪聲信號(hào)。根據(jù)n(t)是否易于進(jìn)行低秩建模將噪聲進(jìn)一步細(xì)化區(qū)分為結(jié)構(gòu)化噪聲和非結(jié)構(gòu)化噪聲兩部分
式中:ns(t)是噪聲中結(jié)構(gòu)性強(qiáng)的部分,即結(jié)構(gòu)化噪聲部分;nu(t)則噪聲中結(jié)構(gòu)性不明顯的部分,即非結(jié)構(gòu)化噪聲部分。
本文增強(qiáng)算法如圖1所示。首先對(duì)于帶噪語(yǔ)音進(jìn)行短時(shí)傅里葉變換(Short time Fourier transformation,STFT),求取帶噪語(yǔ)音的幅度譜,然后使用矩陣的稀疏低秩分解將帶噪語(yǔ)音的幅度譜分解為低秩、稀疏和噪聲3部分,通過(guò)舍棄噪聲部分移除非結(jié)構(gòu)化噪聲nu(t),通過(guò)對(duì)于低秩部分進(jìn)行學(xué)習(xí)得到結(jié)構(gòu)化噪聲部分ns(t)的字典Dn;最后利用所得的噪聲字典和相應(yīng)的乘性迭代公式分離出純凈語(yǔ)音信號(hào)。
圖1 增強(qiáng)算法流程圖Fig.1 Pipeline of the proposed algorithm
首先對(duì)帶噪語(yǔ)音信號(hào)y(t)進(jìn)行分幀加窗,然后計(jì)算每一幀的快速傅里葉變換(Fast Fourier transformation,F(xiàn)FT)得到y(tǒng)(t)的短時(shí)傅里葉變換(Short time Fourier transformation,STFT )。
式中:W為所取語(yǔ)音幀幀長(zhǎng)和FFT的長(zhǎng)度,h(n)(n=0,…,W-1)為歸一化語(yǔ)音窗,R=titi-1為相鄰語(yǔ)音幀之間交疊的樣點(diǎn)個(gè)數(shù),取R=L/2。若帶噪語(yǔ)音信號(hào)的幀數(shù)為N,則經(jīng)STFT變換后所得矩陣的大小為W×N。通過(guò)對(duì)求取絕對(duì)值就可以得到帶噪語(yǔ)音的幅度譜
記錄下中相應(yīng)的相位信息∠,以便在語(yǔ)音重構(gòu)時(shí)對(duì)語(yǔ)音波形進(jìn)行恢復(fù)。
GoDec算法是在RPCA的基礎(chǔ)上優(yōu)化了矩陣的稀疏低秩分解模型而得到的一種矩陣分解算法。使用該算法可以將帶噪語(yǔ)音的幅度譜分解為3個(gè)矩陣之和,即
式中:rank(L)表示的是矩陣L的秩,card(S)表示的是矩陣S的勢(shì),即矩陣中非零元素的數(shù)目。
為了求解式(7),將其轉(zhuǎn)化為兩個(gè)最優(yōu)化的子問(wèn)題,其本質(zhì)是在殘差最小化的條件下,對(duì)低秩和稀疏矩陣分別進(jìn)行估計(jì),如式(8)
在求解式(8)中兩個(gè)子問(wèn)題的迭代過(guò)程中計(jì)算量開銷最大的運(yùn)算為SVD運(yùn)算,GoDec算法采用雙邊隨機(jī)投影(Bilateral random projection,BRP)來(lái)代替SVD運(yùn)算,大大提高了運(yùn)算效率,顯著降低了算法的計(jì)算復(fù)雜度。
使用GoDec算法將所得的幅度譜矩陣Y分解為低秩L,稀疏S和噪聲N三個(gè)部分。由于非結(jié)構(gòu)化噪聲部分很難用稀疏部分S或是低秩部分L來(lái)表示,此類噪聲通常被GoDec算法分解到噪聲部分即矩陣N中,直接去除此部分即可移除非結(jié)構(gòu)化噪聲。
根據(jù)上述分析,直接將帶噪語(yǔ)音的幅度譜分解為低秩、稀疏和噪聲3部分似乎就能實(shí)現(xiàn)對(duì)于語(yǔ)音信號(hào)的增強(qiáng)。然而,實(shí)際的實(shí)驗(yàn)結(jié)果顯示直接將矩陣進(jìn)行稀疏低秩分解難以實(shí)現(xiàn)對(duì)非平穩(wěn)噪聲環(huán)境下3部分的完美分離,這主要是因?yàn)閱渭兊南∈璧椭确纸馑玫牡椭炔糠指P(guān)注語(yǔ)音信號(hào)在時(shí)頻域上的重復(fù)性,而并不側(cè)重于研究這些重復(fù)信號(hào)所具有的具體特征。為了克服這個(gè)缺點(diǎn),本文算法引入字典學(xué)習(xí)算法來(lái)學(xué)習(xí)這些不斷重復(fù)的噪聲信號(hào)所具有的獨(dú)特特征,從而進(jìn)一步提升語(yǔ)噪分離的性能。
結(jié)構(gòu)化噪聲部分通常具有比語(yǔ)音信號(hào)更加明顯的重復(fù)和冗余結(jié)構(gòu)。通過(guò)選取合適的秩,就能夠在矩陣分解所得的低秩部分,即在矩陣L中獲取到此類噪聲的結(jié)構(gòu)信息,通過(guò)對(duì)低秩部分進(jìn)行字典學(xué)習(xí),就能夠獲取相應(yīng)的噪聲字典,從而實(shí)現(xiàn)自學(xué)習(xí)。
相關(guān)研究表明,由局部到整體的累加方式更符合人類感官?gòu)木植康秸w的認(rèn)知過(guò)程且人耳對(duì)聲音相位不敏感,這里首先對(duì)L求模值,然后通過(guò)非負(fù)矩陣分解(Non-negative matrix factorization,NMF)[14]的方式獲得結(jié)構(gòu)化噪聲的歸一化非負(fù)字典Dn。設(shè)結(jié)構(gòu)化噪聲字典中原子的個(gè)數(shù)為num,則有
式中:∈RW×N為稀疏低秩分解所得的低秩矩陣的模值,Dn∈RW×num和C′n∈Rnum×N分別為結(jié)構(gòu)化噪聲的歸一化非負(fù)字典和對(duì)應(yīng)的增益系數(shù)矩陣。
假設(shè)移除非結(jié)構(gòu)化噪聲以后的語(yǔ)音幅度譜為,純凈語(yǔ)音的字典為Ds,對(duì)應(yīng)的增益系數(shù)矩陣為Cs,結(jié)構(gòu)化噪聲字典為Dn,相應(yīng)的增益系數(shù)矩陣為Cn。語(yǔ)音增強(qiáng)問(wèn)題就轉(zhuǎn)化為
固定從低秩部分中學(xué)習(xí)得到的結(jié)構(gòu)化噪聲字典Dn,并使用下面的基于梯度下降的乘性更新公式[15]更新剩下的3個(gè)矩陣
式中:1為全1矩陣,λs和λn是控制增益矩陣稀疏度的常數(shù),符號(hào)?表示矩陣或向量中對(duì)應(yīng)元素的乘。
經(jīng)過(guò)式(11-13)的若干次的迭代后,就能夠分離出純凈語(yǔ)音和對(duì)應(yīng)噪聲。本文采用Wiener濾波法進(jìn)行后處理,來(lái)進(jìn)一步提升算法的增強(qiáng)效果,使得增強(qiáng)后的語(yǔ)音聽起來(lái)更自然。
Wiener濾波可以認(rèn)為是對(duì)于語(yǔ)音時(shí)頻域上的最小均方誤差估計(jì),其頻域表達(dá)式為
式中:Ys=DsCs,Yn=DnCn,∠為STFT時(shí)記錄下的帶噪語(yǔ)音相位信息。
將估計(jì)出的語(yǔ)音頻譜進(jìn)行逆STFT就可以重構(gòu)出增強(qiáng)后的語(yǔ)音波形。
實(shí)驗(yàn)選用的純凈語(yǔ)音來(lái)自TIMIT標(biāo)準(zhǔn)語(yǔ)音庫(kù)中的男女語(yǔ)音片段各5句,噪聲則來(lái)自Noisex-92標(biāo)準(zhǔn)噪聲庫(kù)[16],將二者下采樣到8kHz,信噪比分別選取-5,0,5和10dB對(duì)算法分別進(jìn)行評(píng)估。在稀疏低秩分解中,設(shè)定低秩部分的秩為1,來(lái)獲取重復(fù)性明顯的噪聲部分,同時(shí)避免語(yǔ)音信號(hào)過(guò)多地泄露到低秩部分中。純凈語(yǔ)音和噪聲字典的原子個(gè)數(shù)均設(shè)定為40。在字典更新的過(guò)程中,乘性迭代公式進(jìn)行不超過(guò)200次的迭代。
測(cè)試實(shí)驗(yàn)著重選取了Pink,F(xiàn)16,Machinegun和Babble 4種具有代表性的噪聲進(jìn)行測(cè)試。其中Pink是自然界中最常見的噪聲,其頻率分量功率主要分布在中低頻段,并沒有明顯的時(shí)頻結(jié)構(gòu),代表了非結(jié)構(gòu)化噪聲;F16為美軍雙座F16戰(zhàn)斗機(jī)巡航過(guò)程中座艙內(nèi)的噪聲,能量集中在在0~700Hz和2 750Hz頻帶附近且呈現(xiàn)出不均勻的變化特性;Machinegun為機(jī)槍掃射時(shí)所發(fā)出的噪聲,能夠代表瞬時(shí)噪聲;Babble為有容納大約100個(gè)人個(gè)同時(shí)在講話的人的餐廳中的背景噪聲,能量主要集中在低頻段,是類語(yǔ)音噪聲的代表)
采用BSS-EVAL評(píng)價(jià)體系[17]、短時(shí)客觀可懂度測(cè)量(Short-Time objective intelligibility measure,STOI)[18]和語(yǔ)音質(zhì)量客觀評(píng)估方法(Perceptual evaluation of speech quality,PESQ)[19]對(duì)語(yǔ)音的性能進(jìn)行評(píng)估。其中,BSS-EVAL是目前公認(rèn)的性能比較好的盲源分離算法評(píng)估體系,該評(píng)估體系通過(guò)計(jì)算信源引入噪聲比(Signal artifacts ratio,SAR)、信干比(Signal to interference ratio,SIR)、信 源 失 真 比 (Signal to distortion ratio,SDR),從不同方面反映了增強(qiáng)算法的效果;STOI是一種比較新的機(jī)器驅(qū)動(dòng)的可懂度客觀評(píng)估方法,其計(jì)算值與人對(duì)于語(yǔ)音的實(shí)際可懂度高度相關(guān);PESQ是用來(lái)評(píng)價(jià)語(yǔ)音的主觀試聽效果的客觀計(jì)算方法,能夠很好地近似平均意見得分(Mean opinion score,MOS)。
將本文所提出的基于稀疏低秩模型的自學(xué)習(xí)語(yǔ)音增強(qiáng)算法與RPCA算法和多帶譜減法(Multiband spectral subtraction,MBSS)[20]兩種無(wú)監(jiān)督算法進(jìn)行比較來(lái)對(duì)本文算法進(jìn)行評(píng)估。其中,RPCA算法是一種基于稀疏低秩分解的無(wú)監(jiān)督分離方法,在分離歌唱和伴奏時(shí),體現(xiàn)出很好的性能;MBSS是一種性能比較好的增強(qiáng)算法,在多種噪聲環(huán)境下均能獲得較好的增強(qiáng)效果。
圖2給出了4種噪聲環(huán)境下BSS-EVAL評(píng)價(jià)體系中3個(gè)關(guān)鍵指標(biāo)的平均測(cè)量值。在這3個(gè)指標(biāo)中,SAR對(duì)于分離過(guò)程中引入噪聲的大小進(jìn)行評(píng)估,SIR是表征增強(qiáng)算法對(duì)噪聲抑制程度的一個(gè)值,SDR則反映了分離算法的總體性能。3個(gè)指標(biāo)越高的算法,相應(yīng)的性能也就越好。
由圖2中可以看出,本文算法的SAR測(cè)度平均比 RPCA方法高出3.3dB,比 MBSS高出5.5dB。在SIR測(cè)度方面,本文算法平均比RPCA高出2.3dB,比 MBSS高出5.8dB。SDR測(cè)度顯示,本文算法比RPCA高出2.1dB,比MBSS高出5.3dB。這些指標(biāo)說(shuō)明相較于其他兩種算法,本文算法引入更少的噪聲,具有更好的噪聲抑制能力,其綜合性能指標(biāo)也更加優(yōu)越。
圖2 BSS-EVAL評(píng)價(jià)體系平均測(cè)量值Fig.2 Performance of MBSS,RPCA and the proposed algorithm in terms of BSS-EVAL metrics
圖3 STOI平均測(cè)量值Fig.3 Average short-time objective intelligibility measures of different algorithms
圖3列出了3種增強(qiáng)方法的STOI測(cè)量值。可以看出,本文算法具有比其他兩種方法更高的測(cè)量值。這說(shuō)明,本文算法的可懂度要高于其他兩種算法,并且隨著信噪比的下降,本文算法的可懂度下降相對(duì)緩慢,這說(shuō)明本文算法在低信噪比下仍具有較好的可懂度。
表1列舉了3種增強(qiáng)方法在4種不同噪聲環(huán)境和輸入信噪比下的PESQ測(cè)量值,這些測(cè)量值進(jìn)一步驗(yàn)證本文算法的性能。
表1 不同算法和噪聲下的PESQ值Table 1 PESQ scores of different algorithms and noises
然而,無(wú)論是BSS-EVAL評(píng)價(jià)體系、STOI測(cè)度還是PESQ值,都只能夠從宏觀上反映算法的性能,為了更好地觀察出增強(qiáng)語(yǔ)音信號(hào)的細(xì)節(jié)特征,本文給出了3種增強(qiáng)算法對(duì)于輸入信噪比為5dB,被F16飛機(jī)噪聲所污染的純凈語(yǔ)音進(jìn)行增強(qiáng)前后的語(yǔ)譜圖,如圖4所示。
可見,RPCA比MBSS更好地去除了噪聲,然而也帶來(lái)了更大的語(yǔ)音損傷。在2 750Hz的頻帶附近,使用RPCA進(jìn)行增強(qiáng)的結(jié)果依然存在少量噪聲殘留,導(dǎo)致了類似音樂(lè)噪聲的試聽感受。本文算法在繼承了RPCA優(yōu)點(diǎn)的同時(shí),很好地克服了RPCA的缺點(diǎn),能夠在有效去除噪聲的前提下,較好地保持語(yǔ)音信號(hào)的固有諧波特性,增強(qiáng)效果明顯優(yōu)于前兩種算法。
本文基于矩陣的稀疏低秩分解提出一種單通道自學(xué)習(xí)語(yǔ)音增強(qiáng)算法,實(shí)現(xiàn)了對(duì)于語(yǔ)音信號(hào)的無(wú)監(jiān)督增強(qiáng),該算法能夠在保留語(yǔ)音信號(hào)固有諧波特性的同時(shí)很好地移除噪聲。在低信噪比條件下,本文算法的增強(qiáng)結(jié)果依然能夠保持較高的可懂度,其增強(qiáng)性能顯著優(yōu)于魯棒主成分分析方法和多帶譜減法。
圖4 語(yǔ)音語(yǔ)譜圖Fig.4 Spectrograms
[1]Mohammadiha N,Smaragdis P,Leijon A.Supervised and unsupervised speech enhancement using nonnegative matrix factorization[J].IEEE Transactions on Audio,Speech and Language Processing,2013,21(10):2140-2151.
[2]張麗艷,殷福亮.一種改進(jìn)的奇異值分解語(yǔ)音增強(qiáng)方法[J].電子與信息學(xué)報(bào),2008,30(2):357-361.
Zhang Liyan,Yin Fuliang.An improved speech enhancement method based on SVD[J].Jounal of E-lectronics &Information Technology,2008,30(2):357-361.
[3]曾理,張雄偉,陳亮,等.基于壓縮感知的K-L分解語(yǔ)音稀疏表示算法[J].數(shù)據(jù)采集與處理,2013,28(3):267-273.
Zeng Li,Zhang Xiongwei,Chen Liang,et al.Compressed-sensing-based speech sparse representation with K-L expansion[J].Journal of Data Acquisition and Processing,2013,28(3):357-361.
[4]王天荊,鄭寶玉,楊震.基于自適應(yīng)冗余字典的語(yǔ)音信號(hào)稀疏表示算法[J].電子與信息學(xué)報(bào).2011,33(10):2372-2377.
Wang Tianjing,Zheng Baoyu,Yang Zhen.A speech signal sparse representation algorithm based on adaptive overcomplete dictionary[J].Journal of Electronics &Information Technology,2011,33(10):2372-2377.
[5]Wilson K,Raj B,Smaragdis P,et al.Speech denoising using nonnegative matrix factorization with priors[C]∥ICASSP.Las Vegas:IEEE,2008:4029-4032.
[6]Smaragdis P.Convolution speech bases and their application to supervised speech separation[J].IEEE Transactions on Audio,Speech and Language Processing,2007,15(1):1-12.
[7]Mikkel N S,Jan L,F(xiàn)u-Tien,et al.Wind noise reduction using non-negative sparse coding[C]∥IEEE Workshop on Machine Learning for Signal Processing.Thessaloniki:IEEE,2007:431-436.
[8]Christian D S,Tomas D,Joachim M,et al.Speech enhancement using generative dictionary learning[J].IEEE Transactions on Audio,Speech and Language Processing,2012,20(6):1698-1712.
[9]Emmanuel J C,Xiaodong Li,Yi Ma,et al.Robust principal component analysis[J].Journal of the ACM,2011,58(3):1-37.
[10]Huang Po-Sen,Chen S D,Smaragdis P,et al.Singing-voice separation from monaural recordings using robust principal component analysis[C]∥ICASSP.Kyoto:IEEE,2012:57-60.
[11]Sprechmann P,Bronstein A,Bronstein M,et al.Learnable low rank sparse models for speech denoising[C]∥ICASSP.Vancouver,Canada:IEEE,2013:136-140.
[12]Zhou Tianyi,Tao Dacheng.GoDec:randomized lowrank &sparse matrix decomposition in noisy case[C]∥28th International Conference on Machine Learning.Bellevue,Washington:Springer Berlin Heidelberg,2011:33-40.
[13]Lin Z,Chen M,Ma Y.The augmented Lagrange multiplier method for exact recovery of a corrupted low-rank matrices[EB/OL].http:∥arxiv.org/abs/1009.5055,2010-9-26.
[14]Lee D D,Seung H S.Learning parts of objects by non-negative matrix factorization[J].Nature,1999,401(6755):788-791.
[15]Kristian T A.Wind noise reduction in single channel speech signals[D].Technical University of Demark,2008:25-37.
[16]Rice University Digital Signal (DSP) group.Noisex92Noise Database[EB/OL].http:∥spib.rice.edu/spib/select_noise.html.1996-8-16.
[17]Vincent E,Gribonval R,F(xiàn)evotte C.Performance measurement in blind audio source separation[J].IEEE Transaction on Audio,Speech,and Language Processing,2006,14(4):1462-1469.
[18]Cees H T,Richard C,Hendriks,et al.An algorithm for intelligibility prediction of time-frequency weighted noisy speech[J].IEEE Transactions on Audio,Speech and Language Processing,2011,19(7):2125-2136.
[19]International Telecommunication Union.Perceptual evaluation of speech quality (PESQ):an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs,recommendation-862[S].P.862.Switzerland Geneva:ITU-T,2001.
[20]Philipos C,Loizou.Speech enhancement:Theory and practice[M].Boca Raton,F(xiàn)lorida:Taylor and Francis,2007:120-125.