国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自適應(yīng)秩約束逆矩陣近似分解及其在語音增強(qiáng)中的應(yīng)用

2024-12-31 00:00:00王強(qiáng)進(jìn)吳占濤李寶慶楊宇
計(jì)算機(jī)應(yīng)用研究 2024年11期

摘 要:針對(duì)低秩約束和稀疏矩陣分解(constrained low-rank and sparse matrix decomposition,CLSMD)方法中硬閾值可能導(dǎo)致降噪后的語音信號(hào)分量丟失或出現(xiàn)孤立噪聲問題,提出了一種自適應(yīng)秩約束逆矩陣近似(adaptive rank constrained inverse matrix approximation,ARCIMA)分解方法。該方法首先采用能量閾值法初步估計(jì)低秩矩陣秩值,然后從語音信號(hào)子空間矩陣的結(jié)構(gòu)特性出發(fā),采用修正雙邊隨機(jī)投影(modified bilateral random projections,MBRP)方法求解代表純凈語音信號(hào)的低秩矩陣,降低使用SVD方法的計(jì)算量,并通過Tikhonov正則化優(yōu)化方法改善迭代求解過程中解的病態(tài)性。實(shí)驗(yàn)結(jié)果表明,該方法相比經(jīng)典方法在多種噪聲環(huán)境下取得了更好的PESQ得分,并且增強(qiáng)語音的時(shí)域波形也更接近原始信號(hào)的波形。該方法去噪性能在低信噪比噪聲條件下具有優(yōu)勢(shì)。

關(guān)鍵詞:自適應(yīng)秩約束逆矩陣近似;修正雙邊隨機(jī)投影;語音增強(qiáng)

中圖分類號(hào):TP912.35 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)11-027-3389-05

doi:10.19734/j.issn.1001-3695.2024.03.0078

Adaptive rank constrained inverse matrix approximation decomposition method and its application in speech enhancement

Wang Qiangjina, b, c, Wu Zhantaoa, b, c?, Li Baoqinga, b, Yang Yua, b

(a.College of Mechanical amp; Vehicle Engineering, b.Hunan Provincial Key Laboratory of Equipment Service Quality Assurance, c.Hunan Provincial Key Laboratory of Construction Machinery Intelligence Technology Based on the Internet of Things, Hunan University, Changsha 410000, China)

Abstract:This paper proposed a new matrix decomposition method ARCIMA to address issues in the CLSMD approach, where hard thresholding could lead to loss of speech signal components or isolated noise problems. Initially, the energy thres-hold method estimated the rank of the low-rank matrix. Then, considering the structural characteristics of the speech signal subspace matrix, the MBRP method solved the low-rank matrix representing the clean speech signal, reducing the computational load compared to the SVD method. Tikhonov regularization optimized the solution’s stability during iterative solving. Experimental results show that this method achieves better PESQ scores in various noisy environments compared to classical methods, and the enhanced speech waveform is closer to the original speech waveform. The method demonstrates superior denoising performance under low signal-to-noise ratio conditions.

Key words:adaptive rank constrained inverse matrix approximation; modified bilateral random projections; speech enhancement

0 引言

近年來,隨著全球人工智能模型[1的高歌猛進(jìn)和以新能源汽車2為代表的工業(yè)智能設(shè)備的欣欣向榮,語音信息的傳遞方式也在發(fā)生變化。語音通信、錄音識(shí)別、網(wǎng)絡(luò)會(huì)議等交流方式越發(fā)普遍。在這些交流中,語音信號(hào)的生成、傳輸、接收都可能會(huì)受到未知噪聲的干擾而導(dǎo)致其質(zhì)量和可懂度受到嚴(yán)重影響。因此針對(duì)常見噪聲下的語音信號(hào)進(jìn)行增強(qiáng)顯得尤為重要。

傳統(tǒng)語音增強(qiáng)方法主要分為頻域方法和時(shí)域方法。頻域方法主要有譜減法(spectral subtraction,SS)、維納濾波(Wiener filtering,WF)、基于最小均方誤差(minimum mean square error,MMSE)的短時(shí)幅度增強(qiáng)方法等。SS通過從帶噪語音譜中減去對(duì)噪聲譜的估計(jì)來得到降噪后的語音譜,這種方法很容易引起語音非線性失真,產(chǎn)生音樂噪聲[3。WF通過求解最優(yōu)化均方誤差將音樂噪聲變?yōu)轭愃朴诎自肼暤膶拵г肼?,有效提升了語音增強(qiáng)的效果,但它的推導(dǎo)基于所分析信號(hào)具有平穩(wěn)性這一假設(shè),不能有效地處理非平穩(wěn)信號(hào)的情況[4。MMSE對(duì)降噪語音譜進(jìn)行非線性估計(jì),比WF具有更好的處理非平穩(wěn)信號(hào)的性能[5。針對(duì)上述方法在低信噪比的非平穩(wěn)噪聲環(huán)境下存在語音增強(qiáng)性能欠佳、計(jì)算復(fù)雜度高、語音失真與音樂噪聲的問題,董胡等人6利用自適應(yīng)的MMSE-LEA方法結(jié)合非負(fù)矩陣分解(non-negative matrix factorization, NMF)提出了新的方法AMLNMF,該方法在低信噪比噪聲環(huán)境下克服了語音失真和音樂噪聲的問題。時(shí)域方法中,主要有基于參數(shù)模型的增強(qiáng)方法和基于子空間的增強(qiáng)方法。對(duì)于基于參數(shù)模型的方法而言,尤其在信噪比相對(duì)較低的時(shí)候,聲道參數(shù)和激勵(lì)參數(shù)會(huì)難以估計(jì)。子空間方法是將帶噪語音分解為語音子空間和噪聲子空間[7,通過消除噪聲子空間成分來恢復(fù)語音信號(hào)8。以主成分分析(principal component analysis,PCA)方法為例,PCA方法通過將語音矩陣轉(zhuǎn)換為新的主成分變量集,進(jìn)一步獲得語音特征,再通過減小語音維數(shù)獲得語音子空間[9。近年來,為了進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行異常檢測(cè)和噪聲去除等應(yīng)用,有關(guān)學(xué)者提出了能夠?qū)⒕仃嚪纸鉃榈椭染仃嚭拖∈杈仃嚨聂敯糁鞒煞址治龇椒ǎ╮obust principal component analysis,RPCA)[10。該方法通過奇異值分解(singular value decomposition,SVD)將低秩矩陣更新為最優(yōu)低秩矩陣,其次通過軟閾值將稀疏矩陣更新為最優(yōu)稀疏矩陣。

根據(jù)RPCA理論,Sun等人[11提出的CLSMD方法將有效秩和稀疏度的概念引入到帶噪語音語譜圖中,通過設(shè)置硬閾值找到純凈語音信號(hào)所在的矩陣空間。然而該算法使用硬閾值時(shí),往往使恢復(fù)后的信號(hào)含有獨(dú)立噪聲或者部分分量丟失;其次在使用原始信號(hào)相位來代替純凈語音信號(hào)相位時(shí),也會(huì)降低恢復(fù)信號(hào)的質(zhì)量。

為了有效改善上述CLSMD有關(guān)問題,本文將CLSMD原理應(yīng)用到時(shí)域中,提出了一種自適應(yīng)秩約束逆矩陣近似的分解方法ARCIMA。該方法基于純凈語音信號(hào)的短時(shí)穩(wěn)定性,將其重構(gòu)矩陣視為低秩矩陣,通過能量閾值法自適應(yīng)地更新純凈語音矩陣的有效秩值,并通過修正雙邊隨機(jī)投影(modified bilateral random projections, MBRP)方法[12來減少估計(jì)最優(yōu)解的執(zhí)行時(shí)間,之后利用Tikhonov正則化方法[13改善數(shù)據(jù)運(yùn)算過程中解的病態(tài)性,有效解決了CLSMD在時(shí)頻域采用硬閾值引起的問題并提高了語音信號(hào)的恢復(fù)精度。

1 基于CLSMD的分解方法

基于CLSMD[11的分解方法由轉(zhuǎn)換-去噪-合成三階段構(gòu)成:a)轉(zhuǎn)換階段,通過短時(shí)傅里葉變換將采集到的語音信號(hào)轉(zhuǎn)換為時(shí)頻幅度矩陣;b)去噪階段,從時(shí)頻幅度矩陣中分解出代表純凈語音信號(hào)的稀疏矩陣;c)合成階段,對(duì)稀疏矩陣進(jìn)行短時(shí)傅里葉逆變化,然后通過疊加法合成增強(qiáng)信號(hào)。

從圖中可以看到,傳統(tǒng)的語音分解方法在-5 dB噪聲下,會(huì)有很大的噪聲殘余,去噪信號(hào)在一定程度上失真。而由于CLSMD方法較好地找到了x1(t)信號(hào)在語譜圖中所處空間,去除了噪聲空間的干擾,但恢復(fù)信號(hào)的波形和幅值發(fā)生一定改變。AMLNMF方法先經(jīng)過自適應(yīng)MMSE-LSA初步降噪,之后又用NMF進(jìn)行頻譜降噪,大致恢復(fù)了信噪比大的區(qū)間內(nèi)的信息,但在細(xì)節(jié)上較為不足。而ARCIMA方法在幅值上接近原始純凈信號(hào),在波形上也更為貼切,并且殘留噪聲較小,避免了信號(hào)的失真。

4 實(shí)驗(yàn)信號(hào)分析

實(shí)驗(yàn)采用TIMIT標(biāo)準(zhǔn)語音庫中不同地區(qū)男女語音數(shù)據(jù)共20條,噪聲采用Noisex-92標(biāo)準(zhǔn)噪聲庫中的白噪聲、粉紅噪聲、以及汽車駕駛室內(nèi)噪聲。其中白噪聲頻譜均勻、平穩(wěn)隨機(jī);粉紅噪聲頻譜密度隨頻率增加而下降,但在不同頻率上能量均勻;汽車駕駛室內(nèi)噪聲往往來源于車輛引擎、輪胎摩擦、風(fēng)噪聲等,這些機(jī)械噪聲構(gòu)成了多源噪聲情況。將這三種噪聲分別施加于所選干凈語音中,使用上述六種不同的去噪方法在低信噪比條件下進(jìn)行降噪處理,最后在語音質(zhì)量感知評(píng)估(PESQ)方法、短時(shí)客觀可懂度(STOI)和時(shí)域波形重構(gòu)方面進(jìn)行對(duì)比分析。

4.1 高斯白噪聲環(huán)境下的性能分析

該節(jié)展示高斯白噪聲下各個(gè)算法進(jìn)行語音增強(qiáng)后的情況,并進(jìn)行對(duì)比分析,結(jié)果如圖3和4所示。

圖3表示為每個(gè)方法在不同低信噪比下增強(qiáng)語音的PESQ值。結(jié)果表明,隨著信噪比的增大,六種方法對(duì)高斯白噪聲的去噪能力也在遞增。在-10~0 dB信噪比范圍內(nèi),ARCIMA方法所產(chǎn)生的平均PESQ分?jǐn)?shù)均高于其他降噪方法。

圖4所示為各個(gè)方法在不同信噪比下增強(qiáng)信號(hào)的STOI值。實(shí)驗(yàn)結(jié)果表明,在低信噪比-10 dB和0 dB時(shí),AMLNMF方法所產(chǎn)生的平均STOI值高于其他降噪方法。在-5 dB時(shí),ARCIMA最高。這可能是由于STOI主要通過分幀來計(jì)算得分,而ARCIMA方法在一些語音信號(hào)具有稀疏性的情況下,會(huì)將這部分信號(hào)視為噪聲去除,使對(duì)應(yīng)的時(shí)間段沒有信號(hào)存在,從而導(dǎo)致STOI數(shù)值沒有最高的緣故。但整體而言,在保證語音短時(shí)客觀可懂度不發(fā)生明顯降低的同時(shí),ARCIMA方法在高斯白噪聲下具有更好的語音增強(qiáng)質(zhì)量。

為進(jìn)一步直觀地說明ARCIMA方法在高斯白噪聲下的去噪能力,本文仍采用-5 dB信噪比條件下的去噪波形進(jìn)行對(duì)比說明,如圖5所示。

從圖5可以看出,WF和SS算法在-5 dB信噪比下去噪效果不明顯。這是由于在-5 dB時(shí),局部噪聲的強(qiáng)度接近甚至高于信號(hào)強(qiáng)度,這些算法會(huì)將一部分語音信號(hào)誤認(rèn)為噪聲并進(jìn)行降噪處理,導(dǎo)致降噪信號(hào)整體幅值降低并殘留很多噪聲;MMSE方法保留了大部分信號(hào)波形,但殘余噪聲波形占語音信號(hào)波形比重較大;CLSMD方法也重構(gòu)了純凈信號(hào)的波形,但是存在部分孤立噪聲且部分波形缺失;AMLNMF雖然比MMSE降噪效果要好,但是波形有毛刺;ARCIMA方法雖然在尾音處造成了語音缺失,但在大部分時(shí)間段上都保留了波形,并且能夠在采樣數(shù)為20 000~25 000內(nèi),將語音信號(hào)突增的部位還原。所以總體而言,ARCIMA算法在高斯白噪聲下仍然表現(xiàn)出了很好的噪聲抑制性能。

4.2 多種非高斯噪聲環(huán)境下的性能分析

本節(jié)將所提方法用于粉紅噪聲及汽車駕駛場景噪聲下的語音信號(hào)去噪處理,并與上述所提幾種常用去噪方法進(jìn)行對(duì)比分析,不同噪聲下PESQ值如圖6所示。

從圖6可知,ARCIMA方法在兩種噪聲低信噪比范圍內(nèi)都取得了最高的PESQ值。而AMLNMF算法在粉紅噪聲中只高于WF和SS,在汽車噪聲中也沒有表現(xiàn)很好,這也說明ARCIMA算法在噪聲PESQ得分上要優(yōu)于AMLNMF算法。

不同噪聲下STOI值如圖7所示。

從圖7可知,通過對(duì)比不同信噪比下的平均STOI得分,ARCIMA方法在汽車噪聲下取得了很好的分?jǐn)?shù),這也反映了ARCIMA方法在面對(duì)多源低頻噪聲情況下良好的分解能力。但在粉紅噪聲下,AMLNMF方法表現(xiàn)出了最好的得分性能,結(jié)合高斯噪聲下的STOI情況,反映出AMLNMF方法通過先驗(yàn)信噪比估計(jì)和非負(fù)矩陣訓(xùn)練方法,可以更好地提高增強(qiáng)語音的可懂度。

為進(jìn)一步直觀地說明ARCIMA方法在粉紅噪聲下的去噪能力,進(jìn)行不同方法去噪波形對(duì)比,如圖8所示。

從圖8來看,WF和SS算法在-5 dB信噪比下,信號(hào)失真,并且伴隨很多殘余噪聲。而CLSDM算法在非語音時(shí)間段出現(xiàn)了一些孤立的噪聲,這是由于所在部位噪聲被歸位了稀疏矩陣的一部分,并且由于幅度過大,導(dǎo)致落入了硬閾值范圍內(nèi)的原因。MMSE算法在去噪后留有不小的殘余噪聲。AMLNMF方法仍存在不少毛刺;而ARCIMA算法去噪后所得波形最接近純凈語音信號(hào)波形,并且只有很小的殘余噪聲。

為進(jìn)一步直觀地說明ARCIMA方法在汽車車內(nèi)噪聲下的去噪能力,進(jìn)行不同方法去噪波形對(duì)比,如圖9所示。

從圖9來看,WF和SS算法在-5 dB信噪比汽車駕駛室內(nèi)噪聲干擾的情況下,仍然信號(hào)波形失真,并且伴隨不小的殘余噪聲。MMSE在語音過度的間隙產(chǎn)生了較大的噪聲。而CLSMD的信號(hào)波形丟失了一些細(xì)節(jié),AMLNMF雖然也較好恢復(fù)了波形,但語音過渡段存在毛刺噪聲。而ARCIMA在汽車駕駛室噪聲去除方面表現(xiàn)出很好的能力。雖然這五種信號(hào)把純凈語音信號(hào)中重要的內(nèi)容都表達(dá)了出來,但不論是每個(gè)語音幀的波形,或者它們之間的過度間隙,還是最后平緩降為零的尾聲,ARCIMA都展現(xiàn)出了比其他方法更為強(qiáng)大的去噪能力。

5 結(jié)束語

針對(duì)CLSMD算法在時(shí)頻域利用硬閾值來更新稀疏矩陣以獲得語音降噪信號(hào)的局限性,本文利用語音信號(hào)在時(shí)域具有短時(shí)平穩(wěn)的特點(diǎn),將語音信號(hào)作為低秩矩陣,以自適應(yīng)的方式獲取每幀的秩值。首次通過基于張量乘積和逼近偽逆的正則化以及修正的雙邊隨機(jī)投影理論方法,進(jìn)一步將低秩矩陣逼近純凈語音矩陣。通過仿真實(shí)驗(yàn)和現(xiàn)實(shí)噪聲實(shí)驗(yàn)表明,ARCIMA方法在低信噪比白噪聲和色噪聲情況下,取得了比其他方法更好的降噪效果,并且重構(gòu)的時(shí)域波形也更為接近原始信號(hào),證明了ARCIMA方法是一種有效的語音信號(hào)增強(qiáng)方法。

ARCIMA方法雖然在低信噪比情況下表現(xiàn)出了良好的性能,但其稀疏矩陣是低秩約束下的副產(chǎn)物,而不是客觀設(shè)計(jì)。下一步的研究方向可以對(duì)稀疏矩陣進(jìn)行分析,并通過方法尋找稀疏矩陣中引起數(shù)據(jù)結(jié)構(gòu)變化的干擾點(diǎn)并進(jìn)行去除,保證下次迭代過程時(shí)觀測(cè)矩陣中噪聲的平穩(wěn)性。

參考文獻(xiàn):

[1]Wang Hanchen, Fu Tianfan, Du Yuanqi, et al. Scientific discovery in the age of artificial intelligence [J]. Nature, 2023, 620: 47-60.

[2]Liu Jing, Wan Fucheng, Zou Jinzhi, et al. Exploring factors affecting people’s willingness to use a voice-based in-car assistant in electric cars: an empirical study [J]. World Electric Vehicle Journal, 2023, 14(3): 73.

[3]Li Chao, Jiang Ting, Wu Sheng. Single-channel speech enhancement based on improved frame-iterative spectral subtraction in the modulation domain [J]. China Communications, 2021, 18(9): 100-115.

[4]Torres R, Torres D, Lizarazo Z. Theory of prediction, interpolation and filtering of α-stationary random signals [J]. Signal Processing, 2018, 147: 46-53.

[5]Wang Tingting, Guo Haiyan, Yan Xue, et al. Speech signal proces-sing on graphs: the graph frequency analysis and an improved graph Wiener filtering method [J]. Speech Communication, 2021, 127: 82-91.

[6]董胡, 劉剛, 馬振中. 基于自適應(yīng)MMSE-LSA與NMF的語音增強(qiáng)算法 [J]. 探測(cè)與控制學(xué)報(bào), 2021, 43(4): 81-85,91. (Dong Hu, Liu Gang, Ma Zhenzhong. Speech enhancement algorithm based on adaptive MMSE-LSA and NMF [J]. Journal of Detection amp; Control, 2021, 43(4): 81-85,91.)

[7]Rong Jiarui, Zhang Jingshu, Duan Huiping. Robust sparse Bayesian learning based on the Bernoulli-Gaussian model of impulsive noise [J]. Digital Signal Processing, 2023, 136: 104013.

[8]Ghorpade K, Khaparde A. Single-channel speech enhancement using single dimension change accelerated particle swarm optimization for subspace partitioning [J]. Circuits, Systems and Signal Process, 2023, 42: 4343-4361.

[9]Kacha A, Grenez F, Orozco Arroyave J R, et al. Principal component analysis of the spectrogram of the speech signal: interpretation and application to dysarthric speech [J]. Computer Speech and Language, 2020, 59: 114-122.

[10]羅勇江, 楊騰飛, 趙冬. 色噪聲下基于白化頻譜重排魯棒主成分分析的語音增強(qiáng)算法 [J]. 電子與信息學(xué)報(bào), 2021, 43(12): 3671-3679. (Luo Yongjiang, Yang Tengfei, Zhao Dong. Speech enhancement algorithm based on robust principal component analysis with whi-tened spectrogram rearrangement in colored noise [J]. Journal of Electronics amp; Information Technology, 2021, 43(12): 3671-3679.)

[11]Sun Chengli, Zhu Qi, Wan Minghua. A novel speech enhancement method based on constrained low-rank and sparse matrix decomposition [J]. Speech Communication, 2014, 60: 44-55.

[12]Barata J C A, Hussein M S. The Moore-Penrose pseudoinverse: a tutorial review of the theory [J]. Brazilian Journal of Physics, 2012,42: 146-165.

[13]田潤坤, 代大海, 孫士龍, 等. 一種基于TSVDT的微波關(guān)聯(lián)前視成像方法 [J]. 信號(hào)處理, 2024,40(3):537-544. (Tian Runkun, Dai Dahai, Sun Shilong, et al. A method of microwave correlation forward view imaging based on TSVDT [J]. Journal of Signal Processing, 2024,40(3):537-544.)

[14]Wu Ning, Li Yue, Yan Jie, et al. A SNR enhancement method for desert seismic data: simplified low-rank selection in time-frequency decomposition domain [J]. Pure and Applied Geophysics, 2021, 178(8): 2905-2916.

[15]Chang Chenli, Cao Hongju, Chen Shuhan, et al. Orthogonal subspace projection-based go-decomposition approach to finding low-rank and sparsity matrices for hyperspectral anomaly detection [J]. IEEE Trans on Geoscience and Remote Sensing, 2021, 59(3): 2403-2429.

[16]Pan Haiyang, Yang Yu, Zheng Jinde, et al. A noise reduction method of symplectic singular mode decomposition based on Lagrange multiplier [J]. Mechanical Systems and Signal Processing, 2019, 133: 106283.

[17]Chavarría-Molina J, Fallas-Monge J J, Soto-Quiros P. Effective implementation to reduce execution time of a low-rank matrix approximation problem [J]. Journal of Computational Applied Mathema-tics, 2022, 401: 113763.

灌南县| 古田县| 齐河县| 永嘉县| 双峰县| 沿河| 乌拉特前旗| 来宾市| 海阳市| 方正县| 武川县| 军事| 镇巴县| 永州市| 东阿县| 尼玛县| 原平市| 宣汉县| 渭南市| 米泉市| 盱眙县| 延津县| 潢川县| 桐梓县| 兴仁县| 绥德县| 开封市| 商城县| 开原市| 曲松县| 普宁市| 太和县| 房山区| 吉木萨尔县| 旺苍县| 云梦县| 教育| 石城县| 微博| 抚顺县| 福安市|