涂斌煒 呂俊
技術(shù)應(yīng)用
基于不確定性感知的語(yǔ)音分離方法*
涂斌煒 呂俊
(廣東工業(yè)大學(xué)自動(dòng)化學(xué)院,廣東 廣州 510006)
為抵御噪聲的干擾,提出一種基于不確定性感知的語(yǔ)音分離方法。在訓(xùn)練階段,采用雙鏈路架構(gòu)分別學(xué)習(xí)噪聲和語(yǔ)音源成分的編解碼子網(wǎng)和分離子網(wǎng);在測(cè)試階段,以閉式解的形式自適應(yīng)更新噪聲編碼子網(wǎng),減小訓(xùn)練與測(cè)試噪聲在特征空間的均值偏移,降低認(rèn)知不確定性,并盡量保持重要參數(shù)不變,間接限制語(yǔ)音分離的經(jīng)驗(yàn)誤差。在公開(kāi)數(shù)據(jù)集LibriSpeech, NoiseX和NonSpeech上的實(shí)驗(yàn)結(jié)果表明:本文提出的方法能夠快速有效地提高噪聲干擾下語(yǔ)音分離的尺度不變信噪比。
語(yǔ)音分離;噪聲干擾;不確定性感知
語(yǔ)音分離一詞最初源于“雞尾酒會(huì)問(wèn)題[1]”,是指從混合的兩個(gè)或多個(gè)說(shuō)話人的聲音中得到想要的目標(biāo)說(shuō)話人(一人或多人)的語(yǔ)音信號(hào),廣泛應(yīng)用于語(yǔ)音識(shí)別、情感識(shí)別或翻譯等任務(wù)的前端處理。按信號(hào)輸入的通道數(shù)劃分,語(yǔ)音分離可分為單通道語(yǔ)音分離和多通道語(yǔ)音分離2種。本文主要討論單通道語(yǔ)音分離技術(shù)。
單通道語(yǔ)音分離技術(shù)又分為有背景噪聲和無(wú)背景噪聲2類。無(wú)背景噪聲的單通道語(yǔ)音分離技術(shù)發(fā)展較早,常見(jiàn)方法包括基于聽(tīng)覺(jué)場(chǎng)景分析[2]、基于非負(fù)矩陣分解[3-4]和基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音分離方法[5-6]。這些方法推動(dòng)了單通道語(yǔ)音分離技術(shù)的發(fā)展,但沒(méi)有考慮噪聲干擾的影響,與真實(shí)使用場(chǎng)景相差較大。
近年,許多專家學(xué)者逐漸關(guān)注有背景噪聲的單通道語(yǔ)音分離技術(shù)。文獻(xiàn)[7]~文獻(xiàn)[9]通過(guò)串聯(lián)方法將語(yǔ)音降噪網(wǎng)絡(luò)和語(yǔ)音分離網(wǎng)絡(luò)結(jié)合起來(lái),該方法已被證明能夠改善嘈雜環(huán)境下的語(yǔ)音識(shí)別性能;文獻(xiàn)[10]通過(guò)多場(chǎng)景訓(xùn)練方法將語(yǔ)音降噪和語(yǔ)音分離結(jié)合在一起,2個(gè)任務(wù)共用1個(gè)網(wǎng)絡(luò)。上述方法改善了語(yǔ)音分離技術(shù)在噪聲環(huán)境下的分離效果,但沒(méi)有考慮異常噪聲帶來(lái)的分布差異問(wèn)題。由于噪聲具有較強(qiáng)的多樣性,因此測(cè)試信號(hào)中難免會(huì)出現(xiàn)與訓(xùn)練集噪聲相差較大的噪聲信號(hào),這些異常噪聲會(huì)嚴(yán)重影響語(yǔ)音分離效果。
為抵御噪聲的干擾,本文提出一種基于不確定性感知的語(yǔ)音分離方法(speech separation based on uncertainty perception, SSUP)。該方法采用變換域特征的均值偏移來(lái)度量預(yù)測(cè)不確定性,采取雙鏈路網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)自適應(yīng)更新噪聲編碼網(wǎng)絡(luò)的參數(shù),減小噪聲帶來(lái)的均值偏移,同時(shí)采用彈性權(quán)重固化(elastic weight consolidation, EWC)策略[11],間接保持較小的訓(xùn)練集經(jīng)驗(yàn)誤差。
現(xiàn)有的單通道語(yǔ)音分離方法主要采用單鏈路架構(gòu)[12-13]。但由于噪聲與語(yǔ)音信號(hào)的分布不一樣,采用不同的表達(dá)方式更合理。本文提出的SSUP采用雙鏈路網(wǎng)絡(luò)架構(gòu),如圖1所示。
圖1 SSUP雙鏈路網(wǎng)絡(luò)架構(gòu)
SSUP雙鏈路網(wǎng)絡(luò)包括網(wǎng)絡(luò)結(jié)構(gòu)相同的2個(gè)鏈路,每個(gè)鏈路皆包含編碼器、分離器和解碼器3個(gè)主要部分。編碼器和解碼器分別為一維卷積和一維逆卷積網(wǎng)絡(luò);分離器由多個(gè)雙路循環(huán)神經(jīng)網(wǎng)絡(luò)(dual-path RNN, DPRNN)模塊組成[12]。其中,鏈路1的輸出為2個(gè)說(shuō)話人的語(yǔ)音信號(hào),鏈路2的輸出為噪聲信號(hào)。首先,在訓(xùn)練集中訓(xùn)練得到初始模型;然后,根據(jù)每條測(cè)試信號(hào),有針對(duì)性地更新鏈路2中編碼器的參數(shù),并保持其他參數(shù)不變。
依據(jù)驗(yàn)證集的分離性能,SSUP雙鏈路網(wǎng)絡(luò)的參數(shù)設(shè)置如表1所示。模型訓(xùn)練采用的優(yōu)化器為Adam,迭代步長(zhǎng)為10-3,迭代次數(shù)為100。
表1 SSUP雙鏈路網(wǎng)絡(luò)參數(shù)設(shè)置
網(wǎng)絡(luò)最終輸出是估計(jì)信號(hào)的時(shí)域波形。本文采用的訓(xùn)練目標(biāo)為最大化尺度不變信噪比(scale-invariant source-to-noise ratio, SI-SNR)[14]。在單通道語(yǔ)音分離中,標(biāo)準(zhǔn)的信號(hào)失真比(source-to-distortion, SDR)可能出現(xiàn)誤導(dǎo)性結(jié)果,即在感知上并沒(méi)有改變估計(jì)信號(hào)的情況下,僅依靠縮放估計(jì)信號(hào)便能提高SDR值,然而這種提高沒(méi)有實(shí)際意義[14]。為避免這種情況,SI-SNR取代SDR作為語(yǔ)音分離的評(píng)價(jià)指標(biāo)[12,15],其定義為
測(cè)試信號(hào)與訓(xùn)練集的編碼特征分布應(yīng)盡量接近,以減小分離模型的認(rèn)知不確定性。與此同時(shí),采用彈性權(quán)重固化策略[11],間接保持較小訓(xùn)練集經(jīng)驗(yàn)誤差,自適應(yīng)地學(xué)習(xí)有利于目標(biāo)信號(hào)實(shí)現(xiàn)語(yǔ)音分離的變換域。因此,設(shè)計(jì)代價(jià)函數(shù)為
若不引入費(fèi)雪信息,式(5)的最后一項(xiàng)是Frobenius范數(shù)正則化約束,此時(shí)式(5)可改寫為
為探究噪聲信號(hào)在特征空間上的均值偏移,本文從Nonspeech數(shù)據(jù)集中選取8種不同的噪聲數(shù)據(jù)[19],與語(yǔ)音信號(hào)生成8個(gè)測(cè)試集,每個(gè)測(cè)試集的樣本個(gè)數(shù)和所采用的語(yǔ)音信號(hào)皆相同。計(jì)算每個(gè)測(cè)試集的噪聲特征至訓(xùn)練集噪聲特征中心的平均偏差為
8種不同噪聲特征至訓(xùn)練集噪聲特征中心的平均偏差如圖2所示。
圖2 8種不同噪聲特征至訓(xùn)練集噪聲特征中心的平均偏差
由圖2可知:animal和bell這2種噪聲的編碼特征偏離訓(xùn)練數(shù)據(jù)均值中心0的程度非常明顯,給語(yǔ)音分離模型帶來(lái)較大的泛化風(fēng)險(xiǎn);而另外6種噪聲的編碼特征偏離均值中心比較小,可見(jiàn)并非所有的噪聲都會(huì)在特征空間上帶來(lái)嚴(yán)重的均值偏差。因此,需要設(shè)置1個(gè)閾值,只有滿足閾值要求的測(cè)試信號(hào)才會(huì)觸發(fā)參數(shù)更新。
本文采用變換域特征的均值偏移來(lái)度量預(yù)測(cè)不確定性。針對(duì)不確定性較大的測(cè)試數(shù)據(jù),將進(jìn)行參數(shù)的動(dòng)態(tài)調(diào)整。因此,設(shè)置了1個(gè)不確定性閾值,計(jì)算公式為
當(dāng)測(cè)試信號(hào)的值大于,通過(guò)式(8)或式(10)對(duì)編碼器2的參數(shù)進(jìn)行更新。
實(shí)驗(yàn)采用的深度學(xué)習(xí)框架為Pytorch,服務(wù)器CPU為8核3.90 GHz AMD Ryzen 3700X,內(nèi)存為 32 GB,GPU為Nvidia RTX 2080 Ti。
本文采用公開(kāi)的語(yǔ)音數(shù)據(jù)集LibriSpeech[20],噪聲數(shù)據(jù)集NoiseX[21]和Nonspeech[19]進(jìn)行實(shí)驗(yàn)。為方便網(wǎng)絡(luò)訓(xùn)練,所有數(shù)據(jù)統(tǒng)一采樣率為8 kHz。本文的語(yǔ)音數(shù)據(jù)全部來(lái)自于LibriSpeech數(shù)據(jù)集中的“train-clean-100”子集,該子集包含了100 h來(lái)自251個(gè)不同個(gè)體的語(yǔ)音數(shù)據(jù)。首先,取任意2個(gè)不同說(shuō)話人的語(yǔ)音以-2.5 dB~2.5 dB的任意比例混合,得到干凈的2個(gè)說(shuō)話人的混合數(shù)據(jù);然后,選取NoiseX數(shù)據(jù)集中的10種噪聲生成訓(xùn)練集數(shù)據(jù),同時(shí)將Nonspeech數(shù)據(jù)集中的8種噪聲生成測(cè)試集數(shù)據(jù),詳情如表2所示。其中,噪聲與說(shuō)話人聲按-5 dB~10 dB的任意信噪比混合,訓(xùn)練集的樣本個(gè)數(shù)為8000,測(cè)試集中每種噪聲數(shù)據(jù)的樣本個(gè)數(shù)為3000。
表2 噪聲數(shù)據(jù)集
表3 4種方法的分離性能比較
由表3可知:1) BPU取得了比單鏈路更好的分離性能,說(shuō)明雙鏈路網(wǎng)絡(luò)方法是有效的;2) FNR和FIW-FNR方法獲得的SI-SNR指標(biāo)高于BPU,其中FIW-FNR是4種方法中分離性能最好的,可見(jiàn)本文提出的參數(shù)更新方法可以改善模型的分離性能。
表4 取不同值時(shí),3種方法的SI-SNR指標(biāo)
表5 取不同值時(shí),3種方法的SI-SNR指標(biāo)
針對(duì)每一條測(cè)試信號(hào),本文提出的基于不確定性感知的語(yǔ)音分離方法都可以通過(guò)式(8)或式(10)閉式更新噪聲編碼網(wǎng)絡(luò)參數(shù),而無(wú)需經(jīng)過(guò)反向梯度傳播,從而保證了模型的運(yùn)行效率。經(jīng)過(guò)測(cè)試1000條數(shù)據(jù),F(xiàn)IW-FNR方法平均處理一條測(cè)試信號(hào)的時(shí)間約為(0.150.01) s(每條數(shù)據(jù)長(zhǎng)度為5 s)。
為減小噪聲的干擾,本文提出一種基于不確定性感知的語(yǔ)音分離方法。針對(duì)每一條測(cè)試信號(hào),自適應(yīng)更新噪聲編碼網(wǎng)絡(luò)的參數(shù),減小噪聲帶來(lái)的均值偏移,并盡量保持重要參數(shù)不變,間接限制語(yǔ)音分離的經(jīng)驗(yàn)誤差。該方法具有閉式解,執(zhí)行效率高,能夠快速調(diào)整編碼網(wǎng)絡(luò)參數(shù),增強(qiáng)語(yǔ)音分離模型對(duì)環(huán)境噪聲的泛化能力。
[1] BELL A J, SEJNOWSKI T J. An information-maximization approach to blind separation and blind deconvolution[J]. Neural Computation, 1995,7(6):1129-1159.
[2] WANG D L, BROWN G J. Computational auditory scene analysis: principles, algorithms, and applications[J]. IEEE Trans. Neural Networks, 2008,19(1):199.
[3] LEE D D, SEUNG H S. Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999, 401(6755):788-791.
[4] 李煦,屠明,吳超,等.基于NMF和FCRF的單通道語(yǔ)音分離[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,57(1):84-88.
[5] WANG D L, CHEN J. Supervised speech separation based on deep learning: an overview[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018,26(10):1702-1726.
[6] 劉文舉,聶帥,梁山,等.基于深度學(xué)習(xí)語(yǔ)音分離技術(shù)的研究現(xiàn)狀與進(jìn)展[J].自動(dòng)化學(xué)報(bào),2016,42(6):819-833.
[7] MA C, LI D, JIAN X. Two-stage model and optimal SI-SNR for monaural multi-speaker speech separation in noisy environment[J]. arXiv preprint arXiv: 2004.06332, 2020.
[8] LIU Y, DELARIA M, WANG D L. Deep casa for talker- independent monaural speech separation[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020: 6354-6358.
[9] WANG X, DU J, CRISTIAN A, et al. A study of child speech extraction using joint speech enhancement and separation in realistic conditions[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020: 7304-7308.
[10] WU Y K, TUAN C I, LEE H Y, et al. SADDEL: Joint Speech separation and denoising model based on multitask learning[J]. arXiv preprint arXiv: 2005.09966, 2020.
[11] KIRKPATRICK J, PASCANU R, RABINOWITZ N, et al. Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2017, 114(13): 3521-3526.
[12] LUO Y, CHEN Z, YOSHIOKA T. Dual-Path RNN: efficient long sequence modeling for time-domain single-channel speech separation[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020:46-50.
[13] LUO Y, MESGARANI N. Conv-tasnet: surpassing ideal time- frequency magnitude masking for speech separation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 27(8): 1256-1266.
[14] ROUX J L, WISDOM S, ERDOGAN H, et al. SDR half-baked or well done[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019: 626-630.
[15] LUO Y, CHEN Z, MESGARANI N. Speaker-independent speech separation with deep attractor network[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2018, 26(4):787-796.
[16] TAGASOVSKA N, LOPEZ-PAZ D. Single-model uncertainties for deep learning[C]. In Advances in Neural Information Processing Systems, 2019: 6414-6425.
[17] WELLING M, YEE W T. Bayesian learning via stochastic gradient Langevin dynamics[C]. Proceedings of the International Conference on Machine Learning (ICASSP), 2011: 681-688.
[18] GAL Y, GHAHRAMANI Z. Dropout as a Bayesian approximation: representing model uncertainty in deep learning[C]. Proceedings of the International Conference on Machine Learning (ICML), 2016: 1050-1059.
[19] HU G, WANG D L. A tandem algorithm for pitch estimation and voiced speech segregation[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010,18(8): 2067-2079.
[20] PANAYIOTOU V, CHEN G, POKEY D, et al. LibriSpeech: an ASR corpus based on public domain audio books[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015: 5206-5210.
[21] VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition: Ii.noisex-92: A database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech Communication, 1993,12(3): 247-251.
Speech Separation Method Based on Uncertainty Perception
Tu Binwei Lü Jun
(School of Automation, Guangdong University of Technology, Guangzhou 510006, China)
In order to resist the disturbances of noises, we proposed a speech separation method based on uncertainty perception. In the training phase, a two-link architecture is adopted to learn the codec subnet and separate subnet of noise and speech source components respectively. In the testing phase, the noise coding subnet is updated adaptively in the form of closed solution, so as to reduce the mean deviation of training and testing noises in the feature space, reduce cognitive uncertainty, keep the important parameters unchanged as far as possible, and indirectly limit the empirical error of speech separation. Experimental results on the public datasets LibriSpeech, NoiseX and NonSpeech show that the proposed approach can rapidly and effectively improve the scale-invariant source-to-noise ratio of speech separation under the interferences of unknown noises.
speech separation; noise interference; uncertainty perception
TN912
A
1674-2605(2021)01-0008-06
10.3969/j.issn.1674-2605.2021.01.008
廣東省自然科學(xué)基金(2018A030313306)
涂斌煒,男,1995年生,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí),語(yǔ)音分離。E-mail: tubinwei@mail2.gdut.edu.cn
呂?。ㄍㄐ抛髡撸?,男,1979年生,博士,副研究員,主要研究方向:生物信號(hào)檢測(cè)與識(shí)別。E-mail: lujun.rylj@gmail.com