郁文虎,全海燕
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
對(duì)于“雞尾酒會(huì)問(wèn)題”中提到的人們會(huì)在吵鬧的環(huán)境下獲取對(duì)自己有用的話語(yǔ),但是計(jì)算機(jī)不會(huì)主動(dòng)獲取一些音頻,只是被動(dòng)地接受輸入的信息.而且隨著說(shuō)話人數(shù)增加或者處在一個(gè)更嘈雜的環(huán)境中,計(jì)算機(jī)可能會(huì)無(wú)法辨別出目的語(yǔ)音.為解決該問(wèn)題,語(yǔ)音分離算法不斷革新.語(yǔ)音分離問(wèn)題的解決主要采用基于信號(hào)處理和深度學(xué)習(xí)的方法.在深度學(xué)習(xí)未提出之前,研究人員采用信號(hào)處理的方法對(duì)雙通道或者多通道[1]的語(yǔ)音進(jìn)行研究.常見(jiàn)的有維納濾波法[2]、譜減法[3]、卡爾曼濾波法[4]等.但上述方法會(huì)造成輸出信息的丟失,導(dǎo)致分離效果不佳.深度學(xué)習(xí)興起于圖像領(lǐng)域,伴隨圖神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,研究者開(kāi)始把深度學(xué)習(xí)逐漸應(yīng)用于語(yǔ)音和文本,并且取得了一定的成果.經(jīng)過(guò)研究者不斷探索,深度學(xué)習(xí)的模型開(kāi)始應(yīng)用于機(jī)器翻譯[5]、音頻合成[6]和語(yǔ)言建模等領(lǐng)域中.
計(jì)算機(jī)性能的提升,給人們提供了加深神經(jīng)網(wǎng)絡(luò)層數(shù)的條件,這極大促進(jìn)了深度學(xué)習(xí)在語(yǔ)音信號(hào)處理上的發(fā)展.Xu等[7]將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Nets,DNN)應(yīng)用于語(yǔ)音分離方面,先將混合語(yǔ)音與目標(biāo)語(yǔ)音的對(duì)數(shù)幅度譜相映射,再結(jié)合相位信息恢復(fù)目標(biāo)語(yǔ)音波形.Luo等[8]提出了利用雙路徑遞歸神經(jīng)網(wǎng)絡(luò)(Dual-Path Recurrent Neural Network,DPRNN)在深層結(jié)構(gòu)中組織循環(huán)神經(jīng)網(wǎng)絡(luò)層對(duì)極長(zhǎng)語(yǔ)音序列進(jìn)行重新建模.Wang等[9]專(zhuān)注于使用短時(shí)傅里葉變換(Short Time Fourier Transform, STFT)方法進(jìn)行時(shí)頻域信號(hào)處理,該方法先使用STFT將波形轉(zhuǎn)換為時(shí)頻表示,然后將結(jié)果用于預(yù)測(cè)每個(gè)聲源的時(shí)頻掩模.
在深度學(xué)習(xí)模型的不斷創(chuàng)新下,對(duì)抗生成網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)被 提 出,GAN在圖像處理中經(jīng)常被用來(lái)替換一些神經(jīng)網(wǎng)絡(luò).由于GAN中生成器(Generator,G)和判別器(Discriminator,D)可以使用很多模型,因此研究者開(kāi)始探索對(duì)抗生成網(wǎng)絡(luò)在語(yǔ)音上的應(yīng)用.Pascual等[10]首次將GAN運(yùn)用到語(yǔ)音降噪中,提出了語(yǔ)音增強(qiáng)生成對(duì)抗網(wǎng)絡(luò)(Speech Enhanced Generative Adversarial Networks, SEGAN),該方法能完整保存時(shí)域信號(hào)的相位信息,幫助語(yǔ)音更好地還原.SEGAN將時(shí)域波形作為模型的輸入,然后結(jié)合D訓(xùn)練數(shù)據(jù),降噪效果顯著.范存航等[11]受SEGAN的啟發(fā),提出了一種基于卷積編解碼器(Convolutional Encoder Decoder, CED)的端到端語(yǔ)音分離系統(tǒng).該系統(tǒng)將時(shí)域波形作為系統(tǒng)輸入,并在損失函數(shù)中加入干擾語(yǔ)音信息進(jìn)行訓(xùn)練,提高了分離性能.王怡斐等[12]提出了一種基于Wasserstein距離的GAN用于語(yǔ)音增強(qiáng),該方法無(wú)需人工提取聲學(xué)特征便可進(jìn)一步提升GAN在語(yǔ)音降噪上的效果,同時(shí)可以直接看到GAN在直接分析時(shí)域波形上的優(yōu)勢(shì).Luo等[13]提出卷積時(shí)域音頻分離網(wǎng)絡(luò)Conv-TasNet,該框架是一種端到端的時(shí)域語(yǔ)音分離的深度學(xué)習(xí)框架,能使循環(huán)網(wǎng)絡(luò)更精確、更簡(jiǎn)單、更清晰.
相比于時(shí)域上端到端網(wǎng)絡(luò)的音域信號(hào)分離,大部分頻域音域信號(hào)的分離需要借助相位信息還原語(yǔ)音,而這種方法會(huì)造成目標(biāo)語(yǔ)音部分信息的丟失.因此受文獻(xiàn)[13]啟發(fā),本文提出了一種基于時(shí)序卷積對(duì)抗生成網(wǎng)絡(luò)的音域分離方法.本文方法首先以經(jīng)過(guò)預(yù)處理的時(shí)域語(yǔ)音信號(hào)作為輸入,其次構(gòu)建聯(lián)合訓(xùn)練結(jié)構(gòu),最后利用時(shí)序卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)以及深度特征聚合結(jié)構(gòu),增加提取目標(biāo)特征向量之間的“相關(guān)性”,從而幫助判別器更好地獲取目標(biāo)語(yǔ)音的高維時(shí)域特征信息,使生成器更好地分離出目標(biāo)語(yǔ)音.此外,在對(duì)抗生成網(wǎng)絡(luò)模型中引入噪聲語(yǔ)音,可以彌補(bǔ)目標(biāo)語(yǔ)音特征信息的不足,提升模型分離的性能.
1.1 生成對(duì)抗網(wǎng)絡(luò)GAN基本思想是在D和G之間建立一個(gè)游戲,讓它們相互競(jìng)爭(zhēng).在這個(gè)游戲中,D學(xué)習(xí)如何辨別真假數(shù)據(jù),而G學(xué)習(xí)如何欺騙D.D把G生成的樣本判為假,把真實(shí)數(shù)據(jù)判為真.GAN的結(jié)構(gòu)框圖如圖1所示.
GAN旨在訓(xùn)練兩個(gè)相互競(jìng)爭(zhēng)的網(wǎng)絡(luò),即生成性網(wǎng)絡(luò)和對(duì)抗性網(wǎng)絡(luò).標(biāo)準(zhǔn)GAN的損失函數(shù)定義如下:
式中:Pdata和Pz表示實(shí)際數(shù)據(jù)和輸入先驗(yàn)噪聲的概率分布,x表示實(shí)際數(shù)據(jù),z是生成器G的隨機(jī)輸入,服從概率分布(如高斯分布)Pz.
圖1 GAN的結(jié)構(gòu)Fig.1 The architecture of GAN
GAN框架的訓(xùn)練過(guò)程類(lèi)似于兩人對(duì)抗的博弈游戲,其中G被訓(xùn)練為最小化目標(biāo)函數(shù),其目的是生成接近真實(shí)樣本的假樣本.而D則是被訓(xùn)練為最大化目標(biāo)函數(shù),其目的是區(qū)分真實(shí)樣本和假樣本.式(1)中利用交叉熵函數(shù)衡量真樣本和假樣本之間數(shù)據(jù)分布的相似度.D是一個(gè)二分類(lèi)網(wǎng)絡(luò),其作用是將來(lái)自真實(shí)樣本的數(shù)據(jù)判為1,來(lái)自生成樣本的數(shù)據(jù)判為0.G經(jīng)過(guò)訓(xùn)練會(huì)生成接近真實(shí)樣本數(shù)據(jù)分布的假樣本,使 log(1?D(G(z)))的值最小.在G取最小值的同時(shí)使目標(biāo)函數(shù) logD(x)和 log(1?D(G(z)))兩者的和達(dá)到最大.
為了加速模型的收斂,可在訓(xùn)練過(guò)程中引入一些額外的輔助信息幫助模型達(dá)到最優(yōu).因此本文在損失函數(shù)中引入服從Pdata(xc) 分布的額外信息xc.語(yǔ)音分離中xc一般取目的語(yǔ)音和噪聲語(yǔ)音的混合語(yǔ)音,以此約束G生成接近真實(shí)樣本數(shù)據(jù)分布的假樣本,同時(shí)幫助D更好地區(qū)分真假數(shù)據(jù).G的輸入是語(yǔ)音和音樂(lè)混合的語(yǔ)音,而D的輸入則是xc與將要進(jìn)行判別的語(yǔ)音拼接后的語(yǔ)音.此時(shí),原始損失函數(shù)可改為:
1.2 TCN原理時(shí)序卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)結(jié)構(gòu)利用因果卷積讓過(guò)去到未來(lái)的信息傳遞沒(méi)有遺失.因此,對(duì)于任意長(zhǎng)度的序列信息,TCN可以映射到對(duì)應(yīng)的輸出序列,保證了在信息提取過(guò)程中信息特征的完整性.此外,TCN融合了膨脹卷積、因果卷積以及殘差連接的思想.
因果卷積在網(wǎng)絡(luò)層數(shù)比較少的時(shí)候能夠較好地映射過(guò)去的信息,但當(dāng)網(wǎng)絡(luò)層數(shù)比較多的時(shí)候,其映射過(guò)去信息的效果不佳.為解決上述問(wèn)題,采用擴(kuò)大卷積涵蓋更長(zhǎng)歷史的映射以達(dá)到較大的感受野.對(duì)于一維序列x和過(guò)濾器f以及序列中元素s的擴(kuò)張卷積定義的公式如下:
式中:X∈Rn,過(guò)濾器f:{0,···,k-1}!R,d為膨脹系數(shù),k為過(guò)濾器尺寸,s-d·i解釋了過(guò)去的方向.膨脹卷積的目的是為了增大輸出層的感受野,此時(shí)底層的輸入相當(dāng)于正常的卷積,而往上的層則是通過(guò)引入的膨脹系數(shù)進(jìn)行類(lèi)似于采樣的卷積.
為了增大TCN的感受野,本文采用增加膨脹系數(shù)的辦法,其中一層的有效歷史為(k-1)d.在使用膨脹卷積時(shí),膨脹系數(shù)會(huì)隨著網(wǎng)絡(luò)層數(shù)的增長(zhǎng)而以一定的指數(shù)增加.該方法確保了在有效歷史記錄中過(guò)濾器可以涵蓋每個(gè)輸入,同時(shí)也允許深度網(wǎng)絡(luò)生成非常大的有效歷史記錄.膨脹卷積的原理結(jié)構(gòu)如圖2所示.
圖2 膨脹卷積結(jié)構(gòu)圖Fig.2 The architecture of dilated convolution
TCN中的殘差連接操作使網(wǎng)絡(luò)可以跨層傳遞信息,避免了層數(shù)過(guò)多導(dǎo)致信息丟失的問(wèn)題.殘差連接最大程度保留了樣本原本的特征,從而讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到樣本更多的信息.
此外,TCN由殘差塊組成,模型利用殘差學(xué)習(xí)可以充分訓(xùn)練深層網(wǎng)絡(luò)[14].圖3展示了本文中使用的殘差塊[13].從圖3中可以看出,殘差塊由3個(gè)卷積組成:輸入1×1卷積、深度卷積和輸出1×1卷積.其中,輸入卷積用于將輸入通道的數(shù)量增加一倍.輸出卷積用于恢復(fù)原始通道數(shù),從而使輸入和輸出的特征向量相加兼容.深度卷積用于進(jìn)一步減少參數(shù)數(shù)量.在深度卷積中,通道數(shù)保持不變,每個(gè)輸入通道僅使用一個(gè)濾波器進(jìn)行輸出計(jì)算[15].
圖3 殘差單元結(jié)構(gòu)圖Fig.3 Unit structure diagram of the residual block
2.1 聯(lián)合訓(xùn)練與時(shí)域卷積生成對(duì)抗網(wǎng)絡(luò)對(duì)于音域分離的問(wèn)題,本文提出了基于時(shí)域卷積生成對(duì)抗網(wǎng)絡(luò)的音域分離方法(Temporal Convolutional Network of GAN,T-GAN).該方法不同于SEGAN只關(guān)注目標(biāo)語(yǔ)音,T-GAN中的聯(lián)合訓(xùn)練結(jié)構(gòu)使GAN能夠同時(shí)對(duì)語(yǔ)音和音樂(lè)的特征進(jìn)行訓(xùn)練.由于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)只關(guān)注當(dāng)前時(shí)刻的目標(biāo)語(yǔ)音和干擾語(yǔ)音,忽略了特征向量之間的關(guān)系,因此本文利用時(shí)域卷積網(wǎng)絡(luò)結(jié)構(gòu)增加特征向量之間的相關(guān)性,即特征向量中后一時(shí)刻的值由前一時(shí)刻或者前面幾個(gè)時(shí)刻的值決定.T-GAN將輸入的時(shí)域波形通過(guò)編碼器提取出來(lái)的特征向量輸入到TCN中增加特征向量的感受野,再輸入到解碼器上采樣進(jìn)行語(yǔ)音還原.基于T-GAN的音域分離算法模型結(jié)構(gòu)如圖4所示.圖4中X1表 示分離的目標(biāo)語(yǔ)音,X2表示分離的噪聲語(yǔ)音,Xm表示語(yǔ)音和音樂(lè)的混合語(yǔ)音;X3表示純凈的噪聲語(yǔ)音;由于輸入的是時(shí)域信號(hào),所以X2可 以由混合語(yǔ)音Xm減 去分離的目標(biāo)語(yǔ)音X1得到;z表示潛在的特征向量.
在T-GAN網(wǎng)絡(luò)結(jié)構(gòu)中,G采用全卷積(Fully Convolutional Networks,F(xiàn)CN) 構(gòu)成的編碼-解碼網(wǎng)絡(luò),其網(wǎng)絡(luò)模型如圖5所示.全卷積網(wǎng)絡(luò)分為兩個(gè)階段.在編碼階段,G采用正卷積對(duì)輸入的混合語(yǔ)音信號(hào)提取時(shí)域特征信息.BN層添加在激活函數(shù)前,能夠增大模型的學(xué)習(xí)率,提高模型的訓(xùn)練速度.每層輸出采用帶泄漏修正線性單元 (LeakyRelu)作為激活函數(shù)以加速網(wǎng)絡(luò)的收斂,預(yù)防網(wǎng)絡(luò)在訓(xùn)練過(guò)程中出現(xiàn)梯度消失的問(wèn)題.將提取的高維時(shí)域特征向量c與額外輸入的特征向量z連接(z的分布符合正態(tài)分布(0,1)).將連接后的特征向量輸入到TCN中增大特征向量的感受野,并加深特征之間的關(guān)聯(lián)性以便解碼階段更好的恢復(fù)語(yǔ)音.在解碼階段,利用反卷積對(duì)經(jīng)過(guò)TCN網(wǎng)絡(luò)的語(yǔ)音特征向量還原.每個(gè)神經(jīng)網(wǎng)絡(luò)層設(shè)置與編碼階段相似,經(jīng)過(guò)解碼階段還原到和原始語(yǔ)音時(shí)長(zhǎng)相同的語(yǔ)音.此外,本文引入深度特征聚合結(jié)構(gòu),將原始輸入的特征向量經(jīng)過(guò)最大值池化后和經(jīng)過(guò)卷積、批歸一化、激活函數(shù)的特征向量拼接作為下一層卷積層的輸入,最大程度保留原始時(shí)域特征信息的完整性.編碼層的特征信息經(jīng)過(guò)跳躍連接[16]傳遞給對(duì)應(yīng)的解碼層,以此得到原始語(yǔ)音信號(hào)更多的特征信息,幫助解碼器更好地恢復(fù)語(yǔ)音.D的結(jié)構(gòu)和編碼器的結(jié)構(gòu)相似,使用多層步幅卷積(正卷積)的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)輸入的樣本進(jìn)行判別.
圖4 基于T-GAN聯(lián)合訓(xùn)練的聲樂(lè)分離算法Fig.4 Vocal music separation algorithm based on T-GAN joint training
圖5 生成器G的模型結(jié)構(gòu)Fig.5 The model structure of generator G
2.2 損失函數(shù)在GAN中,損失函數(shù)對(duì)模型穩(wěn)定和收斂影響較大,而式(1)和式(2)均使用Sigmoid交叉熵函數(shù)作為損失函數(shù).然而Sigmoid交叉熵函數(shù)會(huì)導(dǎo)致梯度消失情況的出現(xiàn).為解決上述問(wèn)題,本文以二進(jìn)制的最小二乘函數(shù)作為模型損失函數(shù),最 小 二 乘GAN (Least Squares GAN,LSGAN)[17]方法可以解決梯度消失的問(wèn)題.經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn)模型會(huì)出現(xiàn)過(guò)擬合的情形,因此本文引入L1正則項(xiàng)避免模型出現(xiàn)過(guò)擬合的現(xiàn)象,同時(shí)也可加速模型的收斂.由于本文所提出的T-GAN網(wǎng)絡(luò)同時(shí)對(duì)語(yǔ)音和音樂(lè)進(jìn)行訓(xùn)練,所以要在損失函數(shù)中引入兩個(gè)L1正則項(xiàng),并由參數(shù)λ1和λ2控制正則項(xiàng)分別對(duì)目標(biāo)語(yǔ)音和干擾語(yǔ)音進(jìn)行約束.此外,本文以混合語(yǔ)音信號(hào)xm代 替loss函數(shù)中的輔助信號(hào)xc.最終模型損失函數(shù)為:
式中:x?1=G(z,Xm) ,x?2=Xm-G(z,Xm)
3.1 實(shí)驗(yàn)數(shù)據(jù)以data_thchs30數(shù)據(jù)集作為實(shí)驗(yàn)的語(yǔ)音數(shù)據(jù)集.該數(shù)據(jù)集時(shí)長(zhǎng)30 h,包含40位左右的實(shí)驗(yàn)人員和11 000條語(yǔ)音.同時(shí),本文使用MIR-1K數(shù)據(jù)集作為實(shí)驗(yàn)的背景音樂(lè)數(shù)據(jù)集.MIR-1K數(shù)據(jù)集時(shí)長(zhǎng)133 min,該數(shù)據(jù)中每段語(yǔ)音都是雙通道語(yǔ)音,其中一個(gè)通道是歌聲,另一個(gè)通道是背景音樂(lè),每段語(yǔ)音時(shí)間從4 ~13 s不等.其中音樂(lè)由110首卡拉OK歌曲構(gòu)成,包含混合曲目和音樂(lè)伴奏曲目.而卡拉OK歌曲由8位女性和11位男性演唱的5 000首中國(guó)流行歌曲中進(jìn)行自由挑選.本文隨機(jī)選取350條語(yǔ)音作為實(shí)驗(yàn)數(shù)據(jù),且相互之間說(shuō)話內(nèi)容不同,并從MIR-1K數(shù)據(jù)集中選取與語(yǔ)音等長(zhǎng)時(shí)間的音樂(lè)作為背景音樂(lè),再隨機(jī)抽取300條語(yǔ)音作為訓(xùn)練集,剩余的50條語(yǔ)音作為測(cè)試集.
3.2 實(shí)驗(yàn)設(shè)置實(shí)驗(yàn)采用16 kHz對(duì)訓(xùn)練集和測(cè)試集數(shù)據(jù)進(jìn)行采樣,并提前對(duì)所有數(shù)據(jù)進(jìn)行分幀加窗預(yù)處理,其中幀長(zhǎng)設(shè)置為64 ms(每幀采樣點(diǎn)數(shù)為1 024),幀移為32 ms.本文提出的模型結(jié)構(gòu)中G有11個(gè)卷積層,每層卷積核大小為31,步長(zhǎng)為2.編碼階段每層對(duì)應(yīng)的特征圖大小為:1 024×1、512×32、256×64、128×128、64×256、32×512;解碼階段卷積層對(duì)應(yīng)的特征圖大小為64×256、128×128、256×64、512×32、1 024×1.由于模型生成器采用跳躍連接結(jié)構(gòu),因此,反卷積層特征圖加倍.D的網(wǎng)絡(luò)設(shè)置與G的編碼階段類(lèi)似,因?yàn)镈是將分離的語(yǔ)音和純凈的語(yǔ)音輸入到網(wǎng)絡(luò)中進(jìn)行判別,所以D有兩個(gè)1 024×1維的輸入通道.模型訓(xùn)練時(shí)采用RMSprop優(yōu)化算法,其訓(xùn)練批次設(shè)置為50,學(xué)習(xí)速率為0.000 1.本文把批次大小設(shè)置為16、32、64, 經(jīng)過(guò)多次實(shí)驗(yàn)發(fā)現(xiàn)設(shè)置為32時(shí)模型達(dá)到最優(yōu).為了探究正則項(xiàng)與G的損失函數(shù)在數(shù)量級(jí)上的關(guān)系,本文以語(yǔ)音為目標(biāo)語(yǔ)音在5 dB信噪比下對(duì)正則項(xiàng)的系數(shù)進(jìn)行了實(shí)驗(yàn)對(duì)比,其數(shù)據(jù)如表1所示.
表1 不同正則項(xiàng)系數(shù)評(píng)價(jià)指標(biāo)對(duì)比Tab.1 Comparison of different regular term coefficient evaluation indicators
表1中λ表示正則項(xiàng)系數(shù),PESQ( Perceptual Evaluation of Speech Quality)表示語(yǔ)音質(zhì)量感知評(píng)估[18].由表1中數(shù)據(jù)可知,將λ設(shè)置為100時(shí)模型達(dá)到最優(yōu).若λ太小則無(wú)法縮小分離語(yǔ)音與純凈語(yǔ)音之間的差距,太大則會(huì)忽略D對(duì)G的反饋?zhàn)饔?
本文采用文獻(xiàn)[11]中的CED方法和加入文獻(xiàn)[13]中的TCN結(jié)構(gòu)的方法,以及在全卷積網(wǎng)絡(luò)編碼器中加深度特征聚合結(jié)構(gòu)3種方法作為對(duì)比實(shí)驗(yàn),展示所提出模型的效果.本文把CED方法記為CED,加特征聚合結(jié)構(gòu)的方法記為CED-1,只加TCN的方法記為T(mén)-GAN-0,本實(shí)驗(yàn)提出的T-GAN網(wǎng)絡(luò)結(jié)構(gòu)記為T(mén)-GAN.本文構(gòu)建基于3種對(duì)比網(wǎng)絡(luò)的數(shù)據(jù)集,并且把訓(xùn)練迭代次數(shù)、學(xué)習(xí)率、批次大小、優(yōu)化算法等都和本文提出的模型保持一致.
3.3 實(shí)驗(yàn)結(jié)果與分析實(shí)驗(yàn)以語(yǔ)音質(zhì)量感知評(píng)估(Perceptual Evaluation of Speech Quality,PESQ)[18]、短時(shí)客觀可懂度 ( Short-Time Objective Intelligi[19]、源信號(hào)失真比(Source to Distortion Ratio SDR)[20]3種評(píng)估方法作為音域分離的評(píng)價(jià)標(biāo)準(zhǔn).PESQ用于評(píng)估語(yǔ)音分離后的總體質(zhì)量,STOI用于評(píng)估語(yǔ)音客觀可懂度,SDR用于評(píng)價(jià)語(yǔ)音信號(hào)分離后整體的失真情況.以語(yǔ)音為目標(biāo)語(yǔ)音和以音樂(lè)為目標(biāo)語(yǔ)音的實(shí)驗(yàn)數(shù)據(jù)如表2、3所示.
表2 以語(yǔ)音為目標(biāo)語(yǔ)音4種方法在不同信噪比下的評(píng)估值Tab.2 Evaluation values for four methods with different signal-to-noise ratios using speech as the target speech
表3 以音樂(lè)為目標(biāo)語(yǔ)音4種方法在不同信噪比下的評(píng)估值Tab.3 Evaluation values for four methods with different signal-to-noise ratios using music as the target speech
由表2、3中數(shù)據(jù)可以看出,本文提出的T-GAN方法在0 、5 、10 dB 3種信噪比下均優(yōu)于基線CED、CED-1和T-GAN-0 方法.由表2中數(shù)據(jù)可以看出,PESQ值平均提高了0.31,STOI值平均提高了0.07.當(dāng)信噪比為0 dB和10 dB時(shí),CED方法優(yōu)于CED-1方法,而信噪比為5 dB時(shí)則劣于CED-1方法.由于本文模型是基于語(yǔ)音和音樂(lè)聯(lián)合訓(xùn)練,在0 dB時(shí)干擾語(yǔ)音太強(qiáng),目標(biāo)語(yǔ)音特征不明顯,而在10 dB時(shí)干擾語(yǔ)音不太突出,所以造成了CED-1會(huì)劣于原始CED網(wǎng)絡(luò)結(jié)構(gòu).在5 dB時(shí)目標(biāo)語(yǔ)音和干擾語(yǔ)音特征相似,聯(lián)合訓(xùn)練結(jié)構(gòu)能很好地對(duì)語(yǔ)音進(jìn)行訓(xùn)練,使D對(duì)干擾語(yǔ)音的特征也能更好判別,進(jìn)一步增加干擾語(yǔ)音的分離.而T-GAN-0和TGAN兩種方法則在3種信噪比下皆?xún)?yōu)于CED這種依靠期望信號(hào)監(jiān)督的方法.
由表3中數(shù)據(jù)可知,PESQ值平均提高了0.15,STOI值平均提高了0.03.在0 dB條件下CED-1方法劣于CED方法.對(duì)于音樂(lè)為目標(biāo)語(yǔ)音時(shí),特征比較明顯,因此在高信噪比下T-GAN方法優(yōu)于其他3種方法.在低信噪比下噪聲語(yǔ)音特征突出,而目標(biāo)語(yǔ)音音樂(lè)比較雜亂,導(dǎo)致T-GAN網(wǎng)絡(luò)不能很好地學(xué)習(xí)目標(biāo)語(yǔ)音的特征,從而分離效果不明顯.表3中以音樂(lè)為目標(biāo)語(yǔ)音相對(duì)于表2中以語(yǔ)音為目標(biāo)語(yǔ)音時(shí)整體的分離效果稍差.
圖6繪制了以語(yǔ)音為目標(biāo)語(yǔ)音在5 dB信噪比下本文所提模型和其他基線模型音域分離后的語(yǔ)譜圖.由圖6中的(b)、(c)兩個(gè)子圖可以看到CED方法和CED-1方法在低頻和高頻分離效果都不是很好,這是因?yàn)镃ED方法和CED-1方法依據(jù)干凈的目標(biāo)語(yǔ)音和經(jīng)過(guò)生成器分離的目標(biāo)語(yǔ)音之間的誤差來(lái)進(jìn)行參數(shù)更新,導(dǎo)致獲得的分離特征有限,分離效果不佳.而T-GAN-0和T-GAN方法在高頻部分分離的效果要比CED方法和CED-1方法好,其中T-GAN方法由于在編碼器結(jié)構(gòu)中使用深度特征聚合結(jié)構(gòu),因此恢復(fù)語(yǔ)音時(shí)得到的語(yǔ)音信息更加完整,更接近目標(biāo)語(yǔ)音,同時(shí)分離效果也比T-GAN-0方法分離效果好.
圖6 5 dB信噪比下語(yǔ)音分離的語(yǔ)譜圖Fig.6 Spectrogram of human voice separation under 5 dB signal-to-noise ratio
本文提出一種基于時(shí)序卷積生成對(duì)抗網(wǎng)絡(luò)的單通道音域分離方法,利用時(shí)序卷積網(wǎng)絡(luò)增加了高維時(shí)域特征信息的相關(guān)性,提高了生成器的分離性能.同時(shí),對(duì)噪聲語(yǔ)音和目標(biāo)語(yǔ)音進(jìn)行聯(lián)合訓(xùn)練,并在編碼器中使用深度特征聚合的方法幫助解碼器對(duì)分離的語(yǔ)音進(jìn)行還原.實(shí)驗(yàn)結(jié)果表明,在MIR-1K和data_thchs30數(shù)據(jù)集上與基線方法相比,基線方法在高頻部分分離效果不好,而本文所提模型能有效提升音域信號(hào)高頻部分的分離效果.