基于改進(jìn)循環(huán)生成對(duì)抗神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)

2022-11-11 03:28徐瓏婷田娩鑫魏郅林

東華大學(xué)學(xué)報(bào)（自然科學(xué)版） 2022年5期

徐瓏婷，田娩鑫，魏郅林

(東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院，上海 201620)

語(yǔ)音是人們交流常用的一種信息載體。在實(shí)際環(huán)境中，語(yǔ)音信號(hào)總會(huì)受到外界噪聲的干擾，常見(jiàn)的噪聲包括自然界的白噪聲、其他人說(shuō)話的干擾聲以及錄音設(shè)備中的內(nèi)部電噪聲等。過(guò)多噪聲的存在，會(huì)使原有語(yǔ)音無(wú)法分辨。語(yǔ)音增強(qiáng)是解決噪聲污染的一種有效方法，通過(guò)抑制背景噪聲，從嘈雜的語(yǔ)音中保留干凈的語(yǔ)音信號(hào)，進(jìn)而提高語(yǔ)音質(zhì)量和清晰度。

語(yǔ)音增強(qiáng)算法早期大多基于濾波的概念，例如頻譜減法算法[1]、Winner濾波[2]、信號(hào)子空間算法[3]和最小均方誤差頻譜估計(jì)器[4]。隨后又發(fā)展出K奇異值分解[5]、非負(fù)矩陣分解(nonnegative matrix factorization, NMF)[6]等算法。隨著深度學(xué)習(xí)的發(fā)展，深度神經(jīng)網(wǎng)絡(luò)(deep neural networks, DNN)已被廣泛且有效地應(yīng)用于語(yǔ)音增強(qiáng)。比如Xu等[7]提出了一個(gè)基于回歸的語(yǔ)音增強(qiáng)框架，利用多層深度架構(gòu)的DNN來(lái)實(shí)現(xiàn)語(yǔ)音增強(qiáng)，試驗(yàn)結(jié)果表明，與對(duì)數(shù)最小均方誤差方法相比，基于DNN的語(yǔ)音增強(qiáng)算法在各類語(yǔ)音質(zhì)量評(píng)測(cè)標(biāo)準(zhǔn)中都取得了明顯的優(yōu)勢(shì)。Huang等[8]提出了一種基于DNN的多波段激勵(lì)的語(yǔ)音增強(qiáng)方法，在增強(qiáng)階段利用每幀的音高和DNN的輸出來(lái)增強(qiáng)有噪聲的語(yǔ)音，該方法在不同信噪比下均優(yōu)于基線。因此DNN在語(yǔ)音增強(qiáng)領(lǐng)域有很大的潛力。生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)是基于零和博弈思想構(gòu)建的一種深度學(xué)習(xí)模型，它的生成器和鑒別器一般均由DNN構(gòu)成。GAN在語(yǔ)音增強(qiáng)領(lǐng)域最大的優(yōu)勢(shì)是能夠?qū)W習(xí)任何分布下的數(shù)據(jù)，并能生產(chǎn)相似分布的數(shù)據(jù)[9]，通過(guò)對(duì)純凈語(yǔ)音樣本的學(xué)習(xí)，使含噪語(yǔ)音轉(zhuǎn)換為類似于純凈語(yǔ)音的增強(qiáng)語(yǔ)音，以達(dá)到語(yǔ)音增強(qiáng)的目的。但GAN需要大量成對(duì)的數(shù)據(jù)集進(jìn)行訓(xùn)練，訓(xùn)練的難度增大，不利于實(shí)際的應(yīng)用。

Zhu等[10]提出的循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)(cycle-consistent generative adversarial network, CycleGAN)模型，適用于兩種不同風(fēng)格語(yǔ)音域之間的轉(zhuǎn)換。CycleGAN通過(guò)添加循環(huán)一致性損失函數(shù)，有效地解決了缺少成對(duì)的訓(xùn)練語(yǔ)音的問(wèn)題。為進(jìn)一步提高CycleGAN生成語(yǔ)音的質(zhì)量，通過(guò)改進(jìn)CycleGAN的生成器網(wǎng)絡(luò)結(jié)構(gòu)(2-1-2D CNN)提出一種基于改進(jìn)CycleGAN的語(yǔ)音增強(qiáng)模型，即CycleGAN-2-1-2D模型。CycleGAN-2-1-2D結(jié)合了1D-CNN和2D-CNN的優(yōu)勢(shì)，能更好地捕捉特征的動(dòng)態(tài)變化和局部特征的細(xì)節(jié)。

1 基本原理

1.1 生成對(duì)抗網(wǎng)絡(luò)GAN

GAN的網(wǎng)絡(luò)結(jié)構(gòu)主要包括生成器和鑒別器，生成器的任務(wù)是模仿X域樣本并生成翻譯數(shù)據(jù)，鑒別器的任務(wù)是將這些生成的翻譯數(shù)據(jù)與X域樣本進(jìn)行區(qū)分[11]。隨著生成器與鑒別器不斷地對(duì)抗訓(xùn)練，生成器生成的翻譯數(shù)據(jù)便會(huì)獲得與X域樣本越來(lái)越相似的風(fēng)格，鑒別器判別能力也會(huì)隨著不斷提高，最終使得生成器與鑒別器達(dá)到一種平穩(wěn)態(tài)。該過(guò)程目標(biāo)函數(shù)如式(1)所示。

Ez～p(z)[log2(1-D(G(z)))]

(1)

式中：x為X域的語(yǔ)音樣本；z為隨機(jī)噪聲，其同時(shí)作為生成器的輸入；pdata(x)為X域的概率分布；p(z)為隨機(jī)噪聲的概率分布；G為生成器參與的z→x映射過(guò)程中的映射函數(shù)；G(z)為生成器生成的翻譯語(yǔ)音；D為鑒別器的判別函數(shù)；D(G(z))為鑒別器判定翻譯語(yǔ)音為X域樣本的概率；D(x)為鑒別器判定x是X域樣本的概率；E為數(shù)學(xué)期望；～表示服從關(guān)系。

1.2 循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)CycleGAN

CycleGAN是在GAN的基礎(chǔ)上發(fā)展來(lái)的，用于訓(xùn)練不成對(duì)的數(shù)據(jù)集，CycleGAN模型訓(xùn)練原理如圖1所示。CycleGAN由生成器、逆生成器、鑒別器1和鑒別器2組成。CycleGAN的前向循環(huán)過(guò)程中，生成器將X域的樣本x映射為Y域的y′，逆生成器將Y域的樣本y′映射為X域的x′。CycleGAN的后向循環(huán)過(guò)程中，逆生成器將Y域的樣本y映射為X域的x′，生成器將X域的樣本x′映射為Y域的y′。鑒別器1用于判斷y′是否為Y域的樣本，鑒別器2用于判斷x′是否為X域的樣本。

圖1 CycleGAN原理圖

Ex～pdata(x)[log2(1-Dy(G(x)))]

(2)

(3)

式中：pdata(y)為Y域的概率分布；F為逆生成器參與的y→x映射過(guò)程中的映射函數(shù)；G(x)為X域樣本x輸入到生成器所生成的與Y域語(yǔ)音相似的翻譯語(yǔ)音；F(y)為Y域樣本y輸入到逆生成器生成的與X域語(yǔ)音相似的翻譯語(yǔ)音；Dy為鑒別器1的判別函數(shù)；Dy(G(x))為鑒別器1判定生成器生成的語(yǔ)音G(x)屬于Y域的概率；Dx為鑒別器2的判別函數(shù)；Dx(F(y))為鑒別器2判定逆生成器生成的語(yǔ)音F(y)屬于X域的概率。

Ey～pdata(y)[‖G(F(y))-y‖]

(4)

Ex～pdata(x)[‖G(x)-x‖]

(5)

結(jié)合4個(gè)損失函數(shù)，總體損失函數(shù)如式(6)所示。

(6)

式中：λcyc為用于控制循環(huán)一致?lián)p失函數(shù)相對(duì)重要性的常數(shù)；λid為用于控制標(biāo)識(shí)映射損失函數(shù)相對(duì)重要性的常數(shù)。

最后，兩個(gè)生成器按式(7)進(jìn)行求解。

(7)

循環(huán)生成對(duì)抗網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)可以通過(guò)訓(xùn)練兩個(gè)具有特殊內(nèi)部結(jié)構(gòu)的自動(dòng)編碼器來(lái)實(shí)現(xiàn)上述循環(huán)對(duì)抗生成網(wǎng)絡(luò)，即加噪語(yǔ)音和純凈語(yǔ)音可以通過(guò)中間表示層映射到自身。這種設(shè)置也可以看作是生成對(duì)抗自動(dòng)編碼器的一種特殊情況，它使用對(duì)抗損失來(lái)訓(xùn)練瓶頸層以匹配任何目標(biāo)分布。

2 改進(jìn)CycleGAN的語(yǔ)音增強(qiáng)模型

2.1 損失函數(shù)

(8)

圖2 CycleGAN模型的兩次對(duì)抗性損失

2.2 2-1-2D CNN生成器

1D-CNN生成器結(jié)構(gòu)由降采樣層、殘差層和升采樣層組成，在保留時(shí)間結(jié)構(gòu)的同時(shí)捕獲幀與幀之間的特征關(guān)系以及特征方向，因此1D-CNN更適合捕捉動(dòng)態(tài)變化。但1D-CNN中的降采樣和升采樣會(huì)損失部分采樣特征結(jié)構(gòu)，導(dǎo)致語(yǔ)音增強(qiáng)效果較差。相比之下，2D-CNN將轉(zhuǎn)換后的區(qū)域限制為局部，更適合在轉(zhuǎn)換特征的同時(shí)更清晰地保留原始語(yǔ)音特征，從而實(shí)現(xiàn)良好的語(yǔ)音增強(qiáng)效果。

為了兼顧1D-CNN和2D-CNN的優(yōu)勢(shì)，本文使用了2-1-2D CNN的網(wǎng)絡(luò)架構(gòu)。在該網(wǎng)絡(luò)中，將2D-CNN用于降采樣和升采樣，并將1D-CNN用于主要轉(zhuǎn)換過(guò)程。為了調(diào)整通道尺寸，在重塑特征圖之前或之后應(yīng)用1×1卷積。生成器結(jié)構(gòu)如圖3所示。由圖3可知，1D-CNN、2D-CNN和2-1-2D CNN輸入特征的尺寸由Q×T×1表示，其中：r為降采樣率和升采樣率；c為殘差層的固有尺寸；Q為特征維數(shù)；T為序列長(zhǎng)度。

圖3 生成器結(jié)構(gòu)

2.3 PatchGAN鑒別器

FullGAN使用2D-CNN[12]作為鑒別器，以專注于二維結(jié)構(gòu)，更準(zhǔn)確地說(shuō)，在最后一層使用了一個(gè)完全連接的層來(lái)確定考慮輸入的整體結(jié)構(gòu)的真實(shí)性。但最近在計(jì)算機(jī)視覺(jué)中的研究[12]表明，鑒別器的寬范圍接受區(qū)域需要更多的參數(shù)，這使得訓(xùn)練時(shí)間大大加長(zhǎng)。受此啟發(fā)，使用PatchGAN[13]取代了FullGAN。兩種鑒別器結(jié)構(gòu)如圖4所示。

圖4 鑒別器結(jié)構(gòu)

PatchGAN在最后一層使用了卷積網(wǎng)絡(luò)，該網(wǎng)絡(luò)用于捕獲特征統(tǒng)計(jì)信息，輸出為m×m的矩陣，將矩陣中的每一個(gè)元素求和取均值，最終影響語(yǔ)音的判別結(jié)果。使用PatchGAN結(jié)構(gòu)的鑒別器需要較少的參數(shù)，在大大縮短訓(xùn)練時(shí)間的同時(shí)也能有效捕捉語(yǔ)音的關(guān)鍵特征，使生成的語(yǔ)音保持高清晰度。

3 CycleGAN-2-1-2D模型的語(yǔ)音增強(qiáng)方案

CycleGAN-2-1-2D模型的語(yǔ)音增強(qiáng)方案是將帶噪語(yǔ)音轉(zhuǎn)變成類似于純凈語(yǔ)音風(fēng)格的去噪語(yǔ)音，訓(xùn)練出一個(gè)智能的語(yǔ)音增強(qiáng)模型。該增強(qiáng)方案的具體實(shí)施分為數(shù)據(jù)集準(zhǔn)備階段、訓(xùn)練模型階段、測(cè)試模型階段。

3.1 數(shù)據(jù)集準(zhǔn)備階段

用LibriTTS語(yǔ)料庫(kù)[14]作為數(shù)據(jù)集，該語(yǔ)料庫(kù)包含以24 kHz采樣率閱讀英語(yǔ)語(yǔ)音約585 h的語(yǔ)音樣本。3種噪聲的類型設(shè)為機(jī)艙噪聲、工廠車間噪聲1和工廠車間噪聲2。由于CycleGAN-2-1-2D網(wǎng)絡(luò)的訓(xùn)練時(shí)間較長(zhǎng)，設(shè)置機(jī)艙噪聲、工廠車間噪聲1和工廠車間噪聲2分別對(duì)應(yīng)的信噪比(SN/R)為5、10和15 dB。

從LibriTTS語(yǔ)料庫(kù)中分別選取男/女性語(yǔ)音各N個(gè)樣本，其中,N/4個(gè)樣本加噪后作為訓(xùn)練集A，N/4個(gè)樣本作為訓(xùn)練集B，對(duì)N/2個(gè)樣本加噪后作為測(cè)試集。其中N應(yīng)盡量大，以滿足CycleGAN-2-1-2D模型的訓(xùn)練需求。

3.2 CycleGAN-2-1-2D模型訓(xùn)練階段

訓(xùn)練集A={a1,a2,…,aN/4}作為CycleGAN-2-1-2D模型的加噪語(yǔ)音域，訓(xùn)練集B={b1,b2,…,bN/4}作為CycleGAN-2-1-2D模型的純凈語(yǔ)音域。將訓(xùn)練集A={a1,a2,…,aN/4}和B={b1,b2,…,bN/4}置入CycleGAN-2-1-2D模型中進(jìn)行訓(xùn)練學(xué)習(xí)，訓(xùn)練過(guò)程如圖5所示。設(shè)置每迭代1 000次保存1次模型。

圖5 基于CycleGAN-2-1-2D的語(yǔ)音增強(qiáng)模型的訓(xùn)練過(guò)程

鑒別器與生成器間隨著迭代次數(shù)的增加不斷博弈，使學(xué)習(xí)結(jié)果和學(xué)習(xí)目標(biāo)之間的差異不斷減少。生成訓(xùn)練模型后，把測(cè)試樣本(含噪語(yǔ)音)輸入到最終的生成器中，以檢驗(yàn)增強(qiáng)效果。

3.3 測(cè)試模型階段

從LibriTTS語(yǔ)料庫(kù)中隨機(jī)抽取N/2條語(yǔ)音加噪作為測(cè)試集，將測(cè)試集輸入到訓(xùn)練過(guò)的CycleGAN-2-1-2D模型后得到增強(qiáng)語(yǔ)音。經(jīng)CycleGAN-2-1-2D模型增強(qiáng)后的語(yǔ)音長(zhǎng)度會(huì)發(fā)生變化，與純凈語(yǔ)音長(zhǎng)度不相同。所以采用無(wú)參照的語(yǔ)音評(píng)估方式，即MOSNet神經(jīng)網(wǎng)絡(luò)模型[15]來(lái)預(yù)估語(yǔ)音的平均意見(jiàn)得分。MOSNet是基于深度學(xué)習(xí)的語(yǔ)音質(zhì)量評(píng)估模型，測(cè)量語(yǔ)音自然度和相似度的能力很強(qiáng)，利用MOSNet神經(jīng)網(wǎng)絡(luò)模型評(píng)估增強(qiáng)語(yǔ)音的平均意見(jiàn)得分，測(cè)試過(guò)程如圖6所示。

圖6 基于CycleGAN-2-1-2D的語(yǔ)音增強(qiáng)模型的測(cè)試過(guò)程

4 試驗(yàn)結(jié)果及分析

4.1 參數(shù)設(shè)置

殘差層的特點(diǎn)是易優(yōu)化，其內(nèi)部的殘差塊通過(guò)跳躍連接的方式將信息傳遞到網(wǎng)絡(luò)的更深層，在不增加計(jì)算復(fù)雜度的條件下解決梯度消失的問(wèn)題，同時(shí)也加快了神經(jīng)網(wǎng)絡(luò)的收斂速度。卷積核是帶著一組固定權(quán)重的神經(jīng)元，可以用來(lái)提取特定的特征，每個(gè)卷積核的參數(shù)通過(guò)反向傳播算法優(yōu)化得到。2-1-2D CNN生成器由2層降采樣層、6層相同結(jié)構(gòu)的殘差層、1-2D轉(zhuǎn)換層、2-1D轉(zhuǎn)換層、2層升采樣層構(gòu)成，具體的結(jié)構(gòu)參數(shù)如表1所示。PatchGAN鑒別器由4層降采樣層和2D卷積層構(gòu)成，其結(jié)構(gòu)參數(shù)如表2所示。

表1 2-1-2D CNN生成器結(jié)構(gòu)參數(shù)

表2 PatchGAN的結(jié)構(gòu)參數(shù)

4.2 試驗(yàn)結(jié)果

設(shè)置CycleGAN-2D和NMF的語(yǔ)音增強(qiáng)模型作為CycleGAN-2-1-2D模型的對(duì)照試驗(yàn)，分別對(duì)3種模型進(jìn)行試驗(yàn)，試驗(yàn)結(jié)果如表3所示。

表3 3種不同語(yǔ)音增強(qiáng)模型的MOSNet評(píng)估結(jié)果

由表3可知：對(duì)3種噪音條件下的男性語(yǔ)音進(jìn)行增強(qiáng)時(shí)，CycleGAN-2-1-2D模型的語(yǔ)音增強(qiáng)效果皆優(yōu)于NMF模型，證實(shí)了CycleGAN-2-1-2D模型中的2D-CNN結(jié)構(gòu)能較為完整地保留語(yǔ)音特征的細(xì)節(jié)，實(shí)現(xiàn)良好的訓(xùn)練效果；對(duì)3種噪音條件下的女性語(yǔ)音進(jìn)行增強(qiáng)時(shí)，CycleGAN-2-1-2D模型的語(yǔ)音增強(qiáng)效果皆優(yōu)于NMF和CycleGAN-2D模型。這由于相對(duì)男聲而言，女聲的頻率要高且動(dòng)態(tài)變化更大，CycleGAN-2-1-2D模型中的1D-CNN結(jié)構(gòu)更適合捕捉特征的動(dòng)態(tài)變化，因此CycleGAN-2-1-2D模型對(duì)女聲處理能達(dá)到更理想的效果。綜上所述，CycleGAN-2-1-2D模型既具有2D-CNN擅長(zhǎng)捕獲局部特征細(xì)節(jié)的特點(diǎn)，又結(jié)合了1D-CNN對(duì)動(dòng)態(tài)變化敏感的特點(diǎn)，在解決成對(duì)數(shù)據(jù)集缺失的問(wèn)題的同時(shí)，進(jìn)一步增強(qiáng)了模型的語(yǔ)音增強(qiáng)效果。

5 結(jié) 語(yǔ)

從深度學(xué)習(xí)角度對(duì)語(yǔ)音增強(qiáng)機(jī)制進(jìn)行研究，通過(guò)將1D-CNN和2D-CNN結(jié)構(gòu)引入到CycleGAN-2-1-2D生成器，使得CycleGAN-2-1-2D生成器更加關(guān)注語(yǔ)音轉(zhuǎn)換的特征細(xì)節(jié)和動(dòng)態(tài)變化，其中CycleGAN-2-1-2D模型中的PatchGAN鑒別器也可以大大縮短訓(xùn)練時(shí)長(zhǎng)。試驗(yàn)結(jié)果表明：在原始數(shù)據(jù)十分有限的情況下，CycleGAN-2-1-2D模型能有效地學(xué)習(xí)樣本的多維度特征，實(shí)現(xiàn)語(yǔ)音的高效增強(qiáng)，更適用于實(shí)際的應(yīng)用場(chǎng)景。在下一步的研究工作中，將對(duì)CycleGAN-2-1-2D模型的結(jié)構(gòu)參數(shù)進(jìn)行合理化調(diào)整，對(duì)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)語(yǔ)音增強(qiáng)過(guò)程的靶點(diǎn)精細(xì)化，有望進(jìn)一步提高語(yǔ)音增強(qiáng)效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡