国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合信息擾動(dòng)與特征解耦的單樣本語音轉(zhuǎn)換

2024-10-14 00:00:00王光劉宗澤董浩姜彥吉
計(jì)算機(jī)應(yīng)用研究 2024年10期

摘 要:?jiǎn)螛颖菊Z音轉(zhuǎn)換的特性是利用單條目標(biāo)說話人的語音樣本即可實(shí)現(xiàn)身份的轉(zhuǎn)換,但由于聲學(xué)特征呈現(xiàn)復(fù)雜的相互作用和動(dòng)態(tài)變化,現(xiàn)有方法難以充分將單樣本語音中的說話人音色與其他聲學(xué)特征解耦,導(dǎo)致轉(zhuǎn)換音頻在聽覺上仍與源說話人的音色特征相似,存在說話人音色泄露情況。為此提出一種融合信息擾動(dòng)與特征解耦的單樣本語音轉(zhuǎn)換模型,即IPFD-VC模型。首先,引入信息擾動(dòng)模塊對(duì)語音信號(hào)進(jìn)行三次擾動(dòng)操作,去除輸入內(nèi)容和韻律編碼器中的冗余信息;其次,將處理后的語音信號(hào)送入各編碼器,并結(jié)合最小化互信息策略進(jìn)一步解耦聲學(xué)特征,降低不同特征與說話人音色特征的相關(guān)性;最后通過解碼器及聲碼器輸出轉(zhuǎn)換音頻。實(shí)驗(yàn)結(jié)果表明:IPFD-VC模型轉(zhuǎn)換音頻的語音自然度和說話人相似度分別達(dá)到3.72和3.68,與目前先進(jìn)的UUVC模型相比,梅爾倒譜失真降低0.26 dB。該模型能夠有效對(duì)聲學(xué)特征進(jìn)行解耦,捕獲目標(biāo)說話人音色特征,同時(shí)保持源語言內(nèi)容和韻律變化,降低說話人音色泄露風(fēng)險(xiǎn)。

關(guān)鍵詞:?jiǎn)螛颖菊Z音轉(zhuǎn)換; 信息擾動(dòng); 特征解耦; 說話人音色泄露

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2024)10-028-3081-06

doi:10.19734/j.issn.1001-3695.2024.02.0034

One-shot voice conversion integrating informationperturbation and feature decoupling

Wang Guang1, Liu Zongze1, Dong Hao2, Jiang Yanji1

(1.College of Software, Liaoning Technical University, Huludao Liaoning 125105, China; 2.Suzhou Automotive Research Institute, Tsinghua University, Suzhou Jiangsu 215134, China)

Abstract:The characteristic of one-shot voice conversion is the ability to transform identity using only a single speech sample from the target speaker. However, the intricate interactions and dynamic variations of acoustic features pose challenges for existing methods to fully disentangle the speaker’s timbre from other acoustic features, resulting in the leakage of the original speaker’s timbre in the converted audio. To tackle this challenge, this paper proposed the IPFD-VC model to incorporate information perturbation and feature decoupling. The model initiated three perturbation operations to the voice signal through an information perturbation module in order to remove redundant information from input and the prosody encoder. Then it enabled to feed the processed signal into each encoders. The model employed a strategy of minimizing mutual information to further decouple the acoustic features, thereby diminishing their correlation with the speaker’s timbre characteristics. The decoder and vocoder subsequently output the convert audio. The experiments show that the IPFD-VC model achieves scores of 3.72 for voice naturalness and 3.68 for speaker similarity. In comparison to the advanced UUVC model, the model reduced the Mel-cepstral distortion by 0.26 dB. The IPFD-VC model effectively decouples acoustic features, captures the target speaker’s timbre, preserves the source language content and rhythmic variations, and mitigates the risk of speaker timbre leakage.

Key words:single-sample voice conversion; information perturbation; feature decoupling; speaker voice leakage

0 引言

語音轉(zhuǎn)換(voice conversion)是一種在保持語言內(nèi)容和韻律變化的情況下,將源說話人的聲音轉(zhuǎn)換為目標(biāo)說話人的技術(shù)[1],在多媒體娛樂、智能家居、醫(yī)療輔助等多個(gè)領(lǐng)域中具有廣泛的應(yīng)用。隨著深度學(xué)習(xí)的發(fā)展,研究方向已從低效的參數(shù)方法[2,3]轉(zhuǎn)向基于神經(jīng)網(wǎng)絡(luò)的語音轉(zhuǎn)換技術(shù)[4,5],語音轉(zhuǎn)換質(zhì)量得到較大提升,但是需要豐富且高質(zhì)量的標(biāo)準(zhǔn)錄音數(shù)據(jù)集進(jìn)行訓(xùn)練。然而在個(gè)性化語音交互的實(shí)際場(chǎng)景中,目標(biāo)說話人的語音樣本采集難度大、成本高,用于深度學(xué)習(xí)模型訓(xùn)練的樣本數(shù)不足,易導(dǎo)致過擬合。

因此如何在有限的樣本下進(jìn)行高質(zhì)量語音轉(zhuǎn)換引發(fā)了人們的探索。單樣本語音轉(zhuǎn)換(one-shot voice conversion)又被稱為任意到任意(any-to-any)的語音轉(zhuǎn)換,旨在轉(zhuǎn)換過程中,僅使用來自任意目標(biāo)說話人的單條語音樣本,即可實(shí)現(xiàn)從任何源說話人到任意目標(biāo)說話人的身份轉(zhuǎn)換,該技術(shù)對(duì)語音樣本數(shù)量要求較低,因此更加適用于實(shí)際場(chǎng)景中。為實(shí)現(xiàn)單樣本語音轉(zhuǎn)換,較為流行的方法是采用特征解耦,模型需要學(xué)習(xí)源說話人與目標(biāo)說話人語音中所有的潛在聲學(xué)特征,并將說話人音色特征與其他聲學(xué)特征盡可能地分離,解耦是否充分對(duì)于實(shí)現(xiàn)單樣本語音轉(zhuǎn)換至關(guān)重要。早期特征解耦方法主要采用聯(lián)合說話人編碼器,將說話人音色特征與內(nèi)容特征分離,AutoVC[6]通過結(jié)合生成對(duì)抗網(wǎng)絡(luò)(GAN)和條件變分自動(dòng)編碼器(CVAE),在內(nèi)容編碼器上提取不同維度的瓶頸特征,使內(nèi)容特征與說話人音色特征進(jìn)行分離。Liu等人[7]采用i-vector表示源說話人音色特征,并利用語音后驗(yàn)圖(PPG)表示與說話人無關(guān)的特征,以實(shí)現(xiàn)特征的解耦。AGAIN-VC[8]通過自適應(yīng)實(shí)例歸一化,可以較好地分離說話人音色特征和內(nèi)容特征。矢量量化 (VQ)是一種有效的數(shù)據(jù)壓縮技術(shù),可以將連續(xù)數(shù)據(jù)量化為離散數(shù)據(jù)[9]。VQVC[10]僅通過重建損失解開內(nèi)容特征和說話人音色特征。VQVC+[11]通過學(xué)習(xí)矢量量化表示,以及使用U-Net網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步改進(jìn)了內(nèi)容特征分離。但由于VQ的離散性,內(nèi)容信息提取完整較為困難。Zhang等人[12]對(duì)源說話人音色特征進(jìn)行解耦,并引入目標(biāo)說話人嵌入進(jìn)行對(duì)抗性訓(xùn)練,保留了較好的內(nèi)容特征。

為了提升轉(zhuǎn)換音頻的自然度,科研人員開始嘗試對(duì)韻律特征解耦,Helander等人[13]研究發(fā)現(xiàn)韻律在構(gòu)成完整的語音中起著關(guān)鍵作用,與表達(dá)內(nèi)容密切相關(guān),是提高轉(zhuǎn)換音頻自然度的重要因素之一。Wang等人[14]將經(jīng)過目標(biāo)說話人歸一化的音高輪廓輸入解碼器,并進(jìn)行語音重建。SpeechSplit[15]對(duì)內(nèi)容、說話人音色和音高進(jìn)行獨(dú)立建模,通過分階段地將對(duì)應(yīng)特征輸入編碼器,并手動(dòng)微調(diào)從中提取的瓶頸特征,以實(shí)現(xiàn)更為有效的解耦。AutoPST[16]利用基于相似性的重采樣技術(shù),通過自動(dòng)編碼器對(duì)韻律特征進(jìn)行單獨(dú)建模。SpeechSplit2.0[17]與SpeechSplit具有相似的結(jié)構(gòu),無須調(diào)整自動(dòng)編碼器的瓶頸特征。SRDVC[18]利用基于梯度反轉(zhuǎn)層的對(duì)抗性互信息學(xué)習(xí),對(duì)音高及節(jié)奏進(jìn)行建模。最新的研究UUVC[19]采用級(jí)聯(lián)模塊化結(jié)構(gòu),旨在實(shí)現(xiàn)音調(diào)和說話人音色的解耦,該系統(tǒng)通過自監(jiān)督學(xué)習(xí)的方法,利用離散語音單元作為語言表示,從而進(jìn)行單樣本語音轉(zhuǎn)換。

上述方法為高質(zhì)量單樣本語音轉(zhuǎn)換提供良好的開端,但解耦程度難以衡量,同時(shí)在訓(xùn)練過程中未對(duì)說話人音色、內(nèi)容和韻律之間的相關(guān)性進(jìn)行約束,導(dǎo)致解耦不充分,造成說話人音色泄露的問題[20],即轉(zhuǎn)換音頻呈現(xiàn)源說話人或介于兩者之間的音色,從而導(dǎo)致語音轉(zhuǎn)換性能下降。

在前人的研究基礎(chǔ)上,結(jié)合對(duì)語音聲學(xué)特征的分析,如說話人音色、內(nèi)容和韻律特征,設(shè)計(jì)融合信息擾動(dòng)與特征解耦的單樣本語音轉(zhuǎn)換模型,即IPFD-VC模型,采用端到端結(jié)構(gòu)。IPFD-VC在時(shí)域和頻域上對(duì)語音信號(hào)進(jìn)行三次信息擾動(dòng)[21],對(duì)語音信號(hào)中冗余的聲學(xué)特征進(jìn)行調(diào)整,引導(dǎo)編碼器專注于學(xué)習(xí)穩(wěn)定特征,并排除無關(guān)信息,為后續(xù)解耦提供堅(jiān)實(shí)基礎(chǔ);在訓(xùn)練期間,通過最小化互信息的變分對(duì)比對(duì)數(shù)上界(vCLUB)[22],進(jìn)一步將聲學(xué)特征進(jìn)行解耦,減少不同聲學(xué)嵌入之間的相關(guān)性。

本文的主要工作如下:a)設(shè)計(jì)了一種新穎的單樣本語音轉(zhuǎn)換模型,可在個(gè)性化語音數(shù)據(jù)有限的實(shí)際場(chǎng)景中,實(shí)現(xiàn)任意說話人之間的語音轉(zhuǎn)換;b)提出一種融合信息擾動(dòng)與結(jié)合最小化互信息策略的特征解耦的方法,能夠?qū)μ崛〉降奶卣鬟M(jìn)行相關(guān)性約束,使編碼器專注于處理對(duì)應(yīng)的聲學(xué)特征。實(shí)驗(yàn)結(jié)果表明,IPFD-VC模型轉(zhuǎn)換的音頻擁有更好的語音相似度和語言自然度,可以有效緩解說話人音色泄露問題。

1 IPFD-VC模型

本章介紹融合信息擾動(dòng)與特征解耦的高質(zhì)量單樣本語音轉(zhuǎn)換模型的過程方法。

單樣本語音轉(zhuǎn)換模型的性能取決于對(duì)聲學(xué)特征的解耦程度以及重構(gòu)能力。由于聲學(xué)特征之間解耦不充分,從源說話人語音中提取的內(nèi)容特征與韻律特征仍摻雜源說話人的音色信息,并與目標(biāo)說話人的音色特征一同送入解碼器和聲碼器進(jìn)行語音轉(zhuǎn)換,導(dǎo)致轉(zhuǎn)換后的音頻在聽覺上仍與源說話人的音色特征相似,造成說話人音色泄露。IPFD-VC為消除轉(zhuǎn)換音頻中說話人音色泄露問題,首先采用信息擾動(dòng)模塊,去除送入內(nèi)容編碼器和韻律編碼器中的冗余信息,使編碼器專注于提取對(duì)應(yīng)類別特征;其次使用最小化互信息的變分對(duì)數(shù)上界,進(jìn)一步將說話人音色特征與其他聲學(xué)特征進(jìn)行解耦,IPFD-VC模型框架如圖1所示。

1.1 信息擾動(dòng)

語音中融合多種聲學(xué)特征,展現(xiàn)出復(fù)雜的相互作用和動(dòng)態(tài)變化,Choi等人[23]將未經(jīng)處理的語音梅爾譜圖送入wav2vec內(nèi)容編碼器提取特征,并將其輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,成功實(shí)現(xiàn)梅爾譜圖的重構(gòu)。這證實(shí)內(nèi)容編碼器不僅捕捉到豐富的內(nèi)容信息,同時(shí)摻雜了與音調(diào)和說話人身份相關(guān)的特征[24]。當(dāng)僅使用音高編碼器進(jìn)行特征提取,并嘗試重建梅爾譜圖時(shí),仍然可以觀察到與說話人身份相關(guān)的信息[25],導(dǎo)致說話人音色特征泄露。為了提高模型性能,并確保各編碼器能夠?qū)WW(xué)習(xí)特定目標(biāo),本模型采用信息擾動(dòng)方法,有針對(duì)性地消除源語音中存在的冗余信息,從而避免模型學(xué)習(xí)無關(guān)特征。

具體而言,內(nèi)容編碼器旨在從源語音中提取與內(nèi)容相關(guān)的特征,而韻律編碼器專注于捕捉與韻律有關(guān)的特征。IPFD-VC模型在訓(xùn)練內(nèi)容編碼器和韻律編碼器之前,設(shè)計(jì)了信息擾動(dòng)模塊,包含三種語音信號(hào)擾動(dòng)函數(shù),確保模型的訓(xùn)練過程更為精準(zhǔn)和高效。通過引入共振峰移位(fs)[26]函數(shù),從均勻分布U(1.2,1.5)中隨機(jī)選取共振峰移位的比率,對(duì)源語音的共振峰進(jìn)行調(diào)整,從而直接改變說話人的音色特質(zhì)。通過引入?yún)?shù)均衡器(peq)[27]進(jìn)行隨機(jī)頻率整形,進(jìn)一步為防止說話人音色泄露到內(nèi)容與音高中,刪除與說話人相關(guān)的特征,隨機(jī)頻率整形過程描述如下:

HPEQ=HLSHHS∏8i=1HPeaki(1)

其中:HLS是低傾斜濾波器;HPeak代表峰值濾波器;HHS是高傾斜濾波器,每個(gè)濾波器都是二階IIR濾波器。HLS和HHS的截止頻率分別固定為60 Hz和10 kHz。HPeaki的中心頻率以均勻分布在傾斜濾波器對(duì)數(shù)尺度上。

音調(diào)是韻律表達(dá)的關(guān)鍵要素之一,通過引入音調(diào)隨機(jī)化(pr)[26]技術(shù),從均勻分布U(1.1,1.6)和U(1.1,1.5)中隨機(jī)選取基音平移比和基音范圍比,使得源語音擺脫對(duì)特定音調(diào)范圍的依賴,消除韻律特征,從而確保語音信號(hào)僅保留內(nèi)容信息。

如圖2所示:給定一段語音X,提取梅爾譜圖X={x1,x2,…,xT},其中T是語音幀的總數(shù),而Xc、Xs和Xr分別表示包含內(nèi)容、說話人音色和韻律信息的梅爾譜圖。Xs~和Xr~分別代表包含使用信息擾動(dòng)模塊進(jìn)行處理后的說話人音色信息和韻律信息的梅爾譜圖。IPFD-VC模型的信息擾動(dòng)模塊具體實(shí)現(xiàn)過程為:將語音沿時(shí)間維度進(jìn)行兩段信息擾動(dòng)操作,第一階段使用共振峰移位與隨機(jī)頻率整形的組合,消除源說話人的音色,而保留其韻律特性;該階段獲取韻律特征Xr的過程描述如下:

Xr=peq(fs(X))(2)

其中:Xr不包含源語音中與說話人相關(guān)的信息,隨后將Xr作為韻律特征輸入到韻律編碼器中。

在第二階段采用音調(diào)隨機(jī)化的方法,消除源說話人音高,同時(shí)確保內(nèi)容信息得以保留,該階段獲取內(nèi)容特征Xc的過程描述如下:

Xc=pr(peq(fs(X)))(3)

其中:輸出的Xc不包含源語音的說話人音色信息及韻律信息。將調(diào)整后的Xc送入內(nèi)容編碼器進(jìn)行特征提取,使得內(nèi)容編碼器能夠?qū)W⒂趯W(xué)習(xí)和捕捉語言內(nèi)容特征。

1.2 模型架構(gòu)

在IPFD-VC模型結(jié)構(gòu)中,包含信息擾動(dòng)模塊、編碼器、解碼器和聲碼器四個(gè)核心部分。其中編碼器由內(nèi)容編碼器、韻律編碼器和說話人編碼器組成。

在SpeechSplit的模型基礎(chǔ)上,內(nèi)容編碼器(Ec)沿用SpeechSplit的架構(gòu)進(jìn)行內(nèi)容特征提取,將經(jīng)過擾動(dòng)處理的語音(Xc,Xr~,Xs~)參數(shù)化為梅爾譜圖(Xc,Xr~,Xs~),并將其輸入到卷積層進(jìn)行特征提取,隨后送入兩個(gè)雙向LSTM層進(jìn)行前后文整合,最后通過下采樣將時(shí)間維度減半至T/2,在保留內(nèi)容特征的同時(shí),提高模型的計(jì)算效率和性能,提取的內(nèi)容嵌入(Zc)表示如下:

Zc=Ec(Xc,Xr~,Xs~)(4)

為了增加轉(zhuǎn)換音頻的自然度,IPFD-VC模型中引入韻律編碼器(Er),對(duì)話語級(jí)的韻律特征進(jìn)行單獨(dú)建模。首先將經(jīng)過擾動(dòng)處理的語音(Xr,Xs~)參數(shù)化為梅爾譜圖(Xr,Xs~),并將其輸入到韻律編碼器中。該編碼器由三個(gè)5×1的卷積層構(gòu)成,采用ReLU激活函數(shù),并在每層之后進(jìn)行組歸一化處理,該方法對(duì)小批量或大尺寸數(shù)據(jù)具有優(yōu)勢(shì),可提高訓(xùn)練速度并增強(qiáng)模型泛化能力。經(jīng)過組歸一化后的輸出被送入一個(gè)雙向LSTM層,以減少特征維度。韻律編碼器的詳細(xì)設(shè)計(jì)如圖2(b)所示,提取的韻律嵌入(Zr)表示如下:

Zr=Er(Xr,Xs~)(5)

說話人編碼器由以下四個(gè)部分組成:ConvBank層、三個(gè)一維卷積與激活函數(shù)的組合、線性層與激活函數(shù)的組合,以及平均池化層。ConvBank層用于從輸入序列中精確提取局部特征和上下文信息,擴(kuò)大感受野范圍,進(jìn)而增加對(duì)長(zhǎng)時(shí)序信息的捕獲能力,為后續(xù)階段提供更深入和全面的特征表示;一維卷積與ReLU激活函數(shù)組合優(yōu)化特征提取的非線性能力;平均池化層強(qiáng)化對(duì)全局信息的關(guān)注,精確捕捉說話人身份特征;線性層與ReLU激活函數(shù)進(jìn)一步提升映射能力,確保說話人編碼器的高效性和準(zhǔn)確性。說話人編碼器的詳細(xì)設(shè)計(jì)如圖2(b)所示,提取的說話人嵌入(Zs)表示如下:

Zs=Es(Xs)(6)

為確保內(nèi)容、說話人和韻律嵌入具有相同的時(shí)間維度,采取以下策略:將內(nèi)容嵌入上采樣至T幀,說話人嵌入被復(fù)制T次,將三種嵌入進(jìn)行連接,并一同送入解碼器。解碼器對(duì)隱藏嵌入進(jìn)行沿通道維度連接,隨后將其送入兩個(gè)雙向LSTM層、線性層以及Postnet層。線性層用作調(diào)整特征維度,Postnet層通過其卷積操作進(jìn)一步細(xì)化和優(yōu)化解碼器的輸出,解碼器詳細(xì)結(jié)構(gòu)如圖2(c)所示。解碼器Ds重建語音頻譜圖S的表示如下:

S=Ds(Zc,Zs,Zr)(7)

在訓(xùn)練過程中,解碼器Ds的輸出旨在學(xué)習(xí)準(zhǔn)確地重構(gòu)輸入的頻譜圖S,為實(shí)現(xiàn)這一目標(biāo),解碼器與編碼器聯(lián)合訓(xùn)練,通過最小化重建損失來優(yōu)化模型性能:

LDs=Euclid Math TwoEAp[‖S-X‖21+‖S-X‖22](8)

1.3 損失函數(shù)

互信息(mutual information,MI)描述的是衡量隨機(jī)變量相互依賴的程度。兩個(gè)不同變量之間依賴關(guān)系的度量可以表述為

I(X,Y)=∫X∫YP(X,Y)logP(X,Y)P(X)P(Y)(9)

其中:P(X)和P(Y)分別是X和Y的邊緣分布;P(X,Y)表示X和Y的聯(lián)合分布。通過對(duì)比學(xué)習(xí)的策略,利用正樣本和負(fù)樣本之間的條件概率差異,使用變分對(duì)比對(duì)數(shù)上界(vCLUB)作為計(jì)算不相關(guān)信息的互信息上限的估計(jì)量?;バ畔⒌膙CLUB無偏估計(jì)定義為

I^(X,Y)=Euclid Math TwoEApp(X,Y)[log qθ(X|Y)]-

Euclid Math TwoEApp(X)Euclid Math TwoEApp(Y)[log qθ(X|Y)](10)

其中:X,Y∈{Zc,Zs,Zr},qθ(X|Y)是一個(gè)變分分布,用參數(shù)θ來近似p(X|Y)。無偏估計(jì)樣本{xi,yi}的vCLUB的無偏估計(jì)量表示為

I^(X,Y)=1N2∑Ni=1∑Nj=1[log qθ(xi|yi)-log qθ(xj|yi)](11)

其中:xi、yi∈{Zci,Zsi,Zri },通過最小化式(11),可以有效減少不同語音表示之間的相互依賴。

本模型引入說話人MI損失,在訓(xùn)練過程中,可以通過最小化MI損失來降低內(nèi)容、韻律特征與說話人音色特征之間的相關(guān)性,解決特征之間的信息交叉或泄露問題。將說話人MI損失應(yīng)用于內(nèi)容嵌入(Zc)、說話人嵌入(Zs)、韻律嵌入(Zr),說話人MI損失(LSMI),如式(12)所示。

LSMI=I^(Zs,Zc)+I^(Zs,Zr)+I^(Zc,Zr)(12)

在每次迭代的訓(xùn)練中,首先進(jìn)行變分近似網(wǎng)絡(luò)的優(yōu)化,其目標(biāo)是最大化給定條件下的對(duì)數(shù)似然函數(shù)log qθ(X|Y),隨后進(jìn)行IPFD-VC模型的優(yōu)化。IPFD-VC模型的總體損失可以計(jì)算為

LALL=LDs+λSMILSMI(13)

其中:λSMI是來調(diào)節(jié)說話人MI損失以增強(qiáng)解耦的權(quán)重參數(shù)。

1.4 IPFD-VC模型工作流程

IPFD-VC模型的工作流程包括訓(xùn)練階段和轉(zhuǎn)換階段。在模型的訓(xùn)練階段,首先對(duì)源語音和經(jīng)過擾動(dòng)處理后的語音進(jìn)行預(yù)處理并提取梅爾譜圖,隨后將梅爾譜圖分別輸入說話人編碼器、韻律編碼器和內(nèi)容編碼器中,以分離和學(xué)習(xí)語音中的不同特征,通過迭代計(jì)算損失函數(shù)不斷優(yōu)化模型,最后訓(xùn)練得到能夠精確捕捉和再現(xiàn)語音特征的說話人編碼器Es、韻律編碼器Er、內(nèi)容編碼器Ec和解碼器Ds。

算法1 IPFD-VC模型的訓(xùn)練算法

輸入:梅爾譜圖(Xc,Xr~,Xs~)、(Xr,Xs~)、Xs,學(xué)習(xí)率參數(shù)為α和β。

輸出:訓(xùn)練得到Es、Er、Ec和Ds。

a)i=1 //設(shè)置迭代次數(shù)

b)for i≤N do

c) Zc←f{(Xc,Xr~,Xs~);Ec};Zr←f{(Xr,Xs~);Er};

Zr←f{Xs;Es};

d) θX,Y←θX,Y+αθX,YLX,Y,X,Y∈{Zc、Zr、Zs}

//每次進(jìn)行更新時(shí), 計(jì)算對(duì)數(shù)似然函數(shù)LX,Y=log qθ(X|Y)

e) θ←θ-βθLALL,θ∈{Es、Er、Ec、Ds}

//每次進(jìn)行更新時(shí), 計(jì)算模型的整體損失LALL

f)end for

g)return Es、Er、Ec、Ds

在轉(zhuǎn)換階段,將源說話人和目標(biāo)說話人的語音同時(shí)輸入進(jìn)IPFD-VC模型中,得到由編碼器重構(gòu)的轉(zhuǎn)換音頻梅爾譜圖,隨后,將重構(gòu)的梅爾譜圖輸入到預(yù)先訓(xùn)練好的神經(jīng)聲碼器中,最終生成轉(zhuǎn)換音頻。

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)選取語音轉(zhuǎn)換研究主流使用的CSTR-VCTK語料庫(kù)[28],該數(shù)據(jù)集包括109位英語說話人的語音樣本,每位說話人閱讀約400個(gè)句子。隨機(jī)選取89位說話人作為訓(xùn)練集,10位說話人作為驗(yàn)證集,其余10位說話人用于測(cè)試集。

將所有語音下采樣至16 kHz,對(duì)音頻進(jìn)行預(yù)加重、分幀,并進(jìn)行加窗操作,采用窗口大小為1 024,滑動(dòng)大小為256的Hann窗,并進(jìn)行短時(shí)傅里葉變換后,隨后采用FFT大小為1 024的短時(shí)傅里葉變換,用來計(jì)算梅爾譜圖,使用跨度為90 Hz~7.6 kHz的80通道梅爾濾波器組將STFT幅度轉(zhuǎn)換為梅爾標(biāo)度。

IPFD-VC模型在單個(gè)NVIDIA 3060 GPU上進(jìn)行訓(xùn)練,并使用ADAM優(yōu)化器,學(xué)習(xí)率為E-4,β1=0.9,β2=0.98,批量大小為16,設(shè)置λSMI=0.01,并使用預(yù)訓(xùn)練的WaveNet聲碼器[29]將輸出的梅爾譜圖轉(zhuǎn)換回波形。

在實(shí)驗(yàn)中選取AutoVC[6]、AGAIN-VC[8]、SRDVC[18]和UUVC[19]等先進(jìn)的基線模型進(jìn)行比較,所有基線模型均使用與IPFD-VC相同的訓(xùn)練集、驗(yàn)證集和測(cè)試集。

2.2 語音轉(zhuǎn)換效果評(píng)價(jià)

2.2.1 主觀評(píng)價(jià)

實(shí)驗(yàn)采用的主觀評(píng)價(jià)指標(biāo)為語音自然度平均意見得分(MOS)和說話人相似度平均意見得分(SMOS)。測(cè)試人員使用五分制對(duì)轉(zhuǎn)換后的語音進(jìn)行評(píng)分,評(píng)分標(biāo)準(zhǔn)如下:5分代表“優(yōu)秀”,4分表示“良好”,3分為“一般”,2分對(duì)應(yīng)“差”,1分表示“很差”。分?jǐn)?shù)越高表明轉(zhuǎn)換方法性能越好,轉(zhuǎn)換音頻聽起來更自然,轉(zhuǎn)換音頻與目標(biāo)說話人的音色更為接近。

主觀測(cè)試共有15名20~30歲的研究生聽眾參與,其中10人(5男5女)具有語音測(cè)評(píng)經(jīng)驗(yàn),另外5人(2男3女)則為隨機(jī)選取。在轉(zhuǎn)換場(chǎng)景為Seen-Seen、Seen-Unseen和Unseen-Unseen的測(cè)試中,Seen代表說話人出現(xiàn)在訓(xùn)練集中,Unseen表示說話人從未在訓(xùn)練集中出現(xiàn)過,即任意說話人。每個(gè)場(chǎng)景分別隨機(jī)選取10個(gè)語音對(duì),每個(gè)語音對(duì)包含源音頻、目標(biāo)說話人音頻,以及使用IPFD-VC與基線模型分別對(duì)同一條語音進(jìn)行轉(zhuǎn)換后得到的音頻。15名聽眾采用MOS評(píng)分與SMOS評(píng)分依次進(jìn)行評(píng)價(jià)。

在語音自然度測(cè)試中,聽眾需聽取每個(gè)語音對(duì)中,按照隨機(jī)順序排列的不同模型轉(zhuǎn)換產(chǎn)生的音頻,對(duì)音頻質(zhì)量進(jìn)行打分,并計(jì)算MOS評(píng)分。在說話人相似度測(cè)試中,給出源說話人和目標(biāo)說話人的真實(shí)語音,隨后聽眾需要聽取每個(gè)語音對(duì)中按照隨機(jī)順序排列的不同模型轉(zhuǎn)換產(chǎn)生的音頻,與真實(shí)語音的音色進(jìn)行對(duì)比并打分,計(jì)算SMOS評(píng)分,實(shí)驗(yàn)采用的置信區(qū)間為95%。語音自然度測(cè)試和說話人相似度測(cè)試的實(shí)驗(yàn)結(jié)果如表1所示。

在三種不同的場(chǎng)景中,IPFD-VC的MOS評(píng)分分別達(dá)到了3.72、3.67和3.68,評(píng)分僅在Seen-Seen場(chǎng)景中低于UUVC模型0.02,其余場(chǎng)景均超越三種基線模型,在Unseen-Unseen場(chǎng)景中,領(lǐng)先UUVC模型0.10,表明IPFD-VC模型在音頻轉(zhuǎn)換質(zhì)量方面具備的顯著優(yōu)勢(shì),將通過擾動(dòng)處理后的語音送入話語級(jí)韻律建模的編碼器,能夠準(zhǔn)確地捕捉源說話人語音的韻律和細(xì)節(jié),使得轉(zhuǎn)換后音頻更加真實(shí)和自然。

IPFD-VC的SMOS評(píng)分在Seen-Seen和Seen-Unseen的情境中領(lǐng)先三種基線模型0.03以上;在Unseen-Unseen的情境中,IPFD-VC較UUVC提升0.07,呈現(xiàn)出領(lǐng)先的性能水平。值得注意的是,IPFD-VC在這三種情境中的SMOS評(píng)分都非常接近,這表明IPFD-VC能夠有效地分離聲學(xué)特征,并成功將目標(biāo)說話人的音色特征轉(zhuǎn)移至源語音中。這不僅提高了轉(zhuǎn)換音頻的說話人相似度,同時(shí)降低說話人音色特征泄露的風(fēng)險(xiǎn)。

2.2.2 客觀評(píng)價(jià)

在本實(shí)驗(yàn)中,客觀評(píng)價(jià)指標(biāo)使用以下三種方法:梅爾倒譜失真(MCD)、單詞錯(cuò)誤率(WER)和logF0的皮爾森相關(guān)系數(shù)(logF0 PCC)。

梅爾倒譜失真(MCD): 其是一種衡量語音信號(hào)質(zhì)量的指標(biāo),計(jì)算公式如下。

MCD=10ln 10 2∑Nn=1(Cc-Ct)2(14)

其中:Ct表示目標(biāo)語音的梅爾倒譜系數(shù);Cc表示轉(zhuǎn)換后的語音梅爾倒譜系數(shù)。MCD數(shù)值越低,失真程度越小,代表轉(zhuǎn)換音頻更接近自然語音,同時(shí)MCD用于計(jì)算轉(zhuǎn)換語音頻譜和真實(shí)目標(biāo)語音頻譜之間的距離,也可以代表轉(zhuǎn)換音頻與目標(biāo)說話人的相似程度。

單詞錯(cuò)誤率(WER):驗(yàn)證轉(zhuǎn)換音頻是否能夠保留源語音的語言內(nèi)容,其中WER是由ESPnet2模型中基于Transformer的自動(dòng)語音識(shí)別(ASR)模塊[30]計(jì)算得到,該模塊由Librispeech語料庫(kù)進(jìn)行訓(xùn)練。

logF0的皮爾森相關(guān)系數(shù)(logF0 PCC):用于驗(yàn)證語音信號(hào)中基頻(F0)的相關(guān)性,即驗(yàn)證轉(zhuǎn)換音頻的語調(diào)變化,計(jì)算源語音和轉(zhuǎn)換后語音的F0之間的皮爾森相關(guān)系數(shù),并對(duì)系數(shù)進(jìn)行對(duì)數(shù)轉(zhuǎn)換,將取值控制在[-1,1],其中1表示完全正相關(guān),-1表示完全負(fù)相關(guān),0表示沒有線性關(guān)系。在轉(zhuǎn)換場(chǎng)景為Seen-Seen、Seen-Unseen和Unseen-Unseen的測(cè)試中,每個(gè)場(chǎng)景分別隨機(jī)選取50個(gè)語音對(duì),并計(jì)算三種客觀指標(biāo)的平均值,實(shí)驗(yàn)結(jié)果如圖3所示。

在MCD對(duì)比實(shí)驗(yàn)中,IPFD-VC模型呈現(xiàn)出最低的MCD值,僅為5.48 dB,相較于性能先進(jìn)的UUVC模型,IPFD-VC的MCD值減少0.26 dB,證明IPFD-VC模型可以提高轉(zhuǎn)換語音的質(zhì)量,提升語音自然度。

在進(jìn)行WER測(cè)試中,IPFD-VC與UUVC相比具有相似的單詞錯(cuò)誤率,與SRDVC相比,單詞錯(cuò)誤率降低3.66%,并遠(yuǎn)低于AutoVC和AGAIN-VC模型,進(jìn)一步證明了其在信息擾動(dòng)和特征解耦過程中,能夠更有效地保留源語音的內(nèi)容信息,保持內(nèi)容相似度。

在logF0 PCC的對(duì)照實(shí)驗(yàn)中,IPFD-VC模型與SRDVC展現(xiàn)出相似的性能,都能有效地轉(zhuǎn)換并保留從源語音到目標(biāo)語音的韻律特性。但SRDVC較IPFD-VC在數(shù)值上提升0.015,因?yàn)镾RDVC的音高表示直接從給定的音高輪廓中提取的,而未進(jìn)行特征解耦與編碼過程。IPFD-VC仍高于另外三種基線模型,較高的logF0 PCC表明經(jīng)過擾動(dòng)處理后的音頻可以很好地保持目標(biāo)說話人的韻律特征,從而提升語音的相似度和可理解性。

2.3 頻譜分析

圖4顯示了本模型在轉(zhuǎn)換階段生成的梅爾譜圖,其中圖(a)是來自女性源說話人的梅爾譜圖,圖(b)是男性目標(biāo)說話人的梅爾譜圖,圖(c)是轉(zhuǎn)換音頻的梅爾譜圖。橫軸代表時(shí)間,縱軸代表頻率。藍(lán)色為音高曲線,黃色為能量曲線。

如圖所示,可以觀察到源語音的梅爾譜圖峰值間隔相對(duì)較短,而經(jīng)過IPFD-VC轉(zhuǎn)換后的梅爾譜圖顯示其峰值間隔更接近于目標(biāo)說話人。在低頻區(qū)域,轉(zhuǎn)換語音的條紋寬度和波動(dòng)趨勢(shì)更加接近目標(biāo)說話人,這表明在特定頻率范圍內(nèi)的聲學(xué)特征得到了有效轉(zhuǎn)換。而在高頻區(qū)域,源說話人的能量曲線呈下降趨勢(shì),而IPFD-VC轉(zhuǎn)換后的語音與目標(biāo)說話人的能量曲線更為相似和飽滿,表明能夠很好地保留目標(biāo)說話人的韻律特征。

在音調(diào)方面,源說話人的基頻曲線具有明顯的尖銳特點(diǎn),而經(jīng)過IPFD-VC轉(zhuǎn)換后的語音基頻曲線與目標(biāo)說話人均略微平緩,符合源說話人與目標(biāo)說話人的性別特性。實(shí)驗(yàn)表明IPFD-VC可以進(jìn)一步保持源語言內(nèi)容和韻律變化,增加說話人相似性,減少說話人音色特征泄露問題。

2.4 消融實(shí)驗(yàn)

本節(jié)對(duì)單樣本語音轉(zhuǎn)換任務(wù)中各模塊的性能影響進(jìn)行深入的分析。消融實(shí)驗(yàn)在Unseen-Unseen情境中進(jìn)行消融實(shí)驗(yàn),驗(yàn)證信息擾動(dòng)模塊和說話人MI損失模塊對(duì)模型性能的影響。w/o IP表示去除信息擾動(dòng)模塊,w/o IP(fs)表示去除信息擾動(dòng)共振峰移位模塊,w/o IP(pr)表示去除信息擾動(dòng)音調(diào)隨機(jī)化模塊,w/o IP(peq)表示去除信息擾動(dòng)隨機(jī)頻率整形模塊,w/o LSMI表示去除說話人MI損失模塊,結(jié)果如表2所示。

在MCD得分方面,去除說話人MI損失模塊與去除整體信息擾動(dòng)模塊相比僅相差0.07 dB,與IPFD-VC相比MCD上升0.74,表明這兩個(gè)模塊對(duì)保持轉(zhuǎn)換語音頻譜和真實(shí)目標(biāo)語音頻譜之間的距離都具有積極意義,能夠進(jìn)一步進(jìn)行特征解耦,并擁有較好的重構(gòu)能力。

在WER得分方面,去除整體信息擾動(dòng)模塊與去除共振峰移位+隨機(jī)頻率整形模塊的效果相似,與IPFD-VC相比單詞錯(cuò)誤率上升了9.89%,這一變化相比去除說話人MI損失模塊的影響更為顯著,表明該模塊能夠很好地去除冗余信息,對(duì)于保留語音內(nèi)容具有重要作用。

在logF0 PCC得分方面,去除整體信息擾動(dòng)模塊和去除音調(diào)隨機(jī)化模塊的效果相似,logF0 PCC下降至0.689,表明音調(diào)隨機(jī)化模塊能夠很好地去除冗余信息,為后續(xù)模塊進(jìn)一步特征解耦提供了支持。

3 結(jié)束語

本研究針對(duì)現(xiàn)有單樣本語音轉(zhuǎn)換模型在執(zhí)行轉(zhuǎn)換任務(wù)過程中出現(xiàn)的說話人音色泄露問題,提出了IPFD-VC模型。該模型通過結(jié)合信息擾動(dòng)和最小化互信息策略,有效減少不同聲學(xué)特征之間的相互依賴,使得編碼器能夠更專注于處理特定的聲學(xué)特征。實(shí)驗(yàn)結(jié)果表明,相較于現(xiàn)有先進(jìn)的基線模型,IPFD-VC模型的轉(zhuǎn)換音頻在主觀評(píng)價(jià)中,說話人相似度和語言自然度方面均表現(xiàn)出顯著優(yōu)勢(shì),在客觀評(píng)價(jià)中,MCD僅為5.48 dB,單詞錯(cuò)誤率降低3.66%,logF0 PCC與基線模型具有相似的性能。在消融實(shí)驗(yàn)中,表明信息擾動(dòng)模塊與最小化互信息策略能夠提升特征解耦的性能,同時(shí)有效地降低了說話人音色特征泄露的潛在風(fēng)險(xiǎn)。盡管如此,轉(zhuǎn)換后的語音與真實(shí)目標(biāo)語音仍存在一定的差距,在未來的工作中,需要進(jìn)一步提高模型性能,以達(dá)到無限接近真實(shí)語音的效果,能夠滿足個(gè)性化真實(shí)場(chǎng)景的需要。

參考文獻(xiàn):

[1]Sisman B, Yamagishi J, King S, et al. An overview of voice conversion and its challenges: from statistical modeling to deep learning[J]. IEEE/ACM Trans on Audio, Speech, and Language Proces-sing, 2020, 29: 132-157.

[2]Godoy E, Rosec O, Chonavel T. Voice conversion using dynamic frequency warping with amplitude scaling, for parallel or nonparallel corpora[J]. IEEE Trans on Audio, Speech, and Language Processing, 2011, 20(4): 1313-1323.

[3]Wu Zhizheng, Virtanen T, Chng E S, et al. Exemplar-based sparse representation with residual compensation for voice conversion[J]. IEEE/ACM Trans on Audio, Speech, and Language Proces-sing, 2014, 22(10): 1506-1521.

[4]Fang Fuming, Yamagishi J, Echizen I, et al. High-quality nonparallel voice conversion based on cycle-consistent adversarial network[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2018: 5279-5283.

[5]Ding Shaojin, Gutierrez-Osuna R. Group latent embedding for vector quantized variational autoencoder in non-parallel voice conversion[C]//Proc of InterSpeech. 2019: 724-728.

[6]Qian Kaizhi, Zhang Yang, Chang Shiyu, et al. AutoVC: zero-shot voice style transfer with only autoencoder loss[C]//Proc of International Conference on Machine Learning. 2019: 5210-5219.

[7]Liu Songxiang, Zhong Jinghua, Sun Lifa, et al. Voice conversion across arbitrary speakers based on a single target-speaker utterance[C]//Proc of InterSpeech. 2018: 496-500.

[8]Chen Yenhao, Wu Dayi, Wu Tsunghan, et al. AGAIN-VC: a one-shot voice conversion using activation guidance and adaptive instance normalization[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2021: 5954-5958.

[9]Chorowski J, Weiss R J, Bengio S, et al. Unsupervised speech representation learning using WaveNet autoencoders[J]. IEEE/ACM Trans on Audio, Speech, and Language Processing, 2019, 27(12): 2041-2053.

[10]Wu Dayi, Lee Hungyi. One-shot voice conversion by vector quantization[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2020: 7734-7738.

[11]Wu Dayi, Chen Yenhao, Lee H. VQVC+: one-shot voice conversion by vector quantization and U-Net architecture[EB/OL]. (2020-06-07). https://arxiv.org/abs/2006. 04154.

[12]Zhang Haozhe, Cai Zexin, Qin Xiaoyi, et al. SIG-VC: a speaker information guided zero-shot voice conversion system for both human beings and machines[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2022: 6567-65571.

[13]Helander E E, Nurminen J. A novel method for prosody prediction in voice conversion[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2007: IV-509-IV-512.

[14]Wang Disong, Deng Liqun, Yeung Y, et al. VQMIVC: vector quantization and mutual information-based unsupervised speech representation disentanglement for one-shot voice conversion[EB/OL]. (2021-06-18). https://arxiv.org/abs/2106.10132.

[15]Qian Kaizhi, Zhang Yang, Chang Shiyu, et al. Unsupervised speech decomposition via triple information bottleneck[C]//Proc of International Conference on Machine Learning. 2020: 7836-7846.

[16]Qian Kaizhi, Zhang Yang, Chang Shiyu, et al. Global prosody style transfer without text transcriptions[C]//Proc of International Confe-rence on Machine Learning. 2021: 8650-8660.

[17]Chan Chakho, Qian Kaizhi, Zhang Yang, et al. SpeechSplit2.0: unsupervised speech disentanglement for voice conversion without tuning autoencoder bottlenecks[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2022: 6332-6336.

[18]Yang SiCheng, Tantrawenith M, Zhuang Haolin, et al. Speech representation disentanglement with adversarial mutual information learning for one-shot voice conversion[EB/OL]. (2022-08-18).https://arxiv.org/abs/2208.08757.

[19]Chen Liwei, Watanabe S, Rudnicky A. A unified one-shot prosody and speaker conversion system with self-supervised discrete speech units[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2023: 1-5.

[20]Karlapati S, Moinet A, Joly A, et al. Copycat: many-to-many fine-grained prosody transfer for neural text-to-speech[EB/OL]. (2020-04-30).https://arxiv.org/abs/2004.14617.

[21]Lei Yi, Yang Shan, Zhu Xinfa, et al. Cross-speaker emotion transfer through information perturbation in emotional speech synthesis[J]. IEEE Signal Processing Letters, 2022, 29: 1948-1952.

[22]Cheng Pengyu, Hao Weituo, Dai Shuyang, et al. Club: a contrastive log-ratio upper bound of mutual information[C]//Proc of Internatio-nal Conference on Machine Learning. 2020: 1779-1788.

[23]Choi H S, Lee J, Kim W, et al. Neural analysis and synthesis: reconstructing speech from self-supervised representations[J]. Advances in Neural Information Processing Systems, 2021, 34: 16251-16265.

[24]Li Jingyi, Tu Weiping, Xiao Li. FreeVC: towards high-quality text-free one-shot voice conversion[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2023: 1-5.

[25]Lian Zheng, Zhong Rongxiu, Wen Zhengqi, et al. Towards fine-grained prosody control for voice conversion[C]//Proc of the 12th International Symposium on Chinese Spoken Language Processing. Piscataway,NJ:IEEE Press,PejjatBluc5NPh46k670lnyP26GxNmGdekdR918gAms= 2021: 1-5.

[26]Jadoul Y, Thompson B, De Boer B. Introducing Parselmouth: a Python interface to Praat[J]. Journal of Phonetics, 2018, 71: 1-15.

[27]Zavalishin V. The art of VA filter design[M]. Berlin: Native Instruments, 2012.

[28]Yamagishi J, Veaux C, MacDonald K. CSTR VCTK corpus: English multi-speaker corpus for CSTR voice cloning toolkit (version 0.92)[D]. Edinburgh: University of Edinburgh, 2019: 271-350.

[29]Van Den Oord A, Dieleman S, Zen H, et al. WaveNet: a generative model for raw audio[EB/OL]. (2016). https://arxiv.org/abs/1609. 03499.

[30]Li Chengda, Shi Jing, Zhang Wangyou, et al. ESPnet-SE: end-to-end speech enhancement and separation toolkit designed for ASR integration[C]//Proc of IEEE Spoken Language Technology Workshop. Piscataway,NJ:IEEE Press, 2021: 785-792.

漯河市| 承德市| 沈阳市| 什邡市| 荔浦县| 泰顺县| 巴塘县| 辽阳市| 苍溪县| 黎城县| 龙海市| 溆浦县| 东乡族自治县| 定结县| 广平县| 嘉荫县| 昆山市| 连云港市| 凤凰县| 宣城市| 扶绥县| 十堰市| 海伦市| 葵青区| 仁怀市| 湘潭县| 星子县| 临城县| 神农架林区| 信宜市| 肃宁县| 佛山市| 昌吉市| 梁山县| 礼泉县| 涞源县| 上饶市| 沂水县| 蛟河市| 元朗区| 孟连|