国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于平均模型和誤差削減網(wǎng)絡(luò)的語聲轉(zhuǎn)換系統(tǒng)?

2023-07-13 12:20:14王媛媛王新宇張明陽
應(yīng)用聲學(xué) 2023年3期
關(guān)鍵詞:平行卷積誤差

王媛媛 王新宇 張明陽 周 鋒 趙 力

(1 鹽城工學(xué)院信息工程學(xué)院 鹽城 224051)

(2 新加坡國立大學(xué)電子與計算機(jī)工程系 新加坡 117583)

(3 東南大學(xué)信息科學(xué)與工程學(xué)院 南京 210096)

0 引言

語聲轉(zhuǎn)換是一種修改源說話人的語聲,使其聽起來像目標(biāo)說話人的技術(shù)。語聲轉(zhuǎn)換技術(shù)已被成功應(yīng)用于許多領(lǐng)域中,如文本到語聲系統(tǒng)(Textto-Speech,TTS)[1]、說話人去識別化[2]和言語輔助[3]。

語聲轉(zhuǎn)換可以被描述為估計源特征和目標(biāo)特征之間映射函數(shù)的回歸問題。研究者們已經(jīng)提出了許多成功的語聲轉(zhuǎn)換方法,如高斯混合模型的方法[4?5],它是基于頻譜參數(shù)軌跡的最大似然估計。動態(tài)內(nèi)核偏最小二乘法[6]將內(nèi)核變換集成到偏最小二乘法中,以對非線性轉(zhuǎn)換關(guān)系進(jìn)行建模以及捕捉數(shù)據(jù)中的動態(tài)特性。稀疏表示方法[7?8]可以看作是一種數(shù)據(jù)驅(qū)動的非參數(shù)化方法,作為傳統(tǒng)的參數(shù)化語聲轉(zhuǎn)換方法的替代?;陬l率彎曲的方法[9?10]旨在改變源頻譜的頻率軸,使其接近目標(biāo)頻譜。此外,還有一些語聲轉(zhuǎn)換的后置濾波器方法來提高語聲質(zhì)量[11]。

近年來,深度學(xué)習(xí)方法在語聲轉(zhuǎn)換領(lǐng)域開始流行。例如,基于深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)的方法[12?14]研究了平行訓(xùn)練數(shù)據(jù)條件下的頻譜轉(zhuǎn)換,通過使用大量的平行訓(xùn)練數(shù)據(jù)來實現(xiàn)高質(zhì)量的語聲轉(zhuǎn)換。此外,關(guān)于變分自動編碼器方法的研究[15],有效提高了語聲轉(zhuǎn)換的性能。

上述語聲轉(zhuǎn)換框架將每幀的頻譜特征視為獨立的特征,并不關(guān)注語聲序列所特有的長時依賴性。標(biāo)準(zhǔn)的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)可以用來解決這個問題[16?17],但由于RNN存在梯度消失的問題[18],限制了其在上下文信息建模方面的能力。此外,標(biāo)準(zhǔn)的RNN 只能捕獲前向序列的信息,而忽略了后向序列的信息。

為了解決RNN 的這些問題,研究者們提出了深度雙向長短時記憶(Deep bidirectional long short-term memory,DBLSTM)的方法來進(jìn)行語聲轉(zhuǎn)換[19?20],與傳統(tǒng)的基于DNN 的語聲轉(zhuǎn)換框架相比,DBLSTM 的應(yīng)用獲得了顯著的性能提升[19]。CBHG(1-D convolution bank+highway network+bidirectional gated recurrent unit(GRU)) module 最早出現(xiàn)于一個端到端的語聲合成系統(tǒng)Tacotron 中[21],它由一組一維卷積濾波器、高速公路網(wǎng)絡(luò)和一個雙向門控循環(huán)單元(Bidirectional gated recurrent unit,BiGRU)組成。CBHG網(wǎng)絡(luò)可以更好地對序列數(shù)據(jù)處理,提取序列信息。

雖然這些基于深度學(xué)習(xí)的語聲轉(zhuǎn)換框架可以實現(xiàn)很好的語聲轉(zhuǎn)換性能,但仍然存在對大量訓(xùn)練數(shù)據(jù)的依賴性問題。而對于語聲轉(zhuǎn)換任務(wù)來說,在實際應(yīng)用時大量數(shù)據(jù)通常是很難獲取的,只能采用有限的數(shù)據(jù)。剩下的問題就是如何找到一種方法,使有限的數(shù)據(jù)得到很好的利用。與以往的研究不同,本文利用CBHG 這一強(qiáng)大的深度學(xué)習(xí)框架,提出了一種在有限的平行數(shù)據(jù)條件下能夠產(chǎn)生高質(zhì)量語聲的語聲轉(zhuǎn)換框架。具體來說,本文做出了以下貢獻(xiàn):(1) 由于CBHG 網(wǎng)絡(luò)可以通過對語聲語句的長時依賴性進(jìn)行建模來實現(xiàn)高性能的語聲轉(zhuǎn)換,本文利用多說話人的數(shù)據(jù)建立了一個基于CBHG的平均模型。(2) 由于基于CBHG 的平均模型可以很容易地用少量數(shù)據(jù)進(jìn)行自適應(yīng),本文利用有限的目標(biāo)數(shù)據(jù)對基于CBHG 的平均模型進(jìn)行自適應(yīng)訓(xùn)練,以實現(xiàn)轉(zhuǎn)換后的聲音接近于目標(biāo)聲音。(3) 誤差削減網(wǎng)絡(luò)只需要用少量的源和目標(biāo)的平行訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,所以本文提出了一個應(yīng)用于自適應(yīng)的CBHG 網(wǎng)絡(luò)的誤差削減網(wǎng)絡(luò),可以進(jìn)一步提高語聲轉(zhuǎn)換質(zhì)量。總的來說,本文提出了一種基于平均模型和誤差削減網(wǎng)絡(luò)的語聲轉(zhuǎn)換框架,可以用少量的訓(xùn)練數(shù)據(jù)產(chǎn)生高質(zhì)量的語聲。

1 基于CBHG網(wǎng)絡(luò)的語聲轉(zhuǎn)換

CBHG 網(wǎng)絡(luò)用于更好地從序列數(shù)據(jù)中提取上下文信息,模型結(jié)構(gòu)如圖1 所示。輸入序列首先與K個一維卷積濾波器進(jìn)行卷積,其中第k個卷積濾波器的卷積寬度為k(k=1,2,···,K)。這些濾波器顯式地對局部信息和上下文信息進(jìn)行建模(類似于對一元、二元,直到K元信息進(jìn)行建模)。卷積輸出堆疊在一起,并在時間軸上進(jìn)行最大池化處理,以增加局部穩(wěn)定性。所有的卷積濾波器步長均設(shè)為1,以用于保留原始的時間分辨率。濾波器處理后的序列進(jìn)一步傳遞給幾個固定寬度的一維卷積,其輸出通過殘差連接與原始序列相加。同時將批歸一化操作應(yīng)用于所有的卷積層。接著,卷積輸出被送入一個多層的高速公路網(wǎng)絡(luò),以提取高層次的特征。最后,序列經(jīng)過了一個雙向門控循環(huán)單元,以從前向和后向上下文中提取序列特征。

圖1 CBHG 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Model architecture of CBHG network

基于CBHG網(wǎng)絡(luò)的語聲轉(zhuǎn)換的整體框架如圖2所示。在這個模型框架中,對包括頻譜特征、logF0和非周期分量(Aperiodicity,AP)在內(nèi)的3 個特征流分別進(jìn)行轉(zhuǎn)換。頻譜特征由CBHG 模型進(jìn)行轉(zhuǎn)換,基頻轉(zhuǎn)換通過將源說話人logF0的平均數(shù)和標(biāo)準(zhǔn)差歸一化為目標(biāo)說話者的平均數(shù)和標(biāo)準(zhǔn)差進(jìn)行線性轉(zhuǎn)換,AP 分量則是直接從源特征中復(fù)制而不進(jìn)行轉(zhuǎn)換。模型將整個語句的特征作為輸入,使系統(tǒng)可以從前向和后向序列中獲取長程上下文信息。本文中所提出的方法是在有限的訓(xùn)練數(shù)據(jù)條件下,利用CBHG模型進(jìn)行語聲轉(zhuǎn)換。

圖2 基于CBHG 網(wǎng)絡(luò)的語聲轉(zhuǎn)換系統(tǒng)Fig.2 Voice conversion system based on CBHG network

2 基于平均模型和誤差削減網(wǎng)絡(luò)的語聲轉(zhuǎn)換

雖然第1 節(jié)所描述的基于CBHG 網(wǎng)絡(luò)的語聲轉(zhuǎn)換具有很好的性能,但是需要同時收集大量的來自源說話人和目標(biāo)說話人的平行數(shù)據(jù),在實際應(yīng)用中成本較高。為了解決這個問題,提出了一種基于平均模型和誤差削減網(wǎng)絡(luò)的語聲轉(zhuǎn)換。

2.1 訓(xùn)練階段

本文所提出的語聲轉(zhuǎn)換框架如圖3 所示,整個訓(xùn)練過程可以分為3 個訓(xùn)練階段。在訓(xùn)練階段1 中,利用除源說話人和目標(biāo)說話人以外的多說話人數(shù)據(jù),訓(xùn)練一個CBHG 平均模型,用于語聲后驗圖(Phonetic posterior grams,PPG)到梅爾倒譜系數(shù)(Mel-cepstral coefficients,MCEPs)的映射。MCEP是一種梅爾對數(shù)頻譜逼近參數(shù)(Mel-log spectrum approximation,MLSA),表示梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)的近似。輸入語聲的音素信息是使用一個預(yù)訓(xùn)練好的ASR 系統(tǒng)提取的,ASR 模型的輸入是語聲幀的MFCC 特征,輸出是PPG 特征,表示對應(yīng)語聲幀的音素類別的后驗概率。訓(xùn)練一個基于CBHG 網(wǎng)絡(luò)結(jié)構(gòu)的模型,學(xué)習(xí)PPG 特征和對應(yīng)的MCEP 特征幀之間的映射關(guān)系,MCEP 由STRAIGHT 聲碼器[22]提取。將訓(xùn)練好的模型稱為平均模型,它只能生成訓(xùn)練數(shù)據(jù)中說話人的平均語聲的MCEP特征。

圖3 本文所提出的語聲轉(zhuǎn)換系統(tǒng)Fig.3 Thevoice conversion system proposed in this paper

在訓(xùn)練階段2,使用少量的目標(biāo)說話人數(shù)據(jù)對平均模型進(jìn)行自適應(yīng)。自適應(yīng)過程與平均模型的訓(xùn)練類似,不同點在于使用訓(xùn)練好的平均模型對網(wǎng)絡(luò)進(jìn)行初始化,自適應(yīng)訓(xùn)練使用的數(shù)據(jù)是目標(biāo)說話人語聲數(shù)據(jù)。自適應(yīng)訓(xùn)練后,模型的輸出將從平均語聲向目標(biāo)說話人靠近。將該階段訓(xùn)練好的模型稱為自適應(yīng)平均模型。然而值得注意的是,不管轉(zhuǎn)換網(wǎng)絡(luò)的性能如何,轉(zhuǎn)換后的特征和目標(biāo)特征之間總是存在一個誤差,這種誤差會降低轉(zhuǎn)換后語聲的質(zhì)量和說話人相似度[23]。為了減少這種誤差,提出了應(yīng)用于自適應(yīng)平均模型的誤差削減網(wǎng)絡(luò)。

訓(xùn)練階段3 中涉及誤差削減網(wǎng)絡(luò)的訓(xùn)練,它本質(zhì)上是一個附加的DBLSTM 網(wǎng)絡(luò),用于將轉(zhuǎn)換后的MCEP 映射到目標(biāo)MCEP。誤差削減網(wǎng)絡(luò)的目的就是使最終的輸出MCEP 特征更接近于目標(biāo)說話人。誤差削減網(wǎng)絡(luò)訓(xùn)練時使用的數(shù)據(jù)為來自源說話人和目標(biāo)說話人的平行數(shù)據(jù),同訓(xùn)練階段2 中自適應(yīng)平均模型訓(xùn)練所使用的目標(biāo)數(shù)據(jù)為同一組數(shù)據(jù)。使用相同的ASR 系統(tǒng)來生成源語聲的PPG特征,通過動態(tài)時間規(guī)整(Dynamic time warping,DTW)技術(shù)對來自源語聲和目標(biāo)語聲的平行語句MCEP特征進(jìn)行對齊,同時利用對齊信息得到對齊的PPG 特征。然后將PPG 特征輸入到自適應(yīng)平均模型中,生成對齊的轉(zhuǎn)換后MCEP。在誤差削減網(wǎng)絡(luò)的訓(xùn)練中,輸入的是對齊的轉(zhuǎn)換后MCEP,輸出是目標(biāo)語聲的原始MCEP 特征。訓(xùn)練后得到的誤差削減網(wǎng)絡(luò)可以進(jìn)一步降低之前訓(xùn)練階段中所產(chǎn)生的誤差。

在所有的訓(xùn)練階段中,均采用生成的MCEP和原始MCEP 特征之間的均方差作為模型的優(yōu)化目標(biāo)函數(shù)。

2.2 實際運行階段

在轉(zhuǎn)換階段,輸入的是來自源說話人的一整個語句。logF0和AP的轉(zhuǎn)換與第1節(jié)中所描述的基于CBHG 的語聲轉(zhuǎn)換系統(tǒng)相同。將源語聲的MFCC特征輸入到預(yù)訓(xùn)練的ASR模型中,獲得輸入源語聲的PPG 特征。然后,訓(xùn)練好的自適應(yīng)平均模型用于將PPG特征轉(zhuǎn)換為MCEP特征。最后,將轉(zhuǎn)換后的MCEP 特征輸入到誤差削減網(wǎng)絡(luò)中,得到最終的轉(zhuǎn)換結(jié)果。最終的輸出MCEP 特征與轉(zhuǎn)換后的logF0和AP分量結(jié)合,由STRAIGHT聲碼器重構(gòu)得到輸出語聲。

3 實驗結(jié)果與分析

3.1 實驗設(shè)置

本節(jié)中進(jìn)行了一系列測試實驗來評估本文所提出的框架性能,即基于平均模型和誤差削減網(wǎng)絡(luò)的語聲轉(zhuǎn)換系統(tǒng)。第1 節(jié)中所描述的基于CBHG 的語聲轉(zhuǎn)換系統(tǒng)和第2 節(jié)中所描述的基于CBHG 的自適應(yīng)平均模型作為本文實驗的基線模型,同所提出系統(tǒng)進(jìn)行了比較。自適應(yīng)平均模型是本文提出的算法的一個中間步驟,圖4 展示了自適應(yīng)平均模型在實際運行時的轉(zhuǎn)換過程。圖5 展示了本文提出的系統(tǒng)在實際運行時和自適應(yīng)平均模型之間的差異。

圖4 自適應(yīng)平均模型的實際轉(zhuǎn)換過程Fig.4 The actual conversion process of adaptive average model

圖5 本文所提出模型的實際轉(zhuǎn)換過程Fig.5 The actual conversion process of the proposed model

實驗中使用的數(shù)據(jù)庫是CMU ARCTIC 語料庫[24]。由于語聲轉(zhuǎn)換研究中跨性別語聲轉(zhuǎn)換是最具挑戰(zhàn)性的工作,本文選擇了跨性別的語聲轉(zhuǎn)換作為任務(wù)目標(biāo)。語聲信號的采樣頻率為16 kHz,單聲道,通過STRAIGHT 提取40 維MCEP 作為聲學(xué)特征,窗長為25 ms,幀移為5 ms。在基于CBHG 網(wǎng)絡(luò)的平均模型訓(xùn)練中,使用了4個男性說話者(awb、jmk、ksp、rms)的數(shù)據(jù),其中訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分別為4433 句和489 句。在訓(xùn)練階段2 中,分別使用目標(biāo)說話人(slt)的45 個和5 個句子來作為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進(jìn)行平均模型自適應(yīng)訓(xùn)練。在誤差削減網(wǎng)絡(luò)的訓(xùn)練中,來自源說話人(bdl)的訓(xùn)練數(shù)據(jù)是自適應(yīng)平均模型中使用的目標(biāo)語聲的平行數(shù)據(jù)。PPG 特征的維度為171,通過一個基于DNN-HMM的預(yù)訓(xùn)練ASR系統(tǒng)獲取[25]。

詳細(xì)的模型結(jié)構(gòu)和參數(shù)如表1 所示。CBHG 網(wǎng)絡(luò)中的一維卷積濾波器組K設(shè)為16,最大池化步長為1 寬度為2,之后的一維卷積投影層寬度為3,所有卷積層的通道數(shù)均為128。高速公路網(wǎng)絡(luò)由4 層全連接層組成,每層包含128個單元。雙向門控循環(huán)網(wǎng)絡(luò)包含128 個單元,最后通過線性映射層生成40維MCEP。模型訓(xùn)練前,將所有訓(xùn)練樣本歸一化為零均值和單位方差。在誤差削減網(wǎng)絡(luò)訓(xùn)練中,為了更好地利用上下文信息,采用3 個連續(xù)幀的轉(zhuǎn)換后MCEP 作為輸入特征,即當(dāng)前幀、當(dāng)前幀的上一幀和當(dāng)前幀的下一幀特征。誤差削減網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)中共有3個隱層,每層的單元數(shù)分別為[120 128 256 128 40]。

表1 詳細(xì)的模型結(jié)構(gòu)和參數(shù)Table 1 Detailsof model architecture and hyper-parameters

在作為基線系統(tǒng)的基于CBHG 網(wǎng)絡(luò)的平行語聲轉(zhuǎn)換系統(tǒng)訓(xùn)練中,采用來自源說話人和目標(biāo)說話人的100 個平行語句作為訓(xùn)練數(shù)據(jù)。基線模型網(wǎng)絡(luò)結(jié)構(gòu)與自適應(yīng)平均模型的配置相同。在模型訓(xùn)練中,學(xué)習(xí)率為10?5,動量因子為0.9。

3.2 客觀評估

使用梅爾倒譜失真(Mel-cepstral distortion,MCD)作為客觀評價指標(biāo),評測轉(zhuǎn)換后的頻譜和真實目標(biāo)頻譜之間的距離,用公式表示為

表2 中列出了不同系統(tǒng)的跨性別語聲轉(zhuǎn)換的MCD得分結(jié)果。從結(jié)果中可以看出,本文提出的方法優(yōu)于CBHG基線模型和自適應(yīng)的平均模型。還可以看到,自適應(yīng)平均模型的訓(xùn)練中沒有使用平行數(shù)據(jù),因此自適應(yīng)平均模型的MCD 得分不如CBHG基線模型。但是經(jīng)過僅使用50 組平行數(shù)據(jù)訓(xùn)練得到的誤差削減網(wǎng)絡(luò)后,性能可以得到明顯的提升,優(yōu)于自適應(yīng)平均模型和使用100組平行訓(xùn)練數(shù)據(jù)的CBHG基線模型。

表2 不同語聲轉(zhuǎn)換系統(tǒng)的MCD 結(jié)果比較Table 2 Comparison of MCD results of different speech conversion systems

3.3 主觀評估

為了評估不同系統(tǒng)轉(zhuǎn)換后語聲的質(zhì)量和說話人相似度,進(jìn)行了主觀聽力測試,邀請10 名參與者對每個系統(tǒng)所生成的10個語句進(jìn)行評價。

進(jìn)行了平均意見得分(Mean opinion score,MOS)測試,參與者對聽到的語聲質(zhì)量按照5 分制的規(guī)定進(jìn)行評分: 1=極差,2=差,3=一般,4=好,5=極好。在本節(jié)實驗中,分別對以下3 個系統(tǒng)進(jìn)行了MOS 測試:(1) 基線方法,基于CBHG的平行語聲轉(zhuǎn)換系統(tǒng),訓(xùn)練數(shù)據(jù)為100 組平行數(shù)據(jù);(2) 第2 節(jié)中所描述自適應(yīng)平均模型;(3) 本文所提出的方法。MOS 測試的結(jié)果和95%的置信區(qū)間如圖6 所示?;€方法、自適應(yīng)平均模型和所提出的方法得分分別為3.28、3.57和3.83。

圖6 語聲質(zhì)量和自然度的MOS 測試結(jié)果及其95%置信區(qū)間Fig.6 MOS test results of speech quality and naturalness and their 95% confidence intervals

此外,還進(jìn)行了ABX 偏好測試來評估兩個不同系統(tǒng)生成的轉(zhuǎn)換語聲的說話人相似度。在基線方法和本文提出的方法之間,以及自適應(yīng)平均模型和所提出方法之間進(jìn)行ABX 偏好測試,參與者要求從給出的A 語句和B 語句中,選擇出聽起來更接近目標(biāo)說話人語聲X的一個。說話人相似度的偏好測試結(jié)果如圖7所示。

圖7 說話人相似度的ABX 測試結(jié)果Fig.7 ABX test results of speaker similarity

總的來說,MOS 測試和ABX 偏好測試的結(jié)果都表明,本文提出的基于平均模型和誤差削減網(wǎng)絡(luò)的語聲轉(zhuǎn)換方法,在有限的平行訓(xùn)練數(shù)據(jù)條件下,在語聲質(zhì)量和說話人相似度的評估上都優(yōu)于使用大量平行數(shù)據(jù)的基線方法。由于平均模型的訓(xùn)練中使用大量的訓(xùn)練數(shù)據(jù),達(dá)到了比基線方法更好的平均語聲質(zhì)量,對接下來系統(tǒng)模塊的性能提升有很大幫助。

4 結(jié)論

本文提出了一種基于平均模型和誤差削減網(wǎng)絡(luò)的語聲轉(zhuǎn)換系統(tǒng),在源說話人和目標(biāo)說話人的平行數(shù)據(jù)有限的情況下,可以實現(xiàn)良好的轉(zhuǎn)換性能。首先,提出使用排除源說話人和目標(biāo)說話人的多說話人數(shù)據(jù),訓(xùn)練一個PPG 特征到MCEP 映射的平均模型。然后,提出用有限的目標(biāo)說話人數(shù)據(jù)來進(jìn)行平均模型的自適應(yīng)。此外,還實現(xiàn)了一個可以提高語聲轉(zhuǎn)換質(zhì)量的誤差削減網(wǎng)絡(luò)??陀^和主觀評估的實驗結(jié)果表明,本文提出的方法可以很好地利用有限的數(shù)據(jù),實現(xiàn)優(yōu)于基線方法的系統(tǒng)性能。在接下來的工作中,將研究使用WaveNet 聲碼器來替代STRAIGHT 聲碼器,逐樣本生成原始聲頻波形,以提高轉(zhuǎn)換語聲的質(zhì)量和自然度。

猜你喜歡
平行卷積誤差
向量的平行與垂直
平行
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
逃離平行世界
角接觸球軸承接觸角誤差控制
哈爾濱軸承(2020年2期)2020-11-06 09:22:26
Beidou, le système de navigation par satellite compatible et interopérable
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
壓力容器制造誤差探究
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
九十億分之一的“生死”誤差
山東青年(2016年2期)2016-02-28 14:25:41
鲁山县| 达拉特旗| 广昌县| 广平县| 翁牛特旗| 商都县| 玉树县| 天全县| 芜湖县| 蓬莱市| 札达县| 娄底市| 彩票| 华容县| 临泉县| 大埔县| 晴隆县| 阿克苏市| 郴州市| 江油市| 遂宁市| 锡林浩特市| 西充县| 会理县| 双桥区| 思茅市| 赫章县| 治县。| 鹿邑县| 宜春市| 河曲县| 陵川县| 潮州市| 潜山县| 白水县| 安丘市| 鄂温| 驻马店市| 纳雍县| 石棉县| 金秀|