曾 歆,張雄偉,孫 蒙,苗曉孔,姚 琨
(陸軍工程大學(xué),江蘇南京210007)
語音轉(zhuǎn)換是一種在保留語義信息不變的前提下,修改源說話人的個(gè)性特征信息,使之具有目標(biāo)說話人個(gè)性特征的語音處理技術(shù)[1]。語音轉(zhuǎn)換要實(shí)現(xiàn)這一目的,就要提取表征個(gè)性特征信息的聲學(xué)特征,建立不同說話人對(duì)應(yīng)聲學(xué)特征的對(duì)應(yīng)關(guān)系,即轉(zhuǎn)換規(guī)則,然后進(jìn)行轉(zhuǎn)換合成,得到轉(zhuǎn)換語音。
語音轉(zhuǎn)換是目前信號(hào)處理領(lǐng)域比較新的一個(gè)分支,該技術(shù)的研究兼具理論意義和實(shí)際應(yīng)用價(jià)值。在多媒體娛樂方面,可通過語音轉(zhuǎn)換實(shí)現(xiàn)特定人物配音;對(duì)于語音登入系統(tǒng),可以利用轉(zhuǎn)換語音攻擊說話人認(rèn)證系統(tǒng)。此外,還可以利用語音轉(zhuǎn)換來消除個(gè)人特征差異對(duì)語音識(shí)別的影響等。由此可見,語音轉(zhuǎn)換技術(shù)值得深入研究。
語音的特征信息大致劃分為3類:音段信息、超音段信息和語言學(xué)信息[2]。相關(guān)研究表明,超音段信息中的平均基頻和音段信息中的聲道譜包絡(luò)對(duì)說話人語音個(gè)人特征信息的貢獻(xiàn)最為重要[3]。相對(duì)于平均基頻而言,聲道譜包絡(luò)的建模、轉(zhuǎn)換更為復(fù)雜,且是制約語音轉(zhuǎn)換效果提升的瓶頸。因此,本文重點(diǎn)圍繞聲道譜轉(zhuǎn)換展開研究。
語音轉(zhuǎn)換技術(shù)研究可追溯到20世紀(jì)80年代。王志衛(wèi)等[4]采用了基于碼書映射的語音轉(zhuǎn)換方法,該方法基于統(tǒng)計(jì)得到的直方圖信息,通過加權(quán)求和的方法實(shí)現(xiàn)語音轉(zhuǎn)換。這種“硬聚類”的轉(zhuǎn)換方法雖然效果一般,但開辟了一條從統(tǒng)計(jì)學(xué)角度解決語音轉(zhuǎn)換的思路。Toda等[5]采用了基于高斯混合模型(Gaussian Mixture Model, GMM)的聲道譜轉(zhuǎn)換方法,對(duì)說話人的聲道譜空間參數(shù)進(jìn)行建模映射。相比基于碼本映射的語音轉(zhuǎn)換方法,該方法極大地提升了頻譜平滑度,但基于概率的“軟聚類”也導(dǎo)致結(jié)果中存在參數(shù)過平滑問題。Sundermann等[6]采用動(dòng)態(tài)頻率規(guī)整(Dynamic Frequency Warping, DFW)的方法進(jìn)行語音轉(zhuǎn)換,即對(duì)源說話人聲道譜頻率進(jìn)行DFW處理,使其共振峰位置匹配目標(biāo)說話人頻譜共振峰位置。此外,基于隱變量模型的轉(zhuǎn)換方法[7]、基于深度神經(jīng)網(wǎng)絡(luò)模型的轉(zhuǎn)換方法[8-9]等也相繼被廣泛研究和應(yīng)用。
在語音轉(zhuǎn)換系統(tǒng)中,聲道譜參數(shù)是反映說話人個(gè)性的重要特征參數(shù)。在眾多關(guān)于聲道譜包絡(luò)的建模轉(zhuǎn)換中,GMM 方法的使用較為普遍。相較于近年流行的神經(jīng)網(wǎng)絡(luò)方法,GMM 方法依然具有模型體積小、轉(zhuǎn)換耗時(shí)少、可本地化計(jì)算等優(yōu)點(diǎn)。因此,本文考慮選用GMM方法進(jìn)行相應(yīng)的語音轉(zhuǎn)換研究。
語音信號(hào)中包含著豐富的特征參數(shù),不同的特征參數(shù)表征著不同的物理和聲學(xué)意義。特征參數(shù)的選擇對(duì)語音轉(zhuǎn)換系統(tǒng)的轉(zhuǎn)換效果至關(guān)重要。目前關(guān)于語音轉(zhuǎn)換的研究中,大多數(shù)轉(zhuǎn)換方法只選擇對(duì)單一聲道特征參數(shù)進(jìn)行轉(zhuǎn)換,而忽略了不同聲道特征參數(shù)之間可能存在的互補(bǔ)性。本文在現(xiàn)有研究成果的基礎(chǔ)上,對(duì)不同的聲道特征參數(shù)進(jìn)行聯(lián)合建模和轉(zhuǎn)換。具體來說,從語音信號(hào)中提取線性預(yù)測(cè)系數(shù)(Linear Prediction Coefficient, LPC)和梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC),聯(lián)合二者得到 LPC-MFCC特征參數(shù),并借助轉(zhuǎn)換性能較好的GMM,實(shí)現(xiàn)對(duì)LPC-MFCC特征參數(shù)的轉(zhuǎn)換。LPC是表征聲道信息的特征參數(shù),主要反映聲道響應(yīng);而MFCC是基于人聽覺的臨界帶效應(yīng),在梅爾標(biāo)度頻率域提取出來的倒譜特征參數(shù),更貼近人耳的聽覺特性。因此,LPC參數(shù)和MFCC參數(shù)存在一定的互補(bǔ)性。
在GMM建模階段,采用了對(duì)源和目標(biāo)聯(lián)合建模的方法。聯(lián)合建模一般選用并行語料,即源與目標(biāo)訓(xùn)練的語料一致,以此來保證動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)后的聯(lián)合矢量源與目標(biāo)的對(duì)齊,為GMM訓(xùn)練做好準(zhǔn)備。轉(zhuǎn)換規(guī)則的確立一般選用最小二乘法來估計(jì)轉(zhuǎn)換函數(shù)的相關(guān)參數(shù)。與矢量量化語音轉(zhuǎn)換方法相比,GMM是對(duì)頻譜包絡(luò)特征參數(shù)進(jìn)行軟分類,使得特征參數(shù)能夠以一定的概率屬于多個(gè)不同的類,在一定程度上克服了矢量量化的不連續(xù)性,改善了轉(zhuǎn)換后語音的音質(zhì)。使用該方法進(jìn)行語音轉(zhuǎn)換能夠得到較為滿意的合成語音。
1.2.1 線性預(yù)測(cè)系數(shù)
語音線性預(yù)測(cè)的基本原理是:由于語音信號(hào)樣點(diǎn)之間存在相關(guān)性,因此一個(gè)語音的采樣值可以用過去若干語音采樣值的線性組合來逼近。通過使實(shí)際語音信號(hào)抽樣值和線性預(yù)測(cè)抽樣值之間的誤差在均方準(zhǔn)則下達(dá)到最小值來求解預(yù)測(cè)系數(shù),而預(yù)測(cè)系數(shù)就反映了語音信號(hào)的特征,故可以用這組語音特征參數(shù)進(jìn)行語音轉(zhuǎn)換或語音合成等。
設(shè)n時(shí)刻的語音采樣值s(n)可由其前面p個(gè)語音采樣值的線性加權(quán)表示,則s(n)可以表示為
其中,ai表示權(quán)值,p個(gè)LPC參數(shù)可通過全極點(diǎn)模型進(jìn)行求解。
線性預(yù)測(cè)最主要的優(yōu)勢(shì)在于可以較為精確地估計(jì)語音聲道參數(shù),能夠較好地反映語音信號(hào)的聲道特性。
1.2.2 基于LPC參數(shù)和GMM模型的語音轉(zhuǎn)換
在訓(xùn)練階段,首先分別提取源說話人和目標(biāo)說話人的LPC參數(shù);然后使用DTW算法對(duì)源和目標(biāo)說話人的LPC參數(shù)進(jìn)行時(shí)間對(duì)齊;最后運(yùn)用GMM訓(xùn)練網(wǎng)絡(luò),建立映射轉(zhuǎn)換規(guī)則。
在轉(zhuǎn)換階段,首先提取源說話人的LPC參數(shù);然后根據(jù)訓(xùn)練階段建立的映射轉(zhuǎn)換規(guī)則,對(duì)源說話人的 LPC參數(shù)進(jìn)行轉(zhuǎn)換;最后利用轉(zhuǎn)換所得到的LPC參數(shù)合成轉(zhuǎn)換語音。
本文在基于LPC參數(shù)的GMM聲道譜轉(zhuǎn)換方法的基礎(chǔ)上,引入了更貼近于人耳聽覺特性的MFCC參數(shù),構(gòu)建了聯(lián)合特征參數(shù) LPC-MFCC并用于語音轉(zhuǎn)換。其語音轉(zhuǎn)換框圖如圖1所示,轉(zhuǎn)換步驟如下:
在訓(xùn)練階段:(1) 分別提取源說話人和目標(biāo)說話人的LPC參數(shù)和MFCC參數(shù);(2) 聯(lián)合LPC參數(shù)和MFCC參數(shù),得到新的特征參數(shù)LPC-MFCC;(3) 使用 DTW 算法對(duì)源和目標(biāo)說話人的LPC-MFCC特征參數(shù)進(jìn)行時(shí)間對(duì)齊;(4) 使用GMM模型訓(xùn)練網(wǎng)絡(luò),建立映射轉(zhuǎn)換規(guī)則。
在轉(zhuǎn)換階段:(1) 提取源說話人的LPC參數(shù)和MFCC參數(shù);(2) 聯(lián)合LPC參數(shù)和MFCC參數(shù),得到LPC-MFCC聯(lián)合特征參數(shù);(3) 根據(jù)訓(xùn)練階段建立的映射轉(zhuǎn)換規(guī)則,對(duì)源說話人的 LPC-MFCC特征參數(shù)進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換所得 LPC-MFCC特征參數(shù)中包含LPC參數(shù)對(duì)應(yīng)轉(zhuǎn)換的生成部分和MFCC參數(shù)對(duì)應(yīng)轉(zhuǎn)換的生成部分;(4) 考慮到基于LPC參數(shù)的語音轉(zhuǎn)換方法的效果優(yōu)于基于 MFCC參數(shù)的語音轉(zhuǎn)換方法,因此選取LPC參數(shù)對(duì)應(yīng)轉(zhuǎn)換生成部分進(jìn)行語音合成,得到轉(zhuǎn)換語音。
2.2.1 語音信號(hào)預(yù)處理
為了得到適合轉(zhuǎn)換處理的語音幀,首先對(duì)語音進(jìn)行加窗分幀、端點(diǎn)檢測(cè)、預(yù)加重等前端預(yù)處理。其中,預(yù)加重的目的是為了對(duì)語音的高頻部分進(jìn)行加重,去除口唇輻射的影響,增加語音的高頻分辨率。本文設(shè)置的預(yù)加重系數(shù)為0.9。
2.2.2 MFCC參數(shù)與LPC參數(shù)的提取
本步驟的目的是基于預(yù)處理后的語音幀,提取出反映信號(hào)特征的關(guān)鍵特征參數(shù)以便于后續(xù)處理??紤]到GMM模型更適用于低維度特征的建模,本文選取低維度的MFCC參數(shù)與LPC參數(shù)進(jìn)行聯(lián)合。MFCC參數(shù)的提取過程如圖2所示[10]。
基于LPC特征參數(shù)的語音轉(zhuǎn)換在1.2節(jié)已經(jīng)詳細(xì)介紹,此處不再贅述。
2.2.3 LPC參數(shù)與MFCC參數(shù)的聯(lián)合
為了便于LPC參數(shù)和MFCC參數(shù)進(jìn)行聯(lián)合,在LPC參數(shù)和MFCC參數(shù)提取之前,對(duì)語音信號(hào)做同樣的加窗分幀等預(yù)處理操作。本文實(shí)驗(yàn)設(shè)定濾波器階數(shù)為12。
為了便于闡述參數(shù)的聯(lián)合過程,假設(shè)矩陣Alpc表示根據(jù)某一句語音提取得到的LPC參數(shù),階數(shù)為M×N,其中M表示幀數(shù),N表示特征維度。矩陣Amfcc表示根據(jù)同一語音提取得到的MFCC參數(shù),階數(shù)為M×N。對(duì)兩個(gè)矩陣按列拼接得到聯(lián)合矩陣,即LPC-MFCC特征參數(shù)對(duì)應(yīng)的矩陣,階數(shù)大小為M×2N。這一步對(duì)LPC參數(shù)的維度進(jìn)行了擴(kuò)充,使原本N維度的轉(zhuǎn)換問題變成 2N維度的轉(zhuǎn)換問題,同時(shí)也將LPC參數(shù)和MFCC參數(shù)之間可能存在的互補(bǔ)性納入考慮范圍。
圖1 基于GMM模型和LPC-MFCC聯(lián)合特征的轉(zhuǎn)換框圖Fig.1 Block diagram of voice conversion based on GMM model with LPC-MFCC
圖2 MFCC特征提取流程Fig.2 The procedure of extracting MFCC features
2.2.4 時(shí)間對(duì)齊
在建立源特征參數(shù)和目標(biāo)特征參數(shù)映射關(guān)系之前,需要先將源和目標(biāo)語音的特征參數(shù)進(jìn)行時(shí)間對(duì)齊,確保轉(zhuǎn)換的是描述同一音節(jié)的特征參數(shù)。使用 DTW 算法對(duì)源說話人和目標(biāo)說話人的LPC-MFCC特征參數(shù)進(jìn)行對(duì)齊,產(chǎn)生一對(duì)相等長(zhǎng)度的源和目標(biāo)的特征序列。
2.2.5 模型訓(xùn)練及參數(shù)轉(zhuǎn)換
將源語音參數(shù)矢量X與目標(biāo)語音參數(shù)矢量Y構(gòu)成一個(gè)聯(lián)合矢量Z,Z= [XY]T,利用聯(lián)合概率P(X, Y)來訓(xùn)練高斯混合模型。假設(shè)用p個(gè)單高斯分布的加權(quán)求和來表征Z的概率分布,則GMM的概率分布函數(shù)表示為[11]
約束條件為
GMM的3個(gè)模型參數(shù)(αi,μi,Σi),可以通過期望最大(Expectation-Maximization, EM)算法進(jìn)行迭代求取[11]。
首先找到輸入語音特征參數(shù)相對(duì)于源說話人GMM 模型對(duì)應(yīng)的分量,然后找到輸入語音特征參數(shù)相對(duì)于目標(biāo)說話人GMM模型對(duì)應(yīng)的分量,然后在這兩個(gè)分量之間建立轉(zhuǎn)換規(guī)則,這樣就可以將源語音的參數(shù)映射成目標(biāo)語音的參數(shù),從而實(shí)現(xiàn)對(duì)輸入語音特征的轉(zhuǎn)換。
運(yùn)用上述的 GMM訓(xùn)練 LPC-MFCC特征參數(shù),建立映射轉(zhuǎn)換規(guī)則。在轉(zhuǎn)換階段,同樣對(duì)源目標(biāo)語音提取LPC-MFCC特征參數(shù),根據(jù)訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行轉(zhuǎn)換。在合成階段,只需取出LPC參數(shù)對(duì)應(yīng)的轉(zhuǎn)換部分,進(jìn)行語音合成,從而得到轉(zhuǎn)換語音。
為了更好地對(duì)比語音轉(zhuǎn)換方法的性能,需要進(jìn)行仿真實(shí)驗(yàn)測(cè)試。本文采用主觀和客觀相結(jié)合的測(cè)試方法來對(duì)兩種方法的轉(zhuǎn)換性能進(jìn)行綜合評(píng)價(jià)。
3.1.1 客觀測(cè)試
語音信號(hào)之間的差異一般采用語音信號(hào)頻譜上的距離測(cè)度來描述。理論上可以使用各種類型頻譜差測(cè)量來計(jì)算轉(zhuǎn)換語音和目標(biāo)語音之間的差異。轉(zhuǎn)換后的頻譜和目標(biāo)頻譜之間的距離越小,說明二者越接近,也即轉(zhuǎn)換效果越好。語音轉(zhuǎn)換相關(guān)文獻(xiàn)中使用最多的客觀測(cè)試衡量指標(biāo)是梅爾倒譜失真(Mel Cepstral Distance, MCD),單位dB,其計(jì)算方法為
其中,y和分別是目標(biāo)語音和轉(zhuǎn)換語音的梅爾倒譜特征向量。
3.1.2 主觀測(cè)試
主觀測(cè)試也是對(duì)轉(zhuǎn)換語音進(jìn)行評(píng)價(jià)的一個(gè)很重要的方式。它根據(jù)一定的評(píng)價(jià)標(biāo)準(zhǔn)、靠人的主觀聽覺來對(duì)轉(zhuǎn)換后的語音進(jìn)行判斷或打分,進(jìn)而對(duì)語音轉(zhuǎn)換方法的性能進(jìn)行評(píng)估。語音轉(zhuǎn)換相關(guān)文獻(xiàn)中使用最多的主觀測(cè)試衡量指標(biāo)是平均意見得分(Mean Opinion Score, MOS)測(cè)試。MOS測(cè)試的主要原理是讓測(cè)評(píng)人根據(jù)5個(gè)等級(jí)劃分對(duì)測(cè)試語音的主觀感受進(jìn)行打分。它既可以用于對(duì)語音自然度進(jìn)行主觀評(píng)價(jià),也可以用于對(duì)說話人特征相似度的評(píng)價(jià)。測(cè)試要求測(cè)評(píng)人具有正常的聽覺感知能力,并多年從事語音技術(shù)研究。
本文使用由中國(guó)科學(xué)院自動(dòng)化所(Institute of Automation, Chinese Academy of Sciences, CASIA)發(fā)布的 CASIA漢語情感語料庫(kù)進(jìn)行了多組轉(zhuǎn)換實(shí)驗(yàn),包括:男聲到男聲(M-M)、男聲到女聲(M-F)、女聲到男聲(F-M)、女聲到女聲(F-F)的轉(zhuǎn)換??陀^測(cè)試結(jié)果如表1所示。其中優(yōu)化比率表示聯(lián)合特征參數(shù)方法相對(duì)于LPC參數(shù)方法的MCD的下降率。
結(jié)合表1分析可知,相比于基于GMM和LPC參數(shù)的語音轉(zhuǎn)換方法,基于 GMM 和 LPC-MFCC聯(lián)合特征參數(shù)的語音轉(zhuǎn)換方法,在男聲到男聲、男聲到女聲轉(zhuǎn)換時(shí),客觀指標(biāo)MCD值有較明顯的下降;但是當(dāng)源目標(biāo)語音是女聲,目標(biāo)語音是女聲或者男聲時(shí),兩種語音轉(zhuǎn)換方法的MCD測(cè)試結(jié)果相差不大。可能的原因是女聲音調(diào)高,將其作為待轉(zhuǎn)換語音會(huì)影響轉(zhuǎn)換效果。今后將會(huì)對(duì)其具體原因進(jìn)行更深入的研究。
總體來說,基于聯(lián)合特征參數(shù)的轉(zhuǎn)換方法相比于基于LPC特征參數(shù)的轉(zhuǎn)換方法,MCD值明顯降低,降低比率為11%,客觀測(cè)試結(jié)果更佳。
表1 客觀測(cè)試的MCD結(jié)果比較Table 1 Comparison of MCD results in objective test
在主觀測(cè)試方面,依據(jù)轉(zhuǎn)換語音和目標(biāo)語音相似度的主觀測(cè)試結(jié)果如表2所示。其中優(yōu)化比率表示聯(lián)合特征參數(shù)方法相對(duì)于 LPC特征參數(shù)方法的MOS分提升率。
表2 主觀測(cè)試的MOS結(jié)果比較Table 2 Comparison of MOS results in subjective test
結(jié)合表2分析可知,相比于基于LPC參數(shù)的轉(zhuǎn)換方法,基于 LPC-MFCC聯(lián)合特征參數(shù)的轉(zhuǎn)換方法,在男聲到男聲、女聲到女聲兩組實(shí)驗(yàn)中的相似度顯著提高;在男聲到女聲、女聲到男聲兩組實(shí)驗(yàn)中略有提高。
總體來說,基于聯(lián)合特征參數(shù)的轉(zhuǎn)換方法,相比于基于LPC特征參數(shù)的轉(zhuǎn)換方法,轉(zhuǎn)換語音和目標(biāo)語音更相似,相似度提升達(dá)到25%,轉(zhuǎn)換性能更佳。
本文在基于GMM模型和LPC參數(shù)語音轉(zhuǎn)換方法的基礎(chǔ)上,引入了更貼近人耳聽覺特性的MFCC參數(shù),將LPC和MFCC參數(shù)之間可能存在的互補(bǔ)性納入考慮范圍,在此基礎(chǔ)上提出了一種基于GMM模型和LPC-MFCC聯(lián)合特征參數(shù)的語音轉(zhuǎn)換方法。主觀和客觀實(shí)驗(yàn)表明,相比于基于GMM模型和LPC參數(shù)的語音轉(zhuǎn)換方法,基于GMM模型和LPC-MFCC聯(lián)合特征參數(shù)的語音轉(zhuǎn)換方法相似度更高,轉(zhuǎn)換效果更佳。但MFCC參數(shù)的引入同時(shí)也會(huì)對(duì)LPC的合成階段產(chǎn)生干擾,導(dǎo)致合成語音存在些許噪聲。如何解決這一問題將是下一步工作的重點(diǎn)。此外,本文語音轉(zhuǎn)換系統(tǒng)的輸入和輸出都是LPC-MFCC,且合成階段只選用LPC對(duì)應(yīng)的轉(zhuǎn)換部分進(jìn)行語音合成。下一步擬繼續(xù)研究以LPC-MFCC為輸入,LPC或MFCC為輸出的語音轉(zhuǎn)換方法,并且在語音合成階段擬將MFCC納入考慮范圍,繼續(xù)探究LPC和MFCC參數(shù)之間的互補(bǔ)性,以進(jìn)一步提高轉(zhuǎn)換語音的自然度和相似度。