国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于廣義回歸神經(jīng)網(wǎng)絡(luò)的面罩語(yǔ)音矯正研究

2017-09-08 06:15:23王霞劉婕王光艷王蒙軍
現(xiàn)代電子技術(shù) 2017年17期

王霞+劉婕+王光艷+王蒙軍

摘 要: 為了提高面罩語(yǔ)音的清晰度和可懂度,提出一種基于廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)對(duì)線譜對(duì)(LSP)參數(shù)進(jìn)行非線性建模的面罩語(yǔ)音矯正方法。分別提取正常語(yǔ)音和面罩語(yǔ)音的LSP參數(shù),其次利用LSP參數(shù)對(duì)GRNN進(jìn)行訓(xùn)練,得到矯正模型,將面罩語(yǔ)音的LSP參數(shù)通過(guò)矯正模型進(jìn)行修正,并將結(jié)果作為參數(shù)用來(lái)合成新的語(yǔ)音。實(shí)驗(yàn)結(jié)果表明,利用GRNN訓(xùn)練出的矯正模型能夠有效地調(diào)整面罩語(yǔ)音的LSP參數(shù),在一定程度上能夠恢復(fù)其頻譜分布。

關(guān)鍵詞: 面罩語(yǔ)音; 線譜對(duì); 廣義回歸神經(jīng)網(wǎng)絡(luò); 語(yǔ)音合成

中圖分類(lèi)號(hào): TN912.3?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)17?0060?04

Research on mask speech correction based on generalized regression neural network

WANG Xia1, LIU Jie1, WANG Guangyan2, WANG Mengjun1

(1. School of Electronics and Information Engineering, Hebei University of Technology, Tianjin 300401, China;

2. School of Information Engineering, Tianjin University of Commerce, Tianjin 300401, China)

Abstract: In order to improve the clarity and intelligibility of mask speech, a mask speech correction method based on generalized regression neural network (GRNN) for nonlinear modeling of line spectrum pair (LSP) parameters is proposed. The LSP parameters of normal speech and mask speech are extracted respectively, and then used to train GRNN to obtain the correction model. The LSP parameters of mask speech are modified based on the correction model, and its results are used as parameters for new speech synthesis. The experimental results show that the correction model trained by GRNN can adjust the LSP parameters of the mask speech effectively, and recover the spectral distribution of the mask speech to a certain extent.

Keywords: mask speech; LSP; GRNN; speech synthesis

0 引 言

消防員在佩戴防毒面具的情況下,由于面罩體積小和封閉的物理特性,發(fā)出的聲音通過(guò)面罩后變得發(fā)悶,帶有鼻音色彩和嗚嗚聲,稱(chēng)之為“面罩語(yǔ)音”。面罩語(yǔ)音給人們的救援行動(dòng)帶來(lái)了交流上的阻礙,由此出現(xiàn)了矯正面罩語(yǔ)音這一課題。

國(guó)內(nèi)外針對(duì)面罩語(yǔ)音的研究較少,但其他類(lèi)型的畸變語(yǔ)音(如氦語(yǔ)音、耳語(yǔ)音)的轉(zhuǎn)換方法同樣具有參考價(jià)值。在處理畸變語(yǔ)音的過(guò)程中,以合成語(yǔ)音模型為出發(fā)點(diǎn),重點(diǎn)研究如何修正特征參數(shù)。文獻(xiàn)[1?2]利用線性預(yù)測(cè)模型恢復(fù)耳語(yǔ)音和氦語(yǔ)音。之后,人們?yōu)榱耸怪亟ǖ恼Z(yǔ)音更貼近實(shí)際語(yǔ)音,開(kāi)始研究用各種非線性的方法來(lái)修正特征參數(shù)。文獻(xiàn)[3?4]嘗試用神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音特征參數(shù)進(jìn)行非線性建模。文獻(xiàn)[5]為了使矯正后的頻譜分布和共振峰帶寬更加符合語(yǔ)音實(shí)際轉(zhuǎn)換的非線性要求,加入擴(kuò)展因子的雙線性變換函數(shù)分段處理耳語(yǔ)音的頻譜。文獻(xiàn)[6]提出一種完全參數(shù)化的雙線性頻率翹曲與振幅縮放結(jié)合的語(yǔ)音轉(zhuǎn)換方法,較傳統(tǒng)基于高斯混合模型的方法,轉(zhuǎn)換的語(yǔ)音質(zhì)量有了顯著改善。文獻(xiàn)[7]以正常語(yǔ)音的頻譜包絡(luò)為轉(zhuǎn)換目標(biāo),將受限玻爾茲曼機(jī)作為譜估計(jì)模型,利用深度學(xué)習(xí)技術(shù)重建語(yǔ)音,實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)技術(shù)能提高重建語(yǔ)音的質(zhì)量。

本文選擇在合成語(yǔ)音模型中更為強(qiáng)健的LSP作為特征參數(shù),利用具有強(qiáng)大非線性學(xué)習(xí)能力的GRNN模型對(duì)LSP進(jìn)行修正。

1 面罩語(yǔ)音特性

面罩語(yǔ)音的產(chǎn)生是由于聲音在面罩腔體內(nèi)傳播時(shí)發(fā)生了吸波、反射、共振等現(xiàn)象。本文從時(shí)域波形、短時(shí)能量、基音周期以及短時(shí)頻譜方面綜合觀察面罩語(yǔ)音的特性。

選用樣本語(yǔ)音“語(yǔ)音信號(hào)增強(qiáng)”,分別在正常環(huán)境下和佩戴封閉式面罩的條件下錄取正常語(yǔ)音和面罩語(yǔ)音。圖1,圖2是正常語(yǔ)音和面罩語(yǔ)音的時(shí)域分析和頻域分析的對(duì)比,其中,圖2用到的濁音幀和清音幀均從樣本語(yǔ)音中選取。

為了更好地研究面罩語(yǔ)音,將其特點(diǎn)歸結(jié)如下:

(1) 基音頻率不變。從時(shí)域波形和短時(shí)能量可以明顯看出面罩語(yǔ)音的有話段和無(wú)話段界限,并且與正常環(huán)境下的語(yǔ)音一致。從基音周期的對(duì)比中可以看出,面罩語(yǔ)音的基音頻率幾乎保持不變。

(2) 低頻分量增加,高頻分量減少。短時(shí)能量的下降解釋了面罩語(yǔ)音在聽(tīng)覺(jué)上變得發(fā)悶的原因。從濁音幀和清音幀的頻譜分析中可以看出頻譜分量重新分配的特點(diǎn)是低頻分量增加,高頻分量減少。endprint

2 語(yǔ)音特征參數(shù)的提取

2.1 線譜對(duì)分析

線譜對(duì)(Line Spectrum Pair,LSP)是線性預(yù)測(cè)(LPC)系數(shù)在頻域中的另一種表達(dá),也同樣包含了共振峰中心頻率和帶寬的信息,因此,可以通過(guò)調(diào)整LSP參數(shù)達(dá)到矯正語(yǔ)音的目的。其次,LSP小的系數(shù)偏差帶來(lái)的譜誤差只是局部的,能夠確保合成濾波器的穩(wěn)定性。

2.2 LSP參數(shù)的求解

設(shè)階線性預(yù)測(cè)合成濾波器為:

(1)

線性預(yù)測(cè)逆濾波器的階對(duì)稱(chēng)和反對(duì)稱(chēng)實(shí)系數(shù)多項(xiàng)式如下:

(2)

(3)

設(shè)的零點(diǎn)為的零點(diǎn)為且滿足:

(4)

由式(1)~式(3)可得:

(5)

(6)

最后求出的和則是與LSP參數(shù)對(duì)應(yīng)的線譜頻率(Line Spectrum Frequency,LSF),它們決定于已知的LPC系數(shù)。

聲道幅度譜的特性在一定程度上可以通過(guò)LSP參數(shù)來(lái)反映,在參數(shù)分布集中的地方幅度大,反之較小。一對(duì)通常代表一個(gè)共振峰,在調(diào)整某個(gè)LSF參數(shù)時(shí),對(duì)應(yīng)的頻譜只在附近與原始語(yǔ)音頻譜有差異,而在其他頻域變化很小[8]。這一性質(zhì)為選擇LSP作為修正參數(shù)和重建語(yǔ)音參數(shù)提供了理論基礎(chǔ)。

3 基于GRNN神經(jīng)網(wǎng)絡(luò)的LSP參數(shù)矯正模型

3.1 GRNN神經(jīng)網(wǎng)絡(luò)

實(shí)際上,人的發(fā)音過(guò)程是十分復(fù)雜的,是非線性的。廣義回歸神經(jīng)網(wǎng)絡(luò)(Generalized Regression Neural Network,GRNN)是由徑向基神經(jīng)元和線性神經(jīng)元組合而成的四層前向神經(jīng)網(wǎng)絡(luò),具有很強(qiáng)的非線性映射能力和高度的容錯(cuò)性。相較BP和RBF神經(jīng)網(wǎng)絡(luò),GRNN的逼近能力和學(xué)習(xí)速度有更強(qiáng)的優(yōu)勢(shì),并且結(jié)果是全局收斂的,在樣本數(shù)據(jù)較少時(shí),預(yù)測(cè)結(jié)果也較好[9]。

GRNN由四層神經(jīng)元構(gòu)成,分別為輸入層、模式層、求和層和輸出層。其中輸入層神經(jīng)元的數(shù)目等于學(xué)習(xí)樣本中輸入向量的維數(shù),即單樣本LSP的階數(shù);模式層神經(jīng)元數(shù)量與學(xué)習(xí)樣本數(shù)量相同,即取決于有多少幀LSP樣本,模式層傳遞函數(shù)為徑向基函數(shù),常用的是高斯函數(shù);求和層中使用兩種神經(jīng)元分別進(jìn)行相應(yīng)算法的求和;輸出層將求和層的兩個(gè)結(jié)果相除,得到預(yù)測(cè)值。

GRNN模型的Matlab構(gòu)建代碼為net=newgrnn(SPREAD)。其中,和分別為輸入向量、目標(biāo)向量,SPREAD為徑向基函數(shù)的擴(kuò)展系數(shù)。SPREAD值越小,網(wǎng)絡(luò)對(duì)樣本的逼近性能越強(qiáng);系數(shù)值越大,逼近過(guò)程越光滑,但同時(shí)也會(huì)加大計(jì)算上的難度,可人為調(diào)節(jié)讓網(wǎng)絡(luò)達(dá)到最佳性能,針對(duì)本文的樣本,選擇最優(yōu)SPREAD=0.2。

3.2 矯正模型的構(gòu)建

本文引入GRNN模型構(gòu)建面罩語(yǔ)音LSP參數(shù)的非線性矯正模型,進(jìn)而恢復(fù)面罩語(yǔ)音。

訓(xùn)練模型的流程圖如圖3所示,具體步驟如下:

(1) 對(duì)面罩語(yǔ)音和正常語(yǔ)音分別做預(yù)處理、端點(diǎn)檢測(cè),找出有話段語(yǔ)音;

(2) 提取面罩語(yǔ)音和正常語(yǔ)音的LPC參數(shù)并轉(zhuǎn)換為L(zhǎng)SP;

(3) 通過(guò)動(dòng)態(tài)時(shí)間規(guī)整網(wǎng)絡(luò),將LSP參數(shù)規(guī)整為統(tǒng)一幀數(shù);

(4) 將面罩語(yǔ)音的LSP參數(shù)作為GRNN模型的輸入樣本,將正常語(yǔ)音的LSP參數(shù)作為GRNN模型的期望輸出樣本,試驗(yàn)并設(shè)置最佳模型參數(shù),訓(xùn)練模型。

將面罩語(yǔ)音的LSP參數(shù)通過(guò)訓(xùn)練好的面罩語(yǔ)音矯正模型得到矯正后的LSP參數(shù),通過(guò)LSP參數(shù)合成濾波器重建語(yǔ)音,如圖4所示。

4 實(shí)驗(yàn)過(guò)程和結(jié)果分析

在正常環(huán)境下錄取若干純凈語(yǔ)音,在佩戴封閉式防毒面具的條件下錄取對(duì)應(yīng)的面罩語(yǔ)音,將這些正常語(yǔ)音和面罩語(yǔ)音作為實(shí)驗(yàn)樣本。選用自錄單漢字語(yǔ)音作為實(shí)驗(yàn)語(yǔ)音樣本,采樣頻率均為8 000 Hz,幀長(zhǎng)為30 ms,幀移為10 ms,LSP階數(shù)為10,并且選取窗長(zhǎng)為256點(diǎn)的漢明窗分析語(yǔ)音。

10個(gè)正常語(yǔ)音樣本經(jīng)過(guò)動(dòng)態(tài)時(shí)間規(guī)整后,得到400幀LSP參數(shù),一幀包含10個(gè)LSF,將它們作為訓(xùn)練模型的輸入,對(duì)應(yīng)的面罩語(yǔ)音樣本經(jīng)過(guò)同樣的處理作為輸出。通過(guò)圖5可以看出,矯正后LSP參數(shù)更接近正常值。

圖6是語(yǔ)音“受”的正常語(yǔ)音、面罩語(yǔ)音以及用本文方法矯正后語(yǔ)音的語(yǔ)譜圖。對(duì)比語(yǔ)譜圖可以看出,矯正后語(yǔ)音的頻譜分布發(fā)生改變,高頻分量部分適當(dāng)增加,低頻分量部分適當(dāng)減少。

用語(yǔ)音質(zhì)量客觀評(píng)價(jià)方法來(lái)評(píng)判本文方法對(duì)面罩語(yǔ)音是否有矯正作用。分別計(jì)算矯正前、后語(yǔ)音與正常語(yǔ)音之間的對(duì)數(shù)譜距離(Log Spectral Dstance,LSD),計(jì)算結(jié)果取平均由1.756降低到1.522,表明矯正后語(yǔ)音的頻譜與正常語(yǔ)音的頻譜更相近。對(duì)數(shù)似然比測(cè)度(Log Likelihood Ratio Measure,LLR)也是一種頻譜距離的計(jì)算,主要強(qiáng)調(diào)對(duì)頻譜包絡(luò)相似度的評(píng)判,通過(guò)計(jì)算取平均的過(guò)程得出LLR從1.431降低到0.866,表明矯正后頻譜相似度提高,而在利用BP神經(jīng)網(wǎng)絡(luò)模型構(gòu)建矯正模型的實(shí)驗(yàn)結(jié)果中,LLR僅降低到0.918。在收斂速度上,本文的方法也更快,僅需要10.9 s,而利用BP神經(jīng)網(wǎng)絡(luò)模型的矯正方法需要150 s。

從結(jié)果分析中可以得出,利用GRNN模型調(diào)整LSP參數(shù)的方法不但可以有效得到矯正面罩語(yǔ)音,而且在效果和速度上都有一定的優(yōu)勢(shì)。

5 結(jié) 語(yǔ)

本文以探索面罩語(yǔ)音的語(yǔ)音特性為起點(diǎn),研究面罩語(yǔ)音的畸變規(guī)律,引入GRNN模型作為研究的工具。從語(yǔ)音質(zhì)量客觀評(píng)價(jià)方法的比較中可以看出,矯正后語(yǔ)音的頻譜相似度明顯提高。從語(yǔ)譜圖上也可以看出,利用本文方法可以在一定程度上改變面罩語(yǔ)音的頻譜分布,但是矯正后語(yǔ)音的頻譜出現(xiàn)了誤差分量。最優(yōu)的實(shí)驗(yàn)樣本需要正常語(yǔ)音與畸變語(yǔ)音嚴(yán)格一致,包括聲調(diào)、語(yǔ)速、音調(diào)等,但是由于客觀條件,錄音時(shí)并不是同時(shí)進(jìn)行,本文方法是應(yīng)對(duì)動(dòng)態(tài)規(guī)整實(shí)現(xiàn)這一需求,但對(duì)于后續(xù)合成語(yǔ)音并不是最佳的解決方式,并不能使本文方法的有效性達(dá)到最大化,這也是實(shí)驗(yàn)中出現(xiàn)誤差的根本原因,歸根結(jié)底,研究并發(fā)現(xiàn)面罩語(yǔ)音的畸變規(guī)律才是解決面罩語(yǔ)音的根源,也是未來(lái)研究工作中的首要任務(wù)。endprint

參考文獻(xiàn)

[1] MORRIS R W, CLEMENTS M A. Reconstruction of speech from whispers [J]. Medical engineering & physics, 2002, 24(7): 515?520.

[2] 張勇,趙曉群.基于線性預(yù)測(cè)模型的氦語(yǔ)音增強(qiáng)算法研究[J].聲學(xué)技術(shù),2007,26(1):111?116.

[3] 韓韜,陶智,顧濟(jì)華,等.基于BP神經(jīng)網(wǎng)絡(luò)的耳語(yǔ)音轉(zhuǎn)換為正常語(yǔ)音的研究[J].通信技術(shù),2009(2):152?155.

[4] TAO Z, TAN X D, HAN T, et al. Reconstruction of normal speech from whispered speech based on RBF neural network [C]// Proceedings of 2010 the Third International Symposium on Intelligent Information Technology and Security Informatics. Jian, China: IEEE, 2010: 374?377.

[5] 陶智,趙鶴鳴,談雪丹,等.采用擴(kuò)展型雙線性變換法將耳語(yǔ)音轉(zhuǎn)換為正常語(yǔ)音的研究[J].聲學(xué)學(xué)報(bào),2012,37(6):651?658.

[6] ERRO D, NAVAS E, HERNAEZ I. Parametric voice conversion based on bilinear frequency warping plus amplitude scaling [J]. IEEE transactions on audio speech & language processing, 2013, 21(3): 556?566.

[7] LI J J, MCLOUGHLIN I V, DAI L R, et al. Whisper?to?speech conversion using restricted Boltzmann machine arrays [J]. Electronics letters, 2014, 50(24): 1781?1782.

[8] 宋知用.Matlab在語(yǔ)音信號(hào)分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013.

[9] 賈義鵬,呂慶,尚岳全.基于粒子群算法和廣義回歸神經(jīng)網(wǎng)絡(luò)的巖爆預(yù)測(cè)[J].巖石力學(xué)與工程學(xué)報(bào),2013,32(2):343?348.endprint

安义县| 岳阳市| 南澳县| 西吉县| 铜梁县| 丁青县| 汤原县| 左贡县| 郎溪县| 巴里| 新丰县| 孝昌县| 聂拉木县| 玛纳斯县| 绥化市| 江油市| 石河子市| 玛沁县| 礼泉县| 杂多县| 垫江县| 永靖县| 昭通市| 诏安县| 花莲市| 平遥县| 平顺县| 武安市| 普格县| 富阳市| 囊谦县| 汉川市| 托克逊县| 萝北县| 湘潭县| 晋州市| 德州市| 富源县| 巴中市| 内江市| 屯昌县|