国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PAD三維情緒模型的情感語(yǔ)音韻律轉(zhuǎn)換

2013-07-11 09:36魯小勇楊鴻武郭威彤
關(guān)鍵詞:基頻韻律音節(jié)

魯小勇,楊鴻武,郭威彤,裴 東

1.西北師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州 730070 2.西北師范大學(xué) 物理與電子工程學(xué)院,蘭州 730070

基于PAD三維情緒模型的情感語(yǔ)音韻律轉(zhuǎn)換

魯小勇1,楊鴻武2,郭威彤2,裴 東2

1.西北師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州 730070 2.西北師范大學(xué) 物理與電子工程學(xué)院,蘭州 730070

1 引言

語(yǔ)音信號(hào)不僅包含了要表達(dá)的文本內(nèi)容,而且還蘊(yùn)含了大量的情感信息。而情感信息不僅是語(yǔ)音自然度和表現(xiàn)力的重要組成部分,更是人類智能的重要表現(xiàn)方面之一。

目前的合成語(yǔ)音系統(tǒng),雖然在可懂度和自然度上已普遍被用戶所接受,但合成語(yǔ)音仍主要以中性語(yǔ)調(diào)(Neutral Intonation)的方式呈現(xiàn)給用戶,缺乏豐富的情感表達(dá)。因此,高表現(xiàn)力語(yǔ)音合成的研究成為了近年來(lái)言語(yǔ)工程領(lǐng)域中一個(gè)重要的研究熱點(diǎn)[1]。情感語(yǔ)音的合成主要采用基于隱馬爾可夫模型的統(tǒng)計(jì)參數(shù)語(yǔ)音合成方法[2]和基于大規(guī)模語(yǔ)料庫(kù)的拼接語(yǔ)音合成方法[3]。前者雖然能夠利用說(shuō)話人自適應(yīng)變換[4-5]等方法實(shí)現(xiàn)情感語(yǔ)音的合成,但統(tǒng)計(jì)參數(shù)語(yǔ)音合成的音質(zhì)仍難以被用戶接受。拼接語(yǔ)音合成方法雖然能獲得高質(zhì)量的合成語(yǔ)音,但錄制不同情感的語(yǔ)料庫(kù)非常困難。為此,部分研究提出了通過(guò)韻律轉(zhuǎn)換實(shí)現(xiàn)情感語(yǔ)音合成的方法。文獻(xiàn)[6]選取了喜、怒、哀、樂(lè)四種基本情感,進(jìn)行了相應(yīng)的韻律及情感特征研究。文獻(xiàn)[7-8]將PAD三維情緒模型引入高表現(xiàn)力語(yǔ)音合成,文獻(xiàn)[9]利用PAD三維情緒模型實(shí)現(xiàn)了情感語(yǔ)音的轉(zhuǎn)換,文獻(xiàn)[10]利用SVR預(yù)測(cè)情感韻律參數(shù)。但以上的工作缺乏對(duì)基頻曲線的建模,只能簡(jiǎn)單修改基頻均值、斜率等參數(shù),不能修改基頻包絡(luò)的形狀,而基頻包絡(luò)的形狀在不同情感的表達(dá)中起著重要的作用。

為了在情感語(yǔ)音的轉(zhuǎn)換中,能夠?qū)l包絡(luò)進(jìn)行轉(zhuǎn)換,設(shè)計(jì)了11種典型情感的文本語(yǔ)料,錄制了相應(yīng)的語(yǔ)音語(yǔ)料,采用心理學(xué)的方法標(biāo)注了語(yǔ)音語(yǔ)料的PAD值,運(yùn)用五度字調(diào)模型[11]建立了音節(jié)的基頻模型,并利用廣義回歸神經(jīng)網(wǎng)絡(luò)(Generalized Regression Neural Network,GRNN)構(gòu)造了情感語(yǔ)音韻律參數(shù)的預(yù)測(cè)模型。根據(jù)語(yǔ)句的PAD值和語(yǔ)境特征預(yù)測(cè)目標(biāo)情感語(yǔ)音的韻律參數(shù),采用STRAIGHT[12]算法實(shí)現(xiàn)情感語(yǔ)音的轉(zhuǎn)換。實(shí)驗(yàn)結(jié)果表明,提出的方法得到的轉(zhuǎn)換后的語(yǔ)音,能夠較好地表現(xiàn)出相應(yīng)的情感。

2 PAD三維情緒模型

情感描述[13]的主要方法包括離散的情感范疇表示方法和在連續(xù)變化的維度上描述情感的維度表示方法。范疇描述的方法無(wú)法表示出情感之間的相對(duì)關(guān)系及變化,也難以描述混合情感的情況。因此,本文采用了PAD三維情緒模型來(lái)描述情感語(yǔ)音,以便能將情感語(yǔ)音的研究擴(kuò)展為量化情感的計(jì)算性研究。

PAD三維情緒模型[14]由三個(gè)維度組成:(1)愉悅度(Pleasure-Displeasure),表示情緒狀態(tài)的正、負(fù)性;(2)激活度(Arousal-Nonarousal),表示情緒生理激活水平和警覺性;(3)優(yōu)勢(shì)度(Dominance-Submissiveness),表示情緒對(duì)他人和外界環(huán)境的控制力和影響力。

在PAD三維情緒模型中,每一種情感都與PAD空間中的位置相對(duì)應(yīng)。當(dāng)PAD得分被標(biāo)準(zhǔn)化以后,可以用一組三維坐標(biāo)來(lái)唯一表示。三維坐標(biāo)具有高置信度的評(píng)價(jià),三個(gè)維度基本獨(dú)立。而且,PAD情感坐標(biāo)的評(píng)定是通過(guò)一套精心設(shè)計(jì)的量表來(lái)完成的,每一種情感都可以看作是在PAD三維坐標(biāo)系中的一個(gè)點(diǎn)。Mehrabian[14]提出了簡(jiǎn)化版本的PAD情感量化表,總結(jié)出了常見情感狀態(tài)和對(duì)應(yīng)的PAD坐標(biāo)之間的映射關(guān)系。中科院心理所又進(jìn)一步對(duì)簡(jiǎn)化版PAD情感量表進(jìn)行了中國(guó)化的修訂,得到了適用于評(píng)定中國(guó)人和漢語(yǔ)情感的量化表。

3 語(yǔ)料庫(kù)的建立與PAD評(píng)定

3.1 文本語(yǔ)料設(shè)計(jì)

文本語(yǔ)料的設(shè)計(jì),要以有利于情感的激發(fā)與保持為首要目標(biāo),還要兼顧可能產(chǎn)生影響的語(yǔ)音學(xué)和心理學(xué)要素,以及保證與PAD三維空間中選取的典型情感的一致性。同時(shí),情感在PAD情感空間上的選取不能只局限于基本感情,選擇時(shí)需要盡量分布均勻,區(qū)分性要強(qiáng)。為了能夠收集到最自然的情感語(yǔ)音,避免語(yǔ)義因素和音素固有聲學(xué)特征的影響,從PAD三維空間的每個(gè)象限中各選取了能夠代表該象限的一至兩種常見情感,共10種,分別包括放松、驚奇、溫順、喜悅、輕蔑、厭惡、恐懼、悲傷、焦慮、憤怒。再加上中性情感,共選取了11種典型情感。

文本語(yǔ)料的內(nèi)容既要考慮需要具有一定長(zhǎng)度,還要具備豐富的情感特征。在文本語(yǔ)料的設(shè)計(jì)方案中,采用了將無(wú)情感偏向的句子嵌入到含有11種典型情感的語(yǔ)段中的方式。這樣處理,比單個(gè)孤立的句子更容易激發(fā)出所需要的情感特征。實(shí)驗(yàn)中為每種情感各設(shè)計(jì)了10個(gè)基于特定情景的情感語(yǔ)段,每個(gè)情感語(yǔ)段各嵌入一個(gè)無(wú)情感偏向的語(yǔ)句,最后形成110個(gè)不同的語(yǔ)段。在無(wú)情感偏向的語(yǔ)句選取上,采取長(zhǎng)短結(jié)合的方法,有5到6個(gè)語(yǔ)句較長(zhǎng),約為150個(gè)音節(jié);有4到5個(gè)語(yǔ)句較短,約為50個(gè)音節(jié)。這樣,共設(shè)計(jì)得到了約2 200個(gè)音節(jié)。

每種情感語(yǔ)段的語(yǔ)境信息,包括音節(jié)的聲調(diào)和位置信息,都利用自己開發(fā)的基于TBL算法的韻律邊界標(biāo)注工具[15]和文本分析工具標(biāo)注并手工校對(duì)。

表1 部分情感的文本語(yǔ)料

3.2 語(yǔ)音語(yǔ)料的錄制

在特定的情景下,情景激發(fā)[9]的方式比直接地要求產(chǎn)生一種情感更加容易,并且得到的語(yǔ)音表達(dá)也更自然真實(shí)。因此,借鑒心理學(xué)領(lǐng)域的經(jīng)驗(yàn),通過(guò)內(nèi)心模擬情景的方式來(lái)激發(fā)所需情感。

在錄音中,選擇了一位女性普通話錄音人在錄音棚中錄音,錄音人不是專業(yè)演員。要求首先錄制中性語(yǔ)音,然后錄制情感語(yǔ)音。在錄制中性語(yǔ)音時(shí),要求錄音人用無(wú)表情的、語(yǔ)調(diào)和語(yǔ)速基本不變化的方式朗讀錄音文本。在錄制其他10種情感語(yǔ)音時(shí),首先設(shè)置特定的場(chǎng)景激發(fā)出錄音人相應(yīng)的情感表露,然后再去朗讀文本并錄音。比如,在錄制悲傷情感語(yǔ)音時(shí),利用觀看悲傷的電影片段、觀看悲傷的圖片等來(lái)激發(fā)出錄音人的悲傷情感。錄音人的情感被激發(fā)出來(lái)后,讓錄音人按照自然的情感表達(dá)方式說(shuō)出10段情感語(yǔ)句。實(shí)驗(yàn)最終錄制的語(yǔ)音用16 kHz采樣、16 bit量化后以單聲道WAV文件格式保存。

3.3 PAD評(píng)定

語(yǔ)音語(yǔ)料錄制結(jié)束后,采用中科院心理所改進(jìn)的漢化版情感量表[16]評(píng)測(cè)了錄制的語(yǔ)音語(yǔ)料的PAD值,如表2所示。從表2可以看出,錄制的情感語(yǔ)音基本表達(dá)了選取的11種情感。

4 基于GRNN的情感語(yǔ)音韻律轉(zhuǎn)換框架

4.1 轉(zhuǎn)換框架

提出了一種基于GRNN的情感語(yǔ)音韻律轉(zhuǎn)換框架,如圖1所示,包括訓(xùn)練和轉(zhuǎn)換兩部分。

圖1 情感語(yǔ)音韻律轉(zhuǎn)換框架圖

表2 語(yǔ)音語(yǔ)料庫(kù)中無(wú)情感偏向文本的11種情感PAD得分

在訓(xùn)練過(guò)程中,首先從文本語(yǔ)料中提取音節(jié)的語(yǔ)境特征參數(shù),將每個(gè)音節(jié)的語(yǔ)境參數(shù)和評(píng)定所得到的語(yǔ)句的PAD值作為訓(xùn)練GRNN的輸入?yún)?shù)。同時(shí),從語(yǔ)音語(yǔ)料提取音節(jié)的基頻曲線、時(shí)長(zhǎng)和停頓時(shí)長(zhǎng),利用五度字調(diào)模型對(duì)基頻曲線建模,將模型參數(shù)和時(shí)長(zhǎng)、停頓時(shí)長(zhǎng)作為GRNN的輸出參數(shù)。利用輸入?yún)?shù)和輸出參數(shù),訓(xùn)練轉(zhuǎn)換模型。

在轉(zhuǎn)換階段,首先根據(jù)文本語(yǔ)料獲得待轉(zhuǎn)換語(yǔ)音的音節(jié)語(yǔ)境參數(shù),與目標(biāo)語(yǔ)音的PAD值同時(shí)作為GRNN的輸入?yún)?shù),來(lái)預(yù)測(cè)目標(biāo)情感語(yǔ)音的音節(jié)的五度字調(diào)模型參數(shù)、時(shí)長(zhǎng)和停頓時(shí)長(zhǎng),并利用五度字調(diào)模型生成目標(biāo)語(yǔ)音的音節(jié)基頻包絡(luò)。同時(shí),對(duì)待轉(zhuǎn)換語(yǔ)音,利用STRAIGHT獲得語(yǔ)音的頻譜參數(shù)和非周期索引。最后,利用生成的基頻包絡(luò)、預(yù)測(cè)的時(shí)長(zhǎng)和停頓時(shí)長(zhǎng)以及STRAIGHT分析獲得的頻譜參數(shù)和非周期索引,合成出目標(biāo)情感語(yǔ)音。

4.2 基于五度字調(diào)模型的基頻建模

因生理、年齡等方面存在差異,人的音高變化也不近相同。但對(duì)于一個(gè)特定的人或一群人來(lái)說(shuō),可以找到一個(gè)音高的基準(zhǔn)值,語(yǔ)流的音高是在此基準(zhǔn)值上下變動(dòng)。而且,聲調(diào)的音高變化范圍是相對(duì)穩(wěn)定的,有一定的調(diào)域存在。對(duì)某一聲調(diào)的單音節(jié)而言,發(fā)音人不同和時(shí)長(zhǎng)不同時(shí),基頻的依時(shí)變化雖有差異,但大體趨勢(shì)是相同的,即調(diào)型大體相同。基于此,本文利用式(1)所示的歸一化五度字調(diào)模型,來(lái)刻畫不同調(diào)值的基頻曲線。

其中,t是歸一化的時(shí)間,范圍為[ ] 0..1。fc是對(duì)數(shù)表示的體現(xiàn)嗓音高低的中值基頻,fd是對(duì)數(shù)表示的基頻變化的調(diào)域,f0i(t)是一個(gè)如式(2)所示的四次曲線,代表四個(gè)聲調(diào)的調(diào)型函數(shù),i代表陰平、陽(yáng)平、上聲、去聲四種聲調(diào)。F0i(t)是生成的基頻曲線。

利用原始基頻值,得到每個(gè)音節(jié)的基頻中值及調(diào)域。然后,根據(jù)音節(jié)基頻點(diǎn)數(shù)算得相應(yīng)音節(jié)的歸一化時(shí)間,通過(guò)式(2)擬合求得基于音節(jié)的四次多項(xiàng)式系數(shù)。最后,再通過(guò)式(1)在歸一化時(shí)間下得到基于五度字調(diào)模型的音節(jié)基頻曲線。

4.3 基于GRNN的預(yù)測(cè)模型

4.3.1 GRNN的結(jié)構(gòu)

1.1 一般資料 2010年10月至2015年3月共30例惡性腫瘤患者治療前后在復(fù)旦大學(xué)附屬中山醫(yī)院核醫(yī)學(xué)科行18F-FDG PET/CT顯像,其中男性20例,女性10例;年齡15~87歲,平均(56.17±14.96)歲。30例中,肺癌5例,胰腺癌4例,非霍奇金淋巴瘤19例,慢性淋巴細(xì)胞白血病/小B細(xì)胞淋巴瘤1例,背部多形性未分化肉瘤1例。

GRNN是一種基于徑向基函數(shù)網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),利用非線性回歸理論,從訓(xùn)練數(shù)據(jù)中估計(jì)輸入輸出之間的映射關(guān)系。設(shè)向量x是輸入向量,其對(duì)應(yīng)的輸出為標(biāo)量 y, x和y是隨機(jī)變量。

設(shè)向量x和標(biāo)量y是隨機(jī)變量,X和Y是測(cè)量值,定義f(x ,y)是連續(xù)概率密度函數(shù)。如果 f(x ,y)已知,容易得到y(tǒng)在x上的回歸為:

其中,ωij為對(duì)應(yīng)于輸入訓(xùn)練矢量 χi和輸出 j的目標(biāo)輸出,hi=exp[- D2

i/(2σ2)]為隱層神經(jīng)元的輸出,Di2=(X-Xi)T(X-Xi)

為輸入矢量和訓(xùn)練矢量距離的平方,σ稱其為光滑因子spread。

GRNN由四層構(gòu)成,它們分別為輸入層(input layer)、模式層(pattern layer)、加和層(summation layer)和輸出層(output layer)。輸入層的各單元是簡(jiǎn)單的線性單元,直接將輸入變量傳遞給模式層;模式層又稱隱回歸層,每個(gè)單元對(duì)應(yīng)于一個(gè)訓(xùn)練樣本,以高斯函數(shù)e-d(xo,xi)為活化核函數(shù),xi為各單元核函數(shù)的中心矢量,共有n個(gè)單元;加和層有兩個(gè)單元,其一計(jì)算模式層各單元輸出的加權(quán)和,權(quán)為各訓(xùn)練樣品的 yi值,算得式(4)的分子,稱為分子單元,另一單元計(jì)算模式層各單元的輸出之和,算得式(4)的分母,稱為分母單元;輸出層單元將加和層分子、分母單元的輸出相除,算得y的估算值。

4.3.2 GRNN的輸入輸出參數(shù)

以語(yǔ)句的PAD值、音節(jié)的聲調(diào)信息和位置信息作為GRNN的輸入?yún)?shù),以音節(jié)基頻包絡(luò)的五度字調(diào)模型參數(shù)和音節(jié)的時(shí)長(zhǎng)、停頓時(shí)長(zhǎng)作為GRNN的輸出參數(shù),設(shè)計(jì)了如圖2所示的情感語(yǔ)音韻律預(yù)測(cè)模型。GRNN的輸入?yún)?shù)和輸出參數(shù)見表3和表4。

圖2 GRNN情感語(yǔ)音韻律預(yù)測(cè)模型圖

表4 GRNN的輸出參數(shù)

5 實(shí)驗(yàn)結(jié)果

5.1 五度字調(diào)基頻模型的性能評(píng)測(cè)

為了能夠更加精確地構(gòu)建基于GRNN的情感語(yǔ)音韻律轉(zhuǎn)換模型,在訓(xùn)練GRNN模型之前,利用五度字調(diào)模型轉(zhuǎn)換了所有情感音節(jié)的基頻曲線,建立了各個(gè)音節(jié)的基頻模型。圖3示例了一句語(yǔ)音的原始基頻曲線和五度字調(diào)模型生成的基頻曲線。圖中,虛點(diǎn)曲線代表原始基頻曲線,實(shí)線曲線代表五度字調(diào)模型生成的基頻曲線。原始的基頻曲線利用STRAIGHT算法計(jì)算獲得。從圖中可以看出,五度字調(diào)模型產(chǎn)生的基頻曲線能夠很好地逼近原始基頻曲線,而且比原始基頻曲線更為光滑。

圖3 語(yǔ)料10在焦慮情感下兩種算法基頻曲線對(duì)比圖

表3 GRNN的輸入?yún)?shù)

為了進(jìn)一步檢驗(yàn)五度字調(diào)模型對(duì)音節(jié)基頻包絡(luò)的建模性能,文中計(jì)算了五度字調(diào)模型產(chǎn)生的基頻曲線與原始基頻曲線之間的均方根誤差(Root-Mean-Square Error,RMSE),如表5所示。RMSE的計(jì)算如式(5)所示:

其中,di為測(cè)量值與平均值的偏差,其中i=1,2,…,n。

表5列出了五度字調(diào)模型對(duì)不同情感的音節(jié)基頻包絡(luò)建模的RMSE值,從表中可以看出,恐懼情感的誤差最大,放松情感的誤差最小,但最大誤差不超過(guò)6.9 Hz。因此,五度字調(diào)模型能夠滿足對(duì)基頻曲線建模的要求。

表5 五度字調(diào)模型對(duì)各類情感的基頻包絡(luò)建模的RMSE

5.2 GRNN預(yù)測(cè)模型的性能評(píng)測(cè)

按照本文模型的轉(zhuǎn)換框架,在訓(xùn)練階段,將實(shí)驗(yàn)語(yǔ)料的4/5,用于GRNN模型的訓(xùn)練中。在對(duì)該模型進(jìn)行了多次的訓(xùn)練并利用交叉驗(yàn)證的方法后,尋找得到了在spread值為0.7時(shí),模型達(dá)到了最優(yōu)狀態(tài)。在此基礎(chǔ)上,將剩余的1/5實(shí)驗(yàn)語(yǔ)料作為測(cè)試數(shù)據(jù),應(yīng)用于訓(xùn)練階段得到的GRNN模型中,預(yù)測(cè)得到了相應(yīng)情感語(yǔ)句的五度字調(diào)模型參數(shù)、時(shí)長(zhǎng)和停頓時(shí)長(zhǎng),并利用五度字調(diào)模型生成了音節(jié)的基頻包絡(luò)。圖4和圖5分別顯示了恐懼和焦慮情感下的預(yù)測(cè)結(jié)果,其文本內(nèi)容為“去忙你的事情吧!”。從圖中可以看出,預(yù)測(cè)得到的基頻曲線范圍及其走勢(shì)都比較接近原始的情感語(yǔ)音。

圖4 原始恐懼情感曲線與預(yù)測(cè)恐懼情感曲線對(duì)比圖

圖5 原始焦慮情感曲線與預(yù)測(cè)焦慮情感曲線對(duì)比圖

為了進(jìn)一步觀察GRNN模型的性能,利用式(5)計(jì)算了預(yù)測(cè)的基頻、時(shí)長(zhǎng)和停頓時(shí)長(zhǎng)的RMSE值,如表6所示。

表6 GRNN模型預(yù)測(cè)的基頻、時(shí)長(zhǎng)和停頓時(shí)長(zhǎng)的RMSE

同時(shí),為了進(jìn)一步驗(yàn)證GRNN的性能,對(duì)模型預(yù)測(cè)值和原始值進(jìn)行了相關(guān)分析,如表7所示。

表7 11種情感下所有特征相關(guān)系數(shù)的平均值

表7中,R為相關(guān)系數(shù),當(dāng)R=1時(shí),為完全相關(guān)。從中可以看到中性、放松、溫順、焦慮等情感,在模型中所有預(yù)測(cè)特征達(dá)到了較好的相關(guān)。

5.3 轉(zhuǎn)換結(jié)果的主觀評(píng)測(cè)

采用情感平均評(píng)定得分(Emotion Mean Opinion Score,EMOS),對(duì)轉(zhuǎn)換后的情感語(yǔ)音進(jìn)行主觀評(píng)測(cè)。EMOS評(píng)測(cè)方法主要側(cè)重于對(duì)情感表達(dá)程度的評(píng)測(cè),它用5級(jí)評(píng)分標(biāo)準(zhǔn)來(lái)評(píng)價(jià)變換后語(yǔ)音相對(duì)于原始語(yǔ)音而言情感表達(dá)的相似度。EMOS評(píng)測(cè)將語(yǔ)音質(zhì)量分為優(yōu)、良、中、差和劣5個(gè)等級(jí),各等級(jí)分別給以5分、4分、3分、2分、1分的權(quán)值。在實(shí)驗(yàn)中,選擇了10名從未接觸過(guò)EMOS打分的本科生,五男五女。將實(shí)驗(yàn)轉(zhuǎn)換得到的440句語(yǔ)句,每人從中隨機(jī)選取110句進(jìn)行評(píng)測(cè)。在評(píng)測(cè)時(shí),首先播放原始情感語(yǔ)音,作為自然語(yǔ)音的標(biāo)準(zhǔn),該語(yǔ)音的EMOS得分為5分,然后根據(jù)被測(cè)試語(yǔ)音的情感相似度進(jìn)行EMOS打分。最后,將各聽音人對(duì)所評(píng)測(cè)語(yǔ)音的打分結(jié)果平均后計(jì)算出最終的EMOS得分,并且計(jì)算了其95%的置信區(qū)間,如圖6所示。

圖6 EMOS主觀評(píng)測(cè)結(jié)果及95%置信區(qū)間

從圖6中可以分析發(fā)現(xiàn),類似于輕蔑、恐懼、悲傷和憤怒等一些典型情感的體現(xiàn),其不僅僅是在其韻律特征上,而是更注重語(yǔ)音、面部表情、心理等多方面綜合的反映。如果僅用語(yǔ)音的一些聲學(xué)韻律特征,還不能夠較為充分地體現(xiàn)其相應(yīng)的情感成分的。所以,才導(dǎo)致了部分典型情感的EMOS得分偏低的結(jié)果。

6 結(jié)論

通過(guò)PAD三維情緒模型以及基于五度字調(diào)模型的基頻建模,利用GRNN神經(jīng)網(wǎng)絡(luò)建立了一個(gè)人不同情感語(yǔ)音轉(zhuǎn)換的韻律特征模型,最終得到了其相應(yīng)的情感語(yǔ)音。實(shí)驗(yàn)表明,在語(yǔ)料庫(kù)數(shù)據(jù)較少的情況下,從聽音測(cè)試結(jié)果顯示了本文所給出的轉(zhuǎn)換方法還是一個(gè)比較可行的方法。但是,由于情感語(yǔ)音的變化不僅僅體現(xiàn)在基頻的變化上,因此,還需要加入其他一些語(yǔ)音參數(shù)進(jìn)行設(shè)置深入分析。進(jìn)一步的工作包括將PAD三維情緒模型應(yīng)用于統(tǒng)計(jì)參數(shù)語(yǔ)音合成,實(shí)現(xiàn)基于HMM的情感語(yǔ)音合成。

[1]蔡蓮紅,賈珈,鄭方.言語(yǔ)信息處理的進(jìn)展[J].中文信息學(xué)報(bào),2011,25(6):137-141.

[2]Zen H,Tokuda K,Black A W.Statistical parametric speech synthesis[J].Speech Communication,2009,51(11):1039-1064.

[3]蔡蓮紅,崔丹丹,蔡銳.漢語(yǔ)普通話語(yǔ)音合成語(yǔ)料庫(kù)TH-CoSS的建設(shè)和分析[J].中文信息學(xué)報(bào),2007,21(2):94-99.

[4]YamagishiJ,KobayashiT,NakanoY,etal.Analysisof speaker adaptation algorithms for HMM-based speech synthesis and a constrained SMAPLR adaptation algorithm[J]. IEEE Transactions on Audio,Speech,and Language Processing,2009,17(1):66-83.

[5]Nose T,Tachibana M,Kobayashi T.HMM-based style control for expressive speech synthesis with arbitrary speaker's voice using modeladaptation[J].IEICE Trans on Inf& Syst,2009,E92-D(3):489-497.

[6]徐俊,蔡蓮紅.面向情感轉(zhuǎn)換的層次化韻律分析與建模[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2009,49(S1):1274-1277.

[7]YangHongwu,MengH M,CaiLianhong.Modelingthe acousticcorrelatesof expressiveelementsin text genres for expressive text-to-speech synthesis[C]//Proceedings of International Conference on Spoken Language Processing. Pittsburg,USA:[s.n.],2006:1806-1809.

[8]Wu Zhiyong,Meng H M,Yang Hongwu,et al.Modeling the expressivity of input text semantics for chinese text-to-speech synthesisin a spoken dialog system[J].IEEE Transactions on Audio,Speech,and Language Processing,2009,17(8):1567-1577.

[9]崔丹丹.情感語(yǔ)音分析與變換的研究[D].北京:清華大學(xué),2007.

[10]周慧,楊鴻武,蔡蓮紅.基于SVR的情感語(yǔ)音變換[J].西北師范大學(xué)學(xué)報(bào):自然科學(xué)版,2009,45(1):62-66.

[11]Guo Weitong,Yang Hongwu,Pei Dong,et al.Prosody conversion of Chinese northwest mandarin dialect based on five degree tone model[J].International Journal of Digital ContentTechnology and its Applications,2012,6(17):323-332.

[12]Kawahara H,Masuda-Katsuse I,de Cheveigne A.Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction:possible role of a repetitive structure in sounds[J]. Speech Communication,1999,27(3/4):187-207.

[13]Cowie R,Cornelius R R.Describing the emotional states thatare expressed in speech[J].Speech Communication,2003,40:5-32.

[14]Mehrabian A.Correlations of the PAD emotion scales with self-reported satisfaction in marriage and work[J].Genet Soc Gen Psychol Monogr,1998,124(3).

[15]楊鴻武,王曉麗,陳龍,等.基于語(yǔ)法樹高度的漢語(yǔ)韻律短語(yǔ)預(yù)測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(36):139-143.

[16]Li Xiaoming,Zhou Haotian.The reliability and validity of the Chinese version of abbreviated PAD emotion scales[J]. Affective Computing and Intelligent Interaction,2005,3784 (1):513-518.

LU Xiaoyong1,YANG Hongwu2,GUO Weitong2,PEI Dong2

1.College of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070,China 2.College of Physics and Electronic Engineering,Northwest Normal University,Lanzhou 730070,China

This paper proposes a framework for prosody conversion of emotional speech based on PAD three dimensional emotion model.It designs an emotional speech corpus including 11 kinds of emotional utterances.Each utterance is labelled the emotional information with PAD value.A five-scale tone model is employed to model the pitch contour of emotional speech at the syllable level.It builds a Generalized Regression Neural Network(GRNN)based prosody conversion model to realize the transformation of pitch contour,duration and pause duration of emotional speech according to the PAD values of emotion and context information of text.Speech is then re-synthesized with the STRAIGHT algorithm by modifying pitch contour,duration and pause duration.Experimental results on Emotional Mean Opining Score(EMOS)demonstrate that the modified speeches achieve 3.6 of average Emotional Mean Opining Score(EMOS).

PAD emotion model;five degree tone model;Generalized Regression Neural Network(GRNN);STRAIGHT algorithm;prosody conversion

提出了一種基于PAD三維情緒模型的情感語(yǔ)音韻律轉(zhuǎn)換方法。選取了11種典型情感,設(shè)計(jì)了文本語(yǔ)料,錄制了語(yǔ)音語(yǔ)料,利用心理學(xué)的方法標(biāo)注了語(yǔ)音語(yǔ)料的PAD值,利用五度字調(diào)模型對(duì)情感語(yǔ)音音節(jié)的基頻曲線建模。在此基礎(chǔ)上,利用廣義回歸神經(jīng)網(wǎng)絡(luò)(Generalized Regression Neural Network,GRNN)構(gòu)建了一個(gè)情感語(yǔ)音韻律轉(zhuǎn)換模型,根據(jù)情感的PAD值和語(yǔ)句的語(yǔ)境參數(shù)預(yù)測(cè)情感語(yǔ)音的韻律特征,并采用STRAIGHT算法實(shí)現(xiàn)了情感語(yǔ)音的轉(zhuǎn)換。主觀評(píng)測(cè)結(jié)果表明,提出的方法轉(zhuǎn)換得到的11種情感語(yǔ)音,其平均EMOS(Emotional Mean Opinion Score)得分為3.6,能夠表現(xiàn)出相應(yīng)的情感。

PAD情緒模型;五度字調(diào)模型;廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN);STRAIGHT算法;韻律轉(zhuǎn)換

A

TP391

10.3778/j.issn.1002-8331.1211-0193

LU Xiaoyong,YANG Hongwu,GUO Weitong,et al.Prosody conversion of emotional speech based on PAD three dimensional emotion model.Computer Engineering and Applications,2013,49(5):230-235.

國(guó)家自然科學(xué)基金(No.61263036,No.60875015);甘肅省自然科學(xué)基金(No.1107RJZA112,No.1208RJYA078)。

魯小勇(1982—),男,講師,主研方向:語(yǔ)音合成;楊鴻武,通訊作者,男,博士,教授;郭威彤,女,助教;裴東,男,副教授。E-mail:yanghw@nwnu.edu.cn

2012-11-19

2013-01-14

1002-8331(2013)05-0230-06

猜你喜歡
基頻韻律音節(jié)
語(yǔ)音同一認(rèn)定中音段長(zhǎng)度對(duì)基頻分析的影響
基于時(shí)域的基頻感知語(yǔ)音分離方法?
橋面鋪裝層對(duì)中小跨徑橋梁基頻影響分析
拼拼 讀讀 寫寫
春天的韻律
基于閱讀韻律的高中英語(yǔ)默讀朗讀教學(xué)實(shí)踐
韻律之美——小黃村
45000kHz基頻晶體濾波器
藏文音節(jié)字的頻次統(tǒng)計(jì)
韻律
肥东县| 唐河县| 彰化市| 岱山县| 余干县| 福州市| 崇文区| 邵阳县| 方山县| 永善县| 五台县| 西林县| 新沂市| 乳山市| 曲靖市| 曲阜市| 雷山县| 西和县| 积石山| 南投市| 易门县| 江油市| 察雅县| 镇原县| 两当县| 醴陵市| 武鸣县| 闵行区| 安康市| 始兴县| 江山市| 科尔| 苍山县| 湘西| 惠安县| 凯里市| 宣武区| 来安县| 西昌市| 曲靖市| 大荔县|