阿依提拉·米吉提,艾斯卡爾·肉孜,艾斯卡爾·艾木都拉
(1.新疆大學信息科學與工程學院,新疆烏魯木齊830046;2.新疆大學數(shù)學與系統(tǒng)科學學院,新疆烏魯木齊830046)
語音是最理想的人機交互方式之一,而語音合成技術則是實現(xiàn)語音人機交互的基礎。情感語音合成作為一個新的研究方向正受到眾多研究者的越來越的關注。從語音信號中提取情感特征,判斷說話人的喜怒哀樂,是一個新興的研究領域[1]。研究情感語音合成的目的是要使合成語音聽起來更自然,更有表現(xiàn)力和人情味[2]。
語音的情感信息研究因為不同語種之間的各種差別,研究進展也不盡相同。英語,日語,德語等語種的語音情感處理都有了較豐富的研究。在美國,80年代初就有M1T的Cahn寫出了一個用來描述發(fā)音的計算機程序來合成有50%的識別率的六種語音情感。在歐洲,啟動了 PHYSTA(Principled Hybrid Systems and Their Application)項目,用于開發(fā)一個能從面部和語音來識別情感的系統(tǒng)。在日本,ATR實驗室對人類語音交流中的情感等非音段信息進行深入分析,并錄制和標注了大量的語音數(shù)據(jù)。最近幾年來,國內(nèi)對漢語語音的情感處理也進行了一些研究。清華大學和中科院心理所合作,將人機交互技術與心理、認知科學相結(jié)合,在情感語音計算和處理領域邁出了新的探索的步伐。中國科學院自動化研究所,東南大學,微軟亞洲研究院分別有了成果,中國臺灣的許多大學和研究所也對其進行了研究[3-4]。
而維吾爾語的情感分析和處理還處于初級階段,要進一步地研究。目前,在維吾爾語情感語音合成系統(tǒng)中主要實現(xiàn)了將書面語言轉(zhuǎn)換成口語輸出,達到了語音詞匯傳達的準確性,而忽略了包含在語音信號中的情感因素。語音合成的可懂度,清晰度已經(jīng)基本解決了,只不過缺乏豐富的語氣,語速變化,所以聽起來單調(diào)之味,很大程度上阻礙了維吾爾語語音合成的廣泛應用[5]。研究維吾爾語情感語音合成涉及到維吾爾語情感語音數(shù)據(jù)庫建設,情感韻律特征分析及建模,情感轉(zhuǎn)換等研究領域[6]。
建立情感語音數(shù)據(jù)庫是情感建模,情感語音合成的基礎。文中首先選擇了維吾爾語中的情感類別,主要是選了高興,生氣,中性三種情感,總共收集了600個句子。
目前維吾爾語情感語音庫的建立工作包括如圖1所示的4個步驟。
圖1 情感語音庫建設流程Fig.1 Construction process of emotional speech database
第一步:首先要收集有助于發(fā)音人的朗讀和情感表達的、豐富的文本語料。結(jié)合韻律環(huán)境的音節(jié)、音素和情感類別覆蓋率為目標,從中選取具有代表性的句子文本。然后針對不同的情感類別對選取的句字文本進行了字面上的修改。修改時要求修改后的文本能夠更好的從文本上體現(xiàn)目標情感。
第二步:對收集好的文本句子進行語音錄制,10個發(fā)音人員(5男,5女)對語料進行情感語音錄制,語音采樣率為16 kHz,采樣精度為16 bit。
第三步:維吾爾語韻律結(jié)果一般分為語句,語調(diào)短語,韻律短語,韻律詞,單詞,音節(jié),音素總共7層,對語料進行7層自動標注,然后進行手工修改(如圖2所示)。
圖2 維吾爾語的韻律結(jié)構Fig.2 Uyghur prosodic structure
第四步:從以上的語音標注數(shù)據(jù)中提取每一個音節(jié)的6個韻律特征參數(shù)和19個語境信息。
文中利用STRAIGHT參數(shù)合成算法進行中性語音和情感語音特征參數(shù)的提取,分析和建模。STRAIGHT是一種針對語音信號的高性能的算法[7],它通過對語音短時譜進行時頻域的自適應內(nèi)插平滑來提去除基頻影響的語音信號精確地譜包絡,并能在恢復語音的過程中進行時長,基頻及譜參數(shù)的調(diào)整。
從以上的語音標注數(shù)據(jù)中提取與情感表達關系最為密切的短時平均能量(E)、音段時長(T)、基頻最大值(fp,max)、基頻最小值(fp,min)、基頻均值(favg)與基頻范圍(frange)這6個韻律特征作為分析與建模的對象。
文中利用每個句子的wav文件和textgrid文件來進行提取參數(shù),用STRAIGHT來提取了每一個句子中的各個音節(jié)的語音參數(shù),還有提取了每一個音節(jié)的19個特征(語境信息)。然后c#里面寫程序合并了6個參數(shù)和19個特征。
利用STRAIGHT來提取的每個音節(jié)的19個語境信息和6個參數(shù)來進行情感建模,實驗中利用分類回歸樹(CART)算法[8],建立中性和情感特征參數(shù)之間的映射關系。輸入要合成語音的語言層信息和中性語音的參數(shù),能生成不同種類的情感語音的韻律特征參數(shù)?;贑ART的情感語音韻律生成模型如圖3所示。
圖3 基于CART的情感語音韻律生成模型Fig.3 CART-based generation model of emotional speech prosody
提取參數(shù)完后,在Linux環(huán)境下用wagon建模步驟是:先在Linux下安裝Speech toll語音工具,安裝過程中生成了wagon和wagon_test可執(zhí)行文件,然后選取要訓練的數(shù)據(jù),比如:選取十個句子的特征和參數(shù),用wagon進行建模,生成決策樹,得到每種參數(shù)的tree文件。下一步要選取測試的數(shù)據(jù)(訓練數(shù)據(jù)和測試數(shù)據(jù)的格式一定要一致)然后用wagontest來預測測試數(shù)據(jù)的語音參數(shù)。
對6個情感韻律特征在音節(jié)層上分別進行了決策樹建模,所用到的語境信息如下:
音節(jié)的19個特征:
1)音節(jié)拼音。
2)音節(jié)類型。
3)元音個數(shù)。
4)輔音個數(shù)。
5)前一個音節(jié)。
6)后一個音節(jié)。
7)當前音節(jié)到句首的音節(jié)數(shù)。
8)當前音節(jié)到句尾的音節(jié)數(shù)。
9)當前音節(jié)到句首的韻律短語數(shù)。
10)當前音節(jié)到句尾的韻律短語數(shù)。
11)當前音節(jié)到韻律短語首的音節(jié)數(shù)。
12)當前音節(jié)到韻律短語尾的音節(jié)數(shù)。
13)當前音節(jié)在語法詞中的絕對位置。
14)當前音節(jié)所在的語法詞到句首的單詞數(shù)。
15)當前音節(jié)所在的語法詞到句尾的單詞數(shù)。
16)當前單詞所在語法詞的音節(jié)數(shù)。
17)當前單詞所在語法詞的前綴音節(jié)數(shù)。
18)當前單詞所在語法詞的詞干音節(jié)數(shù)。
19)當前單詞所在語法詞的詞綴音節(jié)數(shù)。
為了驗證所提取情感韻律特征的完整性,文中首先對每個情感類別單獨進行了韻律特征建模與模型性能的測試實驗。測試中,采用了開放測試和封閉測試方法。
開放測試中,每種情感語音數(shù)據(jù)的80%用于建模訓練,其余的20%用于為模型測試。表1給出了開放測試的結(jié)果。
表1 開放測試結(jié)果的平均誤差值Table 1 Average error in open test results
從表1可以看出,高興和生氣情感具有相同的趨勢,其中基頻最小值的預測誤差最小,其次是基頻范圍,基頻均值,最大值的誤差還比較大。中性情感的基頻均值,最大值和最小值的誤差比較大。
封閉測試中,對收集的全部數(shù)據(jù)進行訓練,然后對一部分數(shù)據(jù)進行測試。表2給出了封閉測試結(jié)果。
表2 封閉測試結(jié)果的平均誤差值Table 2 Average error in closed test result
從表2可以看出,高興,生氣,中性三種情感中高興情感的誤差比較大。其中基頻范圍,最大值,基頻均值的誤差變化最明顯。中性情感和生氣情感的預測誤差比較小。
總體來看,模型測試2的效果比較好,預測誤差最小,預測出來的參數(shù)值很接近原來的參數(shù)值。對三種情感,其中中性情感的預測誤差最小。
為了驗證所提取情感韻律特征的完整性,文中再按照語句和音節(jié)級別來分別對中性向其它兩種情感的轉(zhuǎn)化特征進行了建模。
首先,以語句作為單位,由中性轉(zhuǎn)為兩種情感時的變化情況如表3所示。
表3 情感韻律特征在語句級別的變化情況Table 3 Changes of affective prosody at the statement level
從表3可以看出,在語句級別,高興情感的韻律特征變化主要體現(xiàn)在基頻均值的提高上,相應的時長,能量,基頻最大值,最小值有所減少,其中最為顯著。生氣情感的時長和能量有所減少,最明顯的是能量急劇下降。其他的基頻均值,最大最小值有所提高。
其次,以音節(jié)為單位,由中性轉(zhuǎn)為兩種情感特征的變化情況如表4所示。
表4 情感韻律特征在音節(jié)級別的變化情況Table 4 Changes of affective prosody at syllable level
從表4可以看出,生氣和高興的變化趨勢一樣,時長和能量有所減少,基頻均值,最大最小值,范圍都是有所提高。
文中對高興,生氣,中性3種情感在語句和音節(jié)級別上進行分析,利用STRAIGHT算法提取了每個音節(jié)的韻律參數(shù),通過分類回歸(CART)算法來建立了韻律預測模型。從實驗結(jié)果看出中性情感的預測誤差最小,因為中性情感的數(shù)據(jù)(句子數(shù))多,所以進行測試時效果也好。高興情感與生氣情感的誤差比較大,是因為收集的數(shù)據(jù)少。下一步擴大語料庫,增加數(shù)據(jù),按照所提取的情感特征能更準確地區(qū)分各個情感類型。
[1] 徐俊,蔡連紅.面向情感轉(zhuǎn)換的層次化韻律分析與建模[J].清華大學學報:自然科學版,2009,49(SI):1274-1277.XU Jun,CAI Lian-h(huán)ong.Emotion-oriented Hierarchical Prosody Conversion Analysis and Modeling[J].Journal of Tsinghua University(Science and Technology),2009,49(SI):1274-1277.
[2] 吳義堅.基于隱馬爾科夫模型的語音合成技術研究[D].合肥:中國科學技術大學,2006.WU Yi-jian.Hidden Markov Model-base Speech Synthesis Technology Research[D].Hefei:Chinese Academy of Sciences,University of Science and Technology,2006.
[3] 王寧.采用Pitch Target模型與韻律參數(shù)調(diào)整的語音情感轉(zhuǎn)換[D].蘇州:蘇州大學,2012,WANG Ning.Using Pitch Target Model and Emotional Speech Prosody Conversion Parameter Adjustment[D].Suzhou:Suzhou University Master's Degree Thesis,2012.
[4] 周浩.基于高斯混合模型的情感語音轉(zhuǎn)換[C]//2011年度中國西部聲學學術交流會論文集.寧夏,銀川:出版者不詳,2011.ZHOU Hao.Gaussian Mixture Model based on Emotional Speech Conversion[C]//2011 China Western Acoustics Symposium.Yinchuan,Ningxia,2011.
[5] 姑麗加瑪麗·麥麥提艾力、艾斯卡爾·艾木都拉.面向提高自然度的維吾爾語音合成關鍵技術研究[D].烏魯木齊:新疆大學,2012.Guljamal Mamaitili,ASKAR Hamdulla.Key Technology Research for Improving Speech Synthesis Naturalness of Uyghur.[D].Urumqi:Xinjiang University PhD thesis,2012.
[6] 艾斯卡爾·肉孜、艾斯卡爾·艾木都拉.基于HMM的維吾爾語音合成系統(tǒng)的研究與實現(xiàn)[D].烏魯木齊:新疆大學,2008.ASKAR Rozi,ASKAR Hamdulla.Research and Implementation of HMM-based Uyghur speech synthesis system[D].Urumqi:Xinjiang University Master's Degree Thesis,2008.
[7] KAWAHARA H.STRAIGHT-TEMPO:A Universal Tool to Manipulate Linguistic and Para-Linguistic Speech Information[C]//IEEE International Conference on Systems,Man,and Cybernetics.[s.l.]:IEEE,1997.
[8] TAO Jianhua,KANG Yongguo,LI Aijun.Prosody Conversion from Neutral Speech to Emotional Speech[J].IEEE Transactions on Audio,Speech& Language Processing,2006,14(04):1145-1154.