国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

離散標(biāo)簽與維度空間結(jié)合的語(yǔ)音數(shù)據(jù)庫(kù)設(shè)計(jì)

2018-10-11 02:25:32陳穎肖仲喆
聲學(xué)技術(shù) 2018年4期
關(guān)鍵詞:效價(jià)標(biāo)準(zhǔn)差錄音

陳穎,肖仲喆

?

離散標(biāo)簽與維度空間結(jié)合的語(yǔ)音數(shù)據(jù)庫(kù)設(shè)計(jì)

陳穎,肖仲喆

(蘇州大學(xué)光電信息科學(xué)與工程學(xué)院,江蘇蘇州 215006)

建立了一個(gè)將離散情感標(biāo)簽與維度情感空間結(jié)合起來(lái)的漢語(yǔ)情感語(yǔ)音數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)由16名母語(yǔ)為漢語(yǔ)的說(shuō)話人對(duì)情感語(yǔ)音進(jìn)行表演型錄制。語(yǔ)音樣本是根據(jù)中性、愉悅、高興、沮喪、憤怒、哀傷,以及悲傷等七種離散的情感標(biāo)簽采集而得,每名說(shuō)話人有336條語(yǔ)音樣本。隨后由三名標(biāo)注人在維度空間上對(duì)每條語(yǔ)音樣本進(jìn)行標(biāo)注。最后,根據(jù)標(biāo)注所得的數(shù)據(jù)來(lái)研究這七種情感在維度空間的分布情況,并分析了情感在一致性、集中性和差異性方面的性能。除此以外,還計(jì)算了這七種情感的情感識(shí)別率。結(jié)果顯示,三名標(biāo)注人對(duì)該數(shù)據(jù)庫(kù)標(biāo)注的一致性都達(dá)到了80%以上,情感之間的可區(qū)分度較高,并且七種情感的情感識(shí)別率均高于基線水平。因此,該數(shù)據(jù)庫(kù)具有較好的情感質(zhì)量,能夠?yàn)殡x散情感標(biāo)簽到維度情感空間的轉(zhuǎn)化提供重要的研究依據(jù)。

離散情感標(biāo)簽;維度情感空間;漢語(yǔ);情感識(shí)別

0 引言

語(yǔ)言是人類交換信息最方便、最快捷的一種方式。人類之所以能夠通過(guò)聆聽(tīng)語(yǔ)音,捕捉到對(duì)方的情感狀態(tài),是因?yàn)檎Z(yǔ)音不僅包含有語(yǔ)義信息,還攜帶了人類所要傳達(dá)的情感信息[1]。情感語(yǔ)音數(shù)據(jù)庫(kù)是實(shí)現(xiàn)情感語(yǔ)音識(shí)別和合成的重要基石,因此,越來(lái)越多的研究者們開(kāi)始致力于對(duì)情感語(yǔ)音數(shù)據(jù)庫(kù)的研究。如何建立一個(gè)情感自然、表達(dá)流暢的情感語(yǔ)音數(shù)據(jù)庫(kù)逐漸成為了國(guó)內(nèi)外的研究熱點(diǎn)。在國(guó)外,已經(jīng)有很多機(jī)構(gòu)建立了相關(guān)的情感語(yǔ)音數(shù)據(jù)庫(kù)[2],如:德語(yǔ)電視談話節(jié)目“Vera am Mittag”現(xiàn)場(chǎng)錄制保存的語(yǔ)料庫(kù)(The Vera am Mittag Corpus, VAM)[3],面向自然人機(jī)交互和人工智能研究的Semaine 數(shù)據(jù)庫(kù)[4],柏林工業(yè)大學(xué)錄制的德語(yǔ)情感語(yǔ)音庫(kù) (The Berlin Emotional Speech Database, Emo-DB)[5],以及由Queen大學(xué)Cowie R和Cowie E錄制的Belfast情感數(shù)據(jù)庫(kù)[6]等。近些年,國(guó)內(nèi)的眾多高校也建成了大規(guī)模的情感語(yǔ)料庫(kù)。例如北京航空航天大學(xué)建立的雙模情感語(yǔ)音數(shù)據(jù)庫(kù)[7]、東南大學(xué)建立的實(shí)用情感語(yǔ)料庫(kù)[8]、清華大學(xué)的面向情感變化檢測(cè)的漢語(yǔ)情感語(yǔ)音數(shù)據(jù)庫(kù)(Chinese Emotional Speech Database, CESD)數(shù)據(jù)庫(kù)[9]以及中國(guó)科學(xué)院自動(dòng)化研究所所錄制的漢語(yǔ)情感語(yǔ)音數(shù)據(jù)庫(kù)(The Chinese Academy of Sciences’ Institute of Automation Corpus, CASIA)[10]等。上述語(yǔ)料庫(kù)的情感收集、誘發(fā)方式、規(guī)模大小以及情感狀態(tài)各不相同,以滿足不同的情感研究。

依據(jù)情感描述模型的差異,情感描述方式被大致分為離散和維度兩種形式。前者是用離散的情感標(biāo)簽(如高興、悲傷、生氣等)來(lái)描述情感,目前的離散情感語(yǔ)料庫(kù)較多,如Emo-DB,Belfast,CESD,CASIA等;而后者以連續(xù)的實(shí)數(shù)坐標(biāo)值來(lái)表示情感,它認(rèn)為不同情感之間的轉(zhuǎn)換是平滑的、逐漸的,可以使用不同的情感在維度空間的距離來(lái)表示其相似性和差異性[11],目前維度情感數(shù)據(jù)庫(kù)只占少數(shù),如VAM,Semaine等。

不同的語(yǔ)料庫(kù)采用的情感標(biāo)簽也各有不同。例如宋靜等[12]建立的情感語(yǔ)料庫(kù)包含了高興、驚奇、悲傷、生氣這四種不同的情感;陳浩等[13]建立的情感語(yǔ)料庫(kù)包含正常、喜悅、憂傷、憤怒等情感;黃程韋等[8]設(shè)計(jì)了包含煩躁、緊張、喜悅、平靜這四種情感的語(yǔ)料庫(kù)。上述的離散情感數(shù)據(jù)庫(kù)包括的情感類型都具有單一、易辨識(shí)的特點(diǎn)。而生活中的自然情感往往是多樣、復(fù)雜且模糊的,人們對(duì)某一情感的表達(dá)可以有若干程度的體現(xiàn),例如對(duì)于悲傷情感,人們可以表現(xiàn)為郁郁寡歡、愁眉不展甚至是痛哭流涕。維度情感空間更能對(duì)自然狀態(tài)下模糊、復(fù)雜的情感進(jìn)行描述和區(qū)分,可以更加直觀、精確地展現(xiàn)出語(yǔ)音所包含的情感信息以及各情感間的聯(lián)系與區(qū)別[14]。

為探索離散情感標(biāo)簽與維度空間模型之間的聯(lián)系,本文建立了一個(gè)將離散情感標(biāo)簽與維度情感空間結(jié)合起來(lái)的漢語(yǔ)情感語(yǔ)音數(shù)據(jù)庫(kù)。該語(yǔ)料庫(kù)將除中性情感以外的三種情感(憤怒、高興、悲傷)分別設(shè)定了強(qiáng)弱兩類,共包含七種情感的語(yǔ)音樣本。其錄制過(guò)程是采用離散情感標(biāo)簽進(jìn)行表演型錄制,但情感的標(biāo)注工作是標(biāo)注人將其對(duì)語(yǔ)音樣本的聽(tīng)覺(jué)感知轉(zhuǎn)化為效價(jià)度/喚醒度(Valence/Arousal, VA)空間中某個(gè)具體的坐標(biāo)值。因此,本文設(shè)計(jì)的語(yǔ)料庫(kù)不僅從離散的角度描述了情感類型,還從維度情感的角度來(lái)分析了語(yǔ)音庫(kù)中的情感內(nèi)容,為以后的研究提供了重要的參考依據(jù)。

1 情感語(yǔ)音數(shù)據(jù)的設(shè)計(jì)

1.1 情感的選擇

在人們的日常交流過(guò)程中,語(yǔ)音包含了豐富的情感信息。但有些情感狀態(tài)應(yīng)用得更加廣泛、更具有研究?jī)r(jià)值,這樣的情感被歸結(jié)為基本情感類別[2]。

在情感語(yǔ)音早期研究中,Ververidis D等[15]對(duì)早期的32個(gè)情感語(yǔ)音數(shù)據(jù)庫(kù)進(jìn)行了回顧,這32個(gè)數(shù)據(jù)庫(kù)涉及的語(yǔ)言類型廣泛,包括英語(yǔ)、德語(yǔ)、日語(yǔ)、荷蘭語(yǔ)、西班牙語(yǔ)、丹麥語(yǔ)、希伯來(lái)語(yǔ)、瑞典語(yǔ)、漢語(yǔ),以及俄語(yǔ)等,并且每個(gè)語(yǔ)音庫(kù)包含的情感類別以及數(shù)量各有差異。對(duì)這32個(gè)情感數(shù)據(jù)庫(kù)中的情感使用情況總結(jié)如表1所示。

表1 數(shù)據(jù)庫(kù)中的情感使用情況

Table 1 The usage of the emotions in these databases

并且此后出現(xiàn)的數(shù)據(jù)庫(kù)[16-18]包含的情感類型都與其類似。因此本文選擇了中性情感以及使用數(shù)量最高的三種情感狀態(tài),分別為生氣(Anger)、悲傷(Sadness)、高興(Happiness),并將這三種情感分為強(qiáng)弱兩類,以分析強(qiáng)弱不同的情感在連續(xù)維度空間上的聯(lián)系。表2所示為所使用的七種情感類型。

表2 情感狀態(tài)

Table 2 Emotional states

1.2 說(shuō)話人的選擇及語(yǔ)料文本的設(shè)計(jì)

語(yǔ)音的錄制由 16 名在校大學(xué)生(8 名男性,8名女性)參與完成。這些學(xué)生的年齡在20~24歲之間,并且都是非表演專業(yè)的人士。參與錄制的說(shuō)話人均以漢語(yǔ)為母語(yǔ),普通話流利,發(fā)音清晰,沒(méi)有咽喉疾病,且錄音當(dāng)天沒(méi)有患感冒等影響發(fā)音的疾病。說(shuō)話人根據(jù)所給定的情感標(biāo)簽,用相應(yīng)的情感朗讀指定的文本語(yǔ)料從而獲得語(yǔ)音樣本,因此該數(shù)據(jù)庫(kù)屬于表演型情感語(yǔ)音數(shù)據(jù)庫(kù)。這種方法錄音的好處在于:一是操作的可行性,該實(shí)驗(yàn)不需要在專業(yè)的錄音棚進(jìn)行操作,在安靜的環(huán)境下,說(shuō)話人便可參與語(yǔ)音的錄制;其二是情感易于分類,因?yàn)檎Z(yǔ)音樣本是由說(shuō)話人根據(jù)給定的情感標(biāo)簽,對(duì)固定的語(yǔ)料文本進(jìn)行朗讀采集而得,所以情感區(qū)分度更高。

對(duì)于文本語(yǔ)料的選擇,應(yīng)遵循以下幾點(diǎn)原則:

(1) 選擇的錄音語(yǔ)句不帶有情感傾向,說(shuō)話人能對(duì)其施加不同的情感進(jìn)行朗讀;

(2) 錄音語(yǔ)句采用口語(yǔ)化的陳述句,并且語(yǔ)句統(tǒng)一采用普通話,不能帶有方言[19];

(3) 錄音語(yǔ)句的長(zhǎng)度要選擇適當(dāng),每個(gè)句子的時(shí)長(zhǎng),按正常的語(yǔ)速讀,要大于1 s,小于5 s;

(4) 所有的句子集中起來(lái),基本涵蓋漢語(yǔ)拼音中的所有聲母和所有韻母,四聲經(jīng)常出現(xiàn),輕聲也在一部分句子中出現(xiàn)。

我們選擇的16句文本語(yǔ)料如表3所示。

表3 文本語(yǔ)料

Table 3 Text corpus

1.3 錄音環(huán)境及軟硬件設(shè)備選擇

錄音地點(diǎn)是在一間空曠的教室里。為了使外界的干擾達(dá)到最小,錄音時(shí)間基本選擇在周末,以減少人員走動(dòng)及喧嘩產(chǎn)生的雜音。錄音使用的設(shè)備包括:戴爾Inspiration N4110筆記本電腦一臺(tái)、鐵三角AHT-SR5頭戴式耳機(jī)一副、鐵三角AT2020麥克風(fēng)一個(gè)[20]。

錄音程序采用Matlab軟件編寫(xiě)。錄音采用44.1 kHz的采樣頻率、16 bits的量化精度、單聲道采樣的音頻格式。錄制的語(yǔ)料保存為.WAV格式。

1.4 數(shù)據(jù)庫(kù)的采集

情感錄音實(shí)驗(yàn)容易受到設(shè)備狀態(tài)、說(shuō)話人心理變化的干擾。為了采集到表達(dá)流暢、情感自然的語(yǔ)音樣本,說(shuō)話人需要熟悉錄音的文本內(nèi)容以及整個(gè)錄制的流程。在正式錄音前,說(shuō)話人需要對(duì)所朗讀的文本內(nèi)容進(jìn)行了解,并進(jìn)行模擬錄音實(shí)驗(yàn)。說(shuō)話人根據(jù)模擬實(shí)驗(yàn)所得到的錄音來(lái)調(diào)整自己的情感狀態(tài)、音量大小,以獲得最佳的發(fā)音狀態(tài),隨后開(kāi)始正式的錄音。

說(shuō)話人根據(jù)圖1錄音界面上的情感標(biāo)簽對(duì)文本進(jìn)行朗讀,即完成該條語(yǔ)音的錄制。每錄完一條語(yǔ)音樣本,說(shuō)話人都需要對(duì)該條語(yǔ)音進(jìn)行回放,以檢查語(yǔ)音是否有噪聲,是否為所期望表達(dá)的情感,以實(shí)現(xiàn)對(duì)語(yǔ)音的及時(shí)補(bǔ)錄。每位說(shuō)話人需要錄制的語(yǔ)音樣本由表3中16句文本內(nèi)容所組成,每句文本需要以7種不同的目標(biāo)情感狀態(tài)進(jìn)行表演錄制,一共錄制三遍,共計(jì)16×7×3=336條語(yǔ)音樣本。因此整個(gè)數(shù)據(jù)庫(kù)共包括16×336=5 376條語(yǔ)音樣本,并且每種情感有16×16×3=768條語(yǔ)音??紤]到在不同的錄音順序下,說(shuō)話人情感表達(dá)會(huì)受到影響。因此將這三遍設(shè)為不同的錄音順序,它們的區(qū)別為:

第一遍:每句文本依次錄制7種情感狀態(tài),錄完后進(jìn)行下一句;

第二遍:每種情感狀態(tài)依次錄制16句文本,錄完后進(jìn)行下一句;

第三遍:隨機(jī)順序。

圖1 錄音界面

2 情感語(yǔ)音的標(biāo)注與分析

2.1 情感語(yǔ)音的標(biāo)注

維度論認(rèn)為多維情感空間基本能夠描述生活中存在的、任意的情感狀態(tài),也就是說(shuō),任一情感狀態(tài)都對(duì)應(yīng)于情感空間中的某一點(diǎn),并且該點(diǎn)的坐標(biāo)值大小能反映該情感在各維度上的強(qiáng)弱程度[1]。目前使用得較為廣泛的情感空間包括效價(jià)度/喚醒度(Valence/Arousal, VA)空間與效價(jià)度/喚醒度/控制度(Valence/Arousal/Dominance, VAD)空間。

本文的標(biāo)注工作是在VA空間上進(jìn)行操作的,如圖2所示。其中,水平軸是效價(jià)度,又稱為愉悅度,體現(xiàn)主體的情感正負(fù)面程度,“Positive”表示愉悅,如高興,“Negative”表示厭惡,如憤怒;垂直軸是喚醒度,也稱為激活度或能量度,它是用來(lái)度量情感激烈程度的,“Active”表示激活度高,如憤怒,“Passive”表示激活度低,如低沉[21]。標(biāo)注在Valence和Arousal兩個(gè)情感維度上進(jìn)行,實(shí)現(xiàn)了離散情感標(biāo)簽到維度情感坐標(biāo)的轉(zhuǎn)變。這樣,標(biāo)注者標(biāo)注的VA空間坐標(biāo)與說(shuō)話人錄制的情感所在的目標(biāo)象限的差異情況將被用于情感發(fā)出者的情感表達(dá)愿望與聽(tīng)者感知差異方面的研究。

圖2 VA空間

由于不同的人對(duì)同一情感語(yǔ)句的認(rèn)知可能不同,因此本實(shí)驗(yàn)選擇三名未參與錄音的人員對(duì)語(yǔ)音進(jìn)行標(biāo)注,標(biāo)注界面如圖3所示。

圖3 標(biāo)注界面

標(biāo)注者通過(guò)聆聽(tīng)隨機(jī)播放的情感語(yǔ)料,再根據(jù)自身的主觀判斷評(píng)價(jià)所聽(tīng)到的語(yǔ)音樣本,將自己對(duì)情感的判斷數(shù)值化,即標(biāo)注為VA空間中某個(gè)具體的坐標(biāo)點(diǎn)。在標(biāo)注完成后,每個(gè)標(biāo)注人所得的標(biāo)注結(jié)果中都包含了5 376個(gè)情感標(biāo)注文件。情感標(biāo)注文件指的是每個(gè)語(yǔ)音樣本對(duì)應(yīng)的二維坐標(biāo)值。我們將標(biāo)注人對(duì)第種情感樣本的標(biāo)注結(jié)果表示為

2.2 主觀分析

為了分析這七種目標(biāo)情感在VA空間的分布情況以及評(píng)估該語(yǔ)音庫(kù)的情感質(zhì)量,對(duì)2.1節(jié)得到的標(biāo)注結(jié)果,分別進(jìn)行了三個(gè)方面的研究:(1) 情感分布;(2) 標(biāo)注人之間的一致性;(3) 情感的集中性與差異性。

2.2.1 情感分布

標(biāo)注完成后,可得到每種情感樣本的坐標(biāo)點(diǎn)在VA空間中所處的范圍,對(duì)于距離大面積分布區(qū)域較遠(yuǎn)的散點(diǎn),將忽略不計(jì)。如圖4所示,使用閉合的橢圓曲線來(lái)包圍每種情感的坐標(biāo)值,每個(gè)橢圓的長(zhǎng)半軸表示該情感數(shù)據(jù)的分布方向。

圖4 情感分布

觀察圖4得到,高興與愉悅基本都處于VA空間的第一象限,因?yàn)樗鼈兊挠鋹偠雀?,激活度高;此外,與高興成縱坐標(biāo)對(duì)稱的是憤怒,憤怒的喚醒值與高興相近,但在效價(jià)維度上離高興較遠(yuǎn);哀傷在VA空間中基本處于第三象限,但比哀傷情感較強(qiáng)的悲傷卻跨越了第二和第三象限,這是因?yàn)楸磉_(dá)悲傷情感時(shí),有的人情緒會(huì)比較激動(dòng),而有的人會(huì)處于低沉的狀態(tài),從而導(dǎo)致悲傷在喚醒度上有較大的浮動(dòng)范圍;沮喪的情感分布與悲傷相似,同樣跨越了二、三象限,但其愉悅度比悲傷高;中性情感的坐標(biāo)值基本都處于原點(diǎn)附近。研究發(fā)現(xiàn),相對(duì)于強(qiáng)烈情感而言,微弱情感的坐標(biāo)更靠近于原點(diǎn)。除此以外,不同情感的分布范圍存在著相互交疊的部分,如高興與愉悅,哀傷與沮喪等。這是由于存在交疊的兩種情感在表達(dá)上具有一定的相似性,因此在情感識(shí)別的應(yīng)用中,容易對(duì)存在交疊的這兩種情感產(chǎn)生誤判。

2.2.2 標(biāo)注人之間的一致性

若三名標(biāo)注人的標(biāo)注結(jié)果具有一定的正相關(guān)性,則說(shuō)明三名標(biāo)注人對(duì)同一條語(yǔ)音的理解具有一致性。因此,兩名標(biāo)注人之間的相關(guān)系數(shù)越接近于1,則這兩個(gè)標(biāo)注人之間的相關(guān)程度越高,該語(yǔ)音庫(kù)的一致性越好;反之,則說(shuō)明該語(yǔ)音庫(kù)的一致性越差。本文計(jì)算了這三名標(biāo)注人標(biāo)注結(jié)果之間的相關(guān)系數(shù),計(jì)算公式如下:

三名標(biāo)注人之間的相關(guān)系數(shù)如表4所示。

表4 標(biāo)注人之間的一致性(相關(guān)系數(shù))

Table 4 Consistencies between the three annotators (correlation coefficients)

無(wú)論在效價(jià)維還是在喚醒維,任意兩名標(biāo)注人之間的相關(guān)系數(shù)都在0.80以上,甚至標(biāo)注人1和標(biāo)注人 3 之間的相關(guān)系數(shù)在效價(jià)維度上達(dá)到了0.955 6。綜合來(lái)看,三名標(biāo)注人之間的相關(guān)性都較好,即聽(tīng)者感知的一致性較好。這表明三名標(biāo)注人在標(biāo)注同一條語(yǔ)音時(shí)理解較為一致,因此該語(yǔ)音庫(kù)的情感質(zhì)量較高。同時(shí),效價(jià)度上的相關(guān)系數(shù)均高于喚醒度上的相關(guān)系數(shù),表明情感在效價(jià)度上的一致性更好。

2.2.3 情感的集中性與差異性

通過(guò)選擇類內(nèi)標(biāo)準(zhǔn)差來(lái)描述這七種情感的集中性。類內(nèi)標(biāo)準(zhǔn)差反映的是一個(gè)數(shù)據(jù)集的離散程度,它是各數(shù)據(jù)偏離平均數(shù)的距離的平均數(shù)。類內(nèi)標(biāo)準(zhǔn)差越大,代表大部分?jǐn)?shù)值和其平均值之間的差異越大;類內(nèi)標(biāo)準(zhǔn)差越小,代表這些數(shù)值越接近平均值,集中性越好。

同類情感坐標(biāo)分布的標(biāo)準(zhǔn)差反映了該情感的離散程度,計(jì)算公式為

由于語(yǔ)音樣本的坐標(biāo)是二維的,因此計(jì)算得到的標(biāo)準(zhǔn)差也是二維的,分別屬于效價(jià)維和喚醒維。得到這七種目標(biāo)情感的標(biāo)準(zhǔn)差如圖5所示。各種情感的標(biāo)準(zhǔn)差都處于0到1之間,相比較而言,標(biāo)準(zhǔn)差越接近于0,表明該情感在相應(yīng)維度上的離散程度越小,如中性情感在效價(jià)度上的標(biāo)準(zhǔn)差最小,則中性情感在效價(jià)度上的離散程度最小;反之,標(biāo)準(zhǔn)差越接近于1,則該情感在相應(yīng)維度上的離散程度就越大,如悲傷情感在喚醒度上的標(biāo)準(zhǔn)差最大,則其在喚醒度上的離散程度就最大。并且除高興情感以外,其余六種情感在效價(jià)度上的標(biāo)準(zhǔn)差均比在喚醒度上的標(biāo)準(zhǔn)差小,說(shuō)明情感在效價(jià)維度上的離散程度更小,集中性更好。這與2.2.2節(jié)中情感在效價(jià)度上一致性更好的結(jié)論一致。李嘉等[23]針對(duì)生氣、高興、悲傷和平靜這四種情感,提取了其喚醒度和效價(jià)度上對(duì)應(yīng)的情感特征,發(fā)現(xiàn)效價(jià)度上的情感特征對(duì)語(yǔ)音識(shí)別具有重要作用,這也與本文結(jié)論一致。

圖5 情感標(biāo)準(zhǔn)差

圖6 每種情感的橢圓面積

由于情感表達(dá)的集中性不同,因此得到的橢圓面積大小也不同。面積越小,說(shuō)明該情感的集中性越高;反之則說(shuō)明該情感的集中性越差。計(jì)算得到每種情感的橢圓面積結(jié)果如圖7所示。

圖7 情感對(duì)應(yīng)的橢圓面積值

研究發(fā)現(xiàn)中性情感的橢圓面積最小,為0.214 9;其次是愉悅情感,其面積值為0.380 2;而情感橢圓面積最大的是悲傷,面積達(dá)到了1.122 9。這說(shuō)明中性情感的集中性最高,其具有明顯的情感特征;其次是愉悅;而悲傷在這七種目標(biāo)情感中集中性最差。東南大學(xué)的羅武駿等[24]對(duì)高興、傷心、害怕、驚訝、生氣和中性六種情感狀態(tài)進(jìn)行了聽(tīng)辨性實(shí)驗(yàn)。實(shí)驗(yàn)得出悲傷的識(shí)別錯(cuò)誤率最高,中性情感的識(shí)別錯(cuò)誤率最低,原因在于中性情感的情感特征較為鮮明,這與本文的結(jié)論一致。

另外,為了分析不同情感樣本標(biāo)注結(jié)果的差異性,采用單因素方差分析方法來(lái)評(píng)判情感因素對(duì)標(biāo)注結(jié)果的影響程度。單因素方差分析方法能夠分析多組數(shù)據(jù)樣本之間是否具有共同的均值,即確定多組數(shù)據(jù)之間是否具有顯著的差異性[22]。不同列的數(shù)據(jù)表示某一因素的變化情況。本文將同一情感樣本的標(biāo)注結(jié)果表示為一列數(shù)據(jù),即不同列的數(shù)據(jù)代表為情感因素E的變化情況,如矩陣:

單因素方差分析中計(jì)算了每一列數(shù)據(jù)均值相等時(shí)的概率,從而判斷這一因素是否對(duì)結(jié)果有顯著的影響。的值越小,表示這個(gè)因素對(duì)觀測(cè)結(jié)果的影響越顯著[25]。

2.3 客觀分析

由于標(biāo)注人對(duì)語(yǔ)音的主觀辨聽(tīng)以及對(duì)語(yǔ)音在VA空間中情感表現(xiàn)力的評(píng)價(jià),一定程度上會(huì)受到主觀情感的干擾,因此主觀標(biāo)注并不能真實(shí)、客觀地反映該數(shù)據(jù)庫(kù)中語(yǔ)音質(zhì)量的高低。因此,本文還進(jìn)行了客觀分析,通過(guò)分析這七種情感語(yǔ)音的基頻、短時(shí)能量、前三個(gè)共振峰以及前12個(gè)梅爾倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient, MFCC)及其一階差分的相關(guān)統(tǒng)計(jì)值,包括均值、標(biāo)準(zhǔn)差、最大值、最小值以及中位值,用這145維特征參數(shù)來(lái)對(duì)情感進(jìn)行分類。特征參數(shù)的具體內(nèi)容如表5所示。

表5 特征統(tǒng)計(jì)值

Table 5 Characteristic statistics

圖8 情感識(shí)別率

3 結(jié)論

本文錄制了一個(gè)漢語(yǔ)情感語(yǔ)音數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)由16名說(shuō)話人對(duì)文本語(yǔ)料進(jìn)行表演錄制而得,共包含5 376條語(yǔ)音樣本。通過(guò)從離散情感標(biāo)簽到維度情感坐標(biāo)的轉(zhuǎn)變,介紹七種情感在二維坐標(biāo)空間上的變化。然后從情感的一致性、集中性、差異性以及情感識(shí)別率這四個(gè)方面來(lái)分析該數(shù)據(jù)庫(kù)的情感質(zhì)量。研究表明,該數(shù)據(jù)庫(kù)的情感一致性較高,并且情感之間具有較明顯的可區(qū)分性。

雖然這個(gè)語(yǔ)音情感數(shù)據(jù)庫(kù)能滿足基本的情感研究,但仍有些不足之處,后期將會(huì)利用與該數(shù)據(jù)庫(kù)相同的說(shuō)話人來(lái)建立一個(gè)自然情感語(yǔ)料庫(kù),與該表演情感語(yǔ)料庫(kù)進(jìn)行比對(duì)。

[1] 韓文靜, 李海峰, 阮華斌, 等. 語(yǔ)音情感識(shí)別研究進(jìn)展綜述[J]. 軟件學(xué)報(bào), 2014, 25(1) : 37-50.HAN Wenjing, LI Haifeng, RUAN Huabin, et al. A summary of the progress of recognition of emotional speech[J]. Journal of Software, 2014, 25(1): 37-50.

[2] 韓文靜, 李海峰. 情感語(yǔ)音數(shù)據(jù)庫(kù)綜述[J]. 智能計(jì)算機(jī)與應(yīng)用, 2013, 3(1): 5-7.HAN Wenjing, LI Haifeng. Overview of emotional speech databases[J]. Intelligent Computer and Application, 2013, 3(1): 5-7.

[3] GRIMM M, KROSCHEL K, NARAYANAN S. The Vera am Mittag German audio-visual emotional speech database[C]//IEEE International Conference on Multimedia and Expo. IEEE, 2008: 865-868.

[4] MCKEOWN G, VALSTAR M F, COWIE R, et al. The SEMAINE corpus of emotionally coloured character interactions[C]//IEEE International Conference on Multimedia and Expo. IEEE, 2010: 1079-1084.

[5] BURKHARDT F, PAESCHKE A, ROLFES M, et al. A database of German emotional speech[C]//INTERSPEECH 2005-Eu- rospeech, European Conference on Speech Communication and Technology, Lisbon, Portugal, September. DBLP, 2005: 1517-1520.

[6] DOUGLAS-COWIE E, COWIE R, SCHR?DER M. A new emotion database: considerations, sources and scope[C]//ISCA Workshop on Speech and Emotion. 2000: 39-44.

[7] 景少玲, 毛峽, 陳立江, 等. 漢語(yǔ)雙模情感語(yǔ)音數(shù)據(jù)庫(kù)標(biāo)注及一致性檢測(cè)[J]. 北京航空航天大學(xué)學(xué)報(bào), 2015, 41(10): 1925-1934.JING Shaoling, MAO Xia, CHEN Lijiang, et al. Marking and consistency detection of chinese dual-mode emotional voice database[J]. Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(10): 1925-1934.

[8] 黃程韋, 金赟, 趙艷, 等. 實(shí)用語(yǔ)音情感數(shù)據(jù)庫(kù)的設(shè)計(jì)與研究[J]. 聲學(xué)技術(shù), 2010, 29(4) : 396-399.HUANG Chengwei, JIN Yun, ZHAO Yan, et al. Design and establishment of practical speech emotional database[J]. Acoustic Technology, 2010. 29(4): 396-399.

[9] 徐露, 徐明星, 楊大利. 面向情感變化檢測(cè)的漢語(yǔ)情感語(yǔ)音數(shù)據(jù)庫(kù)[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009, 49(s1) : 1413-1418.XU Lu, XU Mingxing, YANG Dali. Chinese emotional speech database for emotional change detection[J]. Journal of Tsinghua University (Science and Technology), 2009, 49(s1): 1413-1418.

[10] CASIA. Database of Chinese emotional speech[DB/OL]. Beijing. Chinese Linguistic Data Consortium, 2008. http://www. chi-neseldc.org/ resource_info.php Rid=76.

[11] 王志良. 人工心理[M]. 北京: 機(jī)械工業(yè)出版社, 2007.WAN Zhiliang. Artificial psychology[M]. Beijing: Machinery Industry Press, 2007.

[12] 宋靜, 張雪英, 孫穎, 等. 基于模糊綜合評(píng)價(jià)法的情感語(yǔ)音數(shù)據(jù)庫(kù)的建立[J]. 現(xiàn)代電子技術(shù), 2016, 39(13): 51-54.SONG Jing, ZHANG Xueying, SUN Ying, et al. Establishment of emotional speech database based on fuzz comprehensive evaluation method[J]. Modern Electronic Technology, 2016. 39(13): 51-54.

[13] 陳浩, 師雪姣, 肖智議, 等. 高表現(xiàn)力情感語(yǔ)料庫(kù)的設(shè)計(jì)[J]. 計(jì)算機(jī)與數(shù)字工程, 2014, 42(8): 1383-1385.CHEN Hao, SHI Xuejiao, XIAO Zhiyi, et al. High Performance Emotional Corpus[J]. Computer and Digital Engineering, 2014, 42(8): 1383-1385.

[14] 宋靜. PAD情緒模型在情感語(yǔ)音識(shí)別中的應(yīng)用研究[D]. 太原: 太原理工大學(xué), 2016. SONG Jing. Application of PAD Emotional Model in Emotional Speech Recognition[D]. Taiyuan: Taiyuan University of Technology, 2016.

[15] VERVERIDIS D, KOTROPOULOS C. A state of the art review on emotional speech databases[C]//Proc 1stRich media Conference Lausanne, Switzerland, 2003: 10-119.

[16] 宣守盼. 多模態(tài)情感數(shù)據(jù)庫(kù)的研究與建立[D]. 上海: 華東理工大學(xué), 2013. XUAN Shoupan. Research and establishment of multi - modal emotion database[D]. Shanghai: East China University of Science and Technology, 2013.

[17] 王寶軍, 薛雨麗, 于適寧, 等. 多模情感數(shù)據(jù)庫(kù)的設(shè)計(jì)與評(píng)價(jià)[J]. 中國(guó)科技論文, 2016, 11(2): 214-218.WANG Baojun, XUE Yuli, YU Shining, et al. Design and evaluation of Multi-mode Emotion Database[J]. Chinese Scientific Papers, 2016, 11(2): 214-218.

[18] 曾光菊. 普通話語(yǔ)音情感聲學(xué)特征數(shù)據(jù)庫(kù)的建立[D]. 成都: 電子科技大學(xué), 2012. ZENG Guangju. The Establishment of Mandarin Speech and Emotional Characteristic Database[D]. Chengdu: University of Electronic Science and Technology, 2012.

[19] 陳雁翔. 漢語(yǔ)情感語(yǔ)音數(shù)據(jù)庫(kù)的設(shè)計(jì)與測(cè)試[C]//全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議. 2011.CHEN Yanxiang. Design and testing of Mandarin emotional speech database[C]//National Conference on Human-Computer Phonetics. 2011.

[20] 德訊鐵三角有限公司. Audio-Technical AT2020錄音室心形指向電容話筒[J]. 世界專業(yè)音響與燈光, 2005, 3(4): 76-76. DEXUN Triangle Limited Company. Audio-Technical AT2020 Studio heart pointing condenser microphone[J]. International Professional Audio and Lighting, 2005, 3(4): 76-76.

[21] 安秀紅. 基于特征參數(shù)的語(yǔ)音情感識(shí)別[D]. 太原: 太原理工大學(xué), 2011.AN Xiuhong. Speech emotion recognition based on characteristic parameters[D]. Taiyuan: Taiyuan University of Technology, 2011.

[22] 何仁斌. MATLAB 6工程計(jì)算及其運(yùn)用[M]. 重慶: 重慶大學(xué)出版社, 2002. HE Renbin. MATLAB 6 engineering calculation and its application[M]. Chongqing: Chongqing University Press, 2002.

[23] 李嘉, 黃程韋, 余華. 語(yǔ)音情感的維度特征提取與識(shí)別[J]. 數(shù)據(jù)采集與處理, 2012, 27(3): 389-393.LI Jia, HUANG Chengwei, YU Hua. Dimensional features extraction and recognition of speech emotions[J]. Data collection and processing, 2012, 27(3): 389-393.

[24] 羅武駿, 黃程韋, 查誠(chéng), 等. 越南語(yǔ)語(yǔ)音情感特征分析與識(shí)別[C]. 全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)及產(chǎn)業(yè)發(fā)展大會(huì). 2013.LUO Wujun, HUANG Chengwei, ZHA Cheng, et al. Analysis and recognition of Vietnamese speech emotional characteristics[C]. National Conference on signal processing and industrial development. 2013.

[25] 石博強(qiáng), 趙金. MATLAB數(shù)學(xué)計(jì)算與工程分析范例教程[M]. 北京: 中國(guó)鐵道出版社, 2005. SHI Boqiang, ZHAO Jin. MATLAB mathematical computation and engineering analysis[M]. Beijing: China Railway Press, 2005.

Design of discrete tags and dimensional space combined emotional speech database

CHEN Ying, XIAO Zhong-zhe

(School of Optoelectronic Information Science and Engineering, Soochow University, Suzhou 215006,Jiangsu, China)

This paper establishes a Mandarin emotional speech database thatcombines discrete emotion tags with dimensional emotion space. The database is recorded for 16 Chinese native speakers in performing Chinese emotional speech. The speech samples are acquired from seven discrete emotion tags, such as neutrality, pleasure, happyness, frustration, anger, sorrow, and sadness. Each speaker receives 336 utterances. Then, each of the speech samples is annotated by three annotators in dimensional space. Finally, according to the obtained data, the distributions of these seven emotions in the emotion space are studied, and the performances in consistency, concentration and difference of these emotions are analyzed. Besides, we calculate the emotion recognition rates of these seven emotional speech. The analyses show that the consistencies of the three annotators for the database are more than 80%, and these emotions can be distinguished, in addition, the recognition rates of these seven emotions are all higher than baseline level. Therefore, the database has a good emotional quality, and can provide important research basis for the transformation of discrete emotion tags to dimensional emotion space.

discrete emotion tags; dimensional emotion space;Mandarin; emotion recognition

TP392

A

1000-3630(2018)-04-0380-08

10.16300/j.cnki.1000-3630.2018.04.015

2017-05-11;

2017-09-24

江蘇省基礎(chǔ)研究計(jì)劃(自然科學(xué)基金)青年基金項(xiàng)目(BK20140354)

陳穎(1994-), 女, 貴州安順人, 碩士研究生, 研究方向?yàn)榍楦姓Z(yǔ)音的分析與處理。

肖仲喆, E-mail: xiaozhongzhe@suda.edu.cn

猜你喜歡
效價(jià)標(biāo)準(zhǔn)差錄音
情緒效價(jià)的記憶增強(qiáng)效應(yīng):存儲(chǔ)或提取優(yōu)勢(shì)?
用Pro-Kin Line平衡反饋訓(xùn)練儀對(duì)早期帕金森病患者進(jìn)行治療對(duì)其動(dòng)態(tài)平衡功能的影響
Funny Phonics
funny phonics
應(yīng)用HyD在仔豬斷奶早期可提高維生素D的效價(jià)
A New Term
Colorful Seasons多彩四季
對(duì)于平均差與標(biāo)準(zhǔn)差的數(shù)學(xué)關(guān)系和應(yīng)用價(jià)值比較研究
如何提高抗生素效價(jià)管碟測(cè)定法的準(zhǔn)確性
生物效價(jià)法測(cè)定大黃炮制品活血化瘀功效
中成藥(2014年9期)2014-02-28 22:28:58
大城县| 抚顺市| 南雄市| 城固县| 攀枝花市| 金坛市| 昌吉市| 任丘市| 宾阳县| 漠河县| 攀枝花市| 泽州县| 六安市| 壤塘县| 舟曲县| 裕民县| 蚌埠市| 鹤峰县| 丹巴县| 贵港市| 平果县| 花垣县| 项城市| 桐柏县| 准格尔旗| 吕梁市| 文山县| 临颍县| 宝坻区| 绥江县| 启东市| 长寿区| 昌邑市| 清流县| 玉树县| 浦县| 航空| 育儿| 安国市| 博客| 华阴市|