国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

情感維度下的深度情感關(guān)聯(lián)模型

2019-11-08 08:21呂慧芬張雪英馬江河
關(guān)鍵詞:識別率關(guān)聯(lián)次數(shù)

孫 穎,呂慧芬,張雪英,馬江河

(太原理工大學(xué) 信息與計算機學(xué)院,山西 太原 030024)

情感是人工智能不可分割的部分,使計算機具備識別、理解和表達情感的能力是一項具有挑戰(zhàn)的課題,是人工智能的研究重點[1]。情感是一個隨機變化的過程,它受很多因素的影響,如外界刺激、心情波動等。因此,建立一個符合人類情感規(guī)律的情感模型來描述情感是人工智能領(lǐng)域亟待突破的關(guān)鍵技術(shù)之一[2]。

情感模型用以模擬人類對情感的處理過程。目前對情感模型的研究有許多代表性的成果,比較常用的淺層情感分類模型有支持向量機[3]、人工神經(jīng)網(wǎng)絡(luò)[4]、隱馬爾可夫模型[5]、高斯混合模型[6]等。隨著數(shù)據(jù)量的不斷擴大,學(xué)術(shù)界和工業(yè)界對深度神經(jīng)網(wǎng)絡(luò)的研究熱情高漲,并將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到了情感模型中,文獻[7]將深度信念網(wǎng)絡(luò)和支持向量機結(jié)合運用到情感建模中,對5種統(tǒng)計特征(音調(diào)、短時能量、短時過零率、共振峰和MFCC)和深度信念網(wǎng)絡(luò)特征進行情感識別對比,得到95.8%的準(zhǔn)確率。文獻[8]提出將卷積神經(jīng)網(wǎng)絡(luò)與支持向量機相結(jié)合構(gòu)建一種混合深度學(xué)習(xí)模型并且將之應(yīng)用于情感分類取得了較好的識別結(jié)果。文獻[9]提出了一種將卷積神經(jīng)網(wǎng)絡(luò)、3D-卷積神經(jīng)網(wǎng)絡(luò)和深度信念網(wǎng)絡(luò)結(jié)合的混合深度模型,在三個公共視聽情感數(shù)據(jù)庫進行了視聽情感分類,驗證了該模型具有良好的性能。但上述模型所能描述的只是情感狀態(tài)出現(xiàn)的概率或自發(fā)的轉(zhuǎn)移過程,忽略了情感本身的特性,例如,輕蔑中往往都包含著憤怒與厭惡,即情感是以系統(tǒng)的方式相互關(guān)聯(lián)的[10],因此,以上模型無法描述情感狀態(tài)的波動與變遷。而當(dāng)系統(tǒng)的情感模型與真實的情感數(shù)據(jù)擬合性較差時,會導(dǎo)致識別正確率的顯著下降[11]。因此,將情感狀態(tài)之間的關(guān)聯(lián)性引入情感模型結(jié)構(gòu),建立符合人類情感處理機制的深度情感關(guān)聯(lián)模型,是較佳的選擇。

1 相關(guān)理論基礎(chǔ)

1.1 限制玻爾茲曼機

玻爾茲曼機是一種特殊的基于能量的模型,具有較強的無監(jiān)督學(xué)習(xí)能力,但考慮到其訓(xùn)練時間長,計算方法復(fù)雜等缺點,研究人員提出了限制玻爾茲曼機[12](Restricted Boltzmann Machine,RBM),其結(jié)構(gòu)如圖1所示。

圖1 限制玻爾茲曼機網(wǎng)絡(luò)結(jié)構(gòu)

在限制玻爾茲曼機中,可見層即輸入層,隱含層即輸出層,層內(nèi)無連接,層間全連接。其中,v、h表示可見層神經(jīng)元和隱含層神經(jīng)元的狀態(tài),a、b表示可見單元和隱單元的偏置,w為可見單元層與隱含層之間的連接權(quán)值。

限制玻爾茲曼機是基于能量的模型,其輸入變量v與輸出變量h聯(lián)合配置的能量可表示為

(1)

其中,θ={wi,j,ai,bj},是限制玻爾茲曼機的參數(shù),v和h的聯(lián)合概率為

(2)

其中,Z(θ)歸一化因子,由P(v,h)對h的邊緣分布可求得最大化觀測數(shù)據(jù)的似然函數(shù)P(v),進而求得限制玻爾茲曼機參數(shù),即

(3)

因為限制玻爾茲曼機使用隱藏單元對數(shù)據(jù)集的相關(guān)性進行建模,所獲得的隱藏單元可以看作是對所提特征的表示,即限制玻爾茲曼機可以實現(xiàn)數(shù)據(jù)降維,研究表明,使用這些降維后的數(shù)據(jù)可以替代數(shù)據(jù)本身的效果[13]。

1.2 關(guān)聯(lián)認知網(wǎng)絡(luò)

考慮到人類的情感狀態(tài)是以系統(tǒng)的方式相互關(guān)聯(lián)的,現(xiàn)有的情感模型只是從空間上對情感狀態(tài)進行劃分,忽略了情感之間的相互作用,與人類情感處理機制存在較大的差異。基于此建立情感關(guān)聯(lián)認知網(wǎng)絡(luò)(Interactive Cognitive Network, ICN),該網(wǎng)絡(luò)相比傳統(tǒng)的情感判別模型考慮了情感之間的相互作用,有效地解決了模型中情感狀態(tài)之間相互關(guān)聯(lián)的問題,更好地實現(xiàn)了對人類情感處理機制的模擬。其網(wǎng)絡(luò)結(jié)構(gòu)如下所述。

圖2 ICN網(wǎng)絡(luò)結(jié)構(gòu)

關(guān)聯(lián)認知網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)(如圖2所示)由兩層組成,輸入層與輸出層。將提取的情感特征數(shù)據(jù)作為輸入層,它包括可以反映情緒狀態(tài)的所有特征(線性或非線性),輸出層代表情感類別并與輸入層直接連接。根據(jù)PAD(Pleasure Arousal Dominance)情感模型可知,人類的情感是連續(xù)的,它們之間存在相互聯(lián)系[14],因此提出的關(guān)聯(lián)認知網(wǎng)絡(luò)用輸出節(jié)點之間的相互關(guān)聯(lián)方式表示情感間的聯(lián)系。如圖2所示,輸入層和輸出層之間的連接是單向弧,表示語音特征與情感類之間的連接,輸出層與輸出層之間由帶有雙箭頭的定向邊連接,表示情感之間的相互關(guān)聯(lián)。

圖2中,wi,j為輸入特征與輸出情感之間的連接權(quán)值,mi,j表示基本情感類別之間的關(guān)聯(lián)度。

假設(shè)fi(i=1,2,...,n)表示情感語音特征,cj(j=1,2,...,m)表示情感類別。由特征和情感類別之間的關(guān)系形成的權(quán)重矩陣由wi,j(也稱為輸入權(quán)重矩陣)表示,類之間的關(guān)系形成的權(quán)重矩陣由mi,j(稱為輸出權(quán)重矩陣)表示。系統(tǒng)的權(quán)重矩陣可以簡化為(n+m)×m矩陣,即

(4)

在ICN網(wǎng)絡(luò)的訓(xùn)練過程中,節(jié)點狀態(tài)值的變化可用式(5)表示,其中,c0表示目標(biāo)函數(shù),b表示閾值。

表1 三種基本情感的PAD值

(5)

對于情感之間的關(guān)聯(lián)性,構(gòu)建三維情感空間,用P(高興),A(生氣)和D(中性)作為情感空間的坐標(biāo)軸。文獻[15]基于PAD三維情感模型和中文版PAD情緒量表評估了14種基本情感的PAD值,表1為“高興”“生氣”“中性”三種情感的PAD值。

圖3 PAD三維空間分布

利用表1,在PAD三維空間中確定“高興”“生氣”“中性”三種情感的位置,并通過空間距離來映射類之間的關(guān)系,最終確定情感之間的權(quán)重,圖3為三種情感P、A、D的三維分布。

每兩種情感在三維PAD模型中的空間距離可以用下式計算得到:

d12=((x1-x2)2+(y1-y2)2+(z1-z2)2)1/2,

(6)

其中,d12表示點1和點2之間的空間距離,即(x1,y1,z1)和(x2,y2,z2)分別代表點1和點2在三維PAD情感空間中的坐標(biāo)。通過計算任意兩種情感之間的空間距離的倒數(shù)來獲得類之間的關(guān)系。

2 深度情感關(guān)聯(lián)模型

深度學(xué)習(xí)的本質(zhì)是通過構(gòu)建含有多隱層的機器學(xué)習(xí)架構(gòu)模型,然后進行大規(guī)模數(shù)據(jù)訓(xùn)練,得到更具代表性的特征信息。神經(jīng)網(wǎng)絡(luò)具備擬合任意復(fù)雜函數(shù)的特點,擬合能力強,可以做非常復(fù)雜的非線性映射,具有極強的非線性表示能力。因此,深度神經(jīng)網(wǎng)絡(luò)能有效地解決情感特征維數(shù)較多、冗余度較大等問題。而關(guān)聯(lián)認知網(wǎng)絡(luò)考慮到情感之間的關(guān)聯(lián)性,能有效解決情感狀態(tài)之間相互關(guān)聯(lián)的問題,更符合人類情感的處理機制。故將多層限制玻爾茲曼機和關(guān)聯(lián)認知網(wǎng)絡(luò)結(jié)合,提出了深度情感關(guān)聯(lián)模型,具體思想如下:

圖4 深度情感關(guān)聯(lián)模型結(jié)構(gòu)圖

(1)設(shè)定限制玻爾茲曼機的層數(shù)以及隱層節(jié)點數(shù),通過訓(xùn)練后得到的隱層節(jié)點可以看作是原始數(shù)據(jù)新的表示,如果設(shè)定的隱層節(jié)點數(shù)小于原始數(shù)據(jù)的維數(shù),則意味著將原始數(shù)據(jù)降維。

(2)設(shè)置多層限制玻爾茲曼機,將上一層的限制玻爾茲曼機輸出作為下層限制玻爾茲曼機的輸入。

(3)重復(fù)步驟(1)和(2),比較不同隱層節(jié)點數(shù)降維的效果,得到保留原始數(shù)據(jù)信息量最大的維數(shù)所對應(yīng)的隱層節(jié)點數(shù),獲得最優(yōu)的深度限制玻爾茲曼機。

(4)將訓(xùn)練得到的參數(shù)wi,j作為關(guān)聯(lián)認知網(wǎng)絡(luò)輸入與輸出之間的權(quán)值,b作為關(guān)聯(lián)認知網(wǎng)絡(luò)輸入的閾值,通過情感PAD值計算情感類別間的權(quán)值mi,j,代入到關(guān)聯(lián)認知網(wǎng)絡(luò)進行訓(xùn)練,得出最終的情感分類結(jié)果。

建立的深度情感關(guān)聯(lián)模型如圖4所示。

3 實驗

3.1 實驗數(shù)據(jù)

實驗環(huán)境為Corei5 1.8 GHz,4 GB內(nèi)存,windows 7 64位系統(tǒng),采用matlab2014a進行實驗,TYUT1.0[16]和CASIA[17]情感語音數(shù)據(jù)庫作為數(shù)據(jù)來源,分別選取TYUT1.0中“高興”(187)、“生氣”(229)、“中性”(344)和CASIA中“高興”(186)、“生氣”(194)、“中性”(185)三種基本情感類型作為實驗樣本,提取其各類情感特征(韻律特征、MFCC特征、非線性屬性特征、非線性幾何特征[18])作為深度情感關(guān)聯(lián)模型的輸入。提取的情感特征的維數(shù)統(tǒng)計如表2所示,用于測試和訓(xùn)練的語句如表3所示。

表2 語音情感特征參數(shù)統(tǒng)計量

表3 情感語音實驗語句

3.2 模型參數(shù)設(shè)置

3.2.1 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的選取

神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率影響著網(wǎng)絡(luò)的收縮速度以及網(wǎng)絡(luò)是否收斂。學(xué)習(xí)率設(shè)置偏小能夠保證網(wǎng)絡(luò)收斂,但是網(wǎng)絡(luò)速度慢,學(xué)習(xí)率設(shè)置偏大有可能會導(dǎo)致網(wǎng)絡(luò)發(fā)生振蕩甚至發(fā)散,影響識別結(jié)果[19]。因此,建立一個性能好的網(wǎng)絡(luò)模型需要選擇一個合適的學(xué)習(xí)率。圖5是深度情感關(guān)聯(lián)模型識別率隨學(xué)習(xí)率變化的曲線圖。

圖5 不同學(xué)習(xí)率對應(yīng)的識別率

由圖5中可以看出,當(dāng)學(xué)習(xí)率在0.3和0.5時有較高的識別率,但是網(wǎng)絡(luò)的識別率在學(xué)習(xí)率為0.3處開始下降,到0.4時又突然上升,之后從0.5下降到0.7趨于平緩,說明網(wǎng)絡(luò)在0.3之后產(chǎn)生振蕩。所以,將多層限制玻爾茲曼機的學(xué)習(xí)率參數(shù)設(shè)置為0.3。

3.2.2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練次數(shù)的選取

神經(jīng)網(wǎng)絡(luò)訓(xùn)練次數(shù)也會影響網(wǎng)絡(luò)的性能。當(dāng)訓(xùn)練次數(shù)過少時,網(wǎng)絡(luò)模型學(xué)習(xí)不夠充分,學(xué)習(xí)效果不好,不能很好地擬合數(shù)據(jù);當(dāng)訓(xùn)練次數(shù)過多時,網(wǎng)絡(luò)模型可能出現(xiàn)過擬合現(xiàn)象,把訓(xùn)練樣本的個性記住,造成訓(xùn)練集誤差低,測試集誤差高[20]。圖6為深度情感關(guān)聯(lián)模型識別率隨訓(xùn)練次數(shù)變化的曲線圖。

圖6 不同訓(xùn)練次數(shù)對應(yīng)的識別率

由圖6可以看出,當(dāng)模型的訓(xùn)練次數(shù)為400時,識別率達到最高82.61%,因此,設(shè)置多層限制玻爾茲曼機的訓(xùn)練次數(shù)為400。

3.3 實驗方案及結(jié)果分析

為了驗證所采用的深度情感關(guān)聯(lián)模型的有效性及普適性,以深度信念網(wǎng)絡(luò)和深度情感關(guān)聯(lián)模型對比進行實驗設(shè)計,改變BP神經(jīng)網(wǎng)絡(luò)和關(guān)聯(lián)認知網(wǎng)絡(luò)的訓(xùn)練次數(shù),分別在TYUT1.0和CASIA情感語音庫下進行識別,設(shè)計兩組實驗方案來對不同訓(xùn)練次數(shù)影響下的實驗結(jié)果進行討論。實驗結(jié)果如表4、表5所示。

方案1設(shè)計神經(jīng)網(wǎng)絡(luò)的參數(shù)如3.2節(jié)所示,改變BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練次數(shù),采用深度信念網(wǎng)絡(luò)作識別。

方案2設(shè)計實驗參數(shù)跟方案1完全一致,改變關(guān)聯(lián)認知網(wǎng)絡(luò)訓(xùn)練次數(shù),此處訓(xùn)練次數(shù)與方案1訓(xùn)練次數(shù)一樣,用深度情感關(guān)聯(lián)模型作識別。

表4 兩種模型在TYUT1.0中識別結(jié)果 %

表5 兩種模型在CASIA中識別結(jié)果 %

由表4和表5可以得出以下結(jié)論:

(1)針對TYUT1.0數(shù)據(jù)庫的語音情感識別,從平均識別結(jié)果來看,方案2的平均識別率高于方案1,在訓(xùn)練次數(shù)為200時,方案2識別率達到82.17%,較之方案1高出4.34%;方案2和方案1對“中性”的識別較為理想,都達到90%以上,但是方案2普遍低于方案1,并沒有體現(xiàn)出優(yōu)越性,且方案2識別率隨著訓(xùn)練次數(shù)增加沒有變化,說明方案2在“中性”的識別上已經(jīng)達到最大;隨著訓(xùn)練次數(shù)增大,方案2在“高興”的識別上趨于下降,在“生氣”的識別上趨于上升且高于方案1,說明在TYUT1.0中深度情感關(guān)聯(lián)模型較之深度信念網(wǎng)絡(luò)在“生氣”的識別上效果最好;方案1和方案2對“高興”和“生氣”的識別率都較“中性”較低,主要是由于“高興”和“生氣”兩種情感的語料相對“中性”較少,訓(xùn)練集的參數(shù)沒有達到最優(yōu)。

(2)針對CASIA數(shù)據(jù)庫的語音情感識別,方案2在平均識別率上繼續(xù)高于方案1,且在訓(xùn)練次數(shù)為350和450時高出6.06%;方案2在“生氣”識別上最高,但是低于方案1,說明在“生氣”的識別上沒有體現(xiàn)出其優(yōu)越性,而在“高興”和“中性”的識別上普遍高于方案1,說明在CASIA情感語音庫中,深度情感關(guān)聯(lián)模型在“高興”和“中性”的識別上有很大的優(yōu)越性和普適性;但是方案1和方案2“高興”的識別都低于“生氣”的識別率,由文獻[18]可知,“高興”和“生氣”的相空間重構(gòu)較為相似,兩種情感的特征參數(shù)較為接近,導(dǎo)致“高興”在“生氣”情感上產(chǎn)生了誤判。

(3)圖7是3種情感分別在TYUT1.0情感語音庫和CASIA情感語音庫中的標(biāo)準(zhǔn)差對比。由圖7可以直觀地看出來,在TYUT1.0中,只有當(dāng)訓(xùn)練次數(shù)在350時,方案2比方案1的標(biāo)準(zhǔn)差低,其余方案2在兩種情感語音庫中的標(biāo)準(zhǔn)差都比方案1的小,說明由深度情感關(guān)聯(lián)模型識別的3種情感的波動趨勢較深度信念網(wǎng)絡(luò)更加平穩(wěn)。此外,從情感語音庫看,只有在訓(xùn)練次數(shù)為350時,方案1在CASIA中標(biāo)準(zhǔn)差較TYUT1.0中大,但是方案2在CASIA語音庫中的標(biāo)準(zhǔn)差都較TYUT1.0中的小,說明CASIA語音庫中的情感波動較TYUT1.0更穩(wěn)定一些。

圖7 兩種模型標(biāo)準(zhǔn)差對比

綜上所述,通過在兩種語音庫中的識別結(jié)果,可以發(fā)現(xiàn)深度情感關(guān)聯(lián)模型比深度信念網(wǎng)絡(luò)有更好的識別效果,普適性更強;而且由深度情感關(guān)聯(lián)模型識別出來的情感波動更加平穩(wěn),進一步證明了構(gòu)建的深度情感關(guān)聯(lián)模型的有效性,更符合人類情感的處理機制。

4 結(jié)束語

考慮到情感之間具有關(guān)聯(lián)性和相互作用,提出一種深度情感關(guān)聯(lián)模型。首先,利用空間距離來映射情感類別之間的關(guān)系,通過計算兩種情感在空間上的距離來確定情感之間的權(quán)重,以此建立關(guān)聯(lián)認知網(wǎng)絡(luò);再結(jié)合多層限制玻爾茲曼機,以限制玻爾茲曼機底層的輸出權(quán)重作為關(guān)聯(lián)認知網(wǎng)絡(luò)的輸入與輸出之間的權(quán)重,建立深度情感關(guān)聯(lián)模型;最后,利用深度信念網(wǎng)絡(luò)在TYUT1.0和CASIA語音情感庫中作對比實驗,通過實驗驗證了深度情感關(guān)聯(lián)模型的有效性。實驗表明,深度情感關(guān)聯(lián)模型在整體情感的識別上更有優(yōu)越性,可以很好地反映情感之間的相互作用。但是此模型在關(guān)聯(lián)認知網(wǎng)絡(luò)的建立上采用三維情感空間距離作為權(quán)值,算法簡單且權(quán)值固定,因此,今后可進一步對權(quán)值的優(yōu)化進行討論研究。此外,人臉圖像信號、腦電信號等均是人類情感代表的有效表現(xiàn),將此模型引入到多模態(tài)情感識別也將是下一步的主要研究方向。

猜你喜歡
識別率關(guān)聯(lián)次數(shù)
機場航站樓年雷擊次數(shù)計算
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
2020年,我國汽車召回次數(shù)同比減少10.8%,召回數(shù)量同比增長3.9%
“一帶一路”遞進,關(guān)聯(lián)民生更緊
基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
聽力正常青年人的低通濾波言語測試研究*
基于切削次數(shù)的FANUC刀具壽命管理
提升高速公路MTC二次抓拍車牌識別率方案研究
奇趣搭配
依據(jù)“次數(shù)”求概率