高曉雅, 李逸薇, 張 璐, 李壽山
(1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇 蘇州 215006; 2. 香港理工大學(xué) 中文及雙語(yǔ)系 香港 999077)
隨著互聯(lián)網(wǎng)的高速發(fā)展,人們?cè)诰W(wǎng)絡(luò)平臺(tái)上共享信息的同時(shí),越來(lái)越習(xí)慣于在網(wǎng)絡(luò)上發(fā)表自己的評(píng)論及看法。如何對(duì)大量包含情感的文本進(jìn)行情緒分析,挖掘具有潛在價(jià)值的信息成為目前自然語(yǔ)言處理領(lǐng)域中的一個(gè)熱點(diǎn)問(wèn)題[1]。早期的情緒分析研究主要對(duì)評(píng)論進(jìn)行粗粒度的情緒分類,即關(guān)注評(píng)論的情緒極性(正面、中性、負(fù)面)。隨著相關(guān)研究的深入,文獻(xiàn)[2-3]將注意力轉(zhuǎn)移到細(xì)粒度情緒分類任務(wù)中,對(duì)文本進(jìn)行了更細(xì)致的剖析。
與情緒分類不同,情緒回歸注重于分析情緒的連續(xù)性。文獻(xiàn)[4-5]從心理學(xué)角度將情緒映射到三維空間,坐標(biāo)值范圍均為1.0~5.0,3個(gè)維度分別為極性程度、喚醒度和可控度,其中極性程度表示情緒從消極到積極的程度,喚醒度表示情緒從冷靜到激動(dòng)的程度,可控度表示情緒的控制程度。傳統(tǒng)的情緒回歸方法,例如長(zhǎng)短期記憶網(wǎng)絡(luò)模型(LSTM)[6]和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[7]均只對(duì)客觀的情緒分值進(jìn)行回歸,回歸結(jié)果偏差較大。例如,語(yǔ)句“Alonso would be happy to retire with three titles”中,極性程度分值受到詞“happy”的影響,模型輸出的分值為4.0,但是從詞“would be”和詞“retire”可以看出情緒有消極的部分。如果從消極的方向出發(fā)回歸極性程度分值,結(jié)果仍可得到4.0,但是由于兩種分值的總和始終為6.0。因此,如何利用從消極方向出發(fā)回歸得到的極性程度分值修正客觀的極性程度分值,使得客觀的極性程度分值接近于實(shí)際的分值3.4,成為本文的挑戰(zhàn)。基于此,本文提出一種基于多任務(wù)學(xué)習(xí)的情緒分值回歸方法,針對(duì)每種分值設(shè)計(jì)正向和逆向兩種打分方式,規(guī)定正向?yàn)榍榫w的積極、激動(dòng)和受控,逆向?yàn)榍榫w的消極、冷靜和失控,利用多任務(wù)學(xué)習(xí)方法聯(lián)合正向打分的情緒回歸主任務(wù)和逆向打分的情緒回歸輔助任務(wù),在多任務(wù)學(xué)習(xí)中通過(guò)3種不同的共享機(jī)制實(shí)現(xiàn)中間特征信息共享,改善了主任務(wù)的性能。
情緒回歸是一種情緒分析任務(wù)。與情緒分類相比,由于情緒回歸缺乏大規(guī)模的語(yǔ)料庫(kù),因此出現(xiàn)了一些與情緒回歸語(yǔ)料庫(kù)構(gòu)建相關(guān)的研究。文獻(xiàn)[8]通過(guò)多個(gè)在線資源,構(gòu)建了一個(gè)包含2 009個(gè)文本的中文情緒回歸語(yǔ)料庫(kù)。文獻(xiàn)[9]從Facebook收集用戶信息,建立了一個(gè)包含2 895個(gè)文本的英語(yǔ)情緒回歸語(yǔ)料庫(kù)。文獻(xiàn)[1]構(gòu)建了EmoBank大型情緒回歸語(yǔ)料庫(kù),其中包含10 000多個(gè)英文文本。文獻(xiàn)[10]提出一種基于區(qū)域卷積模型和LSTM的情緒回歸方法RCL,對(duì)文本的極性程度分值和喚醒度分值進(jìn)行了回歸。文獻(xiàn)[11]通過(guò)多任務(wù)學(xué)習(xí)實(shí)現(xiàn)了基于二維連續(xù)空間(極性程度分值和喚醒度分值)的情感識(shí)別。文獻(xiàn)[12]在基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)框架中,將情緒三元分類和五元分類視為相關(guān)任務(wù),通過(guò)聯(lián)合學(xué)習(xí)改善細(xì)粒度情緒分類問(wèn)題。
與上述研究不同的是,本文從2個(gè)方向定義情緒分值,利用多任務(wù)學(xué)習(xí)方法聯(lián)合正逆向情緒回歸任務(wù),并通過(guò)3種不同的共享機(jī)制提升正向情緒回歸任務(wù)的性能。
本文提出一種基于多任務(wù)學(xué)習(xí)的正逆向情緒分值回歸方法。為了便于理解,將回歸任務(wù)抽象為4層:輸入層、編碼層、解碼層、輸出層。在編碼層中將不同的學(xué)習(xí)模型抽象為不同的密鑰,通過(guò)更換模型可以得到不同的回歸方法。
共享編碼層的多任務(wù)學(xué)習(xí)框架如圖1所示。
輸入數(shù)據(jù)X,分別經(jīng)過(guò)主任務(wù)的編碼層和輔助任務(wù)的共享編碼層,得到中間特征信息hMain1、hMain2、hAux,可以表示為
hMain1=EncoderMain(X),
hMain2=EncoderAux(X),
hAux=EncoderAux(X)。
將中間特征信息hMain1和hMain2拼接后共同輸入到主任務(wù)的解碼層中,再通過(guò)解碼層得到主任務(wù)回歸的正向情緒分值rMain,可以表示為
h′Main=hMain1⊕hMain2,
rMain=DecoderMain(h′Main)。
定義一個(gè)代價(jià)函數(shù)來(lái)線性連接主任務(wù)和輔助任務(wù),可以表示為
(1)
共享解碼層的多任務(wù)學(xué)習(xí)框架如圖2所示。
輸入數(shù)據(jù)X,分別經(jīng)過(guò)2個(gè)任務(wù)的編碼層,得到中間特征信息hMain、hAux,可以表示為
hMain=EncoderMain(X),
hAux=EncoderAux(X)。
將中間特征信息hMain、hAux分別通過(guò)主任務(wù)解碼層和輔助任務(wù)解碼層,并將hMain共享到輔助任務(wù)的解碼層,可以表示為
r′Main1=DecoderMain(hMain),
r′Main2=DecoderAux(hMain)。
將主任務(wù)解碼層輸出的r′Main1和輔助任務(wù)解碼層輸出的r′Main2,通過(guò)線性加權(quán)得到最終的正向情緒分值rMain,可以表示為
rMain=W′·[r′Main1,r′Main2]+b′。
共享解碼層的多任務(wù)學(xué)習(xí)框架的loss函數(shù)如式(1)所示。
圖1 共享編碼層的多任務(wù)學(xué)習(xí)框架Figure 1 Multi-task learning framework of encoder-sharing layer
圖2 共享解碼層的多任務(wù)學(xué)習(xí)框架Figure 2 Multi-task learning framework of decoder-sharing layer
共享編、解碼層的多任務(wù)學(xué)習(xí)框架如圖3所示,此框架是由上述兩種框架相結(jié)合產(chǎn)生的。
圖3 共享編、解碼層的多任務(wù)學(xué)習(xí)框架Figure 3 Multi-task learning framework of encoder-sharing and decoder-sharing layer
輸入數(shù)據(jù)X,分別經(jīng)過(guò)主任務(wù)的編碼層和輔助任務(wù)的共享編碼層,得到中間特征信息hMain1、hMain2、hAux,可以表示為
hMain1=EncoderMain(X),
hMain2=EncoderAux(X),
hAux=EncoderAux(X)。
將中間特征信息hMain1和hMain2拼接后得到h′Main,可以表示為
h′Main=hMain1⊕hMain2。
將中間特征信息h′Main、hAux分別通過(guò)主任務(wù)的解碼層和輔助任務(wù)的解碼層,并將h′Main共享到輔助任務(wù)的解碼層,表示為
r′Main1=DecoderMain(h′Main),
r′Main2=DecoderAux(h′Main)。
將主任務(wù)解碼層輸出的r′Main1和輔助任務(wù)解碼層輸出的r′Main2,通過(guò)線性加權(quán)得到正向情緒分值rMain,可以表示為
rMain=W′·[r′Main1,r′Main2]+b′。
共享編、解碼層的多任務(wù)學(xué)習(xí)框架的loss函數(shù)如式(1)所示。
3.1.1數(shù)據(jù)設(shè)置 使用文獻(xiàn)[1]提供的EmoBank作為語(yǔ)料庫(kù),此語(yǔ)料庫(kù)可以從貢獻(xiàn)者的Github(https:∥github.com/JULIELab/EmoBank)中下載得到。語(yǔ)料共包含6個(gè)領(lǐng)域(News、Letters、Essays、Travel Guides、Blogs、Fictions),且細(xì)分為讀者情緒標(biāo)注和寫(xiě)者情緒標(biāo)注。將數(shù)據(jù)集的70%設(shè)置為訓(xùn)練集,10%設(shè)置為驗(yàn)證集,20%設(shè)置為測(cè)試集,訓(xùn)練集用于訓(xùn)練構(gòu)建模型,驗(yàn)證集用于調(diào)整模型的超參,測(cè)試集用于測(cè)試模型的回歸性能。
使用斯坦福大學(xué)公開(kāi)的詞向量模型(下載網(wǎng)址為https:∥nlp.stanford.edu/projects/glove/)來(lái)表示每一條文本的詞語(yǔ)。
3.1.2參數(shù)設(shè)置 在實(shí)驗(yàn)中使用LSTM模型作為多任務(wù)學(xué)習(xí)中的編碼器和解碼器,對(duì)擬合喚醒度分值、可控度分值、極性程度分值分別使用了不同的模型參數(shù)。詞向量維度Embedding均為100維,編碼層輸出LSTM_output_dim分別為32維、16維、16維,解碼層輸出Dense_hidden_dim同編碼層輸出LSTM_output_dim一致。
在訓(xùn)練過(guò)程中,最大迭代輪數(shù)LSTM_epoch分別為100輪、100輪、300輪,均使用Adagrad優(yōu)化器且學(xué)習(xí)率learning_rate為0.02。
3.1.3評(píng)估指標(biāo) 使用均方誤差(MSE)和相關(guān)系數(shù)(r)來(lái)衡量模型擬合的情緒分值和實(shí)際標(biāo)注的情緒分值之間的差異,較低的MSE或較高的r表示更好的回歸性能。
MSE和r的計(jì)算公式可以表示為
(2)
(3)
3.2.1基準(zhǔn)方法 首先實(shí)現(xiàn)了單任務(wù)的正向情緒分值回歸方法,分別使用了以下3種模型。
1) SVR模型。SVR模型即支持向量回歸模型,是情緒回歸任務(wù)中最常見(jiàn)的基準(zhǔn)方法之一[13],本文實(shí)驗(yàn)中應(yīng)用詞袋(BoW)作為其輸入特征。
2) LSTM模型[6]。LSTM模型通過(guò)引入“門(mén)”的機(jī)制來(lái)決定信息“遺忘”還是“保留”,以解決循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度爆炸或梯度消失的問(wèn)題。LSTM模型具有強(qiáng)大的文本建模能力,廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域中。
3) RCL模型[10]。RCL模型將文本按句子劃分為多個(gè)區(qū)域,通過(guò)CNN模型提取區(qū)域特征,再由LSTM模型擬合出結(jié)果,是比較新穎的情緒回歸任務(wù)的基準(zhǔn)方法之一。
基于單任務(wù)學(xué)習(xí)的情緒分值回歸方法的性能如表1所示??梢钥闯觯窠?jīng)網(wǎng)絡(luò)方法即LSTM模型和RCL模型,通常優(yōu)于機(jī)器學(xué)習(xí)方法SVR。由于本文使用的EmoBank語(yǔ)料庫(kù)中的文本大多為單一短小的句子,RCL模型相較于LSTM模型無(wú)明顯優(yōu)勢(shì)。因此,在下面的實(shí)驗(yàn)中,將使用單任務(wù)學(xué)習(xí)的LSTM模型作為本文的基準(zhǔn)方法。
表1 基于單任務(wù)學(xué)習(xí)的情緒分值回歸方法的性能Table 1 Performances of single-task learning approaches to emotion regression
3.2.2多任務(wù)學(xué)習(xí)方法 根據(jù)不同的共享機(jī)制,多任務(wù)學(xué)習(xí)方法可以細(xì)分為基于編碼層共享方法、基于解碼層共享方法和基于編、解碼層同時(shí)共享方法3種,使用這3種方法分別擬合讀者、寫(xiě)者情緒標(biāo)注文本的情緒分值。
基于多任務(wù)學(xué)習(xí)的情緒分值回歸方法的性能如表2所示??梢钥闯?,無(wú)論選擇何種共享機(jī)制,基于多任務(wù)學(xué)習(xí)的方法始終優(yōu)于本文的基準(zhǔn)方法(LSTM單任務(wù)方法),并且也優(yōu)于RCL單任務(wù)方法,從而驗(yàn)證了本文所提出的多任務(wù)學(xué)習(xí)方法的有效性。顯著性檢驗(yàn)結(jié)果表明,本文的多任務(wù)學(xué)習(xí)方法相對(duì)于基準(zhǔn)方法的改進(jìn)效果是顯著的(P<0.05)。
表2 基于多任務(wù)學(xué)習(xí)的情緒分值回歸方法的性能Table 2 Performances of multi-task learning approaches to emotion regression
此外,本文的多任務(wù)學(xué)習(xí)方法在所有領(lǐng)域(語(yǔ)料融合了6個(gè)領(lǐng)域)的表現(xiàn)均比單任務(wù)學(xué)習(xí)方法更佳,其中編、解碼層同時(shí)共享的多任務(wù)學(xué)習(xí)方法表現(xiàn)最佳。顯著性檢驗(yàn)結(jié)果表明,編、解碼層同時(shí)共享的方法相對(duì)于僅共享編碼層或僅共享解碼層的方法,改進(jìn)效果是顯著的(P<0.05)。
為了更好地理解多任務(wù)學(xué)習(xí)方法的有效性,對(duì)結(jié)果文件進(jìn)行了分析,發(fā)現(xiàn)基準(zhǔn)方法擬合出的結(jié)果往往會(huì)超過(guò)情緒分值的最大值,而使用多任務(wù)學(xué)習(xí)方法時(shí),正向分值受到逆向分值的影響,結(jié)果均小于情緒分值的最大值。
本文提出了一種基于多任務(wù)學(xué)習(xí)的正逆向情緒分值回歸方法,對(duì)EmoBank語(yǔ)料庫(kù)中情緒的三維分值進(jìn)行擬合。針對(duì)每種分值設(shè)計(jì)正向和逆向2種打分方式,利用多任務(wù)學(xué)習(xí)方法聯(lián)合學(xué)習(xí)正向打分的情緒回歸主任務(wù)和逆向打分的情緒回歸輔助任務(wù),在多任務(wù)學(xué)習(xí)中通過(guò)3種不同的共享機(jī)制實(shí)現(xiàn)中間特征信息共享。實(shí)驗(yàn)結(jié)果表明,這種基于多任務(wù)學(xué)習(xí)的方法比單任務(wù)學(xué)習(xí)的方法效果更佳;在多任務(wù)學(xué)習(xí)方法中,基于編、解碼層同時(shí)共享的方法比僅基于編碼層或解碼層的方法獲得了更好的回歸性能。在未來(lái)的研究工作中,將考慮在編碼層中嘗試一些新的模型,以及探索語(yǔ)料庫(kù)中讀者和寫(xiě)者情緒之間的一些關(guān)聯(lián)性,擴(kuò)大多任務(wù)學(xué)習(xí)的范圍,以進(jìn)一步提高回歸性能。