(重慶電子工程職業(yè)學(xué)院 通信工程學(xué)院,重慶401331)
隨著科學(xué)技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)已成為全球各地用戶表達(dá)意向和觀點(diǎn)的一個(gè)平臺(tái),產(chǎn)生了大量的文本。對(duì)文本進(jìn)行情感分析可以挖掘用戶真正的意見和建議。文本情感傾向性分析最早由Nasukawa[1]提出,用于判定句子、短語和詞所表達(dá)的情感極性,例如肯定、否定和中性,更細(xì)粒度的情感傾向性分析還包括表達(dá)的情感強(qiáng)度。近年來,富含情感信息的文本在互聯(lián)網(wǎng)上大量產(chǎn)生,情感傾向性分析以其豐富的應(yīng)用背景,逐漸變成了自然語言處理(NLP)領(lǐng)域的研究熱點(diǎn)之一。
傳統(tǒng)的文本情感傾向性分析主要采用兩類方法:基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法?;谇楦性~典的方法主要是利用情感詞典中詞語的情感傾向和情感強(qiáng)度對(duì)詞語進(jìn)行打分,然后對(duì)分值進(jìn)行累加,根據(jù)總分判斷文本的情感類別。這種方法容易受到情感詞典領(lǐng)域性和人工規(guī)則完備性的影響?;跈C(jī)器學(xué)習(xí)的方法是對(duì)特征進(jìn)行選擇和建模,主要是使用人工標(biāo)注的數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型,如SVM、KNN,其重要的影響因素是訓(xùn)練語料的質(zhì)量,且該方法難以表達(dá)復(fù)雜的語言關(guān)系。
近年來,深度學(xué)習(xí)技術(shù)快速發(fā)展,使得計(jì)算機(jī)從無標(biāo)注文本中自動(dòng)學(xué)習(xí)到文本的深層表示成為可能?;谏疃葘W(xué)習(xí)的方法利用神經(jīng)網(wǎng)絡(luò)來模擬人腦的學(xué)習(xí)過程,利用CNN、RNN和LSTM等進(jìn)行文本情感分析。在NLP領(lǐng)域中,基于深度學(xué)習(xí)的方法在建模和效果優(yōu)化等方面具有比較明顯的優(yōu)勢(shì)。
利用自動(dòng)情感傾向性分析技術(shù)挖掘海量評(píng)論文本所包含的情感傾向,能夠發(fā)現(xiàn)大眾的情感演化規(guī)律,為制定營(yíng)銷策略和監(jiān)控社會(huì)輿情提供決策支持,具有重要的應(yīng)用價(jià)值。然而,由于長(zhǎng)文本評(píng)論的篇幅長(zhǎng)、正負(fù)情感特征分布離散,現(xiàn)有方法難以根據(jù)全文信息準(zhǔn)確判斷長(zhǎng)文本情感傾向,因此本文提出一種基于注意力雙層LSTM的長(zhǎng)文本情感傾向性分析方法。該方法首先用LSTM學(xué)習(xí)句子級(jí)情感向量表示;然后用雙向LSTM對(duì)文檔中所有句子的語義及句子間的語義關(guān)系進(jìn)行編碼,基于注意力機(jī)制根據(jù)句子的情感語義貢獻(xiàn)度進(jìn)行權(quán)值分配,加權(quán)句子級(jí)情感向量表示得到文檔級(jí)情感向量表示;最終經(jīng)過Softmax層得到長(zhǎng)文本情感傾向。
長(zhǎng)文本評(píng)論情感傾向性分析方法逐漸開始使用深度學(xué)習(xí)方法,其中以RNN[2]、CNN[3]和LSTM[4]為代表的深度學(xué)習(xí)方法在情感傾向性分析領(lǐng)域內(nèi)取得較好的結(jié)果。
基于CNN的算法雖然可以有效地進(jìn)行文本分類,但文本情感傾向性分析問題并非單純的文本分類問題。因?yàn)橛?xùn)練語料和預(yù)測(cè)語料均為包含作者情感的文本,故需要考慮文本上下文聯(lián)系才能實(shí)現(xiàn)對(duì)長(zhǎng)文本情感傾向的準(zhǔn)確判別。因此,理想的文本情感傾向性分析算法需要考慮對(duì)長(zhǎng)文本時(shí)序關(guān)系進(jìn)行記錄和學(xué)習(xí)。2014年,Kim等[3]利用CNN進(jìn)行文本情感分類,利用詞嵌入把文本映射成低維空間的特征矩陣,利用卷積層和下采樣層提取特征,實(shí)現(xiàn)文本情感分類。2015年,Severyn等[5]用CNN進(jìn)行推特長(zhǎng)文本情感傾向性分析,使用非監(jiān)督神經(jīng)語言模型訓(xùn)練詞嵌入,在Semeval-2015任務(wù)上取得第一名的好成績(jī)。2017年,Segura等[6]第一次應(yīng)用CNN進(jìn)行西班牙語的情感傾向性分析。
RNN因包含輸入信息的時(shí)序關(guān)系而在情感傾向性分析中有重要應(yīng)用。2014年,Irsoy等[2]利用RNN進(jìn)行了情感傾向性分析,比基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本情感分類方法的效果更好。2015年,Siwei等[7]使用RNN進(jìn)行文檔級(jí)情感分類,應(yīng)用池化層自動(dòng)判斷在情感分類中重要的詞語。但不可忽略的是RNN自身具有一定的缺陷,當(dāng)循環(huán)輪次過多時(shí),會(huì)產(chǎn)生長(zhǎng)期依賴和梯度爆炸等問題。2016年,Zhang等[8]應(yīng)用RNN進(jìn)行微博的情感傾向性分析研究,輸入層輸入詞嵌入序列,經(jīng)過隱藏層數(shù)學(xué)變換得到句子向量,然后進(jìn)入輸出層。實(shí)驗(yàn)結(jié)果表明計(jì)算句子向量表示有助于句子深層結(jié)構(gòu)的理解,也有助于不同領(lǐng)域的文本情感傾向性分析研究。
針對(duì)RNN的不足,其變體LSTM在神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)浇Y(jié)構(gòu)中采用記憶單元來控制信息的交互,從而避免了RNN的缺陷?;贚STM網(wǎng)絡(luò)的算法可以通過有選擇的保存和遺忘信息來存儲(chǔ)文本中重要的信息,從而完成文本情感傾向性分析。2015年,Tai等[9]構(gòu)建了長(zhǎng)短式記憶(LSTM)的解析樹,將標(biāo)準(zhǔn)的LSTM時(shí)序鏈?zhǔn)浇Y(jié)構(gòu)演化為語法樹結(jié)構(gòu),在文本情感分類上取得了較好的結(jié)果。2015年,Tang等[10]提出基于LSTM和門循環(huán)神經(jīng)網(wǎng)絡(luò)的情感分類方法LSTM-GRNN,該方法通過兩步建模文檔向量表示。首先使用LSTM學(xué)習(xí)句子向量表示;再次,應(yīng)用雙向門神經(jīng)網(wǎng)絡(luò)對(duì)句子語義及句子在文檔表示中的語義關(guān)系進(jìn)行編碼得到文檔向量表示,通過Softmax層進(jìn)行情感正負(fù)傾向分類,取得了較好的結(jié)果。2016年,Xu等[4]利用緩存LSTM進(jìn)行長(zhǎng)文本情感傾向性分析,把記憶單元以不同遺忘速率分成幾組,更好地保存記憶信息。
本文基于注意力雙層LSTM進(jìn)行長(zhǎng)文本評(píng)論情感傾向性分析。首先,利用LSTM從詞嵌入學(xué)習(xí)得到句子級(jí)情感向量表示;接著,通過雙向LSTM對(duì)文檔中所有句子的語義及句子間的語義關(guān)系進(jìn)行編碼;然后,基于注意力機(jī)制對(duì)具有不同情感語義貢獻(xiàn)度的句子進(jìn)行權(quán)值分配;最后,加權(quán)句子級(jí)情感向量表示得到長(zhǎng)文本的文檔級(jí)情感向量表示,經(jīng)過Softmax層分類得到長(zhǎng)文本評(píng)論情感類別。算法原理如圖1所示。
圖1 基于注意力雙層LSTM的長(zhǎng)文本情感傾向性分析方法原理圖
LSTM是一種特殊的RNN類型,可以學(xué)習(xí)長(zhǎng)期依賴信息。1997年,Hochreiter等人提出了LSTM[11],它比一般的RNN記憶能力更強(qiáng),主要用于記憶長(zhǎng)距離相關(guān)信息,它克服了循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度爆炸和梯度消失的缺點(diǎn),并在很多任務(wù)中取得了不錯(cuò)的結(jié)果。其結(jié)構(gòu)如圖2所示。
普通的RNN能夠處理遠(yuǎn)距離相關(guān)信息,因?yàn)楫?dāng)前的輸入包括前一時(shí)刻的輸出。但是如果相關(guān)信息與當(dāng)前輸入位置之間的距離過遠(yuǎn),RNN的遠(yuǎn)距離學(xué)習(xí)能力會(huì)驟降,而LSTM能幫助克服這一問題。LSTM通過一個(gè)細(xì)胞狀態(tài)來ct調(diào)節(jié)整個(gè)結(jié)構(gòu),使得結(jié)構(gòu)具有更強(qiáng)的記憶能力。
LSTM提出的記憶存儲(chǔ)格由四部分組成:輸入門、輸出門、遺忘門和自循環(huán)連通結(jié)點(diǎn)。LSTM可以實(shí)現(xiàn)遺忘或記憶的功能,這是通過“門”來丟棄或者增加信息實(shí)現(xiàn)。輸入門將新的信息選擇性的記錄到記憶存儲(chǔ)格中,遺忘門能夠?qū)⒂洃洿鎯?chǔ)格中的信息選擇性地遺忘,輸出門確定記憶存儲(chǔ)格的輸出值及記憶存儲(chǔ)格是否作用于其他神經(jīng)元。
圖2 長(zhǎng)-短時(shí)記憶結(jié)構(gòu)示意圖
首先,LSTM要確定將被存放在細(xì)胞狀態(tài)ct中的新信息,由輸入門確定待更新值,然后將新候選值加入到狀態(tài)中,其計(jì)算方法如式(1)所示。
其中,it表示輸入門,xt表示t時(shí)刻輸入值,ct-1表示t-1時(shí)刻細(xì)胞狀態(tài),ht-1表示t-1時(shí)刻輸出值,σ 表示 Logistic Sigmoid 函 數(shù),wxi、whi、wci、bi為待學(xué)習(xí)參數(shù)。
除了輸入和存放新信息,還需要確定從細(xì)胞狀態(tài)ct中丟棄的舊信息內(nèi)容。這一功能由遺忘門完成,其計(jì)算方法如式(2)所示。
其中,ft表示遺忘門,xt表示t時(shí)刻輸入值,ct-1表示t-1時(shí)刻細(xì)胞狀態(tài),ht-1表示t-1時(shí)刻輸出值,σ 表示 Logistic Sigmoid 函數(shù) ,wxf、wcf、wcf、bf為待學(xué)習(xí)參數(shù)。
接下來,更新細(xì)胞狀態(tài)ct,其計(jì)算方法如式(3)所示。
其中,ft表示遺忘門,it表示輸入門,xt表示t時(shí)刻輸入值,ct-1表示t-1時(shí)刻細(xì)胞狀態(tài),ht-1表示t-1 時(shí)刻輸出值,wxc、whc、bc為待學(xué)習(xí)參數(shù)。
最后,LSTM需要確定細(xì)胞狀態(tài)的待輸出部分。這一功能由輸出門完成,其計(jì)算方法如式(4)所示。
其中,Ot表示輸出門,xt表示t時(shí)刻輸入值,ct表示t時(shí)刻細(xì)胞狀態(tài),ht-1表示t-1時(shí)刻輸出值,σ表示 Logistic Sigmoid 函數(shù),wx0、wh0、wco、bo為待學(xué)習(xí)參數(shù)。
LSTM本質(zhì)上是一種RNN,把細(xì)胞狀態(tài)通過tanh層進(jìn)行處理并得到一個(gè) [-1,1]區(qū)間中的值,將其和待輸出部分相乘后最終確定輸出結(jié)果,其輸出值的計(jì)算方法如式(5)所示。
其中,Ot表示輸出門,ct表示細(xì)胞狀態(tài),ht表示輸出值。
基于以上步驟,LSTM網(wǎng)絡(luò)可以完成對(duì)信息的選擇性存儲(chǔ)記憶功能,最終將有用信息保留并輸出。因可有效解決RNN中存在的長(zhǎng)期依賴問題,所以LSTM網(wǎng)絡(luò)在自然語言處理中有良好的效果。
詞嵌入又叫詞向量,它將一個(gè)單詞或詞組映射成低維空間中的實(shí)數(shù)向量。詞嵌入可以由經(jīng)典的神經(jīng)網(wǎng)絡(luò)語言模型 (NNLM)[12]在訓(xùn)練中產(chǎn)生,Word2vec是一個(gè)語言建模工具,實(shí)現(xiàn)將詞表征為實(shí)數(shù)值向量,是基于Mikolov[13]提出的神經(jīng)網(wǎng)絡(luò)概率語言模型。詞嵌入輸入整個(gè)文本集,利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸出訓(xùn)練之后的每個(gè)詞語對(duì)應(yīng)的詞向量。詞嵌入上的每一維代表一個(gè)特征,此特征能表示詞語的上下文信息和語法信息。詞嵌入應(yīng)用到自然語言處理領(lǐng)域中的很多研究里,例如用詞嵌入計(jì)算詞語的語義相似度、詞性分析等等。詞嵌入的低維空間表示也避免了使用詞袋模型進(jìn)行文本特征表示時(shí)造成的“維度災(zāi)難”問題。
Word2vec改進(jìn)了神經(jīng)語言模型,結(jié)合了人工神經(jīng)網(wǎng)絡(luò)和概率模型,是一個(gè)可以用來快速計(jì)算詞嵌入的工具。Word2vec包含了兩種訓(xùn)練模型,分別為CBOW模型和Skip_gram模型,兩種模型都是由NNLM改進(jìn)而來,其結(jié)構(gòu)如圖3所示。
圖3 CBOW模型和Skip_gram模型結(jié)構(gòu)
從圖3中可知,Word2vec使用的詞嵌入表示方式是分布式表示,采用一個(gè)三層模型:輸入層、投影層和輸出層。CBOW模型是根據(jù)上下文來預(yù)測(cè)當(dāng)前詞語的概率。Skip-gram則是根據(jù)當(dāng)前詞語來預(yù)測(cè)上下文的概率。下面主要介紹CBOW模型的Hierarchical Softmax框架。
首先把每個(gè)單詞映射成矩陣W對(duì)應(yīng)位置上的列向量 wt,用 Context(w)=w1,w2,w3,…,wT表示上下文信息,把全文中的詞嵌入通過求和或連接得到隱藏層的輸入,詞嵌入模型以最大化輸出概率作為目標(biāo),其計(jì)算公式如(6)所示。
CBOW模型訓(xùn)練詞嵌入的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
輸入層:包含context(x)中2c個(gè)詞的詞嵌入,m表示單個(gè)詞嵌入的維度。
v(context(w)1),v(context(w)2),…,v(context(w)2c)∈Rm
圖4 CBOW模型的網(wǎng)絡(luò)結(jié)構(gòu)示意圖
投影層:對(duì)輸入層的2c個(gè)詞嵌入求和累加,作為投影層的輸入,計(jì)算方法如公式(7)所示。
輸出層:輸出層對(duì)應(yīng)一棵哈夫曼二叉樹,二叉樹構(gòu)造過程如下:葉子節(jié)點(diǎn)是語料中出現(xiàn)過的詞,葉子節(jié)點(diǎn)對(duì)應(yīng)的權(quán)值是詞頻。在哈夫曼樹結(jié)構(gòu)中,一共N(=|D|)個(gè)葉子節(jié)點(diǎn),分別對(duì)應(yīng)詞典D中的詞,非葉子節(jié)點(diǎn)N-1個(gè)。
基于詞嵌入的神經(jīng)網(wǎng)絡(luò)通常使用隨機(jī)梯度下降方法訓(xùn)練,其中梯度通過誤差反向傳播算法獲得[14]。CBOW模型的Hierarchical Softmax框架使用Softmax計(jì)算概率,如公式(8)所示。
公式(8)中每個(gè)yi是對(duì)應(yīng)于單個(gè)輸出詞的一個(gè)未正規(guī)化的log概率,計(jì)算方法如公式(9)所示。
其中,U,b是分類器Softmax的參數(shù),函數(shù)h是通過詞嵌入的連接或者平均得到。
在詞嵌入的分布式表示取得進(jìn)展后,句子級(jí)、文檔級(jí)分布式表示也逐漸成為深度學(xué)習(xí)研究的重點(diǎn)。
詞嵌入包含了豐富的語義信息,在已知詞嵌入的情況下,求句子級(jí)情感向量表示的最簡(jiǎn)單的方法就是直接加權(quán)詞嵌入[15],但是這種方法過于簡(jiǎn)單,把詞語視作獨(dú)立的符號(hào),沒有考慮詞語之間的語義關(guān)系。依靠詞嵌入直接加權(quán)構(gòu)成句子級(jí)情感向量表示丟失了真實(shí)的情感語義信息。
句子級(jí)情感向量表示的生成方式主要包括使用CNN和LSTM的生成方式。論文使用LSTM生成句子級(jí)情感向量表示,首先,把句子視為由單詞按順序構(gòu)成的序列,每個(gè)單詞用詞嵌入表示,對(duì)應(yīng)位置上有一個(gè)中間表示;然后,獲得每個(gè)單詞的中間表示,中間表示代表句首到該位置的語義,該單詞的中間表示由當(dāng)前詞語的詞嵌入和前一個(gè)詞語的中間表示共同組成;最后,把句尾單詞的中間表示視為整個(gè)句子的情感向量表示。
Attention機(jī)制于20世紀(jì)90年代提出,最早應(yīng)用在視覺圖像領(lǐng)域,由于谷歌mind團(tuán)隊(duì)在RNN模型上使用了注意力機(jī)制進(jìn)行圖像分類而使注意力機(jī)制受到重視[16]。他們的研究是受到人類注意力機(jī)制的啟發(fā),因?yàn)槿嗽谟^察一幅圖像的時(shí)候,并不是一次就把圖像上的所有像素都看過,而是把注意力集中在某一特定部分,然后移動(dòng)注意力。而且人會(huì)根據(jù)上一次注意力集中的圖像位置學(xué)習(xí)到下一次注意力應(yīng)該觀察到的位置。隨后,2014年Bahdanau等人[17]第一次提出在自然語言處理領(lǐng)域應(yīng)用注意力機(jī)制,在神經(jīng)機(jī)器翻譯(NMT)中把一整句話映射為一個(gè)固定長(zhǎng)度的表征向量,但是卻忽略了一些重要信息,無法把一個(gè)很長(zhǎng)的句子所包含的所有信息編碼成一個(gè)向量。因此引入了注意力機(jī)制,可以使NMT關(guān)注一些重要部分同時(shí)忽略掉其他不重要部分。
圖5 注意力機(jī)制原理圖
注意力機(jī)制實(shí)現(xiàn)的原理是:對(duì)于輸入的關(guān)鍵部分,分配較多的權(quán)重,對(duì)于其他部分則分配較少的權(quán)重。注意力機(jī)制體現(xiàn)了資源的的合理分配,可以排除非關(guān)鍵因素對(duì)輸出結(jié)果的影響。圖5為本文注意力機(jī)制原理圖。
注意力機(jī)制通過對(duì)雙向LSTM的輸出進(jìn)行加權(quán)求和,得到文檔的向量表示。首先使用雙向LSTM編碼句子向量sj,編碼過程如式(10)和式(11)所示。
各個(gè)句子向量的hj權(quán)重αij表示如式 (13)所示。
其中eij計(jì)算方法如式(14)所示。
目前幾種句子級(jí)分布式情感向量表示都局限于句子級(jí),不能夠擴(kuò)展至段落級(jí)或者文檔級(jí)。最簡(jiǎn)單的文檔級(jí)情感向量表示是對(duì)文檔中包含的所有的句子級(jí)情感向量表示線性加權(quán)得到的。Le等人[18]提出的無監(jiān)督方法中最典型的文檔級(jí)向量分布式表示是Mikolov等人[13]提出的Skipgram模型的擴(kuò)展,該向量表示能夠?qū)⒆冮L(zhǎng)的文本表示為定長(zhǎng)的特征。
在文檔級(jí)情感向量表示模型中,每個(gè)文檔映射到文檔向量空間中唯一的向量上且所有文檔向量組成一個(gè)文檔向量矩陣,這些文檔向量包含了對(duì)應(yīng)文檔的主題。該文檔級(jí)情感向量表示模型相較于句子級(jí)情感向量表示模型的優(yōu)勢(shì)在于既可以從無標(biāo)注的語料中學(xué)習(xí)文檔向量,又不依賴于句法分析樹。本文基于注意力機(jī)制給不同的句子級(jí)情感向量表示分配不同權(quán)值,然后加權(quán)句子級(jí)情感向量表示獲得文檔級(jí)情感向量表示。
為驗(yàn)證基于注意力雙層LSTM的長(zhǎng)文本情感傾向性分析方法的效果,進(jìn)行模型對(duì)比實(shí)驗(yàn),與目前最優(yōu)模型LSTM-GRNN[10]進(jìn)行對(duì)比分析,與模型Convolutional NN(2014)[3]和Paragraph Vector[18]進(jìn)行對(duì)比分析。
實(shí)驗(yàn)數(shù)據(jù)來自國(guó)外長(zhǎng)文本評(píng)論,包括互聯(lián)網(wǎng)電影資料庫IMDb和酒店評(píng)論語料Yelp 2015。將訓(xùn)練集和測(cè)試集按4:1的比例切分。
表1 長(zhǎng)文本情感傾向性分析實(shí)驗(yàn)數(shù)據(jù)(條)
其中,#s/d代表平均每個(gè)文檔中的句子數(shù),#w/d代表平均每個(gè)文檔中的詞語數(shù)。
實(shí)驗(yàn)所用軟件資源如表2所示,硬件資源如表3所示。
表2 實(shí)驗(yàn)所用軟件資源
表3 實(shí)驗(yàn)所用硬件資源
論文采用正確率(Accuracy)評(píng)價(jià)長(zhǎng)文本評(píng)論情感傾向性分析的結(jié)果,正確率計(jì)算方法如式(16)所示。
其中,TP是將正類評(píng)論文本預(yù)測(cè)為正類的數(shù)目,F(xiàn)N是將正類評(píng)論文本預(yù)測(cè)為負(fù)類的數(shù)目,F(xiàn)P是將負(fù)類評(píng)論文本預(yù)測(cè)為正類的數(shù)目,TN是將負(fù)類評(píng)論文本預(yù)測(cè)為負(fù)類的數(shù)目。
LSTM-GRNN是Tang等提出的基于LSTM和雙向門循環(huán)神經(jīng)網(wǎng)絡(luò)的長(zhǎng)文本情感傾向性分析方法,該方法首先使用LSTM學(xué)習(xí)句子向量表示;其次,應(yīng)用雙向門神經(jīng)網(wǎng)絡(luò)對(duì)句子語義及句子間的語義關(guān)系進(jìn)行編碼得到文檔向量表示;最后經(jīng)過softmax層進(jìn)行情感分類。
Convolutional NN是Kim等利用CNN進(jìn)行文本情感分類的方法,其利用詞嵌入把文本映射成低維空間的特征矩陣,利用卷積層和下采樣層提取特征,實(shí)現(xiàn)文本情感分類。
Paragraph Vector是Le and Mikolov提出的段落向量模型,其由一個(gè)無監(jiān)督學(xué)習(xí)算法構(gòu)成的,將變長(zhǎng)的文本學(xué)習(xí)到固定長(zhǎng)度的向量表征。該向量表征可用來預(yù)測(cè)上下文中的周圍的詞。
Attention-BiLSTM是論文提出的基于注意力雙層LSTM的長(zhǎng)文本評(píng)論情感傾向性分析方法。為了驗(yàn)證該算法的效果,設(shè)置詞嵌入詞匯表數(shù)為400 000,詞嵌入維度為100,設(shè)置每篇文檔最大句子數(shù)為18,單句最大詞匯數(shù)100。模型參數(shù):損失函數(shù)為'categorical_crossentropy',優(yōu)化方法為'rmsprop',批梯度數(shù)量為 50,激活函數(shù)為'softmax',LSTM層輸出尺寸為200。
表4 長(zhǎng)文本情感傾向性分析對(duì)比實(shí)驗(yàn)
實(shí)驗(yàn)結(jié)果表明本方法Attention-BiLSTM優(yōu)于LSTM-GRNN。Attention-BiLSTM在Yelp 2015語料上的情感分類正確率為70%,比目前最優(yōu)方法LSTM-GRNN提升了2.4%,在IMDb語料上的正確率為47.5%,提升了2.2%。Attention-BiLSTM方法分類效果更好,該方法利用LSTM學(xué)習(xí)句子級(jí)情感向量表示,使用雙向LSTM對(duì)句子的語義及句子間的語義關(guān)系進(jìn)行編碼,基于注意力機(jī)制根據(jù)句子的語義貢獻(xiàn)度進(jìn)行權(quán)值分配,進(jìn)一步提高了情感分類正確率。而目前最優(yōu)方法LSTM-GRNN不能根據(jù)句子的情感語義貢獻(xiàn)度對(duì)不同句子進(jìn)行權(quán)值分配,情感分類效果比Attention-BiLSTM差。Attention-BiLSTM在長(zhǎng)文本評(píng)論情感傾向性分析上具有更好的效果。
針對(duì)長(zhǎng)文本評(píng)論篇幅長(zhǎng),正負(fù)情感特征離散分布且每個(gè)句子的情感語義貢獻(xiàn)度不同的問題,提出了一種基于注意力雙層LSTM的長(zhǎng)文本評(píng)論情感傾向性分析方法。該方法通過雙向LSTM對(duì)文檔中所有句子的語義及句子間的語義關(guān)系進(jìn)行編碼,基于注意力機(jī)制對(duì)不同句子級(jí)情感向量表示分配不同權(quán)值,加權(quán)獲得長(zhǎng)文本文檔級(jí)情感向量表示,經(jīng)過Softmax層進(jìn)行情感分類。在Yelp 2015和IMDb上進(jìn)行實(shí)驗(yàn),結(jié)果表明,情感分類正確率相比目前最優(yōu)方法LSTM-GRNN分別提升了2.4%和2.2%。Attention-BiLSTM情感傾向性分析方法表現(xiàn)更好,可以根據(jù)句子的情感語義貢獻(xiàn)度分配不同權(quán)重,進(jìn)一步提升了情感分類正確率。將來的研究可在以下三方面進(jìn)行:(1)文本特征的提取;(2)衡量評(píng)論的情感強(qiáng)度;(3)進(jìn)一步提升深度神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率。