国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力雙層LSTM的長(zhǎng)文本情感分類方法

2019-12-02 07:41:46
關(guān)鍵詞:傾向性文檔注意力

(重慶電子工程職業(yè)學(xué)院 通信工程學(xué)院,重慶401331)

0 引言

隨著科學(xué)技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)已成為全球各地用戶表達(dá)意向和觀點(diǎn)的一個(gè)平臺(tái),產(chǎn)生了大量的文本。對(duì)文本進(jìn)行情感分析可以挖掘用戶真正的意見和建議。文本情感傾向性分析最早由Nasukawa[1]提出,用于判定句子、短語和詞所表達(dá)的情感極性,例如肯定、否定和中性,更細(xì)粒度的情感傾向性分析還包括表達(dá)的情感強(qiáng)度。近年來,富含情感信息的文本在互聯(lián)網(wǎng)上大量產(chǎn)生,情感傾向性分析以其豐富的應(yīng)用背景,逐漸變成了自然語言處理(NLP)領(lǐng)域的研究熱點(diǎn)之一。

傳統(tǒng)的文本情感傾向性分析主要采用兩類方法:基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法?;谇楦性~典的方法主要是利用情感詞典中詞語的情感傾向和情感強(qiáng)度對(duì)詞語進(jìn)行打分,然后對(duì)分值進(jìn)行累加,根據(jù)總分判斷文本的情感類別。這種方法容易受到情感詞典領(lǐng)域性和人工規(guī)則完備性的影響?;跈C(jī)器學(xué)習(xí)的方法是對(duì)特征進(jìn)行選擇和建模,主要是使用人工標(biāo)注的數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型,如SVM、KNN,其重要的影響因素是訓(xùn)練語料的質(zhì)量,且該方法難以表達(dá)復(fù)雜的語言關(guān)系。

近年來,深度學(xué)習(xí)技術(shù)快速發(fā)展,使得計(jì)算機(jī)從無標(biāo)注文本中自動(dòng)學(xué)習(xí)到文本的深層表示成為可能?;谏疃葘W(xué)習(xí)的方法利用神經(jīng)網(wǎng)絡(luò)來模擬人腦的學(xué)習(xí)過程,利用CNN、RNN和LSTM等進(jìn)行文本情感分析。在NLP領(lǐng)域中,基于深度學(xué)習(xí)的方法在建模和效果優(yōu)化等方面具有比較明顯的優(yōu)勢(shì)。

利用自動(dòng)情感傾向性分析技術(shù)挖掘海量評(píng)論文本所包含的情感傾向,能夠發(fā)現(xiàn)大眾的情感演化規(guī)律,為制定營(yíng)銷策略和監(jiān)控社會(huì)輿情提供決策支持,具有重要的應(yīng)用價(jià)值。然而,由于長(zhǎng)文本評(píng)論的篇幅長(zhǎng)、正負(fù)情感特征分布離散,現(xiàn)有方法難以根據(jù)全文信息準(zhǔn)確判斷長(zhǎng)文本情感傾向,因此本文提出一種基于注意力雙層LSTM的長(zhǎng)文本情感傾向性分析方法。該方法首先用LSTM學(xué)習(xí)句子級(jí)情感向量表示;然后用雙向LSTM對(duì)文檔中所有句子的語義及句子間的語義關(guān)系進(jìn)行編碼,基于注意力機(jī)制根據(jù)句子的情感語義貢獻(xiàn)度進(jìn)行權(quán)值分配,加權(quán)句子級(jí)情感向量表示得到文檔級(jí)情感向量表示;最終經(jīng)過Softmax層得到長(zhǎng)文本情感傾向。

1 相關(guān)工作

長(zhǎng)文本評(píng)論情感傾向性分析方法逐漸開始使用深度學(xué)習(xí)方法,其中以RNN[2]、CNN[3]和LSTM[4]為代表的深度學(xué)習(xí)方法在情感傾向性分析領(lǐng)域內(nèi)取得較好的結(jié)果。

基于CNN的算法雖然可以有效地進(jìn)行文本分類,但文本情感傾向性分析問題并非單純的文本分類問題。因?yàn)橛?xùn)練語料和預(yù)測(cè)語料均為包含作者情感的文本,故需要考慮文本上下文聯(lián)系才能實(shí)現(xiàn)對(duì)長(zhǎng)文本情感傾向的準(zhǔn)確判別。因此,理想的文本情感傾向性分析算法需要考慮對(duì)長(zhǎng)文本時(shí)序關(guān)系進(jìn)行記錄和學(xué)習(xí)。2014年,Kim等[3]利用CNN進(jìn)行文本情感分類,利用詞嵌入把文本映射成低維空間的特征矩陣,利用卷積層和下采樣層提取特征,實(shí)現(xiàn)文本情感分類。2015年,Severyn等[5]用CNN進(jìn)行推特長(zhǎng)文本情感傾向性分析,使用非監(jiān)督神經(jīng)語言模型訓(xùn)練詞嵌入,在Semeval-2015任務(wù)上取得第一名的好成績(jī)。2017年,Segura等[6]第一次應(yīng)用CNN進(jìn)行西班牙語的情感傾向性分析。

RNN因包含輸入信息的時(shí)序關(guān)系而在情感傾向性分析中有重要應(yīng)用。2014年,Irsoy等[2]利用RNN進(jìn)行了情感傾向性分析,比基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本情感分類方法的效果更好。2015年,Siwei等[7]使用RNN進(jìn)行文檔級(jí)情感分類,應(yīng)用池化層自動(dòng)判斷在情感分類中重要的詞語。但不可忽略的是RNN自身具有一定的缺陷,當(dāng)循環(huán)輪次過多時(shí),會(huì)產(chǎn)生長(zhǎng)期依賴和梯度爆炸等問題。2016年,Zhang等[8]應(yīng)用RNN進(jìn)行微博的情感傾向性分析研究,輸入層輸入詞嵌入序列,經(jīng)過隱藏層數(shù)學(xué)變換得到句子向量,然后進(jìn)入輸出層。實(shí)驗(yàn)結(jié)果表明計(jì)算句子向量表示有助于句子深層結(jié)構(gòu)的理解,也有助于不同領(lǐng)域的文本情感傾向性分析研究。

針對(duì)RNN的不足,其變體LSTM在神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)浇Y(jié)構(gòu)中采用記憶單元來控制信息的交互,從而避免了RNN的缺陷?;贚STM網(wǎng)絡(luò)的算法可以通過有選擇的保存和遺忘信息來存儲(chǔ)文本中重要的信息,從而完成文本情感傾向性分析。2015年,Tai等[9]構(gòu)建了長(zhǎng)短式記憶(LSTM)的解析樹,將標(biāo)準(zhǔn)的LSTM時(shí)序鏈?zhǔn)浇Y(jié)構(gòu)演化為語法樹結(jié)構(gòu),在文本情感分類上取得了較好的結(jié)果。2015年,Tang等[10]提出基于LSTM和門循環(huán)神經(jīng)網(wǎng)絡(luò)的情感分類方法LSTM-GRNN,該方法通過兩步建模文檔向量表示。首先使用LSTM學(xué)習(xí)句子向量表示;再次,應(yīng)用雙向門神經(jīng)網(wǎng)絡(luò)對(duì)句子語義及句子在文檔表示中的語義關(guān)系進(jìn)行編碼得到文檔向量表示,通過Softmax層進(jìn)行情感正負(fù)傾向分類,取得了較好的結(jié)果。2016年,Xu等[4]利用緩存LSTM進(jìn)行長(zhǎng)文本情感傾向性分析,把記憶單元以不同遺忘速率分成幾組,更好地保存記憶信息。

2 中文長(zhǎng)文本情感分類方法

2.1 原理框圖

本文基于注意力雙層LSTM進(jìn)行長(zhǎng)文本評(píng)論情感傾向性分析。首先,利用LSTM從詞嵌入學(xué)習(xí)得到句子級(jí)情感向量表示;接著,通過雙向LSTM對(duì)文檔中所有句子的語義及句子間的語義關(guān)系進(jìn)行編碼;然后,基于注意力機(jī)制對(duì)具有不同情感語義貢獻(xiàn)度的句子進(jìn)行權(quán)值分配;最后,加權(quán)句子級(jí)情感向量表示得到長(zhǎng)文本的文檔級(jí)情感向量表示,經(jīng)過Softmax層分類得到長(zhǎng)文本評(píng)論情感類別。算法原理如圖1所示。

圖1 基于注意力雙層LSTM的長(zhǎng)文本情感傾向性分析方法原理圖

2.2 LSTM

LSTM是一種特殊的RNN類型,可以學(xué)習(xí)長(zhǎng)期依賴信息。1997年,Hochreiter等人提出了LSTM[11],它比一般的RNN記憶能力更強(qiáng),主要用于記憶長(zhǎng)距離相關(guān)信息,它克服了循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度爆炸和梯度消失的缺點(diǎn),并在很多任務(wù)中取得了不錯(cuò)的結(jié)果。其結(jié)構(gòu)如圖2所示。

普通的RNN能夠處理遠(yuǎn)距離相關(guān)信息,因?yàn)楫?dāng)前的輸入包括前一時(shí)刻的輸出。但是如果相關(guān)信息與當(dāng)前輸入位置之間的距離過遠(yuǎn),RNN的遠(yuǎn)距離學(xué)習(xí)能力會(huì)驟降,而LSTM能幫助克服這一問題。LSTM通過一個(gè)細(xì)胞狀態(tài)來ct調(diào)節(jié)整個(gè)結(jié)構(gòu),使得結(jié)構(gòu)具有更強(qiáng)的記憶能力。

LSTM提出的記憶存儲(chǔ)格由四部分組成:輸入門、輸出門、遺忘門和自循環(huán)連通結(jié)點(diǎn)。LSTM可以實(shí)現(xiàn)遺忘或記憶的功能,這是通過“門”來丟棄或者增加信息實(shí)現(xiàn)。輸入門將新的信息選擇性的記錄到記憶存儲(chǔ)格中,遺忘門能夠?qū)⒂洃洿鎯?chǔ)格中的信息選擇性地遺忘,輸出門確定記憶存儲(chǔ)格的輸出值及記憶存儲(chǔ)格是否作用于其他神經(jīng)元。

圖2 長(zhǎng)-短時(shí)記憶結(jié)構(gòu)示意圖

首先,LSTM要確定將被存放在細(xì)胞狀態(tài)ct中的新信息,由輸入門確定待更新值,然后將新候選值加入到狀態(tài)中,其計(jì)算方法如式(1)所示。

其中,it表示輸入門,xt表示t時(shí)刻輸入值,ct-1表示t-1時(shí)刻細(xì)胞狀態(tài),ht-1表示t-1時(shí)刻輸出值,σ 表示 Logistic Sigmoid 函 數(shù),wxi、whi、wci、bi為待學(xué)習(xí)參數(shù)。

除了輸入和存放新信息,還需要確定從細(xì)胞狀態(tài)ct中丟棄的舊信息內(nèi)容。這一功能由遺忘門完成,其計(jì)算方法如式(2)所示。

其中,ft表示遺忘門,xt表示t時(shí)刻輸入值,ct-1表示t-1時(shí)刻細(xì)胞狀態(tài),ht-1表示t-1時(shí)刻輸出值,σ 表示 Logistic Sigmoid 函數(shù) ,wxf、wcf、wcf、bf為待學(xué)習(xí)參數(shù)。

接下來,更新細(xì)胞狀態(tài)ct,其計(jì)算方法如式(3)所示。

其中,ft表示遺忘門,it表示輸入門,xt表示t時(shí)刻輸入值,ct-1表示t-1時(shí)刻細(xì)胞狀態(tài),ht-1表示t-1 時(shí)刻輸出值,wxc、whc、bc為待學(xué)習(xí)參數(shù)。

最后,LSTM需要確定細(xì)胞狀態(tài)的待輸出部分。這一功能由輸出門完成,其計(jì)算方法如式(4)所示。

其中,Ot表示輸出門,xt表示t時(shí)刻輸入值,ct表示t時(shí)刻細(xì)胞狀態(tài),ht-1表示t-1時(shí)刻輸出值,σ表示 Logistic Sigmoid 函數(shù),wx0、wh0、wco、bo為待學(xué)習(xí)參數(shù)。

LSTM本質(zhì)上是一種RNN,把細(xì)胞狀態(tài)通過tanh層進(jìn)行處理并得到一個(gè) [-1,1]區(qū)間中的值,將其和待輸出部分相乘后最終確定輸出結(jié)果,其輸出值的計(jì)算方法如式(5)所示。

其中,Ot表示輸出門,ct表示細(xì)胞狀態(tài),ht表示輸出值。

基于以上步驟,LSTM網(wǎng)絡(luò)可以完成對(duì)信息的選擇性存儲(chǔ)記憶功能,最終將有用信息保留并輸出。因可有效解決RNN中存在的長(zhǎng)期依賴問題,所以LSTM網(wǎng)絡(luò)在自然語言處理中有良好的效果。

2.3 詞嵌入

詞嵌入又叫詞向量,它將一個(gè)單詞或詞組映射成低維空間中的實(shí)數(shù)向量。詞嵌入可以由經(jīng)典的神經(jīng)網(wǎng)絡(luò)語言模型 (NNLM)[12]在訓(xùn)練中產(chǎn)生,Word2vec是一個(gè)語言建模工具,實(shí)現(xiàn)將詞表征為實(shí)數(shù)值向量,是基于Mikolov[13]提出的神經(jīng)網(wǎng)絡(luò)概率語言模型。詞嵌入輸入整個(gè)文本集,利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸出訓(xùn)練之后的每個(gè)詞語對(duì)應(yīng)的詞向量。詞嵌入上的每一維代表一個(gè)特征,此特征能表示詞語的上下文信息和語法信息。詞嵌入應(yīng)用到自然語言處理領(lǐng)域中的很多研究里,例如用詞嵌入計(jì)算詞語的語義相似度、詞性分析等等。詞嵌入的低維空間表示也避免了使用詞袋模型進(jìn)行文本特征表示時(shí)造成的“維度災(zāi)難”問題。

Word2vec改進(jìn)了神經(jīng)語言模型,結(jié)合了人工神經(jīng)網(wǎng)絡(luò)和概率模型,是一個(gè)可以用來快速計(jì)算詞嵌入的工具。Word2vec包含了兩種訓(xùn)練模型,分別為CBOW模型和Skip_gram模型,兩種模型都是由NNLM改進(jìn)而來,其結(jié)構(gòu)如圖3所示。

圖3 CBOW模型和Skip_gram模型結(jié)構(gòu)

從圖3中可知,Word2vec使用的詞嵌入表示方式是分布式表示,采用一個(gè)三層模型:輸入層、投影層和輸出層。CBOW模型是根據(jù)上下文來預(yù)測(cè)當(dāng)前詞語的概率。Skip-gram則是根據(jù)當(dāng)前詞語來預(yù)測(cè)上下文的概率。下面主要介紹CBOW模型的Hierarchical Softmax框架。

首先把每個(gè)單詞映射成矩陣W對(duì)應(yīng)位置上的列向量 wt,用 Context(w)=w1,w2,w3,…,wT表示上下文信息,把全文中的詞嵌入通過求和或連接得到隱藏層的輸入,詞嵌入模型以最大化輸出概率作為目標(biāo),其計(jì)算公式如(6)所示。

CBOW模型訓(xùn)練詞嵌入的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

輸入層:包含context(x)中2c個(gè)詞的詞嵌入,m表示單個(gè)詞嵌入的維度。

v(context(w)1),v(context(w)2),…,v(context(w)2c)∈Rm

圖4 CBOW模型的網(wǎng)絡(luò)結(jié)構(gòu)示意圖

投影層:對(duì)輸入層的2c個(gè)詞嵌入求和累加,作為投影層的輸入,計(jì)算方法如公式(7)所示。

輸出層:輸出層對(duì)應(yīng)一棵哈夫曼二叉樹,二叉樹構(gòu)造過程如下:葉子節(jié)點(diǎn)是語料中出現(xiàn)過的詞,葉子節(jié)點(diǎn)對(duì)應(yīng)的權(quán)值是詞頻。在哈夫曼樹結(jié)構(gòu)中,一共N(=|D|)個(gè)葉子節(jié)點(diǎn),分別對(duì)應(yīng)詞典D中的詞,非葉子節(jié)點(diǎn)N-1個(gè)。

基于詞嵌入的神經(jīng)網(wǎng)絡(luò)通常使用隨機(jī)梯度下降方法訓(xùn)練,其中梯度通過誤差反向傳播算法獲得[14]。CBOW模型的Hierarchical Softmax框架使用Softmax計(jì)算概率,如公式(8)所示。

公式(8)中每個(gè)yi是對(duì)應(yīng)于單個(gè)輸出詞的一個(gè)未正規(guī)化的log概率,計(jì)算方法如公式(9)所示。

其中,U,b是分類器Softmax的參數(shù),函數(shù)h是通過詞嵌入的連接或者平均得到。

2.4 句子級(jí)情感向量表示

在詞嵌入的分布式表示取得進(jìn)展后,句子級(jí)、文檔級(jí)分布式表示也逐漸成為深度學(xué)習(xí)研究的重點(diǎn)。

詞嵌入包含了豐富的語義信息,在已知詞嵌入的情況下,求句子級(jí)情感向量表示的最簡(jiǎn)單的方法就是直接加權(quán)詞嵌入[15],但是這種方法過于簡(jiǎn)單,把詞語視作獨(dú)立的符號(hào),沒有考慮詞語之間的語義關(guān)系。依靠詞嵌入直接加權(quán)構(gòu)成句子級(jí)情感向量表示丟失了真實(shí)的情感語義信息。

句子級(jí)情感向量表示的生成方式主要包括使用CNN和LSTM的生成方式。論文使用LSTM生成句子級(jí)情感向量表示,首先,把句子視為由單詞按順序構(gòu)成的序列,每個(gè)單詞用詞嵌入表示,對(duì)應(yīng)位置上有一個(gè)中間表示;然后,獲得每個(gè)單詞的中間表示,中間表示代表句首到該位置的語義,該單詞的中間表示由當(dāng)前詞語的詞嵌入和前一個(gè)詞語的中間表示共同組成;最后,把句尾單詞的中間表示視為整個(gè)句子的情感向量表示。

2.5 注意力機(jī)制

Attention機(jī)制于20世紀(jì)90年代提出,最早應(yīng)用在視覺圖像領(lǐng)域,由于谷歌mind團(tuán)隊(duì)在RNN模型上使用了注意力機(jī)制進(jìn)行圖像分類而使注意力機(jī)制受到重視[16]。他們的研究是受到人類注意力機(jī)制的啟發(fā),因?yàn)槿嗽谟^察一幅圖像的時(shí)候,并不是一次就把圖像上的所有像素都看過,而是把注意力集中在某一特定部分,然后移動(dòng)注意力。而且人會(huì)根據(jù)上一次注意力集中的圖像位置學(xué)習(xí)到下一次注意力應(yīng)該觀察到的位置。隨后,2014年Bahdanau等人[17]第一次提出在自然語言處理領(lǐng)域應(yīng)用注意力機(jī)制,在神經(jīng)機(jī)器翻譯(NMT)中把一整句話映射為一個(gè)固定長(zhǎng)度的表征向量,但是卻忽略了一些重要信息,無法把一個(gè)很長(zhǎng)的句子所包含的所有信息編碼成一個(gè)向量。因此引入了注意力機(jī)制,可以使NMT關(guān)注一些重要部分同時(shí)忽略掉其他不重要部分。

圖5 注意力機(jī)制原理圖

注意力機(jī)制實(shí)現(xiàn)的原理是:對(duì)于輸入的關(guān)鍵部分,分配較多的權(quán)重,對(duì)于其他部分則分配較少的權(quán)重。注意力機(jī)制體現(xiàn)了資源的的合理分配,可以排除非關(guān)鍵因素對(duì)輸出結(jié)果的影響。圖5為本文注意力機(jī)制原理圖。

注意力機(jī)制通過對(duì)雙向LSTM的輸出進(jìn)行加權(quán)求和,得到文檔的向量表示。首先使用雙向LSTM編碼句子向量sj,編碼過程如式(10)和式(11)所示。

各個(gè)句子向量的hj權(quán)重αij表示如式 (13)所示。

其中eij計(jì)算方法如式(14)所示。

2.6 文檔級(jí)情感向量表示

目前幾種句子級(jí)分布式情感向量表示都局限于句子級(jí),不能夠擴(kuò)展至段落級(jí)或者文檔級(jí)。最簡(jiǎn)單的文檔級(jí)情感向量表示是對(duì)文檔中包含的所有的句子級(jí)情感向量表示線性加權(quán)得到的。Le等人[18]提出的無監(jiān)督方法中最典型的文檔級(jí)向量分布式表示是Mikolov等人[13]提出的Skipgram模型的擴(kuò)展,該向量表示能夠?qū)⒆冮L(zhǎng)的文本表示為定長(zhǎng)的特征。

在文檔級(jí)情感向量表示模型中,每個(gè)文檔映射到文檔向量空間中唯一的向量上且所有文檔向量組成一個(gè)文檔向量矩陣,這些文檔向量包含了對(duì)應(yīng)文檔的主題。該文檔級(jí)情感向量表示模型相較于句子級(jí)情感向量表示模型的優(yōu)勢(shì)在于既可以從無標(biāo)注的語料中學(xué)習(xí)文檔向量,又不依賴于句法分析樹。本文基于注意力機(jī)制給不同的句子級(jí)情感向量表示分配不同權(quán)值,然后加權(quán)句子級(jí)情感向量表示獲得文檔級(jí)情感向量表示。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)?zāi)康暮蛿?shù)據(jù)源

為驗(yàn)證基于注意力雙層LSTM的長(zhǎng)文本情感傾向性分析方法的效果,進(jìn)行模型對(duì)比實(shí)驗(yàn),與目前最優(yōu)模型LSTM-GRNN[10]進(jìn)行對(duì)比分析,與模型Convolutional NN(2014)[3]和Paragraph Vector[18]進(jìn)行對(duì)比分析。

實(shí)驗(yàn)數(shù)據(jù)來自國(guó)外長(zhǎng)文本評(píng)論,包括互聯(lián)網(wǎng)電影資料庫IMDb和酒店評(píng)論語料Yelp 2015。將訓(xùn)練集和測(cè)試集按4:1的比例切分。

表1 長(zhǎng)文本情感傾向性分析實(shí)驗(yàn)數(shù)據(jù)(條)

其中,#s/d代表平均每個(gè)文檔中的句子數(shù),#w/d代表平均每個(gè)文檔中的詞語數(shù)。

3.2 實(shí)驗(yàn)環(huán)境和條件

實(shí)驗(yàn)所用軟件資源如表2所示,硬件資源如表3所示。

表2 實(shí)驗(yàn)所用軟件資源

表3 實(shí)驗(yàn)所用硬件資源

3.3 評(píng)價(jià)方法

論文采用正確率(Accuracy)評(píng)價(jià)長(zhǎng)文本評(píng)論情感傾向性分析的結(jié)果,正確率計(jì)算方法如式(16)所示。

其中,TP是將正類評(píng)論文本預(yù)測(cè)為正類的數(shù)目,F(xiàn)N是將正類評(píng)論文本預(yù)測(cè)為負(fù)類的數(shù)目,F(xiàn)P是將負(fù)類評(píng)論文本預(yù)測(cè)為正類的數(shù)目,TN是將負(fù)類評(píng)論文本預(yù)測(cè)為負(fù)類的數(shù)目。

3.4 實(shí)驗(yàn)過程和參數(shù)

LSTM-GRNN是Tang等提出的基于LSTM和雙向門循環(huán)神經(jīng)網(wǎng)絡(luò)的長(zhǎng)文本情感傾向性分析方法,該方法首先使用LSTM學(xué)習(xí)句子向量表示;其次,應(yīng)用雙向門神經(jīng)網(wǎng)絡(luò)對(duì)句子語義及句子間的語義關(guān)系進(jìn)行編碼得到文檔向量表示;最后經(jīng)過softmax層進(jìn)行情感分類。

Convolutional NN是Kim等利用CNN進(jìn)行文本情感分類的方法,其利用詞嵌入把文本映射成低維空間的特征矩陣,利用卷積層和下采樣層提取特征,實(shí)現(xiàn)文本情感分類。

Paragraph Vector是Le and Mikolov提出的段落向量模型,其由一個(gè)無監(jiān)督學(xué)習(xí)算法構(gòu)成的,將變長(zhǎng)的文本學(xué)習(xí)到固定長(zhǎng)度的向量表征。該向量表征可用來預(yù)測(cè)上下文中的周圍的詞。

Attention-BiLSTM是論文提出的基于注意力雙層LSTM的長(zhǎng)文本評(píng)論情感傾向性分析方法。為了驗(yàn)證該算法的效果,設(shè)置詞嵌入詞匯表數(shù)為400 000,詞嵌入維度為100,設(shè)置每篇文檔最大句子數(shù)為18,單句最大詞匯數(shù)100。模型參數(shù):損失函數(shù)為'categorical_crossentropy',優(yōu)化方法為'rmsprop',批梯度數(shù)量為 50,激活函數(shù)為'softmax',LSTM層輸出尺寸為200。

3.5 實(shí)驗(yàn)結(jié)果和結(jié)論

表4 長(zhǎng)文本情感傾向性分析對(duì)比實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果表明本方法Attention-BiLSTM優(yōu)于LSTM-GRNN。Attention-BiLSTM在Yelp 2015語料上的情感分類正確率為70%,比目前最優(yōu)方法LSTM-GRNN提升了2.4%,在IMDb語料上的正確率為47.5%,提升了2.2%。Attention-BiLSTM方法分類效果更好,該方法利用LSTM學(xué)習(xí)句子級(jí)情感向量表示,使用雙向LSTM對(duì)句子的語義及句子間的語義關(guān)系進(jìn)行編碼,基于注意力機(jī)制根據(jù)句子的語義貢獻(xiàn)度進(jìn)行權(quán)值分配,進(jìn)一步提高了情感分類正確率。而目前最優(yōu)方法LSTM-GRNN不能根據(jù)句子的情感語義貢獻(xiàn)度對(duì)不同句子進(jìn)行權(quán)值分配,情感分類效果比Attention-BiLSTM差。Attention-BiLSTM在長(zhǎng)文本評(píng)論情感傾向性分析上具有更好的效果。

4 小結(jié)

針對(duì)長(zhǎng)文本評(píng)論篇幅長(zhǎng),正負(fù)情感特征離散分布且每個(gè)句子的情感語義貢獻(xiàn)度不同的問題,提出了一種基于注意力雙層LSTM的長(zhǎng)文本評(píng)論情感傾向性分析方法。該方法通過雙向LSTM對(duì)文檔中所有句子的語義及句子間的語義關(guān)系進(jìn)行編碼,基于注意力機(jī)制對(duì)不同句子級(jí)情感向量表示分配不同權(quán)值,加權(quán)獲得長(zhǎng)文本文檔級(jí)情感向量表示,經(jīng)過Softmax層進(jìn)行情感分類。在Yelp 2015和IMDb上進(jìn)行實(shí)驗(yàn),結(jié)果表明,情感分類正確率相比目前最優(yōu)方法LSTM-GRNN分別提升了2.4%和2.2%。Attention-BiLSTM情感傾向性分析方法表現(xiàn)更好,可以根據(jù)句子的情感語義貢獻(xiàn)度分配不同權(quán)重,進(jìn)一步提升了情感分類正確率。將來的研究可在以下三方面進(jìn)行:(1)文本特征的提取;(2)衡量評(píng)論的情感強(qiáng)度;(3)進(jìn)一步提升深度神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率。

猜你喜歡
傾向性文檔注意力
讓注意力“飛”回來
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測(cè)
有人一聲不吭向你扔了個(gè)文檔
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
A Beautiful Way Of Looking At Things
關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
“沒準(zhǔn)兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
語言與翻譯(2015年4期)2015-07-18 11:07:43
一種面向博客群的主題傾向性分析模型
邹平县| 宝鸡市| 如皋市| 丰城市| 德安县| 盐山县| 铜梁县| 临安市| 香格里拉县| 安阳市| 曲周县| 合江县| 达日县| 鲁甸县| 澎湖县| 冷水江市| 和田县| 南宫市| 桓仁| 永清县| 凤阳县| 昆山市| 鄂尔多斯市| 太和县| 鹿泉市| 镇安县| 清新县| 无棣县| 武山县| 留坝县| 肥城市| 武邑县| 贵港市| 岢岚县| 隆回县| 黄大仙区| 兴义市| 九龙城区| 固阳县| 凤阳县| 饶阳县|