国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機(jī)制和BGRU網(wǎng)絡(luò)的文本情感分析方法研究

2019-07-29 00:41尹良亮孫紅光王超賈慧婷索朗卓瑪
無(wú)線(xiàn)互聯(lián)科技 2019年9期
關(guān)鍵詞:注意力機(jī)制深度學(xué)習(xí)

尹良亮 孫紅光 王超 賈慧婷 索朗卓瑪

摘? ?要:文本情感分類(lèi)只考慮內(nèi)容中的情感語(yǔ)義,不能有效表示上下文語(yǔ)義信息,忽略詞對(duì)句子含義的重要程度,基于此,文章提出一種基于注意力機(jī)制和雙向門(mén)循環(huán)單元網(wǎng)絡(luò)的情感分析方法,使用雙向門(mén)循環(huán)單元代替原有的簡(jiǎn)單網(wǎng)絡(luò),有效結(jié)合文本中的上下文語(yǔ)義信息。通過(guò)在公開(kāi)數(shù)據(jù)集IMDB上進(jìn)行驗(yàn)證,對(duì)比MLP網(wǎng)絡(luò)、BRNN網(wǎng)絡(luò)和BGRU網(wǎng)絡(luò)得出,文章提出的方法達(dá)到最好分類(lèi)效果。

關(guān)鍵詞:文本情感分析;注意力機(jī)制;雙向門(mén)循環(huán)單元;深度學(xué)習(xí)

隨著電子商務(wù)的普及和發(fā)展,互聯(lián)網(wǎng)上的產(chǎn)品評(píng)論信息呈指數(shù)增長(zhǎng)。產(chǎn)品評(píng)論信息在一定程度上影響消費(fèi)者的購(gòu)買(mǎi)意愿,也會(huì)影響產(chǎn)品及其企業(yè)的形象。這些產(chǎn)品評(píng)論包含的信息量巨大,并且呈無(wú)結(jié)構(gòu)化特點(diǎn),通過(guò)人工閱讀的方式難以實(shí)現(xiàn)對(duì)它們的處理。本文提出一種基于注意力機(jī)制和雙向門(mén)循環(huán)單元(Bi Gated Recurrent Unit,BGRU)網(wǎng)絡(luò)(Att_BGRU)的文本情感分析方法,利用BGRU代替原有的簡(jiǎn)單網(wǎng)絡(luò),緩解長(zhǎng)距離依賴(lài)問(wèn)題和梯度消失問(wèn)題,并且能夠更好地避免過(guò)擬合問(wèn)題的出現(xiàn)。結(jié)合注意力機(jī)制,能突出目標(biāo)詞的重要性,進(jìn)而能夠獲取更多的隱藏信息[1]。

1? ? 基于注意力機(jī)制和BGRU網(wǎng)絡(luò)方法

基于注意力機(jī)制和BGRU網(wǎng)絡(luò)的文本情感分析方法,采用BGRU網(wǎng)絡(luò),該網(wǎng)絡(luò)從正反兩個(gè)方向捕獲上下文語(yǔ)義特征信息,更加有效地結(jié)合文本中的上下文語(yǔ)義特征。同時(shí),采用注意力機(jī)制,在獲取情感特征時(shí),相關(guān)度較高的詞在句子語(yǔ)義特征中表示占據(jù)更大的權(quán)重。

該方法的整體流程為:首先,對(duì)輸入的文本句子利用詞向量進(jìn)行編碼,轉(zhuǎn)換為詞向量表示后,將用詞向量表示的文本特征導(dǎo)入BGRU中,采用注意力機(jī)制計(jì)算注意力概率,對(duì)BGRU的輸入和輸出的相關(guān)性進(jìn)行重要度分析,根據(jù)注意力概率獲取BGRU的輸出句子級(jí)別的語(yǔ)義特征。其次,對(duì)引入注意力機(jī)制后的BGRU的輸出特征進(jìn)行最大池化處理,獲取文本整體特征。最后,將句子級(jí)別的特征導(dǎo)入分類(lèi)器中進(jìn)行分類(lèi),輸出分類(lèi)效果[2]。

2? ? 模型求解

2.1? 任務(wù)定義

對(duì)于長(zhǎng)度為n的句子s={w1,w2,…,ai,…,wn},ai為目標(biāo)詞,將句子以詞為單位形成一個(gè)詞序列,將每個(gè)詞映射為一個(gè)多維連續(xù)值的詞向量,得到詞向量矩陣E∈Rk×|V|,k為詞向量維度,即把每一個(gè)詞映射為k維向量xi∈Rk,|V|為詞典的大小,即數(shù)據(jù)集包含的所有詞的數(shù)量。本文通過(guò)句子詞向量集合{x1,x2,…,xn}和目標(biāo)集合{ti}之間的特征信息來(lái)判斷目標(biāo)集合{ti}中每一個(gè)目標(biāo)的情感極性。

2.2? 門(mén)循環(huán)單元

為了解決這種長(zhǎng)期依賴(lài)問(wèn)題,可以運(yùn)用Hochreiter等提出的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)來(lái)替代傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型。本文提出方法RNNs采用其中較流行的變體,稱(chēng)作門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU),結(jié)構(gòu)如圖1所示。

圖1? 門(mén)控循環(huán)單元網(wǎng)絡(luò)結(jié)構(gòu)

其中,rt表示重置門(mén),它的值決定了過(guò)去的記憶與當(dāng)前的輸入的組合方式;zt表示更新門(mén),它控制著過(guò)去的記憶有多少能被保存,重置門(mén)單元rt、更新門(mén)單元zt和記憶單元st的計(jì)算公式如下所示:

其中,表示矩陣對(duì)應(yīng)元素相乘,σ表示sigmoid函數(shù),w表示GRU共享參數(shù)。

假設(shè)一個(gè)句子Si中有T個(gè)詞,每個(gè)詞為wit,t∈[0,T],將句子Si看作一個(gè)序列,句子中的詞為句子序列的組成部分。那么,分別通過(guò)前向GRU和后向GRU模型就能得到句子的表達(dá):

通過(guò)結(jié)合? 得到句子Si的語(yǔ)義表示:

2.3? 注意力機(jī)制的引入

在句子級(jí)別的文本語(yǔ)義特征表示中,假設(shè)Si表示通過(guò)Attention方法得到的句子語(yǔ)義特征,則:

其中,δij表示第j個(gè)詞的重要程度。定義δij的計(jì)算:

假設(shè)其中,e是計(jì)算詞wit的重要性程度的函數(shù):

WH是參數(shù)矩陣,V是參數(shù)向量,VT是轉(zhuǎn)置向量。

2.4? 對(duì)輸出的特征進(jìn)行池化

池化處理是對(duì)輸出結(jié)果進(jìn)行統(tǒng)計(jì),采用最大池化方法對(duì)整個(gè)句子引入注意力機(jī)制以后對(duì)對(duì)應(yīng)的輸出特征d={s1,s2,s3,…,sm}進(jìn)行池化:

池化后獲得文本特征d,無(wú)論句子長(zhǎng)度是多少,池化后的特征維度都是固定的,這樣就解決了文本句子長(zhǎng)度不一的問(wèn)題。

2.5? 對(duì)最后得到的特征進(jìn)行分類(lèi)

上述得到池化后的特征可以直接作為文本分類(lèi)器的特征輸入。首先,通過(guò)一個(gè)非線(xiàn)性層(tanh)將d映射到維度為C的空間,C是文本分類(lèi)器中的類(lèi)別的數(shù)目,計(jì)算公式:

采用softmax分類(lèi)器,得到文本分類(lèi),公式如下:

pc是文本情感類(lèi)別為c的預(yù)測(cè)概率。

2.6? 模型訓(xùn)練

文本情感分析本質(zhì)上是一個(gè)分類(lèi)問(wèn)題。為了獲取最優(yōu)的模型,本文通過(guò)使用交叉熵?fù)p失函數(shù)作為模型訓(xùn)練的優(yōu)化目標(biāo),通過(guò)隨機(jī)梯度下降算法來(lái)計(jì)算損失函數(shù)梯度同時(shí)更新模型參數(shù),計(jì)算公式如下:

其中,D是訓(xùn)練數(shù)據(jù)集;是文本情感分類(lèi)為c的0—1分布,即,如果文本情感分類(lèi)為c,那么的值為1,否則的值為0。

3? ? 實(shí)驗(yàn)與分析

采用公共數(shù)據(jù)集驗(yàn)證本文方法在文本情感分類(lèi)任務(wù)的有效性。英文詞向量采用Pennington等[2]提出的Glove詞向量,其中,每個(gè)詞向量為100維,詞典大小為331 MB。對(duì)于未登錄詞,采用隨機(jī)初始化。

3.1? 實(shí)驗(yàn)數(shù)據(jù)

本文采用Kaggle提供互聯(lián)網(wǎng)電影數(shù)據(jù)庫(kù)(Internet Movie Database,IMDB)電影評(píng)論數(shù)據(jù)進(jìn)行訓(xùn)練和驗(yàn)證。數(shù)據(jù)樣本中的情感極性為積極和消極。數(shù)據(jù)總共有25 000個(gè)樣本,其中,20 000個(gè)樣本作為訓(xùn)練集,5 000個(gè)樣本作為測(cè)試集。為了平衡語(yǔ)料,積極和消極情感樣本各12 500個(gè)。

3.2? 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

本文采用準(zhǔn)確率(accuracy)和平方根誤差(Root Mean Square Error,RMSE)兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)來(lái)評(píng)價(jià)分類(lèi)結(jié)果。其中,準(zhǔn)確率用來(lái)衡量分類(lèi)器準(zhǔn)確性。平方根誤差用來(lái)衡量預(yù)測(cè)情感標(biāo)簽和真實(shí)情感標(biāo)簽之間的差異。

其中,out_correct表示輸出的判斷正確的關(guān)系個(gè)數(shù),out_output_all表示輸出的所有關(guān)系個(gè)數(shù),gold表示當(dāng)前評(píng)論文本的類(lèi)別,predicted表示當(dāng)前評(píng)價(jià)文本的預(yù)測(cè)類(lèi)型。

3.3? 參數(shù)設(shè)置

模型的激活函數(shù)選用tanh函數(shù),隱含層節(jié)點(diǎn)數(shù)取100,采用softmax作為分類(lèi)器。為防止模型計(jì)算過(guò)程出現(xiàn)的過(guò)擬合現(xiàn)象,采用L2正則化方法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行約束,訓(xùn)練過(guò)程引入丟碼策略,其丟碼率取0.5。另外,采用批量的rmsprop優(yōu)化方法用于模型訓(xùn)練,批處理大小取50,訓(xùn)練輪數(shù)取100。所有模型參數(shù)都根據(jù)經(jīng)驗(yàn)選取。

3.4? 實(shí)驗(yàn)對(duì)比

本文與傳統(tǒng)的深度學(xué)習(xí)方法:多層神經(jīng)網(wǎng)絡(luò)(Multilayer Perceptron,MLP),雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-directional Circulatory Neural Network,BRNN),BGRU的方法在同一個(gè)語(yǔ)料庫(kù)上進(jìn)行實(shí)驗(yàn)對(duì)比。為統(tǒng)一比較標(biāo)準(zhǔn),所有方法的輸入詞向量均采用Glove詞向量,所有網(wǎng)絡(luò)隱藏節(jié)點(diǎn)數(shù)均相同,池化和分類(lèi)均采用2.4,2.5節(jié)方法進(jìn)行處理。4組方法在相同數(shù)據(jù)集上的情感分類(lèi)對(duì)比實(shí)驗(yàn)如表1所示。

從表1結(jié)果可以看出,本文提出的方法在數(shù)據(jù)集上分類(lèi)效果優(yōu)于其他方法。Att_BGRU在IMDB數(shù)據(jù)集中的情感分類(lèi)準(zhǔn)確率達(dá)到80.46%。BGRU的分類(lèi)效果也要比基本的深度學(xué)習(xí)網(wǎng)絡(luò)的多層感知機(jī)和BRNN要好。分析實(shí)驗(yàn)結(jié)果可知,在遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)中,梯度消失導(dǎo)致無(wú)法保留前面較遠(yuǎn)時(shí)間的記憶。

At_BGRU方法比BGRU方法分類(lèi)準(zhǔn)確率高,原因是在加上注意力機(jī)制后,突出了GRU中關(guān)鍵性輸入的影響,同時(shí)考慮到文本中句子與結(jié)果的相關(guān)性,從而更好地識(shí)別文本的情感極性,驗(yàn)證了注意力機(jī)制在文本情感分類(lèi)任務(wù)的有效性。

4? ? 結(jié)語(yǔ)

本文針對(duì)傳統(tǒng)深度學(xué)習(xí)方法,如MLP,BRNN,BGRU方法在產(chǎn)品文本情感分析時(shí)存在的忽略上下文語(yǔ)義信息等問(wèn)題,提出了基于注意力機(jī)制和BGRU網(wǎng)絡(luò)的方法進(jìn)行文本情感分析,在IMDB數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證了At_BGRU方法能夠更好地發(fā)現(xiàn)文本信息的情感傾向性。下一步將該方法結(jié)合多注意力機(jī)制,使方法在不需要外部知識(shí)的情況下,例如句法分析等,獲取更深層次的情感特征信息,有效地識(shí)別不同目標(biāo)的情感極性。

[參考文獻(xiàn)]

[1]HOCHREITER S,SCHMIDHUBER J.Long short-Term memory[J].Neural Computation, 1997(8):1735.

[2]JEFFREY P,RICHARD S.GloVe: global vectors for word representation[C].Doha:Empirical Methods in Natural Language Processing,2014.

Abstract:Text emotion classification only considers the emotional semantics in the content, can not effectively represent the contextual semantic information, and ignores the importance of words to the meaning of the sentence. In this paper, an emotional analysis method based on attention mechanism and bidirectional gate loop unit network is proposed. The bidirectional gate loop unit is used instead of the original simple network, which effectively combines the context semantic information in the text. Compared with MLP network, BRNN network and BGRU network, the method proposed in this paper achieves the best classification effect by validating on the open dataset IMDB.

Key words:text emotion analysis; attention mechanism; two-way door cycling unit; deep learning

猜你喜歡
注意力機(jī)制深度學(xué)習(xí)
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望