基于BiLSTM-Attention的電商評(píng)論情感分析

2020-07-13 02:58史振杰董兆偉龐超逸張百靈孫立輝

河北省科學(xué)院學(xué)報(bào) 2020年2期

史振杰，董兆偉，龐超逸，張百靈，孫立輝

(河北經(jīng)貿(mào)大學(xué) 信息技術(shù)學(xué)院,河北石家莊 050061)

1 研究現(xiàn)狀

近年來(lái)，電子商務(wù)發(fā)展十分迅速，同時(shí)，越來(lái)越多的評(píng)價(jià)形成了巨量的文本數(shù)據(jù)，這些數(shù)據(jù)包含大量的隱含信息，商家可以根據(jù)這些信息來(lái)改善產(chǎn)品和經(jīng)營(yíng)模式，而消費(fèi)者可以根據(jù)這些信息選擇自己想要的產(chǎn)品。但是，僅僅靠人工是無(wú)法處理這樣大量的信息，因此，利用計(jì)算機(jī)來(lái)幫助人們進(jìn)行匯總、處理與挖掘這些信息，所以文本情感分析技術(shù)出現(xiàn)并成為人工智能領(lǐng)域的一個(gè)熱點(diǎn)問(wèn)題。

文本情感分析在許多的領(lǐng)域都有涉及，應(yīng)用范圍十分廣泛[1-4]，例如，心理學(xué)、智能機(jī)器人、智能司法等。英文的情感分析研究的比較成熟并且取得的不錯(cuò)的研究成果，而國(guó)內(nèi)的研究比較落后。在情感分析領(lǐng)域，國(guó)外的研究比國(guó)內(nèi)較早，對(duì)于英文的情感分析研究較為成熟，對(duì)于中文的研究還處于起步階段，但是兩者的研究方法相似，主要都是分為三種方式，基于情感詞典的方法，基于機(jī)器學(xué)習(xí)以及基于深度學(xué)習(xí)的方法。

基于情感詞典的分析方法主要是根據(jù)是否包含詞典中的情感詞語(yǔ)及情感強(qiáng)度，再根據(jù)公式評(píng)價(jià)情感傾向[5]。Bingliu等人[6]構(gòu)建了基于顧客評(píng)價(jià)的詞典，除了一般的詞語(yǔ)外，還包含了拼寫錯(cuò)誤、語(yǔ)法變形、標(biāo)記符號(hào)等，該詞典在新社交媒體方面處理情感分析時(shí)具有很大的幫助。Saif[7]將語(yǔ)義信息引入到情歌分析中，并通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)比對(duì)情歌主題進(jìn)行分類的方法效果好。Kim[8]等人使用同義詞，近義詞等方式構(gòu)建詞典，并通過(guò)它判斷詞的情感傾向。閔錦和朱嫣嵐[9]等人使用Hownat詞典進(jìn)行分析再次基礎(chǔ)上進(jìn)行了創(chuàng)新，提出兩種新的計(jì)算方式，并證明具有很高的實(shí)踐價(jià)值。朱艷輝[10]等人建立了一個(gè)新的詞典，用新詞典結(jié)合傳統(tǒng)TF-IDF方法進(jìn)行優(yōu)化。王勇[11-12]等人在基礎(chǔ)情感詞典的基礎(chǔ)上，擴(kuò)展了情感詞典，取得了很好的效果。使用情感詞典進(jìn)行文本分析雖然效率較高，但是分析的準(zhǔn)確程度與情感詞典的好壞有很大的關(guān)聯(lián)，因此模型的魯棒性不強(qiáng)。

基于機(jī)器學(xué)習(xí)的方法原理是采用有監(jiān)督數(shù)據(jù)的方法進(jìn)行學(xué)習(xí)，進(jìn)而完成情感分析。Pang[13]等人最開始將機(jī)器學(xué)習(xí)方法引入到情感分析中去，采用機(jī)器學(xué)習(xí)實(shí)現(xiàn)了對(duì)電影影評(píng)的分類，結(jié)果表明SVM的分類效果最好，樸素貝葉斯進(jìn)行分類效果最差。Jain[14]等人使用機(jī)器學(xué)習(xí)算法，對(duì)Twitter評(píng)論進(jìn)行情感分析，構(gòu)建了一個(gè)基于貝葉斯和決策樹的情感分析框架，結(jié)果表明不僅準(zhǔn)確率高并且速度快。Neethu[15]等人在某一特殊領(lǐng)域采用機(jī)器學(xué)習(xí)的方法進(jìn)行情感分析，識(shí)別出這一領(lǐng)域中對(duì)于情感分析的作用，取得不錯(cuò)的效果。王剛[16]等人將集成學(xué)習(xí)與SVM相結(jié)合，提高了情感分析的準(zhǔn)確度。李響[17]等人針對(duì)SVM模型，加入了三種對(duì)維吾爾語(yǔ)言學(xué)習(xí)的三種策略，在提高準(zhǔn)確度的情況下還能夠減少工作量，省時(shí)省力。一般情況下，采用機(jī)器學(xué)習(xí)的方法進(jìn)行情感分析效果比單純采用情感詞典的方法好，但是需要使用大的語(yǔ)料庫(kù)，因此實(shí)際上很難達(dá)到滿意的效果。

隨著計(jì)算機(jī)技術(shù)的提升，深度學(xué)習(xí)廣泛用于文本的處理，深度學(xué)習(xí)可以經(jīng)過(guò)多層次的學(xué)習(xí)，自動(dòng)學(xué)習(xí)到數(shù)據(jù)的本質(zhì)特征，能夠在預(yù)測(cè)與分類任務(wù)中獲得較高的準(zhǔn)確率。Denil[18]等人提出一種多層次的CNN模型來(lái)抓取文本中的特征，通過(guò)構(gòu)建多層次的結(jié)構(gòu)來(lái)強(qiáng)化文本中對(duì)于關(guān)鍵信息的抓取。Kalchbrenner[19]將靜態(tài)卷積網(wǎng)與動(dòng)態(tài)卷積網(wǎng)相結(jié)合，對(duì)于解決不同文本的不同長(zhǎng)度具有較好的效果。Zhou[20]等人提出了將CNN與RNN的特點(diǎn)相結(jié)合，先對(duì)文本用CNN進(jìn)行分布特征的提取，再用RNN進(jìn)行序列特征的提取，最后用于分類。李然[21]使用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型進(jìn)行文本情感分析，經(jīng)過(guò)自適應(yīng)調(diào)整，提取更深層次的語(yǔ)義信息，在大規(guī)模的商品評(píng)論數(shù)據(jù)集上表明了深度學(xué)習(xí)的分類性能更好。胡朝舉[22]等人提出了一種將CNN與LSTM相結(jié)合的方法，不僅能采用CNN捕捉句子的局部特征，而且能夠較好的獲取句子的上下文信息，實(shí)驗(yàn)獲得了較高的F值。在以上的研究中，使用深度學(xué)習(xí)方法在不同領(lǐng)域都有很好的效果，但是都需要大量的語(yǔ)料進(jìn)行學(xué)習(xí)，語(yǔ)料不足時(shí)很難達(dá)到滿意的效果。

本文主要對(duì)以下內(nèi)容進(jìn)行研究論述：

1) 利用Word2vec對(duì)評(píng)論信息的句子進(jìn)行向量化表達(dá)，然后采用雙向LSTM網(wǎng)絡(luò)對(duì)文本信息進(jìn)行分析，對(duì)比單向LSTM網(wǎng)絡(luò)，能夠充分挖掘句子中上下文之間的信息。

2) 在BiLSTM網(wǎng)絡(luò)的基礎(chǔ)上，加入注意力機(jī)制Attention，通過(guò)注意力機(jī)制的使用對(duì)句子中不同特征分配權(quán)重，對(duì)于句子中傾向于用戶情感的特征信息進(jìn)行關(guān)注，有效改善識(shí)別效率，減少數(shù)據(jù)中噪聲帶來(lái)的不利影響，在京東某手機(jī)評(píng)論數(shù)據(jù)集中，實(shí)驗(yàn)表明融合注意力機(jī)制與包含上下文信息的Bilstm模型具有良好表現(xiàn)。

2 LSTM模型

長(zhǎng)短期記憶網(wǎng)絡(luò)，即LSTM，它屬于RNN的變種，是一種特殊的改進(jìn)，能夠解決RNN梯度的問(wèn)題。在循環(huán)神經(jīng)網(wǎng)絡(luò)中，可以達(dá)到使用上文信息來(lái)用于輸入與輸出序列之間的映射，如圖1所示。它的任務(wù)就是接受x并且輸出h，并且內(nèi)部A允許循環(huán)。但是，在標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò)中，給定輸入對(duì)隱層及網(wǎng)絡(luò)輸出的影響，當(dāng)它以網(wǎng)絡(luò)的循環(huán)連接，會(huì)出現(xiàn)梯度爆炸或衰減的問(wèn)題。

圖1 LSTM內(nèi)部結(jié)構(gòu)圖

由于循環(huán)神經(jīng)網(wǎng)絡(luò)的不足，長(zhǎng)短時(shí)記憶模型被提出。LSTM網(wǎng)絡(luò)是由多個(gè)內(nèi)存單元連接而成，每個(gè)單元包括輸入門、輸出門和遺忘門，并且三個(gè)門都是用可微分的激活函數(shù)，門結(jié)構(gòu)可以達(dá)到不間斷對(duì)數(shù)據(jù)進(jìn)行讀取、寫入、復(fù)制的作用。從圖1可以看出，在前向傳播的過(guò)程中，除了包含隱藏狀態(tài)，還包含一個(gè)細(xì)胞狀態(tài)。

遺忘門能夠決定信息的忘記，在細(xì)胞中，有一定的概率選擇是否遺忘上一層的隱藏細(xì)胞狀態(tài)，遺忘上一層細(xì)胞狀態(tài)的概率用ft表示，上一個(gè)時(shí)刻細(xì)胞的輸出為ht-1，當(dāng)前細(xì)胞的輸入用xt，W為權(quán)重，b為偏置，δ為激活函數(shù)，如下式所示，

ft=σ(Wf·[ht-1,xt]+bf)

(1)

輸入門負(fù)責(zé)當(dāng)前序列位置的輸入，為輸出門細(xì)胞的狀態(tài)提供控制，I與C對(duì)細(xì)胞狀態(tài)起作用，如下式所示，

it=σ(Wi·[ht-1,xt]+bi)

(2)

在輸出門之前，將遺忘門和輸入門得到的結(jié)果對(duì)當(dāng)前單元進(jìn)行處理，如下式所示：

(3)

當(dāng)隱藏細(xì)胞狀態(tài)進(jìn)行更新后，可以由輸出門進(jìn)行輸出，計(jì)算公式如下：

ot=σ(Wo·[ht-1,xt]+bo)

ht=ot*tanh(Ct)

(4)

最后，輸出門決定下個(gè)隱藏狀態(tài)的值，控制細(xì)胞狀態(tài)的輸出。通過(guò)激活函數(shù)進(jìn)行相應(yīng)的數(shù)據(jù)傳遞得到新的狀態(tài)，再用Tanh進(jìn)行激活確定應(yīng)該輸出的信息。

3 注意力機(jī)制

圖2 注意力機(jī)制結(jié)構(gòu)圖

注意力機(jī)制為人們?cè)赗NN及CNN之后的解決問(wèn)題中提供了新思路[23]。注意力，通俗理解，人類在觀察環(huán)境時(shí)，大腦往往只關(guān)注某幾個(gè)特別重要的部分，從而構(gòu)建自己的印象。而Attention Mechanism也是如此，如圖2所示，將輸入信息分為查詢值與鍵值，對(duì)于不同的鍵值分配不同的權(quán)重，然后再結(jié)合起來(lái)。

通用注意力機(jī)制需要三個(gè)二維矩陣Q，K，V，其中，K代表關(guān)鍵字，Q代表查詢值，V代表權(quán)重值。如圖3所示，這些二位矩陣的維度分別代表了句子的最大長(zhǎng)度以及每一個(gè)句子對(duì)應(yīng)的向量長(zhǎng)度[24]。一般來(lái)說(shuō)，K與V都是編碼器的輸出，也就代表了它們是一樣的，而Q是解碼器的隱狀態(tài)，通過(guò)Q與K的每個(gè)時(shí)序的對(duì)應(yīng)點(diǎn)積進(jìn)行softmax即可得到兩個(gè)時(shí)序序列的相似性權(quán)重。根據(jù)這種相似性的大小，從而對(duì)V矩陣中的每一行向量進(jìn)行放大或縮小，然后將V的所有時(shí)序序列的表示向量進(jìn)行加權(quán)求和?？梢岳斫鉃?，對(duì)于Q中的每一個(gè)序列，V中和該序列相似性高的會(huì)獲得較高的概率，相似性低的獲得較小的概率，然后加權(quán)求和新的序列Q的表示。這些權(quán)重就被稱為注意力權(quán)重。也就是說(shuō)，注意力機(jī)制中權(quán)重的大小就是一個(gè)序列對(duì)與他序列中的字符更加的相似或者不相似。

圖3 Encoder-Decoder機(jī)制計(jì)算圖

在自然語(yǔ)言處理，尤其是機(jī)器翻譯的領(lǐng)域內(nèi)，注意力機(jī)制使用廣泛，隨后在其他自然語(yǔ)言處理任務(wù)上也均有很好表現(xiàn)。注意力機(jī)制可以說(shuō)是從大量特征中有篩選出重要的內(nèi)容，并且聚焦在這些特征上，同時(shí)，對(duì)于不重要的內(nèi)容進(jìn)行遠(yuǎn)離。

在電商的評(píng)論信息中，存在許多對(duì)于商品和服務(wù)的情感詞語(yǔ)，引入注意力機(jī)制可以使模型對(duì)文本信息中的情感特征進(jìn)行捕捉，給予這些特征更多的注意，因此能夠提高情感分類的效果。

4 BiLSTM-Attention模型建立

本文搭建的BiLSTM-Attention情感分析模型主要包括輸入層(Inputer layer)，詞嵌入層(Embedding layer)，BiLSTM層，注意力層(Attention layer)，輸出層(Output layer)5個(gè)部分，整體結(jié)構(gòu)如圖4所示。

圖4 BiLSTM-Attention結(jié)構(gòu)圖

圖5 Attention-BiLSTM層結(jié)構(gòu)圖

詞嵌入是作為自然語(yǔ)言處理中必不可少的一部分。能夠?qū)⒕渥又械乃行畔⑶度氲礁呔S空間數(shù)據(jù)，可以作為單獨(dú)的模型進(jìn)行詞向量的嵌入學(xué)習(xí)，也可以作為詞嵌入模型的加載層，還可以作為訓(xùn)練的一部分，與模型一起進(jìn)行學(xué)習(xí)。在本次實(shí)驗(yàn)中，詞嵌入層作為加載詞向量模型，將文本數(shù)據(jù)對(duì)應(yīng)映射到向量空間中去，完成將詞語(yǔ)轉(zhuǎn)化為固定尺寸的向量。

模型的中間一層即為BiLSTM+Attention層。該層在模型中分為兩個(gè)部分，第一部分由雙向BiLSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取，第二部分需要注意力機(jī)制進(jìn)行特征的更深一步學(xué)習(xí)，如圖5所示。

模型BiLSTM有2個(gè)隱含層，組成了雙層LSTM模型，也就是兩個(gè)LSTM進(jìn)行疊加，能夠更好的抽取特征的表現(xiàn)。在訓(xùn)練模型時(shí)，設(shè)置正向傳播的dropout取值為0.5，反向傳播的dropout取值為0.5。根據(jù)長(zhǎng)短期記憶網(wǎng)絡(luò)的特點(diǎn)，得到LSTM雙向信息，然后將其前后拼接，在與Attention的權(quán)重矩陣相結(jié)合得到有用的特征。

對(duì)于給定的n維輸入(x1,x2,…,xn)，時(shí)間為t，BiLSTM的輸出為ht，計(jì)算流程如下式所示：

(5)

其中,權(quán)重矩陣為W，偏置向量為b，σ為激活函數(shù)，ht的兩種代表正向與反向BiLSTM的輸出。

將它們的輸出進(jìn)行拼接，輸入到注意力機(jī)制中，對(duì)隱含層的不同時(shí)間的輸出進(jìn)行不同的權(quán)重分配，不同的權(quán)重代表了不同的注意程度，其中，注意力權(quán)重的構(gòu)建方式如下，a為學(xué)習(xí)函數(shù)，由BiLSTM層的狀態(tài)序列ht經(jīng)過(guò)加權(quán)處理，得出注意力權(quán)值α，然后對(duì)所有序列中的結(jié)點(diǎn)隱含向量與注意力權(quán)值進(jìn)行乘積，得到最終的特征向量s。

et=a(ht)

(6)

輸出層由全連接層分類器進(jìn)行數(shù)據(jù)的分類，輸出層的計(jì)算公式如下式所示：

O=softmax(Wsh+bs)

(7)

在數(shù)據(jù)集中，輸出層進(jìn)行分類，經(jīng)過(guò)分類器處理，可以得到屬于哪一類情感的概率，如下式所示：

(8)

使用交叉熵?fù)p失函數(shù)作為評(píng)價(jià)函數(shù)，如下式所示：

(9)

其中，yti指代t時(shí)刻實(shí)際標(biāo)簽中的第i個(gè)值，preti指代t時(shí)刻預(yù)測(cè)的標(biāo)簽中的第i個(gè)值。

5 結(jié)果與分析

實(shí)驗(yàn)環(huán)境配置如表1所示。

表1 實(shí)驗(yàn)環(huán)境配置表

在京東某手機(jī)評(píng)論數(shù)據(jù)集中上進(jìn)行實(shí)驗(yàn)，數(shù)據(jù)集中包含了8000條訓(xùn)練數(shù)據(jù)，測(cè)試數(shù)據(jù)為1600條。

分別采取幾種不同的模型進(jìn)行實(shí)驗(yàn)，分析最后的結(jié)果。對(duì)于自然語(yǔ)言處理中情感分析任務(wù)，不僅要看最終的準(zhǔn)確率，還應(yīng)該以F值作為最終的評(píng)價(jià)指標(biāo)，結(jié)果如表2。

表2 實(shí)驗(yàn)結(jié)果表

在RNN中，雙向LSTM神經(jīng)網(wǎng)絡(luò)比單向LSTM神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確度與F值都高。這說(shuō)明了，雙向的LSTM結(jié)構(gòu)在文本情感分析任務(wù)中相較于單向的LSTM具有更好的效果，雙向的結(jié)構(gòu)在時(shí)序處理過(guò)程中，不僅能夠獲取句子前面的信息，也能夠獲取句子后面的信息，因此，在電商評(píng)論數(shù)據(jù)集中的BiLSTM表現(xiàn)好于LSTM。

當(dāng)加入注意力機(jī)制時(shí)，Attention-BiLSTM在準(zhǔn)確率與F值均高于BiLSTM模型。這說(shuō)明了加入注意力機(jī)制的BiLSTM可以捕獲句子中對(duì)于情感表達(dá)更加重要的詞語(yǔ)，Attention機(jī)制在BiLSTM網(wǎng)絡(luò)的使用能夠給予重要信息更高的注意，因此，BiLSTM-Attention的在本實(shí)驗(yàn)中的表現(xiàn)好于BiLSTM。

6 結(jié)束語(yǔ)

近幾年來(lái)，隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)的發(fā)展，網(wǎng)上購(gòu)物已經(jīng)融入了人們的日常生活，因此，在網(wǎng)上出現(xiàn)的評(píng)論文本中挖掘有價(jià)值的信息也越來(lái)越受到人們的重視。為了更好的對(duì)電商評(píng)論信息進(jìn)行挖掘，本文提出了一種融合Attention與BiLSTM的網(wǎng)絡(luò)模型，對(duì)某手機(jī)評(píng)論文本數(shù)據(jù)進(jìn)行情感分析，挖掘消費(fèi)者的情緒，更加有效的對(duì)商家進(jìn)行優(yōu)化，增強(qiáng)競(jìng)爭(zhēng)能力，也能給消費(fèi)者決定是否購(gòu)買提供參考。

文本先通過(guò)Word2Vec得到預(yù)訓(xùn)練詞向量，將詞向量輸入到雙向LSTM模型中去，利用注意力機(jī)制篩選出對(duì)文本情感分析重要的特征，分配較高的權(quán)重，然后送入到全連接中在進(jìn)行情感極性分類。在某手機(jī)評(píng)論數(shù)據(jù)中，雖然相較于其他幾種傳統(tǒng)模型有一些提升，但是訓(xùn)練時(shí)間也相對(duì)較長(zhǎng)，并且模型并不能實(shí)現(xiàn)同時(shí)對(duì)雙向語(yǔ)義進(jìn)行處理。因此，針對(duì)這些問(wèn)題，還需要不斷的研究和探索。