史振杰,董兆偉,龐超逸,張百靈,孫立輝
(河北經(jīng)貿(mào)大學(xué) 信息技術(shù)學(xué)院,河北 石家莊 050061)
近年來(lái),電子商務(wù)發(fā)展十分迅速,同時(shí),越來(lái)越多的評(píng)價(jià)形成了巨量的文本數(shù)據(jù),這些數(shù)據(jù)包含大量的隱含信息,商家可以根據(jù)這些信息來(lái)改善產(chǎn)品和經(jīng)營(yíng)模式,而消費(fèi)者可以根據(jù)這些信息選擇自己想要的產(chǎn)品。但是,僅僅靠人工是無(wú)法處理這樣大量的信息,因此,利用計(jì)算機(jī)來(lái)幫助人們進(jìn)行匯總、處理與挖掘這些信息,所以文本情感分析技術(shù)出現(xiàn)并成為人工智能領(lǐng)域的一個(gè)熱點(diǎn)問(wèn)題。
文本情感分析在許多的領(lǐng)域都有涉及,應(yīng)用范圍十分廣泛[1-4],例如,心理學(xué)、智能機(jī)器人、智能司法等。英文的情感分析研究的比較成熟并且取得的不錯(cuò)的研究成果,而國(guó)內(nèi)的研究比較落后。在情感分析領(lǐng)域,國(guó)外的研究比國(guó)內(nèi)較早,對(duì)于英文的情感分析研究較為成熟,對(duì)于中文的研究還處于起步階段,但是兩者的研究方法相似,主要都是分為三種方式,基于情感詞典的方法,基于機(jī)器學(xué)習(xí)以及基于深度學(xué)習(xí)的方法。
基于情感詞典的分析方法主要是根據(jù)是否包含詞典中的情感詞語(yǔ)及情感強(qiáng)度,再根據(jù)公式評(píng)價(jià)情感傾向[5]。Bingliu等人[6]構(gòu)建了基于顧客評(píng)價(jià)的詞典,除了一般的詞語(yǔ)外,還包含了拼寫錯(cuò)誤、語(yǔ)法變形、標(biāo)記符號(hào)等,該詞典在新社交媒體方面處理情感分析時(shí)具有很大的幫助。Saif[7]將語(yǔ)義信息引入到情歌分析中,并通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)比對(duì)情歌主題進(jìn)行分類的方法效果好。Kim[8]等人使用同義詞,近義詞等方式構(gòu)建詞典,并通過(guò)它判斷詞的情感傾向。閔錦和朱嫣嵐[9]等人使用Hownat詞典進(jìn)行分析再次基礎(chǔ)上進(jìn)行了創(chuàng)新,提出兩種新的計(jì)算方式,并證明具有很高的實(shí)踐價(jià)值。朱艷輝[10]等人建立了一個(gè)新的詞典,用新詞典結(jié)合傳統(tǒng)TF-IDF方法進(jìn)行優(yōu)化。王勇[11-12]等人在基礎(chǔ)情感詞典的基礎(chǔ)上,擴(kuò)展了情感詞典,取得了很好的效果。使用情感詞典進(jìn)行文本分析雖然效率較高,但是分析的準(zhǔn)確程度與情感詞典的好壞有很大的關(guān)聯(lián),因此模型的魯棒性不強(qiáng)。
基于機(jī)器學(xué)習(xí)的方法原理是采用有監(jiān)督數(shù)據(jù)的方法進(jìn)行學(xué)習(xí),進(jìn)而完成情感分析。Pang[13]等人最開始將機(jī)器學(xué)習(xí)方法引入到情感分析中去,采用機(jī)器學(xué)習(xí)實(shí)現(xiàn)了對(duì)電影影評(píng)的分類,結(jié)果表明SVM的分類效果最好,樸素貝葉斯進(jìn)行分類效果最差。Jain[14]等人使用機(jī)器學(xué)習(xí)算法,對(duì)Twitter評(píng)論進(jìn)行情感分析,構(gòu)建了一個(gè)基于貝葉斯和決策樹的情感分析框架,結(jié)果表明不僅準(zhǔn)確率高并且速度快。Neethu[15]等人在某一特殊領(lǐng)域采用機(jī)器學(xué)習(xí)的方法進(jìn)行情感分析,識(shí)別出這一領(lǐng)域中對(duì)于情感分析的作用,取得不錯(cuò)的效果。王剛[16]等人將集成學(xué)習(xí)與SVM相結(jié)合,提高了情感分析的準(zhǔn)確度。李響[17]等人針對(duì)SVM模型,加入了三種對(duì)維吾爾語(yǔ)言學(xué)習(xí)的三種策略,在提高準(zhǔn)確度的情況下還能夠減少工作量,省時(shí)省力。一般情況下,采用機(jī)器學(xué)習(xí)的方法進(jìn)行情感分析效果比單純采用情感詞典的方法好,但是需要使用大的語(yǔ)料庫(kù),因此實(shí)際上很難達(dá)到滿意的效果。
隨著計(jì)算機(jī)技術(shù)的提升,深度學(xué)習(xí)廣泛用于文本的處理,深度學(xué)習(xí)可以經(jīng)過(guò)多層次的學(xué)習(xí),自動(dòng)學(xué)習(xí)到數(shù)據(jù)的本質(zhì)特征,能夠在預(yù)測(cè)與分類任務(wù)中獲得較高的準(zhǔn)確率。Denil[18]等人提出一種多層次的CNN模型來(lái)抓取文本中的特征,通過(guò)構(gòu)建多層次的結(jié)構(gòu)來(lái)強(qiáng)化文本中對(duì)于關(guān)鍵信息的抓取。Kalchbrenner[19]將靜態(tài)卷積網(wǎng)與動(dòng)態(tài)卷積網(wǎng)相結(jié)合,對(duì)于解決不同文本的不同長(zhǎng)度具有較好的效果。Zhou[20]等人提出了將CNN與RNN的特點(diǎn)相結(jié)合,先對(duì)文本用CNN進(jìn)行分布特征的提取,再用RNN進(jìn)行序列特征的提取,最后用于分類。李然[21]使用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型進(jìn)行文本情感分析,經(jīng)過(guò)自適應(yīng)調(diào)整,提取更深層次的語(yǔ)義信息,在大規(guī)模的商品評(píng)論數(shù)據(jù)集上表明了深度學(xué)習(xí)的分類性能更好。胡朝舉[22]等人提出了一種將CNN與LSTM相結(jié)合的方法,不僅能采用CNN捕捉句子的局部特征,而且能夠較好的獲取句子的上下文信息,實(shí)驗(yàn)獲得了較高的F值。在以上的研究中,使用深度學(xué)習(xí)方法在不同領(lǐng)域都有很好的效果,但是都需要大量的語(yǔ)料進(jìn)行學(xué)習(xí),語(yǔ)料不足時(shí)很難達(dá)到滿意的效果。
本文主要對(duì)以下內(nèi)容進(jìn)行研究論述:
1) 利用Word2vec對(duì)評(píng)論信息的句子進(jìn)行向量化表達(dá),然后采用雙向LSTM網(wǎng)絡(luò)對(duì)文本信息進(jìn)行分析,對(duì)比單向LSTM網(wǎng)絡(luò),能夠充分挖掘句子中上下文之間的信息。
2) 在BiLSTM網(wǎng)絡(luò)的基礎(chǔ)上,加入注意力機(jī)制Attention,通過(guò)注意力機(jī)制的使用對(duì)句子中不同特征分配權(quán)重,對(duì)于句子中傾向于用戶情感的特征信息進(jìn)行關(guān)注,有效改善識(shí)別效率,減少數(shù)據(jù)中噪聲帶來(lái)的不利影響,在京東某手機(jī)評(píng)論數(shù)據(jù)集中,實(shí)驗(yàn)表明融合注意力機(jī)制與包含上下文信息的Bilstm模型具有良好表現(xiàn)。
長(zhǎng)短期記憶網(wǎng)絡(luò),即LSTM,它屬于RNN的變種,是一種特殊的改進(jìn),能夠解決RNN梯度的問(wèn)題。在循環(huán)神經(jīng)網(wǎng)絡(luò)中,可以達(dá)到使用上文信息來(lái)用于輸入與輸出序列之間的映射,如圖1所示。它的任務(wù)就是接受x并且輸出h,并且內(nèi)部A允許循環(huán)。但是,在標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò)中,給定輸入對(duì)隱層及網(wǎng)絡(luò)輸出的影響,當(dāng)它以網(wǎng)絡(luò)的循環(huán)連接,會(huì)出現(xiàn)梯度爆炸或衰減的問(wèn)題。
圖1 LSTM內(nèi)部結(jié)構(gòu)圖
由于循環(huán)神經(jīng)網(wǎng)絡(luò)的不足,長(zhǎng)短時(shí)記憶模型被提出。LSTM網(wǎng)絡(luò)是由多個(gè)內(nèi)存單元連接而成,每個(gè)單元包括輸入門、輸出門和遺忘門,并且三個(gè)門都是用可微分的激活函數(shù),門結(jié)構(gòu)可以達(dá)到不間斷對(duì)數(shù)據(jù)進(jìn)行讀取、寫入、復(fù)制的作用。從圖1可以看出,在前向傳播的過(guò)程中,除了包含隱藏狀態(tài),還包含一個(gè)細(xì)胞狀態(tài)。
遺忘門能夠決定信息的忘記,在細(xì)胞中,有一定的概率選擇是否遺忘上一層的隱藏細(xì)胞狀態(tài),遺忘上一層細(xì)胞狀態(tài)的概率用ft表示,上一個(gè)時(shí)刻細(xì)胞的輸出為ht-1,當(dāng)前細(xì)胞的輸入用xt,W為權(quán)重,b為偏置,δ為激活函數(shù),如下式所示,
ft=σ(Wf·[ht-1,xt]+bf)
(1)
輸入門負(fù)責(zé)當(dāng)前序列位置的輸入,為輸出門細(xì)胞的狀態(tài)提供控制,I與C對(duì)細(xì)胞狀態(tài)起作用,如下式所示,
it=σ(Wi·[ht-1,xt]+bi)
(2)
在輸出門之前,將遺忘門和輸入門得到的結(jié)果對(duì)當(dāng)前單元進(jìn)行處理,如下式所示:
(3)
當(dāng)隱藏細(xì)胞狀態(tài)進(jìn)行更新后,可以由輸出門進(jìn)行輸出,計(jì)算公式如下:
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
(4)
最后,輸出門決定下個(gè)隱藏狀態(tài)的值,控制細(xì)胞狀態(tài)的輸出。通過(guò)激活函數(shù)進(jìn)行相應(yīng)的數(shù)據(jù)傳遞得到新的狀態(tài),再用Tanh進(jìn)行激活確定應(yīng)該輸出的信息。
圖2 注意力機(jī)制結(jié)構(gòu)圖
注意力機(jī)制為人們?cè)赗NN及CNN之后的解決問(wèn)題中提供了新思路[23]。注意力,通俗理解,人類在觀察環(huán)境時(shí),大腦往往只關(guān)注某幾個(gè)特別重要的部分,從而構(gòu)建自己的印象。而Attention Mechanism也是如此,如圖2所示,將輸入信息分為查詢值與鍵值,對(duì)于不同的鍵值分配不同的權(quán)重,然后再結(jié)合起來(lái)。
通用注意力機(jī)制需要三個(gè)二維矩陣Q,K,V,其中,K代表關(guān)鍵字,Q代表查詢值,V代表權(quán)重值。如圖3所示,這些二位矩陣的維度分別代表了句子的最大長(zhǎng)度以及每一個(gè)句子對(duì)應(yīng)的向量長(zhǎng)度[24]。一般來(lái)說(shuō),K與V都是編碼器的輸出,也就代表了它們是一樣的,而Q是解碼器的隱狀態(tài),通過(guò)Q與K的每個(gè)時(shí)序的對(duì)應(yīng)點(diǎn)積進(jìn)行softmax即可得到兩個(gè)時(shí)序序列的相似性權(quán)重。根據(jù)這種相似性的大小,從而對(duì)V矩陣中的每一行向量進(jìn)行放大或縮小,然后將V的所有時(shí)序序列的表示向量進(jìn)行加權(quán)求和??梢岳斫鉃?,對(duì)于Q中的每一個(gè)序列,V中和該序列相似性高的會(huì)獲得較高的概率,相似性低的獲得較小的概率,然后加權(quán)求和新的序列Q的表示。這些權(quán)重就被稱為注意力權(quán)重。也就是說(shuō),注意力機(jī)制中權(quán)重的大小就是一個(gè)序列對(duì)與他序列中的字符更加的相似或者不相似。
圖3 Encoder-Decoder機(jī)制計(jì)算圖
在自然語(yǔ)言處理,尤其是機(jī)器翻譯的領(lǐng)域內(nèi),注意力機(jī)制使用廣泛,隨后在其他自然語(yǔ)言處理任務(wù)上也均有很好表現(xiàn)。注意力機(jī)制可以說(shuō)是從大量特征中有篩選出重要的內(nèi)容,并且聚焦在這些特征上,同時(shí),對(duì)于不重要的內(nèi)容進(jìn)行遠(yuǎn)離。
在電商的評(píng)論信息中,存在許多對(duì)于商品和服務(wù)的情感詞語(yǔ),引入注意力機(jī)制可以使模型對(duì)文本信息中的情感特征進(jìn)行捕捉,給予這些特征更多的注意,因此能夠提高情感分類的效果。
本文搭建的BiLSTM-Attention情感分析模型主要包括輸入層(Inputer layer),詞嵌入層(Embedding layer),BiLSTM層,注意力層(Attention layer),輸出層(Output layer)5個(gè)部分,整體結(jié)構(gòu)如圖4所示。
圖4 BiLSTM-Attention結(jié)構(gòu)圖
圖5 Attention-BiLSTM層結(jié)構(gòu)圖
詞嵌入是作為自然語(yǔ)言處理中必不可少的一部分。能夠?qū)⒕渥又械乃行畔⑶度氲礁呔S空間數(shù)據(jù),可以作為單獨(dú)的模型進(jìn)行詞向量的嵌入學(xué)習(xí),也可以作為詞嵌入模型的加載層,還可以作為訓(xùn)練的一部分,與模型一起進(jìn)行學(xué)習(xí)。在本次實(shí)驗(yàn)中,詞嵌入層作為加載詞向量模型,將文本數(shù)據(jù)對(duì)應(yīng)映射到向量空間中去,完成將詞語(yǔ)轉(zhuǎn)化為固定尺寸的向量。
模型的中間一層即為BiLSTM+Attention層。該層在模型中分為兩個(gè)部分,第一部分由雙向BiLSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,第二部分需要注意力機(jī)制進(jìn)行特征的更深一步學(xué)習(xí),如圖5所示。
模型BiLSTM有2個(gè)隱含層,組成了雙層LSTM模型,也就是兩個(gè)LSTM進(jìn)行疊加,能夠更好的抽取特征的表現(xiàn)。在訓(xùn)練模型時(shí),設(shè)置正向傳播的dropout取值為0.5,反向傳播的dropout取值為0.5。根據(jù)長(zhǎng)短期記憶網(wǎng)絡(luò)的特點(diǎn),得到LSTM雙向信息,然后將其前后拼接,在與Attention的權(quán)重矩陣相結(jié)合得到有用的特征。
對(duì)于給定的n維輸入(x1,x2,…,xn),時(shí)間為t,BiLSTM的輸出為ht,計(jì)算流程如下式所示:
(5)
其中,權(quán)重矩陣為W,偏置向量為b,σ為激活函數(shù),ht的兩種代表正向與反向BiLSTM的輸出。
將它們的輸出進(jìn)行拼接,輸入到注意力機(jī)制中,對(duì)隱含層的不同時(shí)間的輸出進(jìn)行不同的權(quán)重分配,不同的權(quán)重代表了不同的注意程度,其中,注意力權(quán)重的構(gòu)建方式如下,a為學(xué)習(xí)函數(shù),由BiLSTM層的狀態(tài)序列ht經(jīng)過(guò)加權(quán)處理,得出注意力權(quán)值α,然后對(duì)所有序列中的結(jié)點(diǎn)隱含向量與注意力權(quán)值進(jìn)行乘積,得到最終的特征向量s。
et=a(ht)
(6)
輸出層由全連接層分類器進(jìn)行數(shù)據(jù)的分類,輸出層的計(jì)算公式如下式所示:
O=softmax(Wsh+bs)
(7)
在數(shù)據(jù)集中,輸出層進(jìn)行分類,經(jīng)過(guò)分類器處理,可以得到屬于哪一類情感的概率,如下式所示:
(8)
使用交叉熵?fù)p失函數(shù)作為評(píng)價(jià)函數(shù),如下式所示:
(9)
其中,yti指代t時(shí)刻實(shí)際標(biāo)簽中的第i個(gè)值,preti指代t時(shí)刻預(yù)測(cè)的標(biāo)簽中的第i個(gè)值。
實(shí)驗(yàn)環(huán)境配置如表1所示。
表1 實(shí)驗(yàn)環(huán)境配置表
在京東某手機(jī)評(píng)論數(shù)據(jù)集中上進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集中包含了8000條訓(xùn)練數(shù)據(jù),測(cè)試數(shù)據(jù)為1600條。
分別采取幾種不同的模型進(jìn)行實(shí)驗(yàn),分析最后的結(jié)果。對(duì)于自然語(yǔ)言處理中情感分析任務(wù),不僅要看最終的準(zhǔn)確率,還應(yīng)該以F值作為最終的評(píng)價(jià)指標(biāo),結(jié)果如表2。
表2 實(shí)驗(yàn)結(jié)果表
在RNN中,雙向LSTM神經(jīng)網(wǎng)絡(luò)比單向LSTM神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確度與F值都高。這說(shuō)明了,雙向的LSTM結(jié)構(gòu)在文本情感分析任務(wù)中相較于單向的LSTM具有更好的效果,雙向的結(jié)構(gòu)在時(shí)序處理過(guò)程中,不僅能夠獲取句子前面的信息,也能夠獲取句子后面的信息,因此,在電商評(píng)論數(shù)據(jù)集中的BiLSTM表現(xiàn)好于LSTM。
當(dāng)加入注意力機(jī)制時(shí),Attention-BiLSTM在準(zhǔn)確率與F值均高于BiLSTM模型。這說(shuō)明了加入注意力機(jī)制的BiLSTM可以捕獲句子中對(duì)于情感表達(dá)更加重要的詞語(yǔ),Attention機(jī)制在BiLSTM網(wǎng)絡(luò)的使用能夠給予重要信息更高的注意,因此,BiLSTM-Attention的在本實(shí)驗(yàn)中的表現(xiàn)好于BiLSTM。
近幾年來(lái),隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)的發(fā)展,網(wǎng)上購(gòu)物已經(jīng)融入了人們的日常生活,因此,在網(wǎng)上出現(xiàn)的評(píng)論文本中挖掘有價(jià)值的信息也越來(lái)越受到人們的重視。為了更好的對(duì)電商評(píng)論信息進(jìn)行挖掘,本文提出了一種融合Attention與BiLSTM的網(wǎng)絡(luò)模型,對(duì)某手機(jī)評(píng)論文本數(shù)據(jù)進(jìn)行情感分析,挖掘消費(fèi)者的情緒,更加有效的對(duì)商家進(jìn)行優(yōu)化,增強(qiáng)競(jìng)爭(zhēng)能力,也能給消費(fèi)者決定是否購(gòu)買提供參考。
文本先通過(guò)Word2Vec得到預(yù)訓(xùn)練詞向量,將詞向量輸入到雙向LSTM模型中去,利用注意力機(jī)制篩選出對(duì)文本情感分析重要的特征,分配較高的權(quán)重,然后送入到全連接中在進(jìn)行情感極性分類。在某手機(jī)評(píng)論數(shù)據(jù)中,雖然相較于其他幾種傳統(tǒng)模型有一些提升,但是訓(xùn)練時(shí)間也相對(duì)較長(zhǎng),并且模型并不能實(shí)現(xiàn)同時(shí)對(duì)雙向語(yǔ)義進(jìn)行處理。因此,針對(duì)這些問(wèn)題,還需要不斷的研究和探索。