基于CNN-ATTBiLSTM的文本情感分析

2019-04-30 07:40:36劉書齊王以松陳攀峰

貴州大學(xué)學(xué)報(自然科學(xué)版) 2019年2期

劉書齊，王以松，陳攀峰

(貴州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，貴州貴陽 550025)

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，各種電商、微博、博客、推特等社交平臺紛紛涌現(xiàn)，互聯(lián)網(wǎng)上產(chǎn)生了大量帶有情感傾向的文本信息。通過分析這些帶有情感傾向的文本，對電商改進產(chǎn)品服務(wù)、政府輿情監(jiān)控等都具有重要的參考價值。然而，人們在這些平臺上產(chǎn)生的數(shù)據(jù)量是海量的，依靠人工分析這些數(shù)據(jù)，已經(jīng)是不可能的了，這促進了文本情感分析技術(shù)的發(fā)展。文本情感分析又稱意見挖掘，簡單而言，是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程[1]。

文本情感傾向分析方法主要有兩類，一類是基于規(guī)則和詞典的方法；另一類是基于機器學(xué)習(xí)的方法?；谝?guī)則和詞典的方法效果比較差，基于傳統(tǒng)機器學(xué)習(xí)的方法雖然效果比較好但是需要人工設(shè)計大量的特征，特征的好壞直接影響了算法性能的好壞。隨著神經(jīng)網(wǎng)絡(luò)研究的再次復(fù)蘇，基于深度學(xué)習(xí)的文本表示學(xué)習(xí)在文本特征提取上取得了重大進步。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)等深度學(xué)習(xí)模型已經(jīng)很好地應(yīng)用在文本建模上，并取得了不錯的效果。CNN在對文本建模時，提取的是文本的n-gram信息，是局部相連詞的潛在特征，但是忽略了上下文信息，而且在池化時可能丟失重要的語義信息。

傳統(tǒng)的RNN存在梯度消失和梯度爆炸的問題，在文本建模中常用的是長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)[2]，而普通的LSTM僅僅只是對文本上文建模沒有考慮下文，本文引入了雙向的長短期記憶(Bi-directional Long Short-Term Memory, BiLSTM)網(wǎng)絡(luò)[3]，考慮上文和下文相關(guān)性，由于文本中每個詞對文本語義的貢獻(xiàn)是不一樣的，于是引入注意力機制進一步提升RNN特征提取的效果，即基于注意力機制的雙向長短期記憶 (Attention-based Bi-directional Long Short-Term Memory，ATTBiLSTM) 網(wǎng)絡(luò)，最后為了防止過擬合采用dropout[4]策略。

1 相關(guān)工作

2002年P(guān)ANG等人利用基本的詞特征和有監(jiān)督的機器學(xué)習(xí)方法(樸素貝葉斯、最大熵和支持向量機)來解決情感分析的問題，比較了詞特征組合和各種分類器的分類效果[5]?？紤]到文本中的主觀句對情感傾向性判定的影響，2004年P(guān)ANG 和 LEE將主觀句子抽取出來引入到情感分類的特征中，同時去掉客觀句，提高了分類效果[6]。2010年LI等人分析了極性轉(zhuǎn)移對情感分類的影響[7]。2012年WANG和 CHRISTOPHER ，在SVM、NB兩個分類器的基礎(chǔ)上提出NBSVM模型，在情感分類任務(wù)上比單一的SVM、NB表現(xiàn)得更好[8]。

近年來，越來越多的自然語言處理任務(wù)開始嘗試使用深度學(xué)習(xí)模型。2013年TOMAS 等人提出一個用于學(xué)習(xí)詞語分布式表示的神經(jīng)語言模型，該模型可以學(xué)習(xí)到詞語的表示并包含了詞語的語義信息[9]。2014年，NAL等人提出了一種動態(tài)k-max池化卷積神經(jīng)網(wǎng)絡(luò)用于句子建模[10]。同年，YOON將卷積模型用于句子級的情感分類[11]。KAI等在2015年則使用長短期記憶時網(wǎng)絡(luò)來解決情感分析問題[12]。2017年YANG等使用基于層次化注意力機制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)對文本進行分類，取得了很好的效果[13]。

基于傳統(tǒng)的機器學(xué)習(xí)方法的文本情感分析所使用的文本表示方法大多是詞袋模型，詞袋模型丟失了詞的順序信息，忽略了詞的語義信息。基于深度學(xué)習(xí)的方法可以主動學(xué)習(xí)文本的特征，保留詞語的順序信息,可以提取到詞語的語義信息。

2 模型結(jié)構(gòu)

本文提出的模型結(jié)構(gòu)如圖1所示，最下面是文本的詞向量矩陣、中間是CNN、ATTBiLSTM網(wǎng)絡(luò)結(jié)構(gòu)，hc、hr分別為兩個結(jié)構(gòu)獲取的特征，hs為融合后的特征，最后hs輸入softmax層。

圖1 混合神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Hybrid Neural Network Model Structure

2.1 CNN

CNN是一種前饋神經(jīng)網(wǎng)絡(luò)，本文使用的網(wǎng)絡(luò)結(jié)構(gòu)可以分為三層，輸入層、卷積層、池化層。

輸入層：以句子的詞向量矩陣為輸入，每個句子X為n×k的矩陣,n為句子的長度，k為詞向量的維度，詞向量采用word2vec工具在中文維基百科語料上訓(xùn)練得到，X=[x1,x2,…,xi,…，xn],i∈[1,n],xi為句子中的第i個詞的詞向量表示。

卷積層：是特征提取層，通過選擇多個不同尺寸的卷積核，同時每種規(guī)格的卷積核選擇多個，卷積核的規(guī)格為m×n,m為寬度大小，n為句子的長度，通過卷積操作最后得到多個特征圖。

其中：Cj為第j個卷積核卷積操作得到的特征圖,ci為第i個卷積操作的結(jié)果，f為線性正單元(ReLu)，w形狀為m×n，*為卷積操作，xi:i+m-1為句子中第i個到第i+m-1個詞語的詞向量組成的矩陣，b為卷積核的偏置項。

池化層：也稱下采樣層是特征選擇層，從卷積層得到的特征圖Cj中選擇最大的特征值，最后將從不同特征圖中得到的特征拼接在一起，作為CNN提取的特征。

2.2 ATTBiLSTM網(wǎng)絡(luò)

2.2.1BiLSTM網(wǎng)絡(luò)

標(biāo)準(zhǔn)的RNN存在梯度消失和梯度爆炸的問題對于長序列學(xué)習(xí)問題存在很大的困難。為了解決這個問題HOCHREITER 等在1997年提出長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[2]，在LSTM中有三個控制門(遺忘門、輸入門、輸出門)和一個記憶細(xì)胞，可以有效地保留歷史信息即上文，緩解梯度消失或爆炸的問題，學(xué)習(xí)到更長序列的依賴信息。單向的LSTM只考慮上文依賴信息，這在文本建模中是有明顯缺陷的，在句子中還需要下文的信息。

1997年SCHUSTER , PALIWAL 提出了雙向循環(huán)神經(jīng)網(wǎng)絡(luò)[3]，網(wǎng)絡(luò)單元為LSTM的BiLSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。hi為雙向LSTM兩個隱藏層輸出拼接的結(jié)果，Wi為詞向量。

圖2 BiLSTM網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.2 Bi-directional Long Short-Term Memory Network Model Structure

2.2.2注意力機制

對于整個句子而言，每個詞對句子語義的貢獻(xiàn)率是不一樣的，本文引入注意力機制抽取重要詞語的語義信息。

其中：uw為上下文向量，隨機初始化，在訓(xùn)練的過程中更新;ui為hi經(jīng)過一個全連接層運算的結(jié)果；Ww，bw分別為注意力計算的權(quán)值矩陣和偏置項；αi為第i個詞的注意力分?jǐn)?shù)。

2.3 特征融合

CNN和RNN已經(jīng)被證明在文本語義表示上是有效的。CNN的卷積操作限定在一定大小的窗口內(nèi)，卷積核所提取的特征受到窗口大小的影響，提取的是n-gram信息,而且池化操作會丟失位置、依賴等語義信息。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)可以捕捉到文本中長距離的依賴信息以及上下文信息，在一些實驗上引入了注意力機制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的模型效果是可以超過CNN的。但是由于短句子偏多使RNN并沒有提取到很好的句子信息，因而在一些實驗上RNN的效果甚至不如CNN。本文通過融合CNN、ATTBiLSTM兩種模型提取的特征優(yōu)勢互補。

hs=hr+hc

2.4 全連接層

Dropout[4]是指在深度學(xué)習(xí)網(wǎng)絡(luò)中，對于神經(jīng)網(wǎng)絡(luò)單元，按照一定的概率將其暫時從網(wǎng)絡(luò)中丟棄，在測試的時候保持正常。dropout可以使得學(xué)習(xí)到的模型更魯棒，緩解過擬合。

全連接層使用dropout技術(shù)和L2正則項防止過擬合，輸入為融合特征，通過softmax函數(shù)得到分類的分?jǐn)?shù)，使用交叉熵作為損失函數(shù)。

3 實驗

3.1 實驗數(shù)據(jù)準(zhǔn)備

本文選用有關(guān)中文文本情感分析的酒店評論數(shù)據(jù)集(ChnSentiCorp)做實驗驗證模型的效果，這個數(shù)據(jù)集是由中科院譚松波博士整理的一個中文酒店評論數(shù)據(jù)集，該數(shù)據(jù)集有四個子集，分別是ChnSentiCorp-Htl-ba-1、ChnSentiCorp-Htl-ba-2、ChnSentiCorp-Htl-ba-3 、ChnSentiCorp-Htl-ba-4、其中前面三個是平衡數(shù)據(jù)集最后一個是非平衡數(shù)據(jù)集。本文選用中間的兩個平衡數(shù)據(jù)集。即ChnSentiCorp-Htl-ba-2和 ChnSentiCorp-Htl-ba-3。其中ChnSentiCorp-Htl-ba-2包括正負(fù)樣例各2000個，ChnSentiCorp-Htl-ba-3包括正負(fù)樣例各3000個。

3.2 實驗評價指標(biāo)

本文使用四個評價指標(biāo)衡量模型的效果，分別是準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值，計算公式如下。

3.3 超參設(shè)置與訓(xùn)練

ZHANG[14]等人對CNN在句子分類任務(wù)中的參數(shù)設(shè)置進行了實驗，本文參考該文進行了實驗，最終確定本文網(wǎng)絡(luò)結(jié)構(gòu)使用的激活函數(shù)為ReLu,采用3種不同尺寸的卷積核，卷積核的寬度分別為2、3、4，每種尺寸的卷積核各100個，CNN最終提取的特征向量維度為300。使用的LSTM單元的大小為150，通過ATTBiLSTM后輸出維度為300，上下文向量uw維度為10，最終融合CNN和ATTBiLSTM神經(jīng)網(wǎng)絡(luò)提取的特征得到300維的特征向量，最終輸入全連接層和softmax層，其中全連接層使用dropout正則化技術(shù)防止過擬合。整個模型使用Adam優(yōu)化器訓(xùn)練。本文選取句子長度分布中間80%占比的句子長度的最大長度做為標(biāo)準(zhǔn)長度，對所有的文檔做填充和截斷。

4 實驗結(jié)果與分析

支持向量機(Support Vector Machine, SVM)：在傳統(tǒng)的機器學(xué)習(xí)方法中，在情感分類上較其他方法有較好的效果，本文使用skip-gram訓(xùn)練得到的詞向量對句子中的詞向量平均作為輸入進行分類。

CNN:使用skip-gram訓(xùn)練的詞向量組成的矩陣作為輸入經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)進行分類。

BiLSTM:使用skip-gram訓(xùn)練的詞向量矩陣作為輸入經(jīng)過雙向長短期記憶神經(jīng)網(wǎng)絡(luò)進行分類。

ATTBiLSTM:在BiLSTM的基礎(chǔ)上引入注意力機制后的模型，同樣使用skip-gram得到的詞向量矩陣作為輸入。

CNN-ATTBiLSTM:以skip-gram訓(xùn)練的詞向量矩陣作為輸入，分別通過CNN、ATTBiLSTM提取特征，最后將兩種特征融合進行分類。

本文與SVM、CNN、BiLSTM、ATTBiLSTM四個基線模型進行對比，實驗在ChnSentiCorp-Htl-ba-2、ChnSentiCorp-Htl-ba-3兩個數(shù)據(jù)集上進行，受數(shù)據(jù)集大小的限制實驗采用五折交叉驗證，實驗結(jié)果如表1、表2所示。

表1 ChnSentiCorp-Htl-ba-2實驗結(jié)果Tab.1 Results on ChnSentiCorp-Htl-ba-2

表2 ChnSentiCorp-Htl-ba-3實驗結(jié)果Tab.2 Results on ChnSentiCorp-Htl-ba-3

通過以上實驗數(shù)據(jù)對比我們發(fā)現(xiàn)，SVM由于只是簡單地對詞向量進行平均，沒有考慮詞語的順序以及句子的深層語義信息因此效果最差；CNN、BiLSTM兩者都提取了一定的語義信息所以效果差不多，CNN的效果要略好于BiLSTM，這是由于在數(shù)據(jù)集較小文本較短的情況下，CNN的卷積效果可以整體提取句子的語義信息，而BiLSTM則無法發(fā)揮其優(yōu)勢。而通過在BiLSTM中引入注意力機制的ATTBiLSTM則表現(xiàn)得比CNN好，這是因為ATTBiLSTM在特征提取的過程中會過多地關(guān)注句子中比較重要的詞語信息，減少那些不重要的信息的負(fù)面影響。本文提出的模型CNN-ATTBiLSTM不僅可以捕捉到句子中的n-gram信息，而且還可以捕捉到長距離的依賴關(guān)系，充分發(fā)揮了CNN和RNN的優(yōu)勢，所以在實驗中獲得了最好的效果。

5 結(jié)論

本文提出了一種融合CNN和ATTBiLSTM網(wǎng)絡(luò)提取特征的情感分類模型，首先使用在大規(guī)模中文語料庫上訓(xùn)練得到的詞向量對文本句子進行編碼，然后通過CNN和ATTBiLSTM網(wǎng)絡(luò)進行特征提取，將兩種網(wǎng)絡(luò)提取的特征采取相加融合的方法得到分類的特征。實驗證明，這種混合特征比單一的兩種模型提取的特征效果好，本文所提出的情感分類方法較這些基線模型有所提升。雖然ATTBiLSTM可以提取一定的結(jié)構(gòu)語義信息，但是在情感分類任務(wù)中ATTBiLSTM提取的結(jié)構(gòu)語義信息還是不夠的。傳統(tǒng)的情感分析方法都是基于情感詞典和詞法、句法特征的，本文提出的模型沒有使用任何的情感詞典和詞法、句法結(jié)構(gòu)特征，下一步工作我們將探討如何使用深度學(xué)習(xí)模型獲取更多的結(jié)構(gòu)語義信息，同時如何結(jié)合傳統(tǒng)的方法，考慮更深層次的有用特征進一步提高文本情感分析的效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡