王麗亞 劉昌輝 蔡敦波 盧濤
.
摘 要:傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(CNN)中同層神經(jīng)元之間信息不能互傳,無法充分利用同一層次上的特征信息,缺乏句子體系特征的表示,從而限制了模型的特征學(xué)習(xí)能力,影響文本分類效果。針對(duì)這個(gè)問題,提出基于CNN-BiGRU聯(lián)合網(wǎng)絡(luò)引入注意力機(jī)制的模型,采用CNN-BiGRU聯(lián)合網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)。首先利用CNN提取深層次短語特征,然后利用雙向門限循環(huán)神經(jīng)網(wǎng)絡(luò)(BiGRU)進(jìn)行序列化信息學(xué)習(xí)以得到句子體系的特征和加強(qiáng)CNN池化層特征的聯(lián)系,最后通過增加注意力機(jī)制對(duì)隱藏狀態(tài)加權(quán)計(jì)算以完成有效特征篩選。在數(shù)據(jù)集上進(jìn)行的多組對(duì)比實(shí)驗(yàn)結(jié)果表明,該方法取得了91.93%的F1值,有效地提高了文本分類的準(zhǔn)確率,時(shí)間代價(jià)小,
具有很好的應(yīng)用能力。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);雙向門限循環(huán)神經(jīng)網(wǎng)絡(luò);注意力機(jī)制;中文文本情感分析
中圖分類號(hào):TP391.1
文獻(xiàn)標(biāo)志碼:A
Abstract: In the traditional Convolutional Neural Network (CNN), the information cannot be transmitted to each other between the neurons of the same layer, the feature information at the same layer cannot be fully utilized, making the lack of the representation of the characteristics of the sentence system. As the result, the feature learning ability of model is limited and the text classification effect is influenced. Aiming at the problem, a model based on joint network CNN-BiGRU and attention mechanism was proposed. In the model, the CNN-BiGRU joint network was used for feature learning. Firstly, deep-level phrase features were extracted by CNN. Then, the Bidirectional Gated Recurrent Unit (BiGRU) was used for the serialized information learning to obtain the characteristics of the sentence system and strengthen the association of CNN pooling layer features. Finally, the effective feature filtering was completed by adding attention mechanism to the hidden state weighted calculation. Comparative experiments show that the method achieves 91.93% F1 value and effectively improves the accuracy of text classification with small time cost and good application ability.
Key words: Convolutional Neural Network (CNN); Bidirectional Gated Recurrent Unit (BiGRU); attention mechanism; Chinese text sentiment analysis
0 引言
隨著互聯(lián)網(wǎng)的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)迎來夢(mèng)寐以求的大數(shù)據(jù)時(shí)代,其中,文本情感分析[1]是一個(gè)重要的研究方向,能有效地分析文本所包含的情感信息,同時(shí)具有很高的商業(yè)價(jià)值。
文本情感分析是自然語言處理(Natural Language Processing, NLP)領(lǐng)域的一個(gè)重要研究方向,主要目的是從原始文本中提取出評(píng)論人的主觀情感,即對(duì)某個(gè)對(duì)象是積極還是消極的態(tài)度。主要分析方法可分為三類:基于有監(jiān)督的學(xué)習(xí)、基于語言學(xué)和基于深度學(xué)習(xí)的方法[2-3]。Pang等[4]針對(duì)電影評(píng)論,通過詞袋模型分別加上貝葉斯、最大熵、支持向量機(jī)等各種分類器取得較好的分類效果。Bengio等[5]最早使用神經(jīng)網(wǎng)絡(luò)構(gòu)建語言模型。Mikolov等[6-7]2013年在Log-Bilinear模型[8]的基礎(chǔ)上提出了word2vec技術(shù)。Kalchbrenner等[9]提出動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)(Dynamic Convolutional Neural Network, DCNN)的模型處理長(zhǎng)度不同的文本,將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)應(yīng)用于NLP。Kim[10]對(duì)比了不同詞向量構(gòu)造方法,利用提前訓(xùn)練的詞向量作為輸入,通過CNN實(shí)現(xiàn)句子級(jí)的文本分類。但傳統(tǒng)CNN無法深度學(xué)習(xí)池化后的特征,本文采用CNN-BiGRU聯(lián)合網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)。
Lee等[11]利用基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)和CNN訓(xùn)練文本的向量,通過普通人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)實(shí)現(xiàn)文本分類,說明了添加文本序列信息可以提高分類的準(zhǔn)確率。普通RNN可以有效地利用近距離的語義特征[12-13],但存在梯度消失的不足,
為解決這一問題,RNN出現(xiàn)了多個(gè)變種循環(huán)神經(jīng)網(wǎng)絡(luò)模型。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[14],在文本上可以提取長(zhǎng)距離的語義特征。
Zhou等[15]提出C-LSTM進(jìn)行文本分類,但忽略了文本上下文的特征聯(lián)系。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional LSTM, BiLSTM)[16]則由前向傳播和后向傳播的兩個(gè)LSTM組合而成,提取全局特征彌補(bǔ)了LSTM的不足;但網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,所需參數(shù)多,時(shí)間代價(jià)大。Cho等[12]提出了門限循環(huán)單元(Gated Recurrent Unit,GRU),GRU網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)LSTM更加簡(jiǎn)單,能有效縮短模型訓(xùn)練時(shí)間。雙向門限循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional Gated Recurrent Unit, BiGRU)則是由正向GRU、反向GRU、正反向GRU的輸出狀態(tài)連接層組成的神經(jīng)網(wǎng)絡(luò)。
綜上,BiGRU相對(duì)于BiLSTM的網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單,時(shí)間代價(jià)小。因此,本文采用BiGRU學(xué)習(xí)CNN池化后的特征得到句子體系的特征表示。
Bahdanau等[17]最早提出了注意力機(jī)制理論,并將其應(yīng)用到機(jī)器翻譯領(lǐng)域。Mnih等[18]在RNN模型上使用了注意力機(jī)制來進(jìn)行圖像分類,使得注意力機(jī)制真正意義上流行了起來。Xu等[19]展示了如何使用學(xué)習(xí)得到的注意力機(jī)制為模型生成過程提供更多可解釋性;Luong等[20]提出了全局、局部?jī)煞N注意力機(jī)制,促進(jìn)了基于注意力機(jī)制的模型在NLP的應(yīng)用。胡榮磊等[21]將LSTM和前饋?zhàn)⒁饬δP拖嘟Y(jié)合,提出了一種文本情感分析方案。王偉等[22]提出BiGRU-Attention模型進(jìn)行情感分類。陳潔等[23]提出了基于并行混合神經(jīng)網(wǎng)絡(luò)模型的短文本情感分析方法,
以上結(jié)合注意力機(jī)制進(jìn)行情感分析的模型,皆說明了通過引入注意力機(jī)制能有效地提高了情感分類的準(zhǔn)確度。
由于利用傳統(tǒng)CNN或BiGRU網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)時(shí),CNN在局部特征提取上較BiGRU具有優(yōu)勢(shì),但缺乏句子體系的特征表示,而一個(gè)模型對(duì)特征的學(xué)習(xí)能力會(huì)直接影響文本分類效果,所用本文提出聯(lián)合網(wǎng)絡(luò)引入注意力機(jī)制的模型進(jìn)行情感分析。
本文的主要工作如下:
1)針對(duì)中文文本,提出了CNN-BiGRU聯(lián)合網(wǎng)絡(luò)模型學(xué)習(xí)文本特征,充分利用CNN局部特征的強(qiáng)學(xué)習(xí)能力,使用BiGRU網(wǎng)絡(luò)獲取此層次前后向特征,提取句子體系的特征表示,從而提高文本情感分析的準(zhǔn)確率,并在時(shí)間代價(jià)上驗(yàn)證了此網(wǎng)絡(luò)的有效性。
2)在聯(lián)合網(wǎng)絡(luò)模型上引入注意力模型,獲取文本中的重點(diǎn)特征,降低噪聲特征的干擾,從而進(jìn)一步提高文本情感分析的準(zhǔn)確率。
1 詞向量
本文實(shí)驗(yàn)采用谷歌開源工具word2vec來構(gòu)建文本詞向量。word2vec技術(shù)包括兩種模型:連續(xù)詞袋模型(CBOW)和Skip-gram模型。CBOW模型根據(jù)上下文預(yù)測(cè)一個(gè)詞,而Skip-gram模型正好相反,是利用當(dāng)前詞來預(yù)測(cè)周圍的詞。本文使用Skip-gram模型。
Skip-gram模型分為輸入層、投影層和輸出層,模型結(jié)構(gòu)如圖1所示。
如果上下文窗口大小設(shè)置為4,且設(shè)當(dāng)前詞W(t)所對(duì)應(yīng)的向量形式為V(W(t)),其周圍4個(gè)詞所對(duì)應(yīng)的向量形式為V(W(t+2))、V(W(t+1))、V(W(t-1))、V(W(t-2)),則Skip-gram模型通過中間詞預(yù)測(cè)周圍詞,是利用中間詞向量V(W(t))的條件概率值來求解,如式(1)所示:
2 聯(lián)合網(wǎng)絡(luò)引入注意力機(jī)制模型本文提出了CNN-BiGRU聯(lián)合網(wǎng)絡(luò)引入注意力機(jī)制(C-BG-A)的文本情感分析方法。
結(jié)構(gòu)主要可分為CNN-BiGRU聯(lián)合網(wǎng)絡(luò)特征學(xué)習(xí)和CNN-BiGRU-Attention特征篩選。
2.1 CNN-BiGRU聯(lián)合網(wǎng)絡(luò)特征學(xué)習(xí)本文利用CNN提取局部短語特征。CNN是一種前饋神經(jīng)網(wǎng)絡(luò),模型結(jié)構(gòu)主要包括輸入層、卷積層、池化層、全連接層和輸出層五部分,CNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
1)輸入層。將嵌入層的輸出作為輸入,句子中每個(gè)詞的詞向量為xi∈Rn×d,其中n是詞數(shù),d是向量維度,本文定為100維。
2)卷積層。通過設(shè)置好大小的濾波器來完成對(duì)輸入文本句子特征的提取,如式(2)所示:
其中:ω是卷積核;h是卷積核的尺寸;
xi:i+h-1是i到i+h-1個(gè)詞組成的句子向量;b是偏置項(xiàng);通過卷積層后,得到特征矩陣c=[c1,c2,…,cn-h+1]。
3)池化層。通過對(duì)卷積層之后得到的句子局部特征矩陣c進(jìn)行下采樣,求得局部值的最優(yōu)解Mi。這里采用MaxPooling技術(shù),如式(3)所示:
由于BiGRU輸入必須是序列化結(jié)構(gòu),池化將中斷序列結(jié)構(gòu)c,所以需要添加全連接層,將池化層后的向量Mi連接成特征矩陣U,如式(4)所示:
將新的連續(xù)高階窗口U作為BiGRU的輸入。BiGRU由正向GRU、反向GRU、正反向GRU的輸出狀態(tài)連接層組成,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
若記t時(shí)刻正向GRU輸出的隱藏狀態(tài)為t,反向GRU輸出的隱藏狀態(tài)為t,則BiGRU輸出的隱藏狀態(tài)ht,其具體的計(jì)算過程如式(5)~(7)所示:
GRU是對(duì)LSTM的一種改進(jìn),它也存在一個(gè)貫穿始終的記憶狀態(tài)單元(Memory Unit),該記憶單元用更新門代替原來LSTM中的遺忘門和輸入門,即在網(wǎng)絡(luò)結(jié)構(gòu)上要比LSTM更為簡(jiǎn)單,且所需參數(shù)減少,從而能夠提高模型訓(xùn)練速度。GRU的原理如圖4所示。其具體的計(jì)算過程如式(8)~(11)所示:
其中:wz、wr、w為權(quán)值矩陣;zt為更新門;rt為重置門;t為備選激活函數(shù);ht為激活函數(shù);Ut為t時(shí)刻GRU的輸入;
σ為sigmoid激活函數(shù)。
2.2 CNN-BiGRU-Attention特征篩選
注意力機(jī)制通過對(duì)文本向量的語義編碼分配不同的注意力權(quán)重,以區(qū)分文本中信息的重要性大小,提高分類的準(zhǔn)確率。本文使用前饋?zhàn)⒁饬δP?,注意力模型結(jié)構(gòu)如圖5所示。
1)生成目標(biāo)注意力權(quán)重vt,如式(12)所示:
其中:σ是一種注意力學(xué)習(xí)函數(shù)tanh;ht是CNN-BiGRU網(wǎng)絡(luò)輸出的特征向量。
2)注意力權(quán)重概率化,通過softmax函數(shù)生成概率向量pt,如式(13)所示:
3)注意力權(quán)重配置,將生成的注意力權(quán)重配置給對(duì)應(yīng)的隱層狀態(tài)語義編碼ht,使模型生成的注意力權(quán)重發(fā)揮作用,αt是ht的加權(quán)平均值,權(quán)值是pt,如式(14)所示:
2.3 C-BG-A模型
C-BG-A模型網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。主要包括三個(gè)部分:一是CNN+BiGRU的網(wǎng)絡(luò)構(gòu)建;二是引入注意力模型;三是用sigmoid分類器進(jìn)行分類。
下面針對(duì)C-BG-A模型進(jìn)行詳細(xì)介紹:
1)將文本輸入到word2vec模型中訓(xùn)練,句子中每個(gè)詞的詞向量為xi∈Rn×d,其中n是詞數(shù),d是向量維度,則句子矩陣S可表示為
2)添加CNN層,利用式(2)~(3)得到局部短語特征矩陣Mi。
3)添加全連接層,利用式(4)將局部短語特征Mi拼接成序列結(jié)構(gòu)U。
4)添加BiGRU層,利用式(5)~(11)學(xué)習(xí)序列U得到句子特征表示Hct。
5)引入注意力機(jī)制,利用式(12)~(14)得到Hct的加權(quán)平均值A(chǔ)ct。
6)經(jīng)過dropout層后,得到特征向量A。
7)添加Dense層,參數(shù)為1,激活函數(shù)為sigmoid函數(shù),對(duì)文本特征進(jìn)行分類:
p(y|A,w,b)=sigmoid(w·A+b)
8)模型損失函數(shù)定為對(duì)數(shù)損失函數(shù),模型會(huì)通過更新參數(shù)權(quán)值矩陣w和偏置向量b,從而達(dá)到優(yōu)化模型的效果。
2.4 模型訓(xùn)練本文將情感分析問題看成一個(gè)二分類的問題,分類函數(shù)選為sigmoid函數(shù),如式(15)所示:
其中:樣本是{x, y}, y是消極0或者積極1,x是樣本特征向量;ω代表可訓(xùn)練參數(shù)。
模型訓(xùn)練的目標(biāo)實(shí)質(zhì)就是最小化損失函數(shù)。本文在編譯模型時(shí),損失函數(shù)為對(duì)數(shù)損失函數(shù),一般是與sigmoid相對(duì)應(yīng)的損失函數(shù)。
訓(xùn)練模型參數(shù)ω如式(16)所示:
其中:yi為輸入xi的真實(shí)類別,hω(xi)為預(yù)測(cè)輸入xi屬于類別1的概率。
模型的優(yōu)化器選為Adam(Adaptive moment estimation),Adam優(yōu)化算法是一種計(jì)算每個(gè)參數(shù)的自適應(yīng)學(xué)習(xí)率的方法,結(jié)合了AdaGrad和RMSProp兩種優(yōu)化算法的優(yōu)點(diǎn)。參數(shù)的更新不受梯度的伸縮變換影響,變化平穩(wěn),如式(17)~(21)所示:
評(píng)價(jià)函數(shù)為accuracy函數(shù),用于評(píng)估當(dāng)前訓(xùn)練模型的性能。
3 實(shí)驗(yàn)與分析在帶有情感標(biāo)簽的中文購(gòu)物評(píng)論文本上,對(duì)提出的C-BG-A模型情感分析方法進(jìn)行驗(yàn)證與分析。實(shí)驗(yàn)環(huán)境配置數(shù)據(jù)如表1所示。
3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)來自網(wǎng)絡(luò)購(gòu)物的評(píng)論,數(shù)據(jù)內(nèi)容對(duì)象類型有酒店、牛奶、書籍、手機(jī)等。評(píng)論情感標(biāo)簽分為兩類[0,1],消極的情感為0,積極的情感為1。例如:“地理位置優(yōu)越,交通方便,飯店環(huán)境好,服務(wù)優(yōu)良,洗衣迅捷”,情感為積極,“手機(jī)系統(tǒng)差,容易壞.部分按鍵不靈活,半年后就會(huì)出現(xiàn)在大問題.”,情感為消極。數(shù)據(jù)集設(shè)置為:總數(shù)21105條,訓(xùn)練集16884條,驗(yàn)證集2000條,測(cè)試集2221條。
3.2 參數(shù)設(shè)置參數(shù)設(shè)置會(huì)直接影響后續(xù)模型的分類效果,具體的參數(shù)設(shè)置如表2所示。
3.3 評(píng)價(jià)指標(biāo)
準(zhǔn)確度(Accuracy)、精確度(Precision)、召回率(Recall)、F值(Fθ)這4個(gè)模型評(píng)測(cè)指標(biāo)是NLP模型評(píng)估的常用標(biāo)準(zhǔn)。設(shè)總的測(cè)試集個(gè)數(shù)為TP+TN+FP+FN,其具體含義如表3所示。
3.4 對(duì)比實(shí)驗(yàn)設(shè)置實(shí)驗(yàn)設(shè)置以下多組對(duì)比實(shí)驗(yàn),包括傳統(tǒng)機(jī)器學(xué)習(xí)算法支持向量機(jī)(Support Vector Machine,SVM)與深度學(xué)習(xí)網(wǎng)絡(luò)的比較,單一網(wǎng)絡(luò)與聯(lián)合網(wǎng)絡(luò)的比較,及與引入注意力模型的網(wǎng)絡(luò)對(duì)比。網(wǎng)絡(luò)輸入均是利用word2vec訓(xùn)練的詞向量。
1)SVM[24]:采用傳統(tǒng)機(jī)器學(xué)習(xí)算法SVM進(jìn)行情感分析。
2)BiLSTM[16]:?jiǎn)我坏腂iLSTM網(wǎng)絡(luò)。
3)BiGRU:?jiǎn)我坏腂iGRU網(wǎng)絡(luò)。
4)CNN[25]:?jiǎn)我坏腃NN網(wǎng)絡(luò)。
5)CNN+BiLSTM:先添加一個(gè)CNN網(wǎng)絡(luò),再添加一個(gè)BiLSTM網(wǎng)絡(luò)。
6)CNN+BiGRU:先添加一個(gè)CNN網(wǎng)絡(luò),再添加一個(gè)BiGRU網(wǎng)絡(luò)。
7)CNN+BiLSTM+Attention(CNN+BiLSTM+Att):先添加一個(gè)CNN網(wǎng)絡(luò),再添加一個(gè)BiLSTM網(wǎng)絡(luò),最后引入Attention機(jī)制。
8)CNN+BiGRU+Attention(C-BG-A):先添加一個(gè)CNN網(wǎng)絡(luò),再添加一個(gè)BiGRU網(wǎng)絡(luò),最后引入Attention機(jī)制。
3.5 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)在測(cè)試集上計(jì)算出Accuracy值、Precision值、Recall值、F1值,對(duì)比結(jié)果如表4所示。
從表4顯示的8組模型對(duì)比結(jié)果可看出:從兩個(gè)綜合評(píng)測(cè)指標(biāo)Accuracy、F1上來看,C-BG-A準(zhǔn)確率達(dá)到92.03%,F(xiàn)1值達(dá)到91.93%,均優(yōu)于對(duì)比模型。SVM雖然取得較好的分類效果,但基于深度學(xué)習(xí)的7組模型明顯優(yōu)于SVM。第5、6與之前3組模型的對(duì)比,體現(xiàn)出本文提出的CNN-BiGRU聯(lián)合網(wǎng)絡(luò)提取特征的優(yōu)勢(shì),因?yàn)镃NN對(duì)文本特征的強(qiáng)學(xué)習(xí)能力有助于聯(lián)合模型對(duì)深層次特征的學(xué)習(xí),而雙向循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)序列化特征前后的學(xué)習(xí)能力,在聯(lián)合模型對(duì)CNN提取的特征進(jìn)行再加工時(shí),起到正影響的作用。第7、8與5、6組的對(duì)比,可知在聯(lián)合模型的基礎(chǔ)上添加注意力機(jī)制能有效地提高模型分類的準(zhǔn)確度,因?yàn)樽⒁饬C(jī)制分配給特征不同的權(quán)重,讓模型學(xué)習(xí)到了特征之間的輕重不同之分,有助于模型快速掌握重要的特征。第8與7組的比較,說明利用BiGRU學(xué)習(xí)CNN池化后的特征較BiLSTM效果更佳。
為了更直觀地反映基于深度學(xué)習(xí)的7組模型的優(yōu)劣,本文選擇繪畫驗(yàn)證集的準(zhǔn)確率(val_acc)和損失率(val_loss)變化圖。準(zhǔn)確率的變化如圖7所示,損失率的變化如圖8所示。
從圖7可看出:總體上7組模型準(zhǔn)確度都不斷上升,第二次迭代后均達(dá)86%以上,其中C-BG-A模型的準(zhǔn)確度均達(dá)90%以上,且趨勢(shì)平穩(wěn),不如其余6組模型波動(dòng)性大。可見C-BG-A模型在提取文本特征上更為優(yōu)秀和穩(wěn)定,在短時(shí)間內(nèi)準(zhǔn)確度可達(dá)較高水平且趨勢(shì)穩(wěn)定,即在迭代次數(shù)較少的情況下也可以達(dá)到較高的準(zhǔn)確度,在第5次迭代時(shí)達(dá)到最高值92.93%。
從圖7中也可發(fā)現(xiàn),有BiGRU參與的模型準(zhǔn)確度都能快速達(dá)到較高水平且波幅較平穩(wěn),相對(duì)與BiLSTM表現(xiàn)更好。模型損失率是越小越好。從圖8中可看出:CNN模型的波動(dòng)最大,其余6組都較為集中;細(xì)看可發(fā)現(xiàn),C-BG-A模型的損失率第1次迭代結(jié)果就達(dá)到0.2552,第2次迭代結(jié)果為最低值0.2051,且趨勢(shì)平穩(wěn)。綜合圖7~8的分析結(jié)果,C-BG-A模型具有收斂性快、準(zhǔn)確度高、穩(wěn)定性強(qiáng)的特點(diǎn),相比較其他6組模型在文本分類上更具有優(yōu)勢(shì)。
為了量化模型的優(yōu)劣,本文在測(cè)試集上進(jìn)行預(yù)測(cè),樣本總數(shù)為2221。實(shí)驗(yàn)統(tǒng)計(jì)了預(yù)測(cè)結(jié)果的TP值、FP值、TN值、FN值、Right值、Wrong值,Right為模型預(yù)測(cè)正確的樣本數(shù),Wrong為模型預(yù)測(cè)錯(cuò)誤的樣本數(shù)。輸出結(jié)果為預(yù)測(cè)樣本是1概率,為方便統(tǒng)計(jì),將值大于0.5的定為1,其余為0。預(yù)測(cè)值統(tǒng)計(jì)的結(jié)果如表5所示。
表5中,C-BG-A模型預(yù)測(cè)正確最多,錯(cuò)誤最少,可見C-BG-A模型最優(yōu)。
針對(duì)模型的時(shí)間代價(jià)分析,本文給出5組對(duì)比模型完成每次迭代所需時(shí)間的對(duì)比圖,如圖9所示。
實(shí)驗(yàn)盡可能統(tǒng)一其運(yùn)行條件,在減少因各方面因素不同對(duì)其影響的情況下進(jìn)行統(tǒng)計(jì)。從圖9模型的時(shí)間代價(jià)來看,單模型迭代所用時(shí)間均為最少,其中,BiGRU所用時(shí)間最短,因?yàn)槠渚W(wǎng)絡(luò)結(jié)構(gòu)最為簡(jiǎn)單。C-BG-A多數(shù)保持在117s/epoch。在時(shí)間代價(jià)上,C-BG-A比CNN+BiLSTM+Attention更有優(yōu)勢(shì),說明選擇BiGRU模型能有效地縮短模型的訓(xùn)練時(shí)間,具有高效性。
利用模型對(duì)真實(shí)單句進(jìn)行預(yù)測(cè),展示了模型真實(shí)的運(yùn)用功能。選句子時(shí)要避免與原數(shù)據(jù)中的句子相同,否則會(huì)影響評(píng)估模型性能。為方便了解輸出結(jié)果含義,將值大于0.5的定為positive,其余定為negative。單句測(cè)試結(jié)果如表6所示。
預(yù)測(cè)結(jié)果句子情緒從表6單句測(cè)試結(jié)果上來看,C-BG-A模型對(duì)隨機(jī)所選的單句的預(yù)測(cè)結(jié)果都是正確的,從而更加直觀地說明了C-BG-A能在中文文本分類問題上的成功應(yīng)用。
綜上,針對(duì)本文所用數(shù)據(jù)集,利用CNN-BiGRU聯(lián)合模型提取特征優(yōu)于單模型CNN或BiGRU,再引入注意力機(jī)制能進(jìn)一步地提高文本分類的準(zhǔn)確率,且模型具有高效性和很好的應(yīng)用能力。
4 結(jié)語
本文提出了一種C-BG-A模型的中文文本情感分析方法。利用CNN局部特征的強(qiáng)學(xué)習(xí)能力,提取短語體系的特征。再利用BiGRU深度學(xué)習(xí)CNN中池化后連接組成的特征,加強(qiáng)短語特征之間的聯(lián)系,從而使模型學(xué)習(xí)到更深層次的句子體系特征表示。最后引入注意力機(jī)制進(jìn)行特征篩選,降低噪聲干擾。
在中文網(wǎng)絡(luò)購(gòu)物評(píng)論文本上進(jìn)行訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果表明本文模型有效地提高了文本情感分類準(zhǔn)確率,且時(shí)間代價(jià)小。但由于本文模型使用的CNN網(wǎng)絡(luò)深度不夠,如何使用更深的CNN網(wǎng)絡(luò)作為聯(lián)合對(duì)象進(jìn)一步提高分類準(zhǔn)確率,是下一步工作的目標(biāo)。
參考文獻(xiàn)(References)
[1] 魏韡, 向陽, 陳千. 中文文本情感分析綜述[J]. 計(jì)算機(jī)應(yīng)用, 2011, 31(12): 3321-3323. (WEI W, XIANG Y, CHEN Q. Survey on Chinese text sentiment analysis[J]. Journal of Computer Applications, 2011, 31(12): 3321-3323.)
[2] TURNEY P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2002: 417-424.
[3] NI X, XUE G, LING X, et al. Exploring in the weblog space by detecting informative and affective articles[C]// Proceedings of the 16th International Conference on World Wide Web. New York: ACM, 2007: 281-290.
[4] PANG B, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techniques[C]// Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2002: 79-86.
[5] BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.
[6] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. [2017-08-04]. http://www.surdeanu.info/mihai/teaching/ista555-spring15/readings/mikolov2013.pdf.
[7] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [EB/OL]. [2019-01-10]. http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf.
[8] MNIH A, HINTON G E. A scalable hierarchical distributed language model[C]// Proceedings of the 21st International Conference on Neural Information Processing. New York: Curran Associates Inc., 2008: 1081-1088.
[9] KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2014: 655-665.
[10] KIM Y. Convolutional neural networks for sentence classification[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Proceeding. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1746-1751.
[11] LEE J Y, DERNONCOURT F. Sequential short-text classification with recurrent and convolutional neural networks[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016, 515-520.
[12] CHO K, van MERRIENBOER B, GULCEHRE C, et al. Learning phrase representions using RNN encoder-decoder for statistical machine translation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.Stroudsburg, PA: Association for Computational Linguistics, 2014: 1724-1734.
[13] EBRAHIMI J, DOU D. Chain based RNN for relation classification[C]// Proceedings of the 2015 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1244-1249.
[14] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[15] ZHOU C, SUN C, LIU Z, et al. A C-LSTM neural network for text classification[EB/OL].[2019-01-09].https://arxiv.org/abs/1511.08630.
[16] XIAO Z, LIANG P. Chinese sentiment analysis using bidirectional LSTM with word embedding[C]// Proceedings of the 2016 International Conference on Cloud Computing and Security, LNSC 10040. Berlin: Springer, 2016: 601-610.
[17] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[EB/OL]. [2018-03-20]. https://arxiv.org/pdf/1409.0473v7.pdf.
[18] MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2204-2212.
[19] XU K, BA J, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention[EB/OL]. [2018-03-20]. https://arxiv.org/pdf/1502.03044.pdf.
[20] LUONG M PHAM H, MANNING C D. Effective approaches to attention-based neural machine translation[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1412-1421.
[21] 胡榮磊, 芮璐, 齊筱, 等. 基于循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力模型的文本情感分析[J/OL]. 計(jì)算機(jī)應(yīng)用研究, 2019, 36(11). [2018-12-10]. http://www.arocmag.com/article/02-2019-11-025.html. (HU R L, RUI L, QI X, et al. Text sentiment analysis based on recurrent neural network and attention model[J/OL]. Application Research of Computers, 2019, 36(11). [2018-12-10]. http://www.arocmag.com/article/02-2019-11-025.html.)
[22] 王偉, 孫玉霞, 齊慶杰, 等. 基于BiGRU-Attention神經(jīng)網(wǎng)絡(luò)的文本情感分類模型[J/OL]. 計(jì)算機(jī)應(yīng)用研究, 2018, 36(12) [2018-12-10]. http://www.arocmag.com/article/02-2019-12-045.html (WANG W, SUN Y X, QI Q J, et al. Text sentiment classification model based on BiGRU-Attention neural network[J/OL]. Application Research of Computers, 2018, 36(12)[2018-12-10]. http://www.arocmag.com/article/02-2019-12-045.html.)
[23] 陳潔, 邵志清, 張歡歡, 等. 基于并行混合神經(jīng)網(wǎng)絡(luò)模型的短文本情感分析[J/OL]. 計(jì)算機(jī)應(yīng)用, 2019. [2018-12-10]. http://kns.cnki.net/kcms/detail/51.1307.TP.20190329.1643.008.html. (CHEN J, SHAO Z Q, ZHANG H H, et al. Short text sentiment analysis based on parallel hybrid neural network model[J/OL]. Journal of Computer Applications, 2019. [2018-12-10]. http://kns.cnki.net/kcms/detail/51.1307.TP.20190329.1643.008.html.)
[24] 常丹, 王玉珍. 基于SVM的用戶評(píng)論情感分析方法研究[J]. 棗莊學(xué)院學(xué)報(bào), 2019, 36(2): 73-78. (CHANG D, WANG Y Z. Research on the method of user comment sentiment analysis based on SVM[J]. Journal of Zaozhuang University, 2019, 36(2): 73-78.)
[25] 王煜涵, 張春云, 趙寶林, 等. 卷積神經(jīng)網(wǎng)絡(luò)下的Twitter文本情感分析[J]. 數(shù)據(jù)采集與處理, 2018, 33(5): 921-927. (WANG Y H, ZHANG C Y, ZHAO B L, et al. Sentiment analysis of twitter data based on CNN[J]. Journal of Data Acquisition and Processing, 2018, 33(5): 921-927.)