国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于并行混合神經(jīng)網(wǎng)絡(luò)模型的短文本情感分析

2019-10-23 12:23陳潔邵志清張歡歡費(fèi)佳慧
計(jì)算機(jī)應(yīng)用 2019年8期
關(guān)鍵詞:注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)

陳潔 邵志清 張歡歡 費(fèi)佳慧

摘 要:針對(duì)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)在進(jìn)行情感分析任務(wù)時(shí)會(huì)忽略詞的上下文語義以及CNN在最大池化操作時(shí)會(huì)丟失大量特征信息,從而限制模型的文本分類性能這兩大問題,提出一種并行混合神經(jīng)網(wǎng)絡(luò)模型CA-BGA。首先,采用特征融合的方法在CNN的輸出端融入雙向門限循環(huán)單元(BiGRU)神經(jīng)網(wǎng)絡(luò),通過融合句子的全局語義特征加強(qiáng)語義學(xué)習(xí);然后,在CNN的卷積層和池化層之間以及BiGRU的輸出端引入注意力機(jī)制,從而在保留較多特征信息的同時(shí),降低噪聲干擾;最后,基于以上兩種改進(jìn)策略構(gòu)造出了并行混合神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果表明,提出的混合神經(jīng)網(wǎng)絡(luò)模型具有收斂速度快的特性,并且有效地提升了文本分類的F1值,在中文評(píng)論短文本情感分析任務(wù)上具有優(yōu)良的性能。

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);特征融合;雙向門限循環(huán)單元;注意力機(jī)制;短文本情感分析

中圖分類號(hào):?TP183; TP391.1

文獻(xiàn)標(biāo)志碼:A

Short text sentiment analysis based on parallel hybrid neural network model

CHEN Jie, SHAO Zhiqing*, ZHANG Huanhuan, FEI Jiahui

School of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China

Abstract:

Concerning the problems that the traditional Convolutional Neural Network (CNN) ignores the contextual semantics of words when performing sentiment analysis tasks and CNN loses a lot of feature information during max pooling operation at the pooling layer, which limit the text classification performance of model, a parallel hybrid neural network model, namely CA-BGA (Convolutional Neural Network Attention and Bidirectional Gated Recurrent Unit Attention), was proposed. Firstly, a feature fusion method was adopted to integrate Bidirectional Gated Recurrent Unit (BiGRU) into the output of CNN, thus semantic learning was enhanced by integrating the global semantic features of sentences. Then, the attention mechanism was introduced between the convolutional layer and the pooling layer of CNN and at the output of BiGRU to reduce noise interference while retaining more feature information. Finally, a parallel hybrid neural network model was constructed based on the above two improvement strategies. Experimental results show that the proposed hybrid neural network model has the characteristic of fast convergence, and effectively improves the F1 value of text classification. The proposed model has excellent performance in Chinese short text sentiment analysis tasks.

Key words:?Convolutional Neural Network (CNN); feature fusion; Bidirectional Gated Recurrent Unit (BiGRU); attention mechanism; short text sentiment analysis

0 引言

隨著信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為了人們表達(dá)情感和態(tài)度的工具之一。當(dāng)下的大眾點(diǎn)評(píng)、美團(tuán)、攜程等軟件應(yīng)用都遍布著用戶的評(píng)論信息,合理地利用和分析這些評(píng)論信息對(duì)用戶的消費(fèi)選擇和商業(yè)組織的決策會(huì)起到關(guān)鍵性的指導(dǎo)作用[1],因此,對(duì)評(píng)論文本進(jìn)行情感分析得到了學(xué)術(shù)界的廣泛關(guān)注。

傳統(tǒng)的情感分析研究方法主要是基于機(jī)器學(xué)習(xí)[2]的方法,雖然機(jī)器學(xué)習(xí)的方法性能優(yōu)越,但是需要借助大量人工標(biāo)注特征和領(lǐng)域知識(shí),不具備良好的特征擴(kuò)展性。相較于傳統(tǒng)的機(jī)器學(xué)習(xí),深度學(xué)習(xí)模型能夠自動(dòng)提取文本特征,顯著提高情感分析效率,并取得比傳統(tǒng)的機(jī)器學(xué)習(xí)方法更好的效果[3]。

近年來,兩大主流深度學(xué)習(xí)模型——卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)被提出應(yīng)用于自然語言處理領(lǐng)域,并在短文本情感分析上取得了顯著效果[4]。Kim[5]首先將神經(jīng)網(wǎng)絡(luò)應(yīng)用于情感分類,將預(yù)訓(xùn)練好的詞向量作為輸入,利用CNN實(shí)現(xiàn)句子分類;Kalchbrenner等[6]提出一種動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)(Dynamic Convolution Neural Network, DCNN)模型用于句子特征學(xué)習(xí),并取得了較好的效果。但是傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在進(jìn)行文本建模時(shí),提取的是局部相連詞之間的特征[7],忽略了長距離上下文之間的語義關(guān)聯(lián)性。針對(duì)這一問題,本文提出了卷積神經(jīng)網(wǎng)絡(luò)結(jié)合雙向門限循環(huán)單元(Bidirectional Gated Recurrent Unit, BiGRU)的混合神經(jīng)網(wǎng)絡(luò)。

由于傳統(tǒng)的RNN存在梯度消失問題,Hochreiter等[8]設(shè)計(jì)了長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)模型用于解決這一問題。在提取長距離上下文語義特征上,LSTM是一種很有效的網(wǎng)絡(luò)結(jié)構(gòu)模型,但是結(jié)構(gòu)的復(fù)雜性使得LSTM的計(jì)算代價(jià)比較高。Cho等[9]提出了一種LSTM的替代方案——門限循環(huán)單元(Gated Recurrent Unit, GRU)。相比LSTM模型,GRU模型的結(jié)構(gòu)簡單,可以提高模型的訓(xùn)練速度[10],并且還能解決RNN存在的梯度消失問題。由于文本中詞的語義信息與該詞的前后信息都相關(guān),因此本文利用兩個(gè)GRU左右傳播組合成BiGRU來提高文本分類的F1值。

注意力機(jī)制和人類的選擇性視覺注意力機(jī)制類似,核心目標(biāo)是在眾多信息中,通過計(jì)算概率分布選擇出對(duì)當(dāng)前任務(wù)更關(guān)鍵的信息。Mnih等[11]在使用RNN模型進(jìn)行圖像分類時(shí)加入了注意力機(jī)制,之后Bahdanau等[12]首次將注意力機(jī)制應(yīng)用到自然語言處理(Natural Language Processing, NLP)領(lǐng)域中,將注意力機(jī)制應(yīng)用在機(jī)器翻譯的任務(wù)上,通過注意力機(jī)制將源語言端每個(gè)詞學(xué)到的表達(dá)和預(yù)測需要翻譯的詞聯(lián)系起來。

Luong等[13]提出了局部和全局兩種注意力機(jī)制。Yin等[14]提出了卷積網(wǎng)絡(luò)和注意力機(jī)制結(jié)合的三種方式,分別為:在CNN輸入之前引入注意力機(jī)制;在CNN的卷積層和池化層之間引入注意力機(jī)制;以上兩種方式的結(jié)合。近年來,注意力機(jī)制和神經(jīng)網(wǎng)絡(luò)模型的結(jié)合成為了文本情感分類研究的熱點(diǎn)。

由于評(píng)論文本多為短文本,含有的特征信息較少且噪聲大,為了避免卷積神經(jīng)網(wǎng)絡(luò)在池化層進(jìn)行特征選擇時(shí)丟失較多的信息特征以及降低噪聲的干擾,本文在卷積神經(jīng)網(wǎng)絡(luò)和BiGRU網(wǎng)絡(luò)中加入注意力機(jī)制進(jìn)一步提高文本分類的F1值。

本文的主要工作如下:

1)采用一種并行構(gòu)建方法提出一種并行混合神經(jīng)網(wǎng)絡(luò)模型CA-BGA(Convolutional Neural Network Attention and Bidirectional Gated Recurrent Unit Attention),融合卷積神經(jīng)網(wǎng)絡(luò)和BiGRU兩種模型,利用卷積神經(jīng)網(wǎng)絡(luò)提取局部特征優(yōu)勢(shì)的同時(shí),又利用BiGRU兼顧文本序列全局特征的優(yōu)勢(shì),解決了長距離上下文依賴問題,提高網(wǎng)絡(luò)模型在文本分類上的F1值;

2)在融合模型中引入注意力機(jī)制,既能克服卷積神經(jīng)網(wǎng)絡(luò)在池化層丟失較多特征的弊端,又能降低評(píng)論文本的噪聲干擾,進(jìn)一步提高融合模型在文本分類上的F1值。

1 詞向量

利用深度學(xué)習(xí)方法進(jìn)行中文情感分析時(shí),首先需要將文本用詞向量表示,作為神經(jīng)網(wǎng)絡(luò)模型的輸入。將中文映射為詞向量之前,需要對(duì)中文文本進(jìn)行分詞操作處理。但是評(píng)論文本屬于短文本范疇,存在噪聲大、新詞多、縮寫頻繁等特點(diǎn),因此對(duì)評(píng)論文本進(jìn)行分詞操作會(huì)有明顯的歧義。例如,“這家餐廳還行,是一個(gè)高大上海鮮餐廳”,在該句中,“高大上海鮮餐廳”如果使用傳統(tǒng)的分詞技術(shù),會(huì)被切分為“高大/上海/鮮/餐廳”或者“高大/上/海鮮/餐廳”,這樣切分無法體現(xiàn)句子的正確語義,甚至第一種切分方式還將“上?!鼻蟹謱?dǎo)致增加了一個(gè)評(píng)價(jià)對(duì)象。為了避免上述問題,本文利用字符級(jí)詞向量[15],以單個(gè)字作為句子的基本組成單位,對(duì)單個(gè)字訓(xùn)練詞向量。劉龍飛等[16]發(fā)現(xiàn)對(duì)于中文短文本,利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分析時(shí),用字符級(jí)詞向量作為原始特征效果會(huì)好于用詞級(jí)詞向量作為原始特征。

本文采用Skip-gram模型[17]訓(xùn)練字符級(jí)詞向量。Skip-gram模型原理是根據(jù)給定的中心字符預(yù)測周圍的字符。如圖1所示,Skip-gram模型由輸入層、映射層和輸出層構(gòu)成。當(dāng)前字符W(t)的向量形式 V (W(t))作為Skip-gram的輸入,設(shè)置上下文窗口大小為4,則預(yù)測出周圍4個(gè)字符對(duì)應(yīng)的向量形式為 V (W(t-2))、 V (W(t-1))、 V (W(t+1))、 V (W(t+2)),Skip-gram模型利用中間字符向量 V (W(t))的條件概率值來計(jì)算周圍字符詞向量,計(jì)算式為:

p( V (W(i)) | ?V (W(t)))

(1)

其中:i∈{t-2,t-1,t+1,t+2}。

2 混合神經(jīng)網(wǎng)絡(luò)模型

基于深度學(xué)習(xí)的方法通過自我學(xué)習(xí)的方式學(xué)習(xí)到評(píng)論文本中的情感語義特征。本文深度學(xué)習(xí)模型的構(gòu)造從以下三個(gè)方面考慮:1)在卷積神經(jīng)網(wǎng)絡(luò)的輸出端融入BiGRU網(wǎng)絡(luò)學(xué)習(xí)到的句子的全局語義結(jié)構(gòu)特征;2)在BiGRU輸出端和卷積神經(jīng)網(wǎng)絡(luò)模型的卷積層與池化層之間引入注意力機(jī)制,以此達(dá)到降低噪聲數(shù)據(jù)干擾的目的;3)卷積神經(jīng)網(wǎng)絡(luò)和BiGRU以聯(lián)合訓(xùn)練的方式學(xué)習(xí)句子的局部特征和全局特征。

2.1 BiGRU-Attention結(jié)構(gòu)全局特征信息提取

評(píng)論文本具有較強(qiáng)的序列性特征,因此文本的上下文語義特征也很重要,如果僅使用單個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型,則句子的語義特征信息將會(huì)被丟棄。LSTM可以建立序列模型,能夠體現(xiàn)文本序列特征;但是結(jié)構(gòu)的復(fù)雜性使得LSTM難以分析,同時(shí)計(jì)算代價(jià)也比較高。GRU是在LSTM基礎(chǔ)上的改進(jìn),減少了“門”結(jié)構(gòu)的數(shù)量[18],并把細(xì)胞狀態(tài)和隱層狀態(tài)合并在一起,因此結(jié)構(gòu)比LSTM更加簡單,減少了訓(xùn)練參數(shù)的同時(shí)也提高了模型訓(xùn)練的速率。GRU模型結(jié)構(gòu)如圖2所示。

但是GRU只能學(xué)習(xí)當(dāng)前詞之前的信息,不能利用當(dāng)前詞之后的信息,由于一個(gè)詞的語義不僅與之前的歷史信息有關(guān),還與當(dāng)前詞之后的信息也密切相關(guān),所以本文利用BiGRU代替GRU,充分考慮當(dāng)前詞的上下文信息。BiGRU結(jié)構(gòu)如圖3所示。

將句子矩陣輸入到BiGRU中,提取文本的序列特征,其輸出向量表示該文本句子的語義特征,計(jì)算式如下:

z t=σ( U z x t+ W z[ h t-1, h t+1]+ b z)

(2)

r t=σ( U r x t+ W r[ h t-1,ht+1]+ b r)

(3)

s t=tanh( U s x t+ W s r t×[ h t-1, h t+1]+ b s)

(4)

h t=(1- z t)×[ h t-1, h t+1]+ z t× s t

(5)

其中: U z、 U r、 U s、 W z、 W r、 W s代表權(quán)重; b z、 b r、 b s代表偏置量; z t為更新門, r t為重置門,是控制信息選擇性通過的機(jī)制;σ表示Sigmoid非線性激活函數(shù); x t表示t時(shí)刻的輸入; s t表示需要更新的信息; h t表示t時(shí)刻的隱藏層的狀態(tài)值, h t-1表示上一時(shí)刻狀態(tài), h t+1表示下一時(shí)刻的狀態(tài)。將BiGRU的輸出向量用 F G表示。

通過BiGRU獲得句子的語義特征向量 F G之后,利用注意力機(jī)制計(jì)算每個(gè)詞向量相應(yīng)的權(quán)重 θ i,最后將句子的語義特征向量點(diǎn)乘它們的權(quán)重 θ i,所以句子第i個(gè)詞向量 x i的特征值為 θ i x i。權(quán)重 θ i的計(jì)算式為:

scores(i)= x i Ae

(6)

θ i= exp(scores(i)) ∑ k (scores(k))

(7)

式(6)表示某一個(gè)詞向量 x i與預(yù)測情感極性 e 之間的匹配程度,將該函數(shù)的取值范圍定義在[0,1],0表示詞向量 x i完全不可能表達(dá)情感 e ;相反,1表示詞向量 x i一定會(huì)表達(dá)情感 e 。 A 為一個(gè)對(duì)角矩陣。通過式(7)就可以得到第i個(gè)詞向量在句子中的權(quán)重。在這一過程中獲得的特征向量表示為 f g。

2.2 CNN-Attention結(jié)構(gòu)局部特征信息提取

卷積神經(jīng)網(wǎng)絡(luò)分為4層,分別為輸入層、卷積層、池化層和輸出層。本文在卷積層和池化層之間添加注意力機(jī)制,在避免丟失大量特征信息的同時(shí)降低噪聲數(shù)據(jù)的干擾。

輸入層

首先將句子中的每個(gè)字利用Skip-gram模型映射為字符級(jí)詞向量 x i,并將由 x i組成的句子映射為句子矩陣 S 。

其中 x i∈ R k,表示句子矩陣 S 中第i個(gè)k維詞向量; S ∈ R n×k,n表示句子矩陣 S 中詞向量的個(gè)數(shù)。句子矩陣最終表示為:

S ={ x 1, x 2,…, x n}

(8)

卷積層

用大小為m×k的卷積核對(duì)句子矩陣 S 進(jìn)行卷積操作,提取句子的局部特征 c 。本文設(shè)定r個(gè)卷積核,卷積操作如式(9)所示:

c ji=f( W ?c? x i:i+m-1+ b )

(9)

其中:1≤j≤r;1≤i≤n-m+1;cji表示通過卷積操作獲得的局部特征;f表示通過激活函數(shù)ReLU進(jìn)行非線性操作; W c表示卷積的權(quán)重矩陣; x i:i+m-1表示句子矩陣中從i到i+m-1,共m行向量; b 表示偏置量。最終卷積操作結(jié)果為特征矩陣 C ∈ R r×(n-m+1)。

池化層

通過最大池化的方法,保留權(quán)重最大特征值,舍棄其他特征值。通過最大池化方法大幅降低特征向量的大小,計(jì)算式為:

pj=max{cji}

(10)

其中:1≤j≤r,1≤i≤n-m+1,拼接所有pj組合成句子級(jí)特征向量 F max∈ R r,r表示特征的個(gè)數(shù)。

注意力機(jī)制

在卷積層獲得句子的局部特征向量 c j(1≤j≤r)之后,通過注意力機(jī)制計(jì)算得到相應(yīng)的權(quán)重 θ i,最后將句子的語義特征向量點(diǎn)乘它們的權(quán)重 θ i,所以句子第i個(gè)字符級(jí)詞向量 x i的特征值為 θ i x i。計(jì)算式為式(6)和式(7)。

通過式(7)就可以得到第i個(gè)詞向量在句子中的權(quán)重。通過注意力機(jī)制獲得特征向量表示為 F Att,拼接 F max和 F Att組合成特征向量 f c。

輸出層

拼接由CNN-Attention獲得的特征向量 f c和由2.1節(jié)BiGRU-Attention獲得的特征向量 f g,組成最終的句子特征向量 F 。輸出層選擇Softmax函數(shù)作為分類器,將 F 作為輸入。為了避免過擬合,在輸出層之前添加Dropout層,其思想是對(duì)于神經(jīng)網(wǎng)絡(luò)單元,按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄。計(jì)算式為:

p( y ?| ?W S, F ′, b S)=softmax( W S F ′+ b S)

(11)

其中: W S∈ R v×r和 b S∈ R v都是Softmax層的參數(shù),分別表示權(quán)重矩陣和偏置向量; F ′表示最終的句子特征向量 F 經(jīng)過Dropout層處理后的特征向量。

2.3 混合神經(jīng)網(wǎng)絡(luò)模型CA-BGA

2.3.1 CA-BGA的構(gòu)造

混合神經(jīng)網(wǎng)絡(luò)模型CA-BGA

Convolutional neural network Attention and Bidirectional Gated recurrent unit Attention

結(jié)構(gòu)如圖4所示。將句子映射為字符級(jí)詞向量并組成句子矩陣,將其作為模型的輸入;模型上邊部分為BiGRU-Attention的全局語義結(jié)構(gòu)學(xué)習(xí),輸出為 f g;模型的下邊部分為CNN-Attention的局部特征學(xué)習(xí),輸出為 f c。最后拼接 f g和 f c得到最終的句子特征表示 F ,將其作為分類器的輸入進(jìn)行情感分類。

本文混合神經(jīng)網(wǎng)絡(luò)的模型描述和算法如下:

程序前

輸入:訓(xùn)練語料 X 和對(duì)應(yīng)的標(biāo)簽 Y 。

數(shù)據(jù)預(yù)處理:將評(píng)論文本截取為相同的長度,句子長度不足部分用0填充。

初始化模型的參數(shù),包括詞向量維度、滑動(dòng)窗口的大小和數(shù)量、BiGRU層數(shù)、BiGRU輸出維度大小、Dropout層的Dropout rate、Epoch以及迭代次數(shù)。

對(duì)于訓(xùn)練樣本中的每個(gè)〈x,y〉:

1) 更新前向傳播訓(xùn)練參數(shù):

利用CNN-Attention和BiGRU-Attention得到句子特征 f c和 f g,它們兩者拼接得到句子特征 F = f c+ f g;

F 經(jīng)過Dropout層處理后得到特征向量 F ′;

利用下式計(jì)算Softmax層情感傾向的概率,所采用的損失函數(shù)為J( W , b ):

p(y| W S, F ′, b S)=softmax( W S F ′+ b S)

2) 更新反向傳播訓(xùn)練參數(shù):

更新模型參數(shù) W 和 b :

W ← W +Δ W , b ← b +Δ b

其中Δ W = J( W , b )? W? ,Δ b = J( W , b )? b? 。

程序后

2.3.2 CA-BGA的訓(xùn)練

本文的混合神經(jīng)網(wǎng)絡(luò)模型更新的參數(shù)包括卷積神經(jīng)網(wǎng)絡(luò)、Bi-GRU和注意力機(jī)制中的參數(shù)。在將融合后的特征輸入到Softmax分類器之前,加入Dropout層,每次迭代放棄部分訓(xùn)練好的參數(shù),使權(quán)值更新不再依賴部分固有特征,防止過擬合。本文Softmax回歸中將 x 分為類別j的概率為:

p(yi=j | ?x i, θ )= exp( θ Tj x i) ∑ k i=1 exp( θ Tj x i)

(12)

其中:k為標(biāo)簽的類別數(shù),本文關(guān)注正向、負(fù)向和中性三類情感極性,因此k=3; θ 為模型參數(shù)。

訓(xùn)練模型參數(shù) θ 采用分類交叉熵(categorical cross-entropy)作為損失函數(shù),并且引入L2正則化,控制參數(shù)值的復(fù)雜性,避免發(fā)生過擬合。具體計(jì)算如式(13)所示:

J( θ )=- 1 N ?[ ∑ N i=1 ∑ k j=1 yj·ln(pj( θ )) ] + λ 2 ∑ k i=1 ∑ n j=1? θ 2

(13)

其中:yj為句子的真實(shí)情感值,pj( θ )為預(yù)測的情感值,N為樣本總數(shù),k表示標(biāo)簽的類別數(shù),n表示參數(shù) θ 的數(shù)量,λ表示L2正則化系數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境

本文的實(shí)驗(yàn)環(huán)境及其配置如表1所示。

3.2 實(shí)驗(yàn)數(shù)據(jù)集

本文采用AI Challenger全球AI挑戰(zhàn)賽2018用戶評(píng)論情感分析數(shù)據(jù)集,數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),數(shù)據(jù)集有多個(gè)細(xì)粒度情感傾向描述,如餐廳交通是否便利、距離商圈遠(yuǎn)近等20個(gè)細(xì)粒度要素,本文針對(duì)其中一個(gè)細(xì)粒度要素——“交通是否便利”進(jìn)行情感分析。訓(xùn)練數(shù)據(jù)集選擇15000條數(shù)據(jù),其中對(duì)于“交通是否便利”細(xì)粒度要素,情感傾向?yàn)檎虻臄?shù)據(jù)5000條,情感傾向?yàn)樨?fù)向的數(shù)據(jù)5000條,情感傾向?yàn)橹行缘臄?shù)據(jù)5000條。細(xì)粒度要素為“交通是否便利”的測試集數(shù)據(jù)選擇3000條數(shù)據(jù),其中情感傾向?yàn)檎虻臄?shù)據(jù)1000條,情感傾向?yàn)樨?fù)向的數(shù)據(jù)1000條,情感傾向?yàn)橹行缘臄?shù)據(jù)1000條。通過多次反復(fù)實(shí)驗(yàn)評(píng)估各個(gè)模型的性能,將實(shí)驗(yàn)的平均值作為最終結(jié)果。

3.3 評(píng)測指標(biāo)

在自然語言處理中評(píng)估是一個(gè)重要的環(huán)節(jié),評(píng)測指標(biāo)通常采用精確率(precision)、召回率(recall)和F1值。precision評(píng)估的是查準(zhǔn)率,recall評(píng)估的是查全率,F(xiàn)1值是綜合評(píng)價(jià)指標(biāo)。表2是根據(jù)分類結(jié)果建立的混合矩陣,用來介紹評(píng)價(jià)指標(biāo)的計(jì)算方式。各評(píng)價(jià)指標(biāo)的具體計(jì)算方式如下:

F1= 1 3? ∑ 3 i=1 2× precision(i)×recall(i) precision(i)+recall(i)

(14)

precision(i)= TP(i) TP(i)+FP(i)

(15)

recall(i)= TP(i) TP(i)+FN(i)

(16)

將3分類的評(píng)價(jià)拆分成3個(gè)二分類的評(píng)價(jià),根據(jù)每個(gè)二分類評(píng)價(jià)的TPi、FPi、FNi計(jì)算出準(zhǔn)確率和召回率,再由準(zhǔn)確率和召回率計(jì)算得到F1。

3.4 實(shí)驗(yàn)參數(shù)

實(shí)驗(yàn)參數(shù)的選取會(huì)直接影響最后的實(shí)驗(yàn)結(jié)果,本文參照Zhang等[19]的建議設(shè)置CNN模型參數(shù)。模型中的參數(shù)主要有詞向量維度d、卷積核滑動(dòng)窗口大小n、卷積核數(shù)量m、Dropout比率ρ、迭代次數(shù)Epoch等。BiGRU層數(shù)默認(rèn)取2層。BiGRU的輸出維度需要與CNN的特征映射數(shù)保持相等,以便于更好地融合成最終的句子表示,其維度設(shè)置為192。具體參數(shù)設(shè)置如表3所示。

3.5 結(jié)果分析

為了驗(yàn)證本文提出的CA-BGA特征融合模型的分類性能,設(shè)計(jì)4組實(shí)驗(yàn)對(duì)模型進(jìn)行性能的對(duì)比。

第1組

將本文的特征融合模型與CNN單模型和BiGRU單模型進(jìn)行對(duì)比。在相同的數(shù)據(jù)集上,保持特征融合模型中CNN和BiGRU參數(shù)與單模型CNN、單模型BiGRU參數(shù)相同,均為表3中的參數(shù)值,驗(yàn)證本文的融合模型在短文本情感分析任務(wù)上比單模型CNN和BiGRU效果好。

第2組

CNN-Attention模型是基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),在卷積神經(jīng)網(wǎng)絡(luò)的池化層和卷積層之間引入了注意力機(jī)制,驗(yàn)證在卷積神經(jīng)網(wǎng)絡(luò)池化層后融入BiGRU-Attention提取上下文語義特征之后性能的提高。

第3組

C-BiGRU模型的構(gòu)建思想源于Lai等[20]提出的RCNN模型,將BiGRU模型與CNN模型以鏈?zhǔn)椒绞綐?gòu)建,將訓(xùn)練好的詞向量作為BiGRU模型的輸入,其輸出作為CNN模型的輸入,最終輸出結(jié)果,以驗(yàn)證本文提出的模型融合方式比鏈?zhǔn)饺诤戏绞降母佑行А?/p>

第4組

CNN+BiGRU模型,相比本文提出的融合模型,此模型中不引入注意力機(jī)制,以驗(yàn)證引入注意力機(jī)制后的模型能夠提高在情感分析任務(wù)上的性能。

由圖5(a)對(duì)比發(fā)現(xiàn),本文融合模型的收斂速度要優(yōu)于其他五種模型;從圖5(b)對(duì)比發(fā)現(xiàn),本文融合模型的loss值下降速度較快,且最終的loss值能達(dá)到很低的穩(wěn)定值,模型取得了較好的收斂效果。

4組實(shí)驗(yàn)在AI Challenger2018用戶評(píng)論情感數(shù)據(jù)集上測試結(jié)果如表4所示。與CNN單模型和BiGRU單模型相比,本文模型在precision、recall和F1值上都有較大提升,說明在情感分析任務(wù)上,融合模型比單個(gè)模型的表現(xiàn)更加出色。

將本文模型與CNN-Attention模型對(duì)比,本文模型在F1值上提升了10.52%,說明在CNN模型參數(shù)都相同的條件下,在CNN的輸出端融合BiGRU-Attention提取的上下文語義特征能夠更加準(zhǔn)確地進(jìn)行情感分類。

將C-BiGRU模型與CNN+BiGRU模型進(jìn)行對(duì)比,CNN+BiGRU模型的情感分類效果要優(yōu)于C-BiGRU模型,說明相對(duì)于鏈?zhǔn)侥P腿诤戏绞?,本文采用并行式的模型融合方式能夠有效地提升文本情感分析的F1值。

將本文模型與CNN+BiGRU模型進(jìn)行比較,通過表4中的數(shù)據(jù)對(duì)比可以發(fā)現(xiàn),引入注意力機(jī)制后的融合模型在precision、recall和F1值這三個(gè)評(píng)測指標(biāo)上都有所提升,這表明引入注意力機(jī)制后的混合模型在文本情感分類上擁有更好的表現(xiàn)。將本文模型與其他五種模型比較發(fā)現(xiàn),本文模型情感分類的效果是最優(yōu)的,因此本文模型在中文短文本情感分類上具有充分的優(yōu)勢(shì)。

4 結(jié)語

本文通過分析CNN和BiGRU模型內(nèi)部的結(jié)構(gòu)和注意力機(jī)制的特點(diǎn),提出一種CA-BGA模型。由于CNN模型具有提取局部特征的優(yōu)勢(shì),BiGRU模型能夠充分提取文本全局語義特征,CA-BGA模型以并行方式結(jié)合CNN和BiGRU兩種基線模型,從而達(dá)到結(jié)合兩種優(yōu)勢(shì)的目的。針對(duì)評(píng)論文本具有噪聲大、特征少的特點(diǎn)以及CNN模型在最大池化操作中會(huì)丟失較多特征信息的問題,CA-BGA模型在BiGRU輸出前和CNN內(nèi)部引入注意力機(jī)制,豐富了特征信息。在AI Challenger2018用戶評(píng)論情感數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,實(shí)驗(yàn)結(jié)果表明,基于混合神經(jīng)網(wǎng)絡(luò)模型CA-BGA能夠更加準(zhǔn)確地完成中文短文本情感分析任務(wù)。

但是本文的方法還存在一些不足,例如本文的混合神經(jīng)網(wǎng)絡(luò)模型需要大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練,在小規(guī)模數(shù)據(jù)集上表現(xiàn)不佳。在接下來的工作中,將增加對(duì)小規(guī)模數(shù)據(jù)集的適用性,使得本文方法更加完善。

參考文獻(xiàn)

[1]? 張膂.基于餐飲評(píng)論的情感傾向性分析[D].昆明:昆明理工大學(xué),2016: 1. (ZHANG L. Analysis of sentiment orientation based on restaurant reviews[D]. Kunming: Kunming University of Science and Technology, 2016: 1.)

[2]?LIU B. Sentiment analysis and opinion mining [C]// Proceedings of the 2012 Synthesis Lectures on Human Language Technologies. Vermont, Australia: Morgan & Claypool Publishers, 2012: 152-153.?DOI: 10.2200/S00416ED1V01Y201204HLT016

[3]?王文凱,王黎明,柴玉梅.基于卷積神經(jīng)網(wǎng)絡(luò)和Tree-LSTM的微博情感分析[J].計(jì)算機(jī)應(yīng)用研究,2019,36(5):1371-1375. (WANG W K, WANG L M, CHAI Y M. Sentiment analysis of micro-blog based on CNN and Tree-LSTM [J]. Application Research of Computers, 2019, 36(5): 1371-1375.)

[4]?LI Y, CAI Y, LEUNG H F, et al. Improving short text modeling by two-level attention networks for sentiment classification [C]// Proceedings of the 2018 International Conference on Database Systems for Advanced Applications, LNCS 10827. Cham: Springer, 2018: 878-890.

[5]???KIM Y. Convolutional neural networks for sentence classification? [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. New York: ACM, 2014: 1746-1751.

[16]?劉龍飛,楊亮,張紹武,等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J].中文信息學(xué)報(bào),2015,29(6):159-165. (LIU L F, YANG L, ZHANG S W, et al. Convolutional neural networks for chinese micro-blog sentiment analysis [J]. Journal of Chinese Information Processing, 2015, 29(6): 159-165.)

[17]?MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc., 2013,2: 3111-3119.

[18]??DEY R, SALEMT F M. Gate-variants of Gated Recurrent Unit? (GRU) neural networks [C]// Proceedings of the 2017 IEEE 60th International Midwest Symposium on Circuits and Systems. Piscataway, NJ: IEEE, 2017: 1597-1600.

[19]??ZHANG Y, WALLACE B. A sensitivity analysis of (and practitioners guide to) convolutional neural networks for sentence classification [J]. arXiv E-print, 2016: arXiv:1510.03820.?[J/OL]. [2016-04-06]. https://arxiv.org/abs/1510.03820.

[20]?LAI S, XU L, LIU K, et al. Recurrent convolutional neural networks for text classification [C]// Proceedings of the 29th AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2015: 2267-2273.

猜你喜歡
注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動(dòng)態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中的研究
InsunKBQA:一個(gè)基于知識(shí)庫的問答系統(tǒng)
基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)