国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合語(yǔ)法規(guī)則的雙通道中文情感模型分析

2021-03-07 05:15邱寧佳王曉霞王艷春
計(jì)算機(jī)應(yīng)用 2021年2期
關(guān)鍵詞:雙通道向量語(yǔ)法

邱寧佳,王曉霞,王 鵬,王艷春

(長(zhǎng)春理工大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長(zhǎng)春 130022)

(*通信作者wpeng@cust.edu.cn)

0 引言

近年來(lái)對(duì)文本進(jìn)行情感分析成為了自然語(yǔ)言處理領(lǐng)域的重要分支,進(jìn)行有效的情感分析能夠幫助用戶(hù)及時(shí)掌握所在領(lǐng)域的情緒動(dòng)態(tài)。傳統(tǒng)的文本情感分類(lèi)方法主要為基于情感詞典與基于機(jī)器學(xué)習(xí)的方法。在基于情感詞典的研究方法上,Araque 等[1]使用語(yǔ)義相似性度量與嵌入式表示結(jié)合使用,該模型表明了詞匯的選擇對(duì)跨數(shù)據(jù)集性能有影響;Zhang等[2]提出了一種基于情感詞典的方法,解決了中文文本情感分析問(wèn)題;Xu 等[3]提出的基于擴(kuò)展情感詞典的方法對(duì)評(píng)論文本的情感識(shí)別具有一定的可行性和準(zhǔn)確性。此外,對(duì)于情感詞典跨數(shù)據(jù)集的適用性問(wèn)題,Hung[4]根據(jù)上下文信息構(gòu)建適合領(lǐng)域的情感詞典,并將其與偏好向量模型相結(jié)合,實(shí)現(xiàn)了IMDB和hotels.com 數(shù)據(jù)集口碑質(zhì)量分類(lèi)的顯著改進(jìn);Khoo 等[5]也提出了新的通用情感詞典WKWSCI(Wee Kim Wee School of Communication and Information),將其與常用的五種情感詞典進(jìn)行比較后也取得了不錯(cuò)的分類(lèi)成績(jī)。在基于機(jī)器學(xué)習(xí)的研究方法上,Singh 等[6]利用了樸素貝葉斯、J48、BFTree 和One Rule(OneR)四種機(jī)器學(xué)習(xí)分類(lèi)器對(duì)IMDB 電影評(píng)論數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),對(duì)比分析了四種分類(lèi)器各自的性能;Anggita等[7]使用粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法優(yōu)化了樸素貝葉斯和支持向量機(jī)(Support Vector Machines,SVM),提高了原算法的分類(lèi)精度;對(duì)產(chǎn)品評(píng)論進(jìn)行情感分類(lèi)時(shí),Tama 等[8]采用了樸素貝葉斯算法得到了80.48%的分類(lèi)準(zhǔn)確性?;谇楦性~典的分類(lèi)過(guò)分依賴(lài)于構(gòu)建的情感詞典,通用性不強(qiáng);而基于機(jī)器學(xué)習(xí)的方法通常需依賴(lài)復(fù)雜的特征過(guò)程,且人工標(biāo)注成本較高。

深度學(xué)習(xí)在不同情感分析領(lǐng)域取得了優(yōu)異成績(jī),現(xiàn)已成為文本情感分析的主流技術(shù)。陳珂等[9]利用多通道卷積神經(jīng)網(wǎng)絡(luò)(Multi-Channels Convolutional Neural Network,MCCNN)模型使其從多方面的特征表示學(xué)習(xí)輸入句子的情感信息;Long 等[10]將雙向長(zhǎng)短時(shí)記憶(Bidirectional Long Short-Term Memory,Bi-LSTM)網(wǎng)絡(luò)與多頭注意力機(jī)制相結(jié)合對(duì)社交媒體文本進(jìn)行情感分析,克服了傳統(tǒng)機(jī)器學(xué)習(xí)中的不足;孫凱[11]、李洋等[12]、趙宏等[13]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與Bi-LSTM 融合起來(lái),解決了現(xiàn)有情感分析方法特征提取不充分的問(wèn)題,并分別通過(guò)實(shí)驗(yàn)表明了該融合模型在實(shí)際應(yīng)用中具有較大的價(jià)值;同時(shí),Wang 等[14]研究了樹(shù)形結(jié)構(gòu)的區(qū)域CNN-BiLSTM 模型,提供了更細(xì)粒度的情感分析,在不同語(yǔ)料庫(kù)上都取得了不錯(cuò)的分類(lèi)效果。同時(shí),為了充分發(fā)揮語(yǔ)法規(guī)則在中文文本中的重要性,學(xué)者們還嘗試將其融入神經(jīng)網(wǎng)絡(luò)中,如盧強(qiáng)等[15]將語(yǔ)法規(guī)則與Bi-LSTM相融合,何雪琴等[16]則將其與CNN 相融合,通過(guò)設(shè)置對(duì)比實(shí)驗(yàn),各自都在不同數(shù)據(jù)集上取得了更好的分類(lèi)效果。

針對(duì)上述研究現(xiàn)狀,本文融合語(yǔ)法規(guī)則構(gòu)建雙通道中文情感模型,首先設(shè)計(jì)語(yǔ)法規(guī)則對(duì)文本進(jìn)行預(yù)處理,以保留情感傾向更明顯的文本;然后使用CNN 的強(qiáng)語(yǔ)義特征提取能力在不同窗口大小得到粒度不同的局部情感特征,同時(shí)為了彌補(bǔ)語(yǔ)法規(guī)則處理時(shí)可能忽視上下文信息問(wèn)題的不足,利用Bi-LSTM挖掘到文本時(shí)間跨度更大時(shí)的語(yǔ)義依賴(lài)關(guān)系,獲取到包含上下文信息的全局特征;最后將融合后的局部特征與全局特征使用分類(lèi)器對(duì)文本進(jìn)行情感分類(lèi)。

1 中文語(yǔ)法規(guī)則的構(gòu)建

為了解決因中文文本語(yǔ)義多樣化而導(dǎo)致CNN 情感特征提取困難的問(wèn)題,本文考慮首先設(shè)計(jì)語(yǔ)法規(guī)則對(duì)文本進(jìn)行初步情感信息清洗,降低文本語(yǔ)義復(fù)雜性,從而獲取到情感傾向更加明確的文本信息;再使用Word2Vec模型進(jìn)行訓(xùn)練得到規(guī)則特征向量后作為CNN 的輸入。通過(guò)中文文本語(yǔ)法規(guī)則研究發(fā)現(xiàn):文本中的情感傾向詞所在句直接表達(dá)了作者正面或負(fù)面情感;總結(jié)詞則表明了文本的中心思想,直接影響了句子的情感傾向;而轉(zhuǎn)折詞則實(shí)現(xiàn)前后情感反轉(zhuǎn)的作用。其中轉(zhuǎn)折詞分為兩類(lèi):甲類(lèi)轉(zhuǎn)折詞所在句帶有明顯的情感傾向;乙類(lèi)轉(zhuǎn)折詞則起到過(guò)渡作用,所在句的內(nèi)容不能夠表達(dá)文本的情感傾向,其情感傾向常表現(xiàn)在余下語(yǔ)句中。為了充分發(fā)揮情感傾向詞、總結(jié)詞、轉(zhuǎn)折詞在文本情感傾向信息提取中的作用,本文將依據(jù)數(shù)據(jù)集進(jìn)行這三類(lèi)詞的提煉匯總,設(shè)計(jì)出三類(lèi)情感詞典:EmoTendencyWords 情感傾向詞詞典、SumWords 總結(jié)詞詞典和TurnWords 轉(zhuǎn)折詞詞典,然后根據(jù)這三類(lèi)詞典對(duì)中文文本進(jìn)行語(yǔ)法規(guī)則設(shè)定,以獲取情感傾向更加明確的信息,方便CNN 在訓(xùn)練時(shí)獲取情感傾向特征。令W表示整個(gè)評(píng)論文本,Wi表示文本中的各個(gè)分句,定義該評(píng)論文本的分句集合為{W1,W2,…,Wn},W′則表示經(jīng)語(yǔ)法規(guī)則處理后的文本。規(guī)則如下:

規(guī)則1 若評(píng)論文本W(wǎng)中通過(guò)匹配EmoTendencyWords情感傾向詞詞典,存在情感傾向詞,則直接提取情感傾向詞所在的分句Wi,然后根據(jù)情感傾向詞詞典直接判定評(píng)論文本W(wǎng)的正負(fù)面。

當(dāng)文本中出現(xiàn)多個(gè)情感傾向詞時(shí),參照文獻(xiàn)[16]提出的“主題詞+直接分類(lèi)法”進(jìn)行該文本的情感傾向判定,通過(guò)主題詞判定該情感傾向詞是否有效,若無(wú)效則舍棄。具體方法為:首先根據(jù)數(shù)據(jù)集設(shè)定好種子主題詞,利用Word2Vec 工具文本將文本轉(zhuǎn)換為詞向量表示wi={si1,si2,…,sik};然后計(jì)算詞向量之間的歐氏距離來(lái)判斷該分句與種子主題詞之間相似度,閾值范圍以?xún)?nèi)則為相關(guān)主題,表示該情感傾向詞有效;最后統(tǒng)計(jì)有效正負(fù)面情感傾向詞個(gè)數(shù)并比較,正面?zhèn)€數(shù)多則該文本W(wǎng)情感傾向?yàn)榉e極,反之則為消極。相似度計(jì)算公式如式(1)所示:

sim(w1,w2)=

j=1,2,…,k(s1j-s2j)2(1)

規(guī)則2 若評(píng)論文本W(wǎng)中無(wú)情感傾向詞,則與SumWords總結(jié)詞詞典進(jìn)行匹配,若存在某總結(jié)詞,則直接提取總結(jié)詞后的分句Wi。若文本中出現(xiàn)多個(gè)總結(jié)詞,為提高分類(lèi)效率,默認(rèn)只提取第一個(gè)總結(jié)詞以后的分句Wi。

規(guī)則3 若評(píng)論文本W(wǎng)中無(wú)情感傾向詞與直接分類(lèi)詞,則與TurnWords 轉(zhuǎn)折詞詞典進(jìn)行匹配,若存在甲類(lèi)轉(zhuǎn)折詞,則直接提取該轉(zhuǎn)折詞之后的所有分句{Wi,Wi+1,…,Wn} ;若存在乙類(lèi)轉(zhuǎn)折詞,則忽略該轉(zhuǎn)折詞所在分句Wi,提取評(píng)論其他內(nèi)容{W1,W2,…,Wi-1,Wi+1,…,Wn} 。

規(guī)則4 若評(píng)論文本W(wǎng)均不屬于上述三種情況,則直接保留原文本內(nèi)容W。

利用語(yǔ)法規(guī)則提取情感傾向語(yǔ)句的流程如圖1所示。

圖1 利用語(yǔ)法規(guī)則提取情感傾向語(yǔ)句的流程Fig.1 Flowchart of extracting sentiment sentences using grammatical rules

文本W(wǎng)經(jīng)語(yǔ)法規(guī)則處理后會(huì)先后出現(xiàn)四種情況:1)直接根據(jù)情感傾向詞得到文本的情感分類(lèi)結(jié)果;2)得到含有總結(jié)詞的分句;3)得到判斷甲乙類(lèi)轉(zhuǎn)折詞的分句;4)得到原文本。如此處理后得到的文本W(wǎng)′,大部分相較原文本更加簡(jiǎn)短且具有明顯的情感傾向,大大降低了中文文本的語(yǔ)義多樣化,從而解決了輸入到CNN 后訓(xùn)練時(shí)因文本語(yǔ)義復(fù)雜而導(dǎo)致的特征提取困難問(wèn)題。

2 雙通道神經(jīng)網(wǎng)絡(luò)

2.1 CNN通道

CNN 擁有局部感知與參數(shù)共享兩大特點(diǎn),每個(gè)神經(jīng)元只需對(duì)局部進(jìn)行感知,且在局部連接中,每個(gè)神經(jīng)元的參數(shù)都是一樣的,進(jìn)行卷積操作時(shí)實(shí)際上是提取一個(gè)個(gè)的局部信息。因此對(duì)于規(guī)則處理后的文本W(wǎng)′,使用CNN 模型能夠有效地提取出局部特征。CNN通道模型結(jié)構(gòu)如圖2所示。

圖2 CNN通道模型結(jié)構(gòu)Fig.2 Channel model structure of CNN

在CNN 模型訓(xùn)練中,經(jīng)語(yǔ)法規(guī)則處理后得到評(píng)論文本W(wǎng)′,然后使用jieba 分詞得到文本序列為x={x1,x2,…,xn},其中xn∈R(R表示文本數(shù)據(jù)集構(gòu)成的詞典),通過(guò)詞嵌入技術(shù)Word2Vec 得到整個(gè)文本序列的詞向量句子表示如式(2)所示,其中,xi表示wi對(duì)應(yīng)的詞向量,⊕為拼接操作。

將X作為卷積層的輸入,通過(guò)大小為r*k的濾波器提取出不同位置的局部特征,計(jì)算公式如式(3):

其中:F為濾波器大小,V(w(i:i+r-1))為X中從i到i+r-1 共r行詞向量詞組,b為偏置項(xiàng)。故通過(guò)卷積層后得到輸出h=[h1,h2,…,hn-r+1]。由于卷積核共享存在著特征提取不充分的問(wèn)題,需通過(guò)增加多個(gè)卷積核來(lái)彌補(bǔ),通過(guò)固定參數(shù)的訓(xùn)練方法得到CNN 卷積窗口分別為3、4、5 時(shí)分類(lèi)效果更好,故經(jīng)過(guò)卷積操作后本文的卷積輸出為h3、h4、h5。

然后對(duì)于卷積層的每一個(gè)輸出向量h與Bi-LSTM 提取出的全局特征hblstm進(jìn)行注意力池化操作以提取出更能夠表達(dá)情感傾向的特征。其中,注意力池化是指通過(guò)式(4)、(5)計(jì)算出當(dāng)前局部特征與全局特征之間的相似性,且相似性越高則為該局部特征分配更大的權(quán)重。

其中:函數(shù)sim()通過(guò)余弦函數(shù)計(jì)算局部特征與全局特征之間的相似度,?i為權(quán)重。計(jì)算出權(quán)重后,最終的局部特征表示hcnn由式(6)得到。

2.2 Bi-LSTM通道

由于經(jīng)語(yǔ)法規(guī)則處理后的評(píng)論文本W(wǎng)′可能會(huì)省略掉部分文本,從而導(dǎo)致了上下文信息缺失的問(wèn)題,因此使用Bi-LSTM 模型來(lái)獲取包含上下文信息的全局特征。模型結(jié)構(gòu)如圖3所示。

圖3 Bi-LSTM通道模型結(jié)構(gòu)Fig.3 Channel model structure of Bi-LSTM

將未經(jīng)語(yǔ)法規(guī)則處理的文本經(jīng)過(guò)jieba 分詞以后利用Glove 工具訓(xùn)練得到詞向量,再作為Bi-LSTM 模型的輸入。其原理就是首先構(gòu)建基于語(yǔ)料庫(kù)的詞共現(xiàn)矩陣,然后根據(jù)共現(xiàn)矩陣與Glove模型學(xué)習(xí)詞向量。Glove模型綜合了潛在語(yǔ)義分析(Latent Semantic Analysis,LSA)和Word2Vec 模型的優(yōu)點(diǎn),在高效清晰的地表達(dá)文本語(yǔ)義的同時(shí)考慮了全局的文本信息。設(shè)第i個(gè)單詞的n維詞向量表示為vi={w1,w2,…,wn},將每個(gè)單詞向量V結(jié)合起來(lái)形成句子的矩陣表示形式Rs×n,其中,每一行是每個(gè)單詞對(duì)應(yīng)的詞向量權(quán)重。設(shè)s代表單詞總數(shù),若確定了詞向量權(quán)重的維度大小,則該矩陣的列也將確定,n代表詞語(yǔ)維度。令vi∈Rn表示第i個(gè)詞的n維詞向量,則長(zhǎng)度為s的文本表示為:

經(jīng)過(guò)將單詞轉(zhuǎn)換為詞向量,則句子中的每個(gè)詞的詞向量拼接最終組成了詞向量矩陣,即V∈Rs×n。接著將詞向量從前后兩個(gè)方向輸入模型,設(shè)定w、u、v、v′為Bi-LSTM 模型的權(quán)重,當(dāng)前單元輸入為xt,前一單元輸入為ht-1,后一單元輸入為ht+1。由式(8)得到上文的情感傾向特征,由式(9)得到下文的情感傾向特征,最終由式(10)得到了包含上下文信息的全局特征hblstm。

綜上,由雙通道神經(jīng)網(wǎng)絡(luò)得到了文本的局部hcnn與全局特征hblstm,并將兩者作為本文提出的CB_Rule 模型特征融合的輸入,以增強(qiáng)分類(lèi)器中情感特征的全面性,從而提高情感分類(lèi)精度。

3 融合語(yǔ)法規(guī)則的雙通道中文情感分析模型

雖然經(jīng)語(yǔ)法規(guī)則處理后的文本能夠使CNN 獲取到情感傾向更加明確的局部特征hcnn,但也存在因語(yǔ)法規(guī)則而存在的忽略上下文信息的問(wèn)題,考慮使用Bi-LSTM 提取出的全局特征來(lái)作為局部特征被忽略問(wèn)題的彌補(bǔ),所以本文將其與Bi-LSTM 提取的全局特征hblstm融合起來(lái)。融合公式如式(11)所示:

融合即將hcnn與hblstm拼接在一起,一同作為全連接層的輸入,并引入Dropout 機(jī)制,這樣能有效避免模型對(duì)部分特征產(chǎn)生依賴(lài),從而發(fā)生過(guò)擬合現(xiàn)象,最后將其輸入到softmax 分類(lèi)器中。融合流程如圖4所示。

特征融合既充分利用了CNN 強(qiáng)大的文本特征提取能力,又發(fā)揮了Bi-LSTM 對(duì)時(shí)間序列信息強(qiáng)大的記憶力,最終能夠讓分類(lèi)器得到的情感傾向特征h更加全面,最后通過(guò)分類(lèi)器得到中文文本情感分類(lèi)類(lèi)別。分類(lèi)公式如式(12)所示:

其中:Wh為權(quán)重矩陣,bh為偏置,y為情感類(lèi)別。

同時(shí)本文將利用反向傳播算法來(lái)訓(xùn)練模型,通過(guò)最小化交叉熵得到的損失函數(shù)來(lái)優(yōu)化模型,如式(13)所示。

其中:c為情感類(lèi)別數(shù)量,n為句子數(shù)量,pi為實(shí)際類(lèi)別,yi為預(yù)測(cè)類(lèi)別,λ為L(zhǎng)2正則化權(quán)重,Θ包含了CNN 和Bi-LSTM 中的所有權(quán)重及偏置項(xiàng)。

圖4 雙通道特征融合流程Fig.4 Flowchart of double-channel feature fusion

綜上,融合語(yǔ)法規(guī)則的雙通道神經(jīng)網(wǎng)絡(luò)模型如圖5所示。

圖5 融合語(yǔ)法規(guī)則的雙通道神經(jīng)網(wǎng)絡(luò)模型Fig.5 Double-channel neural network model integrating grammar rules

由圖5可知,模型的構(gòu)建過(guò)程如下:

1)將文本預(yù)處理后的數(shù)據(jù)依據(jù)設(shè)定的語(yǔ)法規(guī)則獲取到文本的情感信息語(yǔ)句,然后通過(guò)Word2Vec詞嵌入工具轉(zhuǎn)換成規(guī)則特征向量,再將規(guī)則特征向量輸入到CNN 模型;同時(shí)將未經(jīng)規(guī)則處理的文本經(jīng)過(guò)Glove 工具轉(zhuǎn)換成詞向量,輸入到Bi-LSTM模型。

2)在CNN 和Bi-LSTM 相結(jié)合的神經(jīng)網(wǎng)絡(luò)模型中,CNN 模型提取出文本的局部特征,其中將使用注意力池化的方法來(lái)提取出CNN 卷積層的局部特征,以此來(lái)判斷哪些特征能夠包含更多的情感信息;而B(niǎo)i-LSTM 則用來(lái)提取出文本的全局特征。

3)將雙通道神經(jīng)網(wǎng)絡(luò)模型輸出的局部特征與全局特征進(jìn)行融合后,輸入到分類(lèi)器中進(jìn)行情感分類(lèi)。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文所采用的實(shí)驗(yàn)數(shù)據(jù)為情感分析開(kāi)源數(shù)據(jù)集online_shopping_10_cats 電商購(gòu)物評(píng)論,數(shù)據(jù)對(duì)象有書(shū)籍、平板、手機(jī)、水果等十個(gè)類(lèi)別,電商評(píng)論情感標(biāo)簽分為兩類(lèi)[0,1],積極評(píng)論情感標(biāo)簽為1,消極評(píng)論情感標(biāo)簽為0。共62 272條數(shù)據(jù),其中正向評(píng)論31 351 條,負(fù)向評(píng)論31 421 條,數(shù)據(jù)集具體數(shù)據(jù)分布見(jiàn)表1。實(shí)驗(yàn)數(shù)據(jù)的訓(xùn)練集與測(cè)試集比例設(shè)置為8∶2。

表1 數(shù)據(jù)集的數(shù)據(jù)分布Tab.1 Data distribution of dataset

4.2 實(shí)驗(yàn)參數(shù)設(shè)置

本文融合神經(jīng)網(wǎng)絡(luò)模型中CNN 部分的參數(shù)及值如表2所示,Bi-LSTM部分的參數(shù)及值如表3所示。

表2 CNN部分的參數(shù)Tab.2 Parameters of CNN part

表3 Bi-LSTM部分的參數(shù)Tab.3 Parameters of Bi-LSTM part

針對(duì)不同數(shù)據(jù)集所需的情感詞典不同,根據(jù)上文的規(guī)則設(shè)定,由本文實(shí)驗(yàn)所用的電商評(píng)論數(shù)據(jù)集得到的三類(lèi)情感詞典的部分關(guān)鍵詞如下:

正面情感傾向詞:推薦、值得、值、物超所值、強(qiáng)烈推薦、性?xún)r(jià)比高、質(zhì)量不錯(cuò)、五星、好評(píng)、給力、滿(mǎn)意等。

負(fù)面情感傾向詞:不推薦、不值得、質(zhì)量不行、性?xún)r(jià)比低、差評(píng)、不滿(mǎn)意、失望、別買(mǎi)、一星、不值等。

總結(jié)詞:總的來(lái)說(shuō)、總之、總的感覺(jué)、總體、在我看來(lái)、綜上所述、個(gè)人認(rèn)為、反正、個(gè)人建議、整體等。

甲類(lèi)轉(zhuǎn)折詞:但是、但、可是、卻、不過(guò)、然而、所以、因此等。

乙類(lèi)轉(zhuǎn)折詞:只是、只不過(guò)、但就是、而且、就是、雖然、如果等。

由電商評(píng)論數(shù)據(jù)集提取出的種子主題詞有產(chǎn)品、快遞、價(jià)格、質(zhì)量、性能、包裝、客服、外形等,種子主題詞與待定主題之間相似度閾值范圍設(shè)為0.8。

4.3 評(píng)價(jià)指標(biāo)

本文將采用準(zhǔn)確率Acc(Accuracy)、召回率Re(Recall)以及F1(F1值)作為實(shí)驗(yàn)評(píng)價(jià)指標(biāo),其他符號(hào)表示如表4所示。

準(zhǔn)確率Acc表示測(cè)試集所有樣本都正確分類(lèi)的概率,計(jì)算公式如式(14):

召回率Re表示測(cè)試集分類(lèi)結(jié)果中某情感標(biāo)簽中的真實(shí)類(lèi)別占所有真實(shí)類(lèi)別的比例,計(jì)算公式如式(15)所示。

F1 值是表示準(zhǔn)確率Acc與召回率Re綜合性能的指標(biāo),對(duì)兩者加權(quán)調(diào)和計(jì)算得到最終分類(lèi)效果,即

表4 分類(lèi)類(lèi)別混淆矩陣Tab.4 Confusion matrix of classification category

4.4 實(shí)驗(yàn)結(jié)果分析

4.4.1 語(yǔ)法規(guī)則可行性分析

隨機(jī)選取電商評(píng)論中的10 000條數(shù)據(jù)來(lái)驗(yàn)證本文提出的語(yǔ)法規(guī)則對(duì)CNN 分類(lèi)結(jié)果的影響,其中,r1、r2、r3為文中第一章提出的前三個(gè)規(guī)則,CNN 參數(shù)設(shè)置見(jiàn)表2,實(shí)驗(yàn)結(jié)果如表5所示。由表5 可以看出,本文根據(jù)情感傾向詞、總結(jié)詞、轉(zhuǎn)折詞設(shè)定的語(yǔ)法規(guī)則能夠有效提升CNN 模型的分類(lèi)精度,其中規(guī)則1 對(duì)模型的分類(lèi)結(jié)果影響最大,F(xiàn)1值較CNN 模型提升了3.2 個(gè)百分點(diǎn),表明情感傾向詞對(duì)分類(lèi)結(jié)果的影響比重高于總結(jié)詞與轉(zhuǎn)折詞,通過(guò)提取有效情感傾向詞更能夠促進(jìn)文本情感分類(lèi)效果。雖然使用規(guī)則2 與規(guī)則3 的提升效果沒(méi)有規(guī)則1 明顯,但總體上都提升了CNN 模型的最終分類(lèi)精度。這說(shuō)明通過(guò)語(yǔ)法規(guī)則處理能夠得到更加明確的情感傾向信息,進(jìn)而幫助CNN提取到語(yǔ)義特征,提高分類(lèi)精度。

表5 語(yǔ)法規(guī)則對(duì)CNN分類(lèi)結(jié)果的影響Tab.5 Influence of grammar rules on CNN classification results

同時(shí),本文還將語(yǔ)法規(guī)則應(yīng)用到了機(jī)器學(xué)習(xí)算法SVM上,并與CNN 模型進(jìn)行對(duì)比實(shí)驗(yàn),同樣隨機(jī)選取10 000 條數(shù)據(jù),設(shè)定批大小batch 為64,迭代次數(shù)iteration 為157,數(shù)據(jù)集訓(xùn)練輪數(shù)epoch 為15,結(jié)果見(jiàn)圖6??梢钥闯觯Z(yǔ)法規(guī)則應(yīng)用到機(jī)器學(xué)習(xí)算法SVM 與傳統(tǒng)CNN 模型上,分類(lèi)準(zhǔn)確率都得到了顯著的提升,且準(zhǔn)確率都隨著epoch 的增加而增加,CNN、CNN_Rule、SVM、SVM_Rule 最終的準(zhǔn)確率穩(wěn)定在89%、93%、80%、86%左右,進(jìn)一步有效驗(yàn)證了該語(yǔ)法規(guī)則的可行性。

圖6 應(yīng)用語(yǔ)法規(guī)則效果Fig.6 Effect of applying grammar rules

4.4.2 融合語(yǔ)法規(guī)則的雙通道模型分類(lèi)精度

為解決雙通道模型特征融合時(shí)出現(xiàn)的過(guò)擬合現(xiàn)象,使用10 000 條電商評(píng)論文本作為實(shí)驗(yàn)數(shù)據(jù),在模型全連接層加入Dropout,并通過(guò)實(shí)驗(yàn)對(duì)比了Dropout 值在0.1~1 的準(zhǔn)確率變化,最終選擇0.5 作為Dropout 的最適值,實(shí)驗(yàn)結(jié)果如圖7所示。

圖7 Dropout參數(shù)對(duì)模型性能的影響Fig.7 Influence of Dropout parameter on model performance

為驗(yàn)證本文CB_Rule 模型的性能,在相同實(shí)驗(yàn)環(huán)境下使用表1 數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并根據(jù)圖7 的實(shí)驗(yàn)結(jié)果選取Dropout 為0.5。首先分別利用Word2Vec 和Glove 向量化工具將評(píng)論文本轉(zhuǎn)換成矩陣向量,再構(gòu)造單一的CNN、Bi-LSTM 模型以及雙通道模型CNN_BLstm 模型與CB_Rule 進(jìn)行對(duì)比實(shí)驗(yàn),使用接受者操作特征曲線(Rceiver Operating Characteristic curve,ROC 曲線)下面積(Area Under Curve,AUC)值作為情感分類(lèi)效果的評(píng)價(jià)指標(biāo),ROC 曲線如圖8 所示。由圖8 可知,Bi_LSTM 的AUC 值比CNN 模型高出0.9%,說(shuō)明在中文情感分類(lèi)任務(wù)中,上下文信息影響著分類(lèi)結(jié)果,所以?xún)H使用融合規(guī)則的CNN 模型進(jìn)行情感分類(lèi)時(shí),就容易忽略上下文信息,造成模型分類(lèi)性能下降。雙通道CNN_BLstm 模型的AUC 值較傳統(tǒng)的單Bi-LSTM、單CNN 模型分別高出2.8%、3.7%,究其原因,CNN 模型具有的局部感知與參數(shù)共享使其關(guān)注的是局部語(yǔ)義特征的提取,而較少考慮到上下文信息;反之,Bi-LSTM 由于其對(duì)時(shí)間序列的超強(qiáng)記憶功能,通過(guò)正反向LSTM傳播得到了上下文信息,但也忽略了局部語(yǔ)義特征在中文情感分析中的重要性。這再次說(shuō)明了將CNN 提取出的局部特征與Bi-LSTM 提取的全局特征融合起來(lái)對(duì)情感分類(lèi)效果有著顯著的影響。同時(shí),將語(yǔ)法規(guī)則融入雙通道模型中時(shí),CB_Rule 模型的AUC 值又比雙通道CNN_BLstm 模型提高了1.2%,驗(yàn)證了將語(yǔ)法規(guī)則融入其中更有助于情感特征的獲取,提升神經(jīng)網(wǎng)絡(luò)分類(lèi)效果。

圖8 CB_Rule模型與其他分類(lèi)模型的ROC曲線Fig.8 ROC curves of CB_Rule model and other classification models

4.4.3 CB_Rule模型與其他模型的性能對(duì)比

為了驗(yàn)證本文提出的規(guī)則融合模型的情感分類(lèi)性能,將本文提出的CB_Rule模型與文獻(xiàn)[12-16]提出的模型在表1數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),其中各個(gè)模型的CNN 與Bi-LSTM 皆按照表2、3 進(jìn)行參數(shù)設(shè)置,實(shí)驗(yàn)結(jié)果如表6 所示。其中:文獻(xiàn)[12]提出的L-BiLSTM_CNN 模型將CNN 提取的局部特征與Bi-LSTM 提取的全局特征融合后使用分類(lèi)器進(jìn)行情感分類(lèi);Z-BiLSTM_CNN 為文獻(xiàn)[13]構(gòu)建的Bi-LSTM 和CNN 的串行混合模型,首先利用Bi-LSTM 提取上下文特征,再對(duì)上下文特征進(jìn)行局部特征提取,最后使用分類(lèi)器進(jìn)行分類(lèi);R-Bi-LSTM 為文獻(xiàn)[15]提出的融合語(yǔ)法規(guī)則的Bi-LSTM 模型,并采用Glove工具進(jìn)行詞向量訓(xùn)練;SCNN(Syntactic rules for Convolutional Neural Network)為文獻(xiàn)[16]提出的融合句法規(guī)則和CNN 的旅游評(píng)論情感分析模型,但詞向量訓(xùn)練采用Word2Vec模型。

表6 CB_Rule模型與其他模型的分類(lèi)結(jié)果對(duì)比Tab.6 Comparison of classification results of CB_Rule model and other models

由表6 可知,本文所提出的CB_Rule 模型的準(zhǔn)確率優(yōu)于對(duì)比模型。將CNN提取出的局部特征和Bi-LSTM提取的全局特征進(jìn)行融合時(shí),L-BiLSTM_CNN 模型的準(zhǔn)確率明顯高于Z-BiLSTM_CNN 模型,說(shuō)明直接并行提取出特征進(jìn)行融合的效果優(yōu)于串行提取出后再進(jìn)行特征融合,故而本文采用了不同的詞向量處理工具對(duì)文本數(shù)據(jù)并行處理。同時(shí),本文提出的將語(yǔ)法規(guī)則融入雙通道模型在準(zhǔn)確率上較R-Bi-LSTM、SCNN 模型分別高出3.7 個(gè)百分點(diǎn)和0.6 個(gè)百分點(diǎn),進(jìn)一步驗(yàn)證了CB_Rule模型在情感分類(lèi)上的有效性。

5 結(jié)語(yǔ)

進(jìn)行情感研究對(duì)當(dāng)今社會(huì)意義重大,本文針對(duì)傳統(tǒng)的CNN 與Bi-LSTM 這類(lèi)情感分類(lèi)模型所存在的問(wèn)題,提出了融合語(yǔ)法規(guī)則的雙通道中文情感分析模型,將語(yǔ)法規(guī)則融入CNN中,訓(xùn)練得到更具有情感傾向的局部特征,同時(shí)為了解決語(yǔ)法規(guī)則處理后出現(xiàn)的忽略上下文信息問(wèn)題,利用Bi-LSTM對(duì)之進(jìn)行補(bǔ)充改進(jìn),最后將提取出的特征進(jìn)行融合,將其輸入到分類(lèi)器中提高情感分類(lèi)精度。在電商評(píng)論文本數(shù)據(jù)集上設(shè)計(jì)了語(yǔ)法規(guī)則的可行性分析、融合語(yǔ)法規(guī)則的雙通道模型的分類(lèi)精度以及CB_Rule 模型性能對(duì)比等實(shí)驗(yàn),驗(yàn)證了本文提出的CB_Rule模型具有良好的情感分類(lèi)效果。

猜你喜歡
雙通道向量語(yǔ)法
向量的分解
福建省醫(yī)保局率先上線省級(jí)“雙通道”電子處方流轉(zhuǎn)服務(wù)
聚焦“向量與三角”創(chuàng)新題
跟蹤導(dǎo)練(二)4
參考答案
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
智典DDR2 800 2GB/4GB
雙通道平行采集1H/19F二維相干核磁共振波譜新方法
宜黄县| 永登县| 个旧市| 疏附县| 太仆寺旗| 贵港市| 罗甸县| 莱西市| 迁安市| 安泽县| 克东县| 剑阁县| 延川县| 南投市| 陕西省| 东兰县| 九龙坡区| 水富县| 龙川县| 嘉祥县| 乌拉特中旗| 南充市| 绵阳市| 潜山县| 贺兰县| 安丘市| 鄂尔多斯市| 克什克腾旗| 山阳县| 界首市| 扎囊县| 丰城市| 古蔺县| 兴隆县| 淳安县| 泰安市| 登封市| 谷城县| 上栗县| 那坡县| 永泰县|