趙 宏,傅兆陽,王 樂
(蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,甘肅 蘭州 730050)
隨著新浪、網(wǎng)易、騰訊等網(wǎng)站以及QQ、微信、微博等應(yīng)用的普及,越來越多的網(wǎng)民可以方便快捷地參與到社會熱點(diǎn)事件的評論中表達(dá)自己的觀點(diǎn)與看法,使得互聯(lián)網(wǎng)上涌現(xiàn)出被多次轉(zhuǎn)發(fā)的海量評論、文章、消息、報(bào)告等文本數(shù)據(jù).對這些帶有情感傾向的文本信息進(jìn)行分析,可以及時獲取網(wǎng)民對社會熱點(diǎn)事件的看法,有助于政府決策;另一方面,網(wǎng)絡(luò)的開放性與匿名性等特點(diǎn)造成很多虛假、負(fù)面的信息,這類信息的肆意傳播很容易造成錯誤的輿論導(dǎo)向,影響社會穩(wěn)定.由于這些海量的文本形式多樣,無固定格式,很難用簡單的模式進(jìn)行處理.如果依靠人工處理,則存在工作量過大或?qū)崟r性較差等問題[1].因此,使用基于深度學(xué)習(xí)的文本情感分析技術(shù),自動且快速準(zhǔn)確地對互聯(lián)網(wǎng)上的海量文本進(jìn)行情感分析,對政府決策和輿情監(jiān)控具有重要意義[2-4].
文本情感分析用來判斷一段文本所表達(dá)的情感傾向,其中,文本可以是文檔級、句子級或者字符級.文本情感分析自2002年由Pang Bo[5]提出后,受到了高度關(guān)注,特別是在產(chǎn)品評論、輿情分析等領(lǐng)域取得了很大進(jìn)展.早期的情感分析研究主要基于規(guī)則和基于機(jī)器學(xué)習(xí)算法.基于規(guī)則的方法是通過專業(yè)人士或機(jī)構(gòu)來構(gòu)建相對標(biāo)準(zhǔn)的情感詞典[6],情感詞典包括積極和消極兩類情感詞匯,然后依托情感詞典,對待處理文本進(jìn)行規(guī)則匹配,計(jì)算情感得分,最后通過總分得到文本的情感傾向.基于機(jī)器學(xué)習(xí)的方法是通過學(xué)習(xí)目標(biāo)樣本的特征,根據(jù)特征的分布對文本作出類別的判斷[7-8],大多使用支持向量機(jī)SVM(support vector machine)、最大熵ME(maximum entropy)、樸素貝葉斯NB(Na?ve Bayes)等分類器進(jìn)行有監(jiān)督學(xué)習(xí)[9],然后作出情感極性的判斷.
近年來,隨著深度學(xué)習(xí)的發(fā)展,人們紛紛使用深度學(xué)習(xí)的方法進(jìn)行情感分析.Bengio等[10]首次將詞向量映射到實(shí)數(shù)空間,利用神經(jīng)網(wǎng)絡(luò)對自然語言進(jìn)行建模,通過計(jì)算詞與詞之間的數(shù)值距離來判斷詞之間的相似性,簡化了文本情感分析.Kim等[11]使用不同卷積核的卷積神經(jīng)網(wǎng)絡(luò)CNN(convolutional neural network)對英文文本局部語義特征進(jìn)行提取,實(shí)現(xiàn)了句子級的分類任務(wù)并取得了很好的分類效果.梁軍等[12]提出了基于極性轉(zhuǎn)移和LSTM(long short-term memory)神經(jīng)網(wǎng)絡(luò)結(jié)合的文本情感分析方法,在情感極性轉(zhuǎn)移模型中,使用LSTM提取文本上文語義信息,提高了情感分析的準(zhǔn)確率.曾誰飛等[13]將詞匯詞向量和詞性詞向量進(jìn)行拼接,構(gòu)成Double Word-embedding,然后使用BiLSTM(bi-directional long short-term memory)提取文本的上下文特征并進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果進(jìn)一步證明了該方法的有效性.
傳統(tǒng)的深度學(xué)習(xí)方法雖然在一般的分類任務(wù)中取得了良好的效果,但是傳統(tǒng)的深度學(xué)習(xí)模型將所有的特征賦予相同的權(quán)重進(jìn)行訓(xùn)練,無法突出不同特征對于分類的貢獻(xiàn)度.2014年Google Mind團(tuán)隊(duì)首次提出Attention機(jī)制用于圖像識別任務(wù)[14],它可以聚焦于圖像中較為重要的區(qū)域,能夠充分提取圖像中的關(guān)鍵特征,有效提高圖像識別的準(zhǔn)確率.2016年,Bahdanau等[15]將注意力機(jī)制應(yīng)用于自然語言處理領(lǐng)域的機(jī)器翻譯任務(wù),該方法較傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型在翻譯準(zhǔn)確率上有較大提高.2017年,谷歌提出一種自注意力機(jī)制(self-attention mechanism)用于機(jī)器翻譯[16],取得了比普通神經(jīng)網(wǎng)絡(luò)模型更好的效果.2018年趙勤魯?shù)萚17]提出了基于LSTM-Attention模型的文本分類方法,使用分層注意力來分別選擇重要的詞語和句子,依據(jù)較為關(guān)鍵的詞語和句子進(jìn)行分類,提高了模型的魯棒性.Zhou等[18]提出基于Attention的BiLSTM神經(jīng)網(wǎng)絡(luò)模型,從句子的兩個方向?qū)W習(xí)語義特征,對短文本進(jìn)行情感分析,在斯坦福樹圖數(shù)據(jù)集與電影評論數(shù)據(jù)集上證明了該模型較無注意力機(jī)制的LSTM性能提高3%.
綜上所述,現(xiàn)有文本情感分析模型較為單一,對文本深層次的涵義挖掘不夠,沒有考慮中文詞語一詞多義的問題,進(jìn)而影響模型的泛化能力與準(zhǔn)確率.針對以上問題,本文提出一種基于特征融合的方法來解決此問題.首先,利用中文詞性標(biāo)注技術(shù),根據(jù)分詞結(jié)果進(jìn)行詞性標(biāo)注,一定程度上解決一詞多義的問題;使用 TextCNN 提取文本不同視野的局部語義特征,解決 CNN 信息丟失的問題,同時充分發(fā)揮CNN提取局部特征的優(yōu)勢;使用引入了 Self-Attention 機(jī)制的 BiGRU 提取文本的上下文信息和句法結(jié)構(gòu)特征,深層次挖掘句子內(nèi)部詞語間的關(guān)聯(lián)性與邏輯性,從而得到更符合原文語義的向量表征;最后將兩部分特征進(jìn)行融合,使用 Softmax 進(jìn)行文本情感分類,綜合考量文本的一詞多義、局部語義信息、上下文信息以及句法結(jié)構(gòu)的因素來提升文本情感分析的準(zhǔn)確率與泛化能力.
評論文本中包含有大量的噪聲數(shù)據(jù),為了減少噪聲數(shù)據(jù)對文本情感分析的影響,需要對評論文本進(jìn)行以下預(yù)處理.
1) 數(shù)據(jù)整理.本文使用的數(shù)據(jù)集是網(wǎng)民在微博上關(guān)于2019年爆發(fā)的新型冠狀病毒相關(guān)的評論.該數(shù)據(jù)集由北京市場經(jīng)濟(jì)和信息化局、中國計(jì)算機(jī)學(xué)會大數(shù)據(jù)專家委員會聯(lián)合主辦的科技戰(zhàn)役·大數(shù)據(jù)公益挑戰(zhàn)賽提供的10萬條微博數(shù)據(jù).這10萬條數(shù)據(jù)是標(biāo)記過的,包含3個情感傾向,即積極(1)、中性(0)和消極(-1).該數(shù)據(jù)集是CSV文件,其中包含微博ID、微博的發(fā)布時間、發(fā)布人賬號、微博中文內(nèi)容、微博圖片、微博視頻和標(biāo)注好的情感傾向.由于微博圖片和微博視頻數(shù)據(jù)不夠齊全,所以在本文的情感分析中,只用微博中文內(nèi)容和標(biāo)注好的情感傾向兩個字段,重新構(gòu)造訓(xùn)練數(shù)據(jù)集.
由于微博內(nèi)容比較隨意,含有一些英文、表情符號等數(shù)據(jù),對文本情感分析的影響較大,且有可能成為噪聲數(shù)據(jù)影響文本情感分析的準(zhǔn)確性,所以先對這些數(shù)據(jù)進(jìn)行正則化處理,為后面的文本分析作準(zhǔn)備.
2) 分詞以及詞性標(biāo)注.將整理好的數(shù)據(jù)使用Jieba分詞工具進(jìn)行分詞,并標(biāo)注其詞性.
3) 去除停用詞.去除停用詞(stop words)就是過濾掉一些頻繁出現(xiàn)但沒有實(shí)際意義的詞,比如“我”“就”“的”以及語氣助詞、介詞、連詞等,這些詞并不能對文本情感分析提供有效的幫助,反而會增加存儲空間,降低文本情感分析的效率.
微博評論文本形式較為自由,沒有固定的格式和書寫規(guī)范,具有高度非結(jié)構(gòu)化的特點(diǎn),因此需要將文本詞匯轉(zhuǎn)化成計(jì)算機(jī)能夠識別的實(shí)數(shù)向量再進(jìn)行處理.本文使用GloVe(global vectors)實(shí)現(xiàn)離散文本到實(shí)數(shù)空間的映射,GloVe是Pennington等[19]在2014年提出的一種新的詞向量表示方法,該方法基于全局詞匯共現(xiàn)的統(tǒng)計(jì)信息來學(xué)習(xí)詞向量,將統(tǒng)計(jì)信息與局部上下文窗口的方法結(jié)合起來.
GloVe模型為了保存文本詞匯之間更多的共現(xiàn)信息,從而構(gòu)造了一個詞匯共現(xiàn)矩陣的近似矩陣,計(jì)算公式為
其中:Xi表示矩陣單詞i一行中出現(xiàn)詞語的總和;V表示詞典中的詞匯總量;Xik表示單詞k在單詞i的上下文中出現(xiàn)的次數(shù);Pik表示單詞k在單詞i的上下文中出現(xiàn)的概率;Rijk表示單詞i、j、k三者之間的關(guān)系,如果Rijk的值很大,說明單詞i、k相關(guān),而單詞j、k不相關(guān);如果Rijk的值很小,說明單詞j、k相關(guān),而單詞i、k不相關(guān);如果Rijk的值趨近于1,說明單詞j、k相關(guān)和單詞i、k相關(guān),或者單詞j、k不相關(guān)和單詞i、k不相關(guān).與原始的概率Pik相比,Rijk能夠更好地區(qū)別單詞之間的關(guān)系.
GloVe模型構(gòu)造了一個函數(shù)F(wi,wj,w′k),使其極大比率接近Pik/Pjk作為模型的收斂目標(biāo),使詞向量中含有共現(xiàn)矩陣中所蘊(yùn)含的信息,其中w,w′∈Rd是對應(yīng)的詞向量.由于噪聲數(shù)據(jù)會造成詞與詞之間共現(xiàn)關(guān)系不均衡、部分共現(xiàn)關(guān)系不合理的詞會被賦予極小的權(quán)重,不利于模型學(xué)習(xí)參數(shù),所以在構(gòu)造損失函數(shù)時引入一個權(quán)重方程f(Xij),構(gòu)造后的損失函數(shù)如下式所示:
(4)
其中:Xi,j表示單詞i與單詞j在窗口內(nèi)共同出現(xiàn)的次數(shù);wi表示單詞i作為上下文時的詞向量;w′j表示單詞j作為中心詞時的詞向量;bi和b′j表示偏置;V表示詞典中詞匯的總數(shù).
引入的權(quán)重方程f(x)需要滿足如下特性:
2)f(x)是非遞減函數(shù),目的是盡可能減少頻繁出現(xiàn)的共現(xiàn)組合不會被賦予較大的值.
3)f(x)函數(shù)值要盡可能的小,目的是降低常見的共現(xiàn)組合被賦予更大的值.
GloVe算法雖然實(shí)現(xiàn)了文本詞匯到實(shí)數(shù)空間的映射,解決了文本的實(shí)數(shù)表示問題,但并不能解決一詞多義問題.如表1所示,相同的詞語在不同的語境中可能會表現(xiàn)出不同的語義.
表1 一詞多義舉例Tab.1 Example of different meanings in one word
本文利用中文詞性標(biāo)注技術(shù),在分詞的同時根據(jù)分詞結(jié)果對相應(yīng)詞語進(jìn)行詞性標(biāo)注,并構(gòu)造形如“豐富-動詞”、”豐富-形容詞”這樣的“單詞-詞性”表示.
假設(shè)長度為n的句子W={w(1),w(2),…,w(n)},該句子對應(yīng)的詞性為M={m(1),m(2),…,m(n)},然后將文本和詞性進(jìn)行拼接,構(gòu)造序列對X={(w(1),m(1)),(w(2),m(2)),…,(w(n),m(n))},最后利用GloVe模型對融入詞性的序列對X訓(xùn)練詞向量.
圖1 GRU網(wǎng)絡(luò)模型Fig.1 GRU network model
GRU模型中各個門的計(jì)算公式如下所示:
圖2 BiGRU網(wǎng)絡(luò)模型Fig.2 BiGRU network model
BiGRU模型中每一個時刻狀態(tài)計(jì)算如下式所示:
(10)
(11)
輸出則由這兩個方向的GRU的狀態(tài)共同決定:
(12)
其中:wt表示正向輸出的權(quán)重矩陣;vt表示反向輸出的權(quán)重矩陣;bt表示t時刻的偏置.
注意力機(jī)制(Attention)[15]模仿了生物觀察行為的內(nèi)部過程,即對重要的區(qū)域投入更多的注意力,從大量信息中有選擇地篩選出少量重要信息并聚焦,同時抑制其他信息的干擾.目前大多數(shù)的注意力模型都依附于Encoder-Decoder框架下.如圖3所示,Source表示數(shù)據(jù)源,假設(shè)由一系列的〈Key,Val-ue〉數(shù)據(jù)對組成.注意力的計(jì)算過程為:首先通過每一個Query和各個Key計(jì)算相似度,該相似度就是每個Key對應(yīng)的Value的權(quán)重;然后將每個權(quán)重對應(yīng)的鍵值Value進(jìn)行加權(quán)求和,計(jì)算公式為
圖3 注意力機(jī)制Fig.3 Attention mechanism
(13)
其中:Lx表示數(shù)據(jù)源長度.
自注意力機(jī)制(Self-Attention)[16]是注意力機(jī)制中的一種,又稱內(nèi)部注意力機(jī)制,其特殊點(diǎn)在于Q=K=V,計(jì)算公式如下式所示:
(14)
在一般的Encoder-Decoder任務(wù)如機(jī)器翻譯任務(wù)中,Source可以是英文,而Target可能就是對應(yīng)的中文,這時注意力機(jī)制就在Target和Source的所有元素之間進(jìn)行相似度計(jì)算.而自注意力機(jī)制不是Target和Source之間的注意力計(jì)算機(jī)制,而是Source內(nèi)部元素之間或者Target內(nèi)部元素之間的注意力計(jì)算機(jī)制.
相比注意力機(jī)制,自注意力機(jī)制更善于捕捉自然語言表達(dá)中各詞語間深層次的內(nèi)在邏輯與句子的內(nèi)部結(jié)構(gòu),能夠生成更貼合原文語義的向量表征,從而提高情感分析的精度.
在評論文本中,用戶通過形容詞、副詞等情感詞匯表達(dá)其情感傾向.情感詞匯和句子間存在一定的層次結(jié)構(gòu)和語義關(guān)系,卷積神經(jīng)網(wǎng)絡(luò)CNN[22]可以通過卷積層提取情感詞匯所表達(dá)的局部語義特征,因此,本文利用CNN網(wǎng)絡(luò)進(jìn)行文本局部語義特征提取.
假設(shè)評論文本W(wǎng)={w(1),w(2),…,w(n)},首先將評論文本W(wǎng)中的詞w(i)利用Word2Vec轉(zhuǎn)化為對應(yīng)的詞向量V(w(i)),并將詞w(i)組成的句子映射為句子矩陣Sij,其中Sij={V(w(1)),V(w(2)),…,V(w(i))},1≤i≤n.CNN將Sij作為卷積層的輸入,該卷積層用大小為r*k的濾波器對句子矩陣Sij進(jìn)行卷積操作,提取Sij的局部語義特征,計(jì)算方法如下式所示:
Cij=f(F·V(w(i:i+r-1))+b)
(15)
其中:F代表r*k的濾波器;f代表通過Relu進(jìn)行非線性函數(shù)操作;V(w(i:i+r-1))代表Sij中從i到i+r-1共r行詞向量;b代表偏置量,Cij代表CNN提取的由i個詞組成的第j個句子的局部語義特征.
Kim[11]在2014年提出了TextCNN,并將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本分類任務(wù)中,利用多個不同大小的卷積核(filter)來提取句子中的關(guān)鍵信息,從而能夠更好地捕捉局部相關(guān)性,TextCNN模型結(jié)構(gòu)如圖4所示.
從圖4可以看出,相比單一大小的卷積核,多個不同尺寸的卷積核可以從不同視野范圍進(jìn)行特征提取,得到更豐富、全面的向量表征.使用TextCNN一方面可以引入CNN網(wǎng)絡(luò)并行計(jì)算的優(yōu)勢,提高訓(xùn)練和預(yù)測的速度;另一方面,可以彌補(bǔ)CNN網(wǎng)絡(luò)對長序列輸入特征提取不足的缺點(diǎn).
圖4 TextCNN模型結(jié)構(gòu)Fig.4 TextCNN model structure
考慮到目前文本情感分析模型相對單一,在不同場景中因?yàn)橐辉~多義問題以及不能從句法結(jié)構(gòu)、上下文信息、局部語義信息等維度綜合理解文本語義,導(dǎo)致文本情感分析準(zhǔn)確率不高,模型泛化能力不強(qiáng),將卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和注意力機(jī)制相結(jié)合,提出如圖5所示的混合模型.
圖5 文本情感提取算法流程Fig.5 Text sentiment extraction algorithm process
圖5為本文提出的情感分析模型結(jié)構(gòu)圖,主要由輸入層、嵌入層、特征提取和輸出層組成.
1) 輸入層:使用以新型冠狀病毒為主題的微博評論數(shù)據(jù)集,對微博評論文本進(jìn)行預(yù)處理,并將處理后的包含詞性的評論文本使用GloVe將詞匯轉(zhuǎn)化為向量,步驟如下:
① 對評論文本進(jìn)行預(yù)處理操作,具體的預(yù)處理操作在上文數(shù)據(jù)預(yù)處理部分已詳細(xì)闡述.
② 使用GloVe對預(yù)處理后的包含詞性的評論文本進(jìn)行文本詞匯向量化.建立詞向量字典,每一個文本詞匯對應(yīng)唯一一個已訓(xùn)練詞向量,其中,詞向量維度設(shè)置為100.對字典中沒有出現(xiàn)的文本詞匯詞向量隨機(jī)初始化.
2) 嵌入層:將文本詞匯中的詞向量進(jìn)行拼接,生成句子級詞向量矩陣,如下式所示:
Sij=V(w(1))⊕V(w(2))⊕…⊕V(w(i))
(16)
其中:w(1),w(2),…,w(i)表示文本詞匯;V(w(1)),V(w(2)),…,V(w(i))表示文本詞匯對應(yīng)的詞向量;Sij表示由i個詞向量拼接成的第j個句子詞向量矩陣;⊕表示詞向量的拼接操作.
3) 特征提?。禾卣魈崛影瑑刹糠?,第一部分是以嵌入層的句子矩陣Sij作為TextCNN的輸入,其中卷積核大小(kernel_size)分別為3、4、5,每種大小的卷積核數(shù)量(filter)為32,激活函數(shù)為ReLU,用最大池化層對卷積層提取的特征進(jìn)行降維,然后使用Keras中的Concatenate()方法對不同卷積核提取的特征進(jìn)行融合,計(jì)算公式為
oijt=TextCNN(Sijt)
(17)
第二部分,首先以嵌入層的句子矩陣Sij作為BiGRU的輸入,設(shè)置隱藏層的大小為32,激活函數(shù)為Sigmoid,將輸入矩陣分別從模型的兩個方向輸入,提取文本的歷史信息和未來信息;其次,將兩個方向的輸出拼接,計(jì)算公式為
hijt=BiGRU(Sijt)
(18)
最后,引入Self-Attention學(xué)習(xí)文本的句法結(jié)構(gòu)特征,深層次挖掘句子內(nèi)部詞語間的關(guān)聯(lián)性與邏輯性,從而得到更符合原文語義的向量表征.計(jì)算公式為
uijt=tan(Wwhijt+bw)
(19)
(20)
(21)
特征提取層的最終特征是TextCNN提取的不同視野的局部語義特征和融入Self-Attention的BiGRU提取的上下文信息特征,使用Concatenate()方法進(jìn)行融合,計(jì)算公式為
dijt=oijt⊕attijt
(22)
式(17~22)中:oijt表示TextCNN的輸出;hijt表示BiGRU的輸出;uijt表示hijt隱層單元;uw表示上下文向量;aijt表示自注意力向量;attijt表示自注意力機(jī)制的輸出向量.
4) 輸出層:通過Softmax函數(shù)進(jìn)行文本情感分類,計(jì)算公式為
yi=Softmax(widijt+bi)
(23)
其中:wi表示Dense層到輸出層的權(quán)重系數(shù)矩陣;bi表示相應(yīng)的偏置;dijt表示在t時刻Dense層的輸出向量.
本實(shí)驗(yàn)采用Keras深度學(xué)習(xí)框架,底層為Tensorflow,使用Python語言編程實(shí)現(xiàn).實(shí)驗(yàn)運(yùn)行環(huán)境為JetBrains Pycharm軟件、Windows10系統(tǒng)、內(nèi)存16 GB等.
本文使用的數(shù)據(jù)集是北京市場經(jīng)濟(jì)和信息化局、中國計(jì)算機(jī)學(xué)會大數(shù)據(jù)專家委員會聯(lián)合主辦的科技戰(zhàn)役·大數(shù)據(jù)公益挑戰(zhàn)賽提供的10萬條微博數(shù)據(jù).該數(shù)據(jù)被標(biāo)記為三類情感,即積極、中性和消極.部分樣例如圖6所示.
圖6 部分樣例數(shù)據(jù)Fig.6 Data set sample
根據(jù)對所有情感標(biāo)注數(shù)據(jù)的統(tǒng)計(jì),如表2所列,中性的數(shù)據(jù)最多,積極情感的數(shù)據(jù)次之,消極情感的數(shù)據(jù)最少.由于非平衡數(shù)據(jù)會影響分類算法的效果,所以首先對數(shù)據(jù)進(jìn)行平衡操作,這里通過對積極情感和中性情感進(jìn)行欠采樣,使得各個標(biāo)簽的數(shù)據(jù)平衡,從而構(gòu)建新的訓(xùn)練數(shù)據(jù)集.在數(shù)據(jù)集中隨機(jī)抽取80%作為訓(xùn)練集,10%作為驗(yàn)證集,10%作為測試集,使用十折交叉驗(yàn)證法進(jìn)行多次重復(fù)實(shí)驗(yàn),最后取多次試驗(yàn)結(jié)果的平均值作為最終測評結(jié)果.
表2 數(shù)據(jù)集中的情感分布Tab.2 Distribution of sentiment in the data set
文本情感分析通常使用準(zhǔn)確度(Accuracy)、精確率(Precision)、召回率(Recall)和F1值作為文本分類問題的模型評價(jià)指標(biāo).
準(zhǔn)確度(Accuracy)能夠反映出模型正確分類的能力,準(zhǔn)確度越高,分類器的性能就越好,其計(jì)算公式為
(24)
其中:TP(true positive)表示本身為陽性被正確預(yù)測為陽性的數(shù)量;FP(false positive)表示本身為陽性但被錯誤地預(yù)測為陰性的數(shù)量;FN(false negative)表示本身為陰性但被錯誤地預(yù)測為陽性的數(shù)量;TN(true negative)表示本身為陰性被預(yù)測為陰性的數(shù)量.
精確率(Precision)能夠衡量某一類的正確率,通常,精確率越高表示分類器對某類樣本的預(yù)測能力就越強(qiáng),其計(jì)算公式為
(25)
召回率(Recall)是指該類文本中實(shí)際數(shù)據(jù)在預(yù)測文本中所占的比例,用來衡量分類器的完整性,一般地,召回率越高代表該分類器的分類效果就越好.計(jì)算公式為
(26)
F1值是精確率和召回率的調(diào)和平均值,它可以有效地平衡二者之間的影響.計(jì)算公式為
(27)
實(shí)驗(yàn)參數(shù)的設(shè)定會直接影響實(shí)驗(yàn)結(jié)果,本文使用Jieba分詞工具對微博評論文本進(jìn)行分詞以及詞性的標(biāo)注,使用GloVe工具進(jìn)行詞向量的訓(xùn)練.實(shí)驗(yàn)參數(shù)主要有:詞向量的維度d,詞向量的窗口大小Window_size,BiGRU隱層節(jié)點(diǎn)的數(shù)量n,Self_Attention隱層節(jié)點(diǎn)的數(shù)量m,卷積核的數(shù)量filter,卷積核的窗口大小Kernel_size,段數(shù)t,Dropout比率p,學(xué)習(xí)率a.其中d在{50,100,200}取值,Window_size在{5,7,9}取值,filter在{32,64,128}取值,Kernel_size在{(2,3,4),(3,4,5),(4,5,6)}取值.經(jīng)過實(shí)驗(yàn)結(jié)果對比分析,本文實(shí)驗(yàn)參數(shù)設(shè)置如表3所列.
表3 模型參數(shù)設(shè)置Tab.3 Model parameter setting
為驗(yàn)證詞向量對文本情感分析的影響,在相同的實(shí)驗(yàn)環(huán)境下使用以新型冠狀病毒為主題的微博評論數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù).分別構(gòu)造了不使用預(yù)訓(xùn)練詞向量的本文方法、基于Word2Vec的方法和基于融入詞性的GloVe方法,進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所列.
表4 與不同詞嵌入類型的性能比較Tab.4 Performance comparison of different word embedding
如表4所示,融入詞性的GloVe向量化之后的文本情感分析模型性能較好,Word2Vec次之,不使用預(yù)訓(xùn)練詞向量的文本情感分析性能最差.在準(zhǔn)確度(Accuracy)方面,融入詞性的GloVe詞向量比Word2Vec詞向量和不使用預(yù)訓(xùn)練詞向量的文本情感分析方法分別提高了0.022 2和0.031 8.分析其原因,隨機(jī)詞嵌入的文本情感分析方法在文本詞匯到實(shí)數(shù)向量轉(zhuǎn)化的過程中詞與詞之間是完全獨(dú)立的,沒有考慮到詞匯之間的聯(lián)系以及語義信息;使用Word2Vec預(yù)訓(xùn)練的詞向量考慮到了文本的詞匯之間的聯(lián)系,但是沒有考慮到詞頻以及詞性的重要性.而本文的使用GloVe預(yù)訓(xùn)練的融入詞性的詞向量,綜合考慮到了語義信息和詞性對文本情感分析的影響,盡可能地將離散文本信息準(zhǔn)確地映射到實(shí)數(shù)空間,從而在實(shí)驗(yàn)數(shù)據(jù)集上表現(xiàn)更好.
為了證明本文提出的基于特征融合的中文文本情感分析方法的有效性,在相同的實(shí)驗(yàn)環(huán)境下使用以新型冠狀病毒為主題的微博評論數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),構(gòu)造了融入詞性特征的BiGRU模型、融入詞性特征的TextCNN模型、融入詞性特征的BiGRU-TextCNN混合模型和本文所提基于特征融合的混合模型.
1) BiGRU模型:將融入詞性的預(yù)訓(xùn)練詞向量作為BiGRU的輸入,然后使用BiGRU提取文本的上下文信息,最后使用Softmax對文本進(jìn)行情感分析.
2) TextCNN模型:將融入詞性的預(yù)訓(xùn)練詞向量作為TextCNN的輸入,然后使用TextCNN提取文本的局部語義特征,最后使用Softmax對文本進(jìn)行情感分析.
3) BiGRU-TextCNN混合模型:將融入詞性的預(yù)訓(xùn)練詞向量作為BiGRU和TextCNN的輸入,分別使用BiGRU提取文本的上下文信息,TextCNN提取文本的局部語義信息,然后對上下文特征和局部語義特征進(jìn)行融合,最后使用Softmax對文本情感進(jìn)行分析.
4) 本文方法:將融入詞性的預(yù)訓(xùn)練詞向量作為引入Self-Attention的BiGRU和TextCNN的輸入;分別使用引入Self-Attention的BiGRU從文本的句法結(jié)構(gòu)和文本的上下文信息兩個方面綜合提取全局特征,TextCNN提取文本的局部語義特征;然后對全局特征和局部語義特征進(jìn)行融合;最后使用Softmax對文本進(jìn)行情感分析.
如表5所列,本文方法不僅與單一的BiGRU和TextCNN進(jìn)行比較,還與引入自注意力機(jī)制是否夠能提高文本情感分析的準(zhǔn)確率作比較.在準(zhǔn)確度(Accuracy)方面,本文方法比BiGRU模型、TextCNN模型和BiGRU-TextCNN模型分別提高了0.011 4、0.021 4和0.001 6.分析原因,單一的BiGRU模型能夠充分提取上下文信息,單一的TextCNN模型擅長提取局部語義信息,BiGRU-TextCNN模型以并行方式將兩者優(yōu)勢結(jié)合起來,提升了準(zhǔn)確率.引入Self-Attention的本文模型從句法結(jié)構(gòu)、上下文信息以及不同視野的局部語義信息三個方面來理解文本語義,更有效地提取出關(guān)鍵特征,相較而言,該方法能夠在一定程度上更加出色地完成文本情感分析任務(wù).
表5 與不同模型的性能比較Tab.5 Performance comparison of different models
針對現(xiàn)有中文文本情感分析方法不能準(zhǔn)確理解文本語義信息,從而導(dǎo)致文本情感分析準(zhǔn)確率不高、魯棒性不強(qiáng)等問題,提出一種基于特征融合的文本情感分析方法.該方法首先使用融入詞性的方式在一定程度上解決了一詞多義問題;其次使用TextCNN提取文本不同視野的局部語義特征,解決了 CNN信息丟失的問題,并在 BiGRU中引入了 Self-Attention機(jī)制,從文本的句法結(jié)構(gòu)和文本的上下文信息兩個方面綜合提取全局特征;最后將局部語義特征和全局特征進(jìn)行融合,綜合考量文本的一詞多義、局部語義信息、上下文信息以及句法結(jié)構(gòu)的因素來提升文本情感分析的準(zhǔn)確率.此外,本文不僅對不同詞向量工具進(jìn)行了對比實(shí)驗(yàn),還與其他深度學(xué)習(xí)混合模型進(jìn)行了比較,在準(zhǔn)確率、召回率和綜合評價(jià)指標(biāo)F1上表現(xiàn)良好,具有較大的實(shí)用價(jià)值.