劉司搖,周艷玲,蘭正寅,張 龑,曾張帆
(湖北大學 計算機與信息工程學院,湖北 武漢 430062)
隨著互聯(lián)網(wǎng)高速發(fā)展與通信設備普及,各式各樣的社交媒體平臺通過網(wǎng)絡被推送到生活中,越來越多的用戶通過微博、淘寶等應用軟件發(fā)表對新聞、產品的態(tài)度和評價[1]。情感分析的目的是從具有主觀性的文本中提取用戶情感,屬于自然語言處理的基本任務之一[2]。通過情感分析這些評論文本數(shù)據(jù),可獲取用戶對商品的評價或網(wǎng)民對社會新聞的態(tài)度,從而精準把握用戶需求,調節(jié)產品市場方向;引導社會輿論向積極方向發(fā)展,避免負面事件進一步發(fā)酵。因此,通過情感分析網(wǎng)絡交互信息中的用戶觀點與情緒極具商業(yè)價值和社會意義,如何在海量數(shù)據(jù)中挖掘有效信息,利用深度學習方法更好地捕捉深層次文本語義特征便具有十分重要的研究價值[3]。
目前,文本情感分析方法主要分為:①基于情感詞典的情感分析方法[4],但情感詞通常具有滯后性,因此通用性不足且耗時耗力;②基于傳統(tǒng)機器學習的情感分析方法[5],該方法通過機器學習相關技術提取文本中的情感特征,建立訓練模型后預測文本情感,但對特征提取質量的依賴性較大,難以達到滿意的效果;③基于深度學習的情感分析方法[6],該方法通過模擬人腦結構,借助多層神經元自動提取、更新、優(yōu)化特征,從而提升情感分析的準確度,現(xiàn)已取得了較好的性能[7-9],但如何利用深度學習方法抽取更深層次的文本語義特征仍然亟待解決。
本文為了提升中文文本情感分類效果,利用各模型優(yōu)勢捕捉多維度語義信息,增強文本向量表征能力,提出一種融合雙通道語義特征(Fused on Dual Channel Semantic Features,F(xiàn)DSF)的情感分析模型。首先,將BERT 作為詞嵌入層以獲取文本詞向量矩陣表示,將其輸入BiGRU 來提取全局文本序列特征,并引入注意力機制分配特征向量權重;然后利用CNN 提取文本矩陣多個粒度下的局部特征,并將BiGRU-Attention 與CNN 輸出特征信息進行向量融合;最后由全連接層Softmax 分類器輸出文本的情感傾向。
文本向量化是情感分析研究的關鍵環(huán)節(jié),通過神經網(wǎng)絡對文本構建詞向量矩陣,讓機器理解文本語義,對情感極性的判斷具有重要的研究意義。常用的詞向量表示方法包括One-hot 編碼[10]、Word2vec[11]、BERT、Glove[12]等。其中,Glove 詞嵌入模型同時考慮了文本的局部和整體語義信息,結合了LSA 與Word2vec 的優(yōu)點,提升了模型訓練速度和分類準確度,但構建的靜態(tài)詞向量仍然無法解決相同文字在不同語句中的一詞多義問題。
為此,Google 提出采用雙向Transformer 編碼器的語言表示模型BERT(Bidirectional Encoder Representations from Trans-formers)。Devlin 等[13]通過BERT 模型預訓練的文本數(shù)據(jù)在11 個自然語言處理任務上獲得了較好的效果。王宇晗等[14]提出一種基于BERT 的嵌入式主題模型,在主題多樣性、建模時的一詞多義等問題上表現(xiàn)優(yōu)越,在大規(guī)模文本中能提取高質量、細粒度的主題詞。Karimi 等[15]提出一種基于BERT 對抗性訓練的新模型,利用對抗性訓練完成情感分析中的特征提取、特征情感分類兩個主要任務,研究表明在這兩個任務中該方法相較于傳統(tǒng)方法效果更優(yōu)。此外,Pang 等[16]基于Transformer 雙向編碼表示(BERT),通過構造一個方面特征定位模型提出了一種有效的方面級情感分析方法。
隨著情感分析研究深入,基于神經網(wǎng)絡的深度學習模型受到了眾多學者青睞,已廣泛應用于自然語言處理領域中。常見的神經網(wǎng)絡技術包括卷積神經網(wǎng)絡(Convolutional Neural Network,CNN)[17]、循環(huán)神經網(wǎng)絡(Recurrent Neural Network,RNN)[18]、門控循環(huán)單元(Gate Recurrent Unit,GRU)[19]等,以上模型可從文本中提取特征并不斷優(yōu)化,相較于傳統(tǒng)機器學習方法無需繁瑣的人工標注就能取得更好的效果,并能提取更深層次的句子級特征信息,在下游任務情感分析中的應用效果顯著。Jelodar 等[20]通過長短時記憶網(wǎng)絡(Long Short Term Memory,LSTM)分析新型冠狀病毒的情感,揭示了利用公眾輿論和適當?shù)挠嬎慵夹g了解該問題并指導相關決策的重要性,準確度達到81.15%。
除了基于單一神經網(wǎng)絡的深度學習算法,越來越多的研究人員考慮結合不同神經網(wǎng)絡方法的優(yōu)點組成混合神經網(wǎng)絡的模型,并應用于情感分析。Ume 等[21]提出一種結合CNN 和LSTM 的深度網(wǎng)絡,在Twitter 數(shù)據(jù)集上進行情感分析的結果表明,該模型優(yōu)于單一機器學習分類器。Liu等[22]提出一種Bert-BiGRU-Softmax 的混合模型,利用BERT 模型作為輸出層提取情感特征,以雙向門控循環(huán)單元(BiGRU)為隱藏層計算情感權重,以注意力機制為輸出層,準確率達到95.5%以上。
然而,基于單通道的混合神經網(wǎng)絡模型往往會因融合加深網(wǎng)絡層次,特征向量壓縮損失更多文本語義信息,致使情感傾向發(fā)生偏差。基于雙通道的混合神經網(wǎng)絡模型由兩個互不干擾的網(wǎng)絡通道組成,充分利用了不同深度學習模型的優(yōu)勢,從多方面提取文本特征語義,在一定程度上降低了網(wǎng)絡層次深度造成的語義信息損失。
本文提出的FDSF 模型結構由輸入層、BERT 詞嵌入層、提取全局語義特征的BiGRU-Attention 層、提取多粒度下局部語義特征信息的CNN 層和語義向量融合輸出層構成,如圖1所示。
Fig.1 FDSF model圖1 FDSF模型
預訓練模型BERT 以無監(jiān)督方式,通過大量無標注的文本數(shù)據(jù)進行訓練,得到具有文本語句情感性傾向的詞向量。在不同下游任務中無需特意更改模型,只進行相對應的微調即可,相較于Word2vec、Glove、BERT 等常用的詞嵌入模型,利用雙向Transformer 編碼器的多頭注意力機制可捕獲到更準確的語義信息,解決了相同字詞在不同語境中的一詞多義問題。
如圖2 所示,BERT 模型利用雙向Transform-er 編碼器提取文本中的語義信息。其中,w1,w2,…,wn表示文本輸入,通過多層Transf-ormer 訓練得到對應的文本輸出O1,O2,…,On。Transformer 編碼器由多個編碼器組成,每個編碼器分為多頭自注意力層和前饋層,自注意力層的主要作用是在捕獲詞向量時能考慮該單詞與其他單詞的上下文語義關聯(lián),有利于在深度學習任務中聚焦更重要的單詞,加快訓練速度。
Fig.2 BERT word embedding圖2 BERT詞嵌入
考慮到在復雜的任務中,自注意力機制層對文本的擬合程度不夠,前饋神經網(wǎng)絡的兩個線性層能加強Transformer 的表達能力。因此,在進入解碼器前,Transformer 編碼器還會對輸出進行殘差連接和層規(guī)范化。
在預訓練過程中,BERT 模型引入了兩個任務,分別為遮蔽語言模型(Masked Language Model,MLM)和下一句預測(Next Sentence Prediction,NSP)。其中,MLM 語言模型通過[Mask]掩碼隨機遮擋數(shù)據(jù)集中部分單詞,然后讓模型利用上下文預測被隱藏的單詞,目的是為了更準確地捕捉單詞表征;NSP 任務通過判斷前后句子間的合理性來理解文本的構造。因此,BERT 預訓練模型擁有優(yōu)秀的語義表征能力,非常適用于情感分析任務。
CNN 是一種由輸入層、卷積層、池化層和全連接層4部分組成的一種深度前饋神經網(wǎng)絡,因良好的特征提取能力被廣泛應用于計算機視覺等領域,近幾年也有越來越多學者將其應用于情感分類,如圖3所示。
Fig.3 CNN local feature extraction圖3 CNN局部特征提取
CNN 具有的局部感受野和權值共享優(yōu)點,可減少模型訓練參數(shù),非常適合提取局部特征。因此,本文采用CNN提取局部文本情感特征信息。其中,卷積層通過卷積計算得到經過映射的特征,在池化層中深度學習模型通常采用最大池化對特征降維后得到一維向量,該一維向量可看為經過卷積層映射后得到文本數(shù)據(jù)的主要特征,最后全連接層將得到的特征進行連接。局部情感特征Fw的計算過程如式(1)所示。
式中:bc表示偏移項;W為卷積核;*為卷積運算;Xi:i+h-1表示從i到i+h-1 個詞向量;f(·)為非線性激活函數(shù)。
RNN 將文本序列按時間順序依次輸入網(wǎng)絡中處理,結合單詞前后關聯(lián)進行特征提取,然而當文本序列長度過長時會造成梯度彌散和梯度爆炸問題,導致后期模型無法有效獲取前向序列文本信息。門控循環(huán)單元作為RNN 的變體,結構中的重置門、更新門機制分別更新、重置文本序列,有效解決了RNN 在短序列文本上的瓶頸依賴問題,GRU 結構如圖4 所示,前向傳播的GRU 網(wǎng)絡計算公式如式(2)—式(5)所示。
Fig.4 GRU network model圖4 GRU網(wǎng)絡模型
式中:σ為sigmoid 激活函數(shù),將其函數(shù)值控制在(0,1)范圍內;Wz、Wr均為GRU 網(wǎng)絡的權值矩陣;ht-1為前一時刻的狀態(tài)信息;ht為當前隱藏狀態(tài);為候選隱藏狀態(tài)。
式(2)為更新門表達式,更新門決定了前一個時間狀態(tài)信息傳遞到當前時間的狀態(tài)信息程度,值越大說明前一時刻傳遞的信息越多;式(3)為重置門表達式,重置門控制丟棄前一時刻信息的程度,重置門值越小代表忽略越多。盡管GRU 能有效捕捉長序列文本語義信息,但單向GRU只能從前往后讀取文本數(shù)據(jù)信息,導致其只能保留前向文本特征。因此,在前后文語義關聯(lián)較強的文本中,單向GRU 無法較好地提取語句中的隱藏信息。
為了準確捕獲文本情感傾向,F(xiàn)DSF 模型采用雙向門控單元(BiGRU)提取文本序列特征。BiGRU 由兩個反方向的單向GRU 組成,能同時保留過去、未來文本語義特征,可結合上下文更準確地預測當前內容。如圖5 所示,在BiGRU 網(wǎng)絡中,設t時刻計算的前向輸出為,后向輸出為,將雙向輸出拼接融合得到最終輸出。
Fig.5 Bidirectional GRU network model圖5 雙向GRU網(wǎng)絡模型
考慮到文本情感分析中每個字詞對整個文本的情感傾向貢獻度不同。本文為了強調關鍵信息在全文中的作用,通過FDSF 模型將BiGRU 最后時刻的隱藏層作為全局語義特征表示,并加入自注意力機制。注意力機制根據(jù)每個單詞在全文中的相關程度分配權重,最終的輸出即為BiGRU 輸出向量的加權和[23]。具體數(shù)學計算公式如式(6)所示:
式中:Wω為權值矩陣;bω為偏置項;at為t時刻經過歸一化處理得到的權重;Fc為經注意力機制加權后最終的全局語義特征信息。
首先將經過CNN 通道獲取的局部情感特征Fw和經過BiGRU-Attention 通道獲取的全局情感特征Fc進行拼接融合,得到最終的融合情感特征。然后,將融合情感特征通過全連接層輸出Softmax 分類器運算得到最終分類預測概率。
式中:Ws為全連接層的權值矩陣;bs為偏置項。
本文測試模型采用版本為Python+Pytorch1.9.0 深度學習框架,實驗環(huán)境為Google 提供機器學習服務器Colaboratory,內置GPU 為NVIDIDA Tesla T4-16 G。
為驗證FDSF 模型在中文情感分析任務上的有效性,本文使用ChinaNLPcorpus 組織提供的中文情感分析數(shù)據(jù)集online_shopping_10_cats 和中科院譚松波學者收集的酒店評論語料數(shù)據(jù)集進行比較實驗。其中,online_shopping_10_cats 為ChinaNLPcorpus 組織公開發(fā)表的情感分析數(shù)據(jù)集,包含10 種線上交易情感數(shù)據(jù),包括正面、負面情感兩種傾向,共計62 773 條數(shù)據(jù)(正向情感樣本31 727 條,負向31 046條),本文按照7∶3的比例劃分正負情感樣本;酒店評論數(shù)據(jù)集包含正傾向性情感7 000 條,負傾向性情感3 000條,本文設置訓練樣本9 000條,測試樣本1 000條。
為驗證模型的有效性,將本文所提方法與GRU 模型[19]、BiGRU 模型[24]、TextCNN 模型[17]、AEN-BERT 模型[25]、DPCNN 模型[26]、BERT-base 模型[13]這些主流深度學習分類模型進行比較。具體的,GRU 模型使用單向GRU網(wǎng)絡提取文本序列特征,將最后時刻隱藏層輸入全連接層進行情感分類;BiGRU 模型采用雙向GRU 網(wǎng)絡結合上下文語義信息,增強模型在文本序列上的特征提取能力;TextCNN 模型通過卷積層提取文本情感特征,運用最大池化提取最重要的情感特征,最后輸入全連接層進行情感分類;DPCNN 模型通過加深網(wǎng)絡以增強文本情感特征提取能力,達到提升金字塔結構分類性能的目的;BERT-base模型以BERT(基于Transformer 的雙向編碼模型,具有強大的語義表征能力)為預訓練模型獲取文本動態(tài)詞向量后鏈接全連接層,然后將其輸入Softmax 分類器中輸出最終情感傾向;AEN-BERT 模型利用標簽平滑方式在一定程度上解決了模糊情感文本的極性判斷,通過融合注意力機制對方面詞進行建模。實驗參數(shù)設置如表1所示。
Table 1 Experimental parameters表1 實驗參數(shù)
本文通過準確率(Accuracy)、精確率(Precision)、召回率(Recall)與F1 值作為評價標準,如式(10)—式(13)所示,指標計算的混淆矩陣如表2 所示。其中,TP 為預測為正的正樣本,F(xiàn)P 為預測為正的負樣本,F(xiàn)N 為預測為負的正樣本,TN 為預測為負的負樣本。
Table 2 Confusion matrix表2 混淆矩陣
為驗證FDSF 模型的在情感分析任務上的可靠性,避免出現(xiàn)偶然性結果。首先對epoch 進行10 次循環(huán)后采集數(shù)據(jù)測試集的準確率、精確率、召回率和F1 值,然后求均值進行比較驗證。online_shopping_10_cats 數(shù)據(jù)集和酒店評論數(shù)據(jù)集上的實驗結果如表3、表4 所示。由此可知,本文提出的FDSF 模型在中文情感分類任務上相較于其它深度學習模型,在各項評級指標方面均最優(yōu)。其中,各模型的F1值柱狀圖如圖6所示。
Table 3 Experimental results of online_shopping_10_cats dataset表3 online_shopping_10_cats數(shù)據(jù)集上的實驗結果(%)
Table 4 Experimental results of hotel reviews dataset表4 酒店評論數(shù)據(jù)集上的實驗結果(%)
Fig.6 F1 value histogram analysis圖6 F1值直方圖分析
由圖6 可見,F(xiàn)DSF 模型在文本情感分析任務上性能良好,BiGRU 在兩個數(shù)據(jù)集上的F1 值相較于GRU 分別提升1%~3%,驗證了雙向門控循環(huán)機制在全局語義特征提取方面的優(yōu)勢?;贐ERT 的3 類模型的各項指標均明顯優(yōu)于GRU、BiGRU 和TextCNN 模型,說明預訓練模型提取的動態(tài)詞向量具有更好的語義表征能力,這也是FDSF 采用BERT 預訓練模型作為雙通道詞嵌入層的原因。
雖然,AEN-BERT 方法的F1值接近本文模型,但FDSF在兩個數(shù)據(jù)集上相較于AEN-BERT 方法分別提升0.43%、0.65%,進一步說明了FDSF 模型通過提取、融合多粒度下的局部和全局語義特征,能有效提升模型性能。
本文設計消融實驗,以驗證FDSF 模型中各層結構對模型的有效增益情況。其中,F(xiàn)DSF-CNN 為采用全局語義特征通道進行情感分析的模型;FDSF-BiGRU-Att 為原模型減去BiGRU 結構和注意力機制后的模型,詞嵌入后利用CNN 提取多粒度下的局部語義特征進行分類;FDSF-Att為原模型減去BiGRU 結構后的注意力機制層模型,實驗結果如表5所示。
Table 5 Ablation experiment results表5 消融實驗結果(%)
由表5 可知,上述消融模型相較于BERT-base 模型在兩類數(shù)據(jù)集上的F1 值均具有一定提升,說明BiGRU、CNN和注意力機制融合BERT 均能效提升模型語義特征提取能力。實驗發(fā)現(xiàn),F(xiàn)DSF 相較于結合門控循環(huán)單元與注意力機制進行全局語義特征提取的FDSF-CNN 模型、結合CNN進行局部語義特征提取的FDSF-BiGRU-Att 模型,在性能方面具有一定程度的提升,表明FDSF 模型通過雙通道融合特征向量的方式能提升模型性能。FDSF-Att 與FDSF 結果相差0.18%,說明在保持雙通道結構的前提下,融入注意力機制能為模型性能帶來增益。
綜上所述,F(xiàn)DSF 模型通過雙通道方式融合BERT、Bi-GRU、Attention 機制、CNN 模型的優(yōu)勢,能顯著提升模型在情感分析任務上的性能,充分提取文本語義特征信息以深入分析情感傾向。
本文針對文本情感分類問題,充分結合了BERT、CNN、BiGRU 模型與Attention 的優(yōu)勢,提出融合雙通道語義特征的情感特征模型。首先采用BERT 預訓練語言模型提取文本情感特征的動態(tài)表示,并將其分別輸入兩個通道進行下游分類任務;然后在CNN 通道中提取局部情感特征,在BiGRU-Attention 通道中提取全局情感特征;最后加權融合兩個通道特征,并輸入Softmax 分類器得到最終結果。
在online_shopping_10_cats、譚松波酒店評論數(shù)據(jù)集上,與其他深度學習分類模型進行比較實驗的結果表明,F(xiàn)DSF 模型在準確率、精確率、召回率、F1 值均最優(yōu),證明了FDSF 模型在文本情感分析任務中的有效性和優(yōu)勢。然而,考慮到通過雙通道特征融合時會損失部分特征信息,未來將探究如何選擇性地保留更多關鍵特征信息,尋求更優(yōu)的融合方式獲得更準確的情感傾向。