施榮華,金 鑫,胡 超,2
(1.中南大學(xué) 計(jì)算機(jī)學(xué)院,長(zhǎng)沙 410083;2.中南大學(xué) 大數(shù)據(jù)研究院,長(zhǎng)沙 410083)
快速發(fā)展的互聯(lián)網(wǎng)行業(yè)中涌現(xiàn)出大量的網(wǎng)絡(luò)評(píng)價(jià),一條網(wǎng)絡(luò)評(píng)價(jià)可能包括對(duì)同一實(shí)體的多方面估量,為了給網(wǎng)絡(luò)用戶提供更全面、詳細(xì)的情感信息,需要對(duì)海量網(wǎng)絡(luò)評(píng)價(jià)中的多方面實(shí)體進(jìn)行有針對(duì)性且更細(xì)粒度的情感類別分析。方面級(jí)別的文本情感分析[1]旨在分析文本中不同方面所對(duì)應(yīng)的情感趨向,如SemEval-2014 Task 4 數(shù)據(jù)集[2]中的文本“All the money went into the interior decoration,none of it went to the chefs”,對(duì)于“decoration”的評(píng)價(jià)是積極的,而對(duì)于“chefs”的評(píng)價(jià)卻是消極的。
基于機(jī)器學(xué)習(xí)和基于情感詞典的分析方法主要以人工方式標(biāo)注文本特征,然后構(gòu)建機(jī)器學(xué)習(xí)分類器以獲取文本最終的情感趨向。KESHAVARZ 等[3]通過結(jié)合語(yǔ)料庫(kù)與詞典的方式構(gòu)建自適應(yīng)情感詞典,以增強(qiáng)文本情感極性的判斷能力。ZHENG 等[4]在中文評(píng)論中利用支持向量機(jī)與文本頻率相結(jié)合的方式,確定評(píng)論文本的情感趨向。上述方法雖然取得了較好的效果,但是情感分析性能高度依賴人工標(biāo)注的文本特征,方法的適用性遠(yuǎn)低于基于神經(jīng)網(wǎng)絡(luò)的方法。
基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)[5]通常利用詞向量模型將文本轉(zhuǎn)化為實(shí)體向量,構(gòu)建神經(jīng)網(wǎng)絡(luò)模型并加以訓(xùn)練,從而得到文本的情感趨向。AL-SMADI等[6]利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)進(jìn)行本文情感分析,在相同的數(shù)據(jù)集上與基于機(jī)器學(xué)習(xí)的方法相比,其情感分析性能更為突出。RNN 雖能有效地獲取文本上下文信息,但是隨著隱藏層的增加,會(huì)出現(xiàn)梯度爆炸或梯度消失的問題。TANG 等[7]以雙向長(zhǎng)短期記憶模型拼接的形式編碼上下文信息,其考慮目標(biāo)的位置信息,取得了較好的分類效果。MA 等[8]基于不同的注意力網(wǎng)絡(luò)設(shè)置上下文和目標(biāo),利用2 個(gè)注意力網(wǎng)絡(luò)交互檢測(cè)重要目標(biāo),并提出一種交互注意力機(jī)制網(wǎng)絡(luò)模型。ZHANG等[9]將兩部分注意力機(jī)制相結(jié)合,提出注意力機(jī)制融合神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)能得到更好的上下文表示。自此之后,基于注意力機(jī)制的混合神經(jīng)網(wǎng)絡(luò)模型在文本分析任務(wù)中得到了廣泛關(guān)注和應(yīng)用。
基于圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)的方法[10]在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上利用句式結(jié)構(gòu)來(lái)構(gòu)建網(wǎng)絡(luò)模型。SUN 等[11]較早使用圖卷積神經(jīng)網(wǎng)絡(luò)從依賴樹中獲取節(jié)點(diǎn)表示,并與其他特征一同用于情感分類。HUANG 等[12]提出圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT),將注意力機(jī)制引入GCN,建立單詞之間的依賴關(guān)系。ZHANG 等[13]提出基于特定方面的圖 卷積網(wǎng)絡(luò)(Aspect-Specific Graph Convolutional Network,ASGCN),利用依賴樹捕獲長(zhǎng)期的上下文語(yǔ)義信息,從而獲得較為精確的方面情感趨向。
引入注意力機(jī)制雖有助于模型獲取對(duì)目標(biāo)方面影響較大的上下文信息,但也可能導(dǎo)致給定的方面錯(cuò)誤地將句法不相關(guān)的詞語(yǔ)作為描述,不足以捕捉詞語(yǔ)和句子中方面之間的句法依賴關(guān)系,從而忽略了句子的句法信息。受文獻(xiàn)[13]的啟發(fā),本文認(rèn)為句法信息以及方面之間的信息交互至關(guān)重要,因此,提出一種融合句法信息的圖注意力網(wǎng)絡(luò)模型,該模型將文本句子作為輸入,利用雙向門控循環(huán)網(wǎng)絡(luò)以共享權(quán)重的方式進(jìn)行訓(xùn)練,將文本特征與上下文信息相結(jié)合,通過融合句法信息的圖注意力網(wǎng)絡(luò)進(jìn)行處理,充分利用句法信息同時(shí)加強(qiáng)文本中不同節(jié)點(diǎn)信息之間的交互,從而提高文本情感分析的準(zhǔn)確性。
對(duì)于長(zhǎng)度為n的句子S=[w1,w2,…,wn],預(yù)測(cè)句子S中目標(biāo)方面所對(duì)應(yīng)的情感趨向是本文的研究重點(diǎn)。結(jié)合句法依存圖和圖注意力網(wǎng)絡(luò),本文提出一種融合句法信息的圖注意力網(wǎng)絡(luò),其結(jié)構(gòu)如圖1 所示,主要包括詞嵌入層、編碼層、圖注意力層、激活層、情感分類層:將文本句子作為輸入,詞嵌入層將句子轉(zhuǎn)化為初始詞向量序列;編碼層對(duì)單詞向量進(jìn)行預(yù)編碼,提取文本上下文信息的深層特征;根據(jù)語(yǔ)法依賴關(guān)系搭建圖注意力層以加強(qiáng)目標(biāo)方面節(jié)點(diǎn)之間的交互;激活層從最終的詞向量序列中獲取目標(biāo)方面的情感趨向。
圖1 融合句法信息的圖注意力網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of graph attention network with syntactic information
由于計(jì)算機(jī)只能識(shí)別特定的數(shù)學(xué)符號(hào),自然語(yǔ)言處理任務(wù)的第一步就是將文本句子序列轉(zhuǎn)化為詞向量的形式。基于Seq2Seq的語(yǔ)言理解模型BERT(Bidirectional Encoder Representations from Transformers)[14]采用雙向編碼結(jié)構(gòu),對(duì)輸入的文本用注意力機(jī)制進(jìn)行建模,其具有更好的文本語(yǔ)義特征抓取能力。本文采用BERT-base版本,在模型訓(xùn)練中對(duì)BERT進(jìn)行微調(diào)以獲取更好的初始參數(shù)向量。
在自然語(yǔ)言處理任務(wù)中,文本上下文之間具有關(guān)聯(lián)性,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)無(wú)法使文本具有上下文語(yǔ)義信息,RNN 循環(huán)神經(jīng)網(wǎng)絡(luò)通過定向循環(huán)的方式處理文本數(shù)據(jù),利用前后相連接的隱藏層傳遞信息,并將其視為當(dāng)前節(jié)點(diǎn)輸入的一部分,以達(dá)到“記憶”序列前部分信息的目的。
門控循環(huán)單元(Gate Recurrent Unit,GRU)[15]為RNN 的變種網(wǎng)絡(luò)之一,其利用更新門(update gate)zt和復(fù)位門(reset gate)rt來(lái)控制信息傳遞,其中:zt決定上一時(shí)刻的細(xì)胞狀態(tài)對(duì)當(dāng)前細(xì)胞狀態(tài)的影響程度;rt控制當(dāng)前輸入信息對(duì)記憶神經(jīng)元的影響程度。GRU 的單元結(jié)構(gòu)如圖2 所示,其更新公式如下:
圖2 GRU 模型結(jié)構(gòu)Fig.2 GRU model structure
其中:zt和rt一同決定t時(shí)刻細(xì)胞 的更新狀 態(tài);σ為sigmoid 激活函數(shù);W是連接權(quán)重矩陣;xt為t時(shí)刻的輸入向量;ht為GRU單元t時(shí)刻的細(xì)胞狀態(tài);ht-1為t-1 時(shí)刻的細(xì)胞狀態(tài);h~t為t時(shí)刻細(xì)胞的隱藏層輸出。
對(duì)于文本數(shù)據(jù)而言,文本單詞及其上下文都可能存在影響,單向GRU 僅能利用某一向量序列中當(dāng)前時(shí)刻的語(yǔ)義信息,難以滿足本文研究的需求。為了充分利用文本的上下文語(yǔ)義信息,本文采用雙向GRU 來(lái)編碼上下文語(yǔ)義信息,以記錄當(dāng)前節(jié)點(diǎn)的前序信息和后序信息,最終向量由前序GRU 和后序GRU 最后一個(gè)狀態(tài)的向量相連接而成,充分融合文本的正向與反向的上下文語(yǔ)義信息,從而對(duì)文本上下文信息的深層特征進(jìn)行提取。具體計(jì)算公式如下:
1.4.1 句法依存分析
句法分析[16]旨在揭示語(yǔ)言的內(nèi)部依賴關(guān)系,其將一個(gè)句子轉(zhuǎn)化為圖形結(jié)構(gòu)。句法分析大致可分為成分句法分析和依存分析2 種。本文的句法分析屬于后者,使用Biaffine 依賴解析器[17]將句子轉(zhuǎn)換為句法依存圖,句子中詞與詞之間的邏輯關(guān)系都能清晰地在句法依存圖中顯示。以句子“餐廳的服務(wù)態(tài)度很好?!睘槔?,其依存句法示意圖如圖3 所示。
圖3 句法分析示例Fig.3 Example of syntactic analysis
詞與詞之間只要有修飾關(guān)系,就存在有向弧連接,有向弧上標(biāo)注著依存關(guān)系。圖3 示例中的依存關(guān)系包括:核心關(guān)系(Head,HED),其代表整個(gè)句子的核心;定中關(guān)系(Attribute,ATT),如“服務(wù)”與“態(tài)度”、“服務(wù)”與“餐廳”;右附加關(guān)系(Right Adjunct,RAD),如“餐廳”與“的”;主謂關(guān)系(Subject-Verb,SBV),如“態(tài)度”與“好”;狀中結(jié)構(gòu)(Adverbial,ADV),如“很”與“好”。一個(gè)詞語(yǔ)既可以是某個(gè)依存關(guān)系對(duì)中的從屬詞,也可以是另一個(gè)依存關(guān)系對(duì)中的支配詞。具體地,將有向弧視作有向邊,將詞視作對(duì)應(yīng)的節(jié)點(diǎn),句法依賴圖可以轉(zhuǎn)化成一個(gè)有向圖,得到圖的鄰接矩陣,進(jìn)而將抽象的文本信息轉(zhuǎn)化為具體的文本信息。
1.4.2 圖注意力網(wǎng)絡(luò)層
圖注意力網(wǎng)絡(luò)GAT 可以看作圖卷積網(wǎng)絡(luò)GCN的變種之一。GAT 在GCN 的基礎(chǔ)上采用注意力機(jī)制取代固有的標(biāo)準(zhǔn)化函數(shù),給每個(gè)節(jié)點(diǎn)分配不同的權(quán)重,在更新節(jié)點(diǎn)隱藏層時(shí)按照權(quán)重大小聚合節(jié)點(diǎn)和鄰域節(jié)點(diǎn),具體計(jì)算方式如下:
其中:W為共享參數(shù),用于特征增強(qiáng);[·‖·]表示拼接頂點(diǎn)i、j變換后的特征向量;a(·)表示將特征映射到一個(gè)實(shí)數(shù)上;αij表示節(jié)點(diǎn)i到節(jié)點(diǎn)j的注意力系數(shù)。
單層注意力學(xué)習(xí)目標(biāo)方面周圍節(jié)點(diǎn)的能力較弱,因此,本文引入多頭注意力(multi-head attention)機(jī)制[18],利用多個(gè)注意力機(jī)制來(lái)計(jì)算周圍節(jié)點(diǎn)的注意力系數(shù),使模型的學(xué)習(xí)過程更加穩(wěn)定。隱藏狀態(tài)更新過程如圖4 所示。
圖4 隱藏狀態(tài)更新過程Fig.4 Hide status update process
對(duì)于K個(gè)獨(dú)立注意力機(jī)制下的計(jì)算結(jié)果,采用K平均來(lái)替代連接,計(jì)算公式如下:
本文以句法分析所得的句法信息有向圖為依據(jù),建立圖注意力網(wǎng)絡(luò)GAT。將由給定句子構(gòu)建的有向圖轉(zhuǎn)化為矩陣A∈?n×n,n為節(jié)點(diǎn)個(gè)數(shù)。將編碼層所得的融合文本上下文語(yǔ)義的詞向量作為對(duì)應(yīng)節(jié)點(diǎn)的初始狀態(tài),則可得i∈[1,n]。經(jīng)過L層圖注意力網(wǎng)絡(luò)訓(xùn)練后即可得到節(jié)點(diǎn)i對(duì)應(yīng)的最終狀態(tài)計(jì)算公式如下:
將經(jīng)過圖注意力網(wǎng)絡(luò)層訓(xùn)練得到的方面節(jié)點(diǎn)的特征向量與經(jīng)過編碼層訓(xùn)練得到的特征向量進(jìn)行聚合,得到最終的特征向量并將其送入激活層,從而獲得不同的情感分類結(jié)果,具體如下:
其中:HGRU為編碼層輸出的單詞特征向量;HGRT為圖注意力網(wǎng)絡(luò)層輸出的方面節(jié)點(diǎn)特征向量;為最終的特征向量;c表示標(biāo)簽類別;p(·)為預(yù)測(cè)的情感類別標(biāo)簽。
模型使用有監(jiān)督的訓(xùn)練方式,在嵌入層采用微調(diào)后的預(yù)訓(xùn)練模型BERT 將單詞轉(zhuǎn)化為單詞向量,其內(nèi)部Tranformer 架構(gòu)需對(duì)數(shù)據(jù)集數(shù)據(jù)進(jìn)行處理,即在句子頭部添加標(biāo)簽“[CLS]”,在句子末端添加標(biāo)簽“[SEP]”,并以正則化L2的方式最小化交叉熵?fù)p失函數(shù)然后進(jìn)行模型訓(xùn)練,計(jì)算公式如下:
本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自SemEval 數(shù)據(jù)集,選取SemEval-2014 Task 4 的數(shù)據(jù)來(lái)驗(yàn)證所提方法的有效性。SemEval 數(shù)據(jù)集包含筆記本電腦評(píng)論(Laptop)和餐廳評(píng)論(Restaurant),使用1、0、-1 分別表示積極、中性、消極的評(píng)論。每條評(píng)論包含一個(gè)或多個(gè)方面,每個(gè)方面都有明確的情感極向,表1 所示為2 個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息。
表1 數(shù)據(jù)集中的樣本標(biāo)簽分布Table 1 Sample label distribution in datasets
實(shí)驗(yàn)操作系統(tǒng)為Ubuntu18.04.2 LTS,GPU 為NVIDIA GeForce RTX 2070。BERT 預(yù)訓(xùn)練模型維度為300,以2e-5的學(xué)習(xí)率進(jìn)行微調(diào)。實(shí)驗(yàn)優(yōu)化器選擇Adam,以Xavier 初始化相關(guān)參數(shù),在訓(xùn)練過程中,學(xué)習(xí)率為2e-5,dropout 系數(shù)設(shè)為0.2,訓(xùn)練所用批大小為32,最大迭代次數(shù)為25,圖注意力網(wǎng)絡(luò)層數(shù)為2,L2正則項(xiàng)的系數(shù)為1e-3。
為了驗(yàn)證本文模型的有效性,在Laptop和Restaurant這2 個(gè)數(shù)據(jù)集中分別將融合句法信息的圖注意力網(wǎng)絡(luò)與基準(zhǔn)方法進(jìn)行比較,并采用準(zhǔn)確率(Accuracy,ACC)和平均F1 值(Mac-F1)作為評(píng)價(jià)指標(biāo)。
2.3.1 與基于深度學(xué)習(xí)模型的比較
本次實(shí)驗(yàn)中的對(duì)比模型具體如下:
1)SVM(Support Vector Machines),構(gòu)造特征工程進(jìn)行方面級(jí)別的情感分類。
2)LSTM(Long and Short Term Memory),利用標(biāo)準(zhǔn)LSTM 進(jìn)行計(jì)算,將最后輸出向量視作句子的特征并用于情感極性預(yù)測(cè)。
3)ATAE-LSTM(Attention-based LSTM with Aspect Embedding)[19],在引入注意力機(jī)制的情況下利用LSTM對(duì)句子建模,最后得到隱藏狀態(tài)的加權(quán)和。
4)TD-LSTM(Target-Dependent LSTM)[20],利用2 個(gè)LSTM 在主題詞前后提取上下文信息。
5)MemNet(Deep Persistent Memory Network)[21],利用多個(gè)注意力機(jī)制獲取上下文的重要性,上層輸出使得下層獲取到更精確的信息。
6)RAM(Recurrent Attenti on Network on Memory)[22],利用雙向LSTM 并設(shè)計(jì)多輪注意力機(jī)制用于句子表示。
7)BERT Fine-Tune,在BERT-base 的基礎(chǔ)上進(jìn)行參數(shù)微調(diào)優(yōu)化。
實(shí)驗(yàn)結(jié)果如圖5 所示,從圖5 可以看出,本文模型較LSTM 及其變種模型在Laptop 以及Restaurant 數(shù)據(jù)集上至少有3%的性能提升,原因主要為:LSTM 難以記住長(zhǎng)距離語(yǔ)義信息,雙向LSTM 等模型在一定程度上緩解了該問題,但性能提升并不大;RAM 等模型引入注意力機(jī)制,但是注意力機(jī)制無(wú)法利用句法知識(shí),即注意力權(quán)重可能分配給錯(cuò)誤的方面節(jié)點(diǎn),導(dǎo)致此類模型性能提升有限。在與BERT Fine-Tune 的對(duì)比中,本文模型均有1%的性能提升,說(shuō)明雙向GRU和圖注意力網(wǎng)絡(luò)能克服上述問題,利用句法知識(shí)可以得到更為精準(zhǔn)的文本情感分類結(jié)果。傳統(tǒng)機(jī)器學(xué)習(xí)SVM 模型取得了良好的效果,也從側(cè)面體現(xiàn)出句法知識(shí)的重要性。
圖5 基于深度學(xué)習(xí)模型性能比較結(jié)果Fig.5 Performance comparison results of models based on deep learning
2.3.2 與基于圖卷積網(wǎng)絡(luò)模型的比較
本次實(shí)驗(yàn)中的對(duì)比模型具體如下:
1)AS-GCN,在GCN 的基礎(chǔ)上對(duì)目標(biāo)方面進(jìn)行編碼,在一定程度上屏蔽了非目標(biāo)方面的影響。
2)GCAE(Aspect-Specific Graph Convolutional Network)[23],通過2 個(gè)GCN 分別建模目標(biāo)信息與情感信息,利用門控單元并依據(jù)目標(biāo)的上下文給出情感趨向。
3)TD-GAT,在GCN 的基礎(chǔ)上引入注意力機(jī)制,關(guān)注對(duì)目標(biāo)影響較大的節(jié)點(diǎn),最后得到目標(biāo)方面的情感趨向。
實(shí)驗(yàn)結(jié)果如圖6 所示,從圖6 可以看出:在Laptop 數(shù)據(jù)集上,本文模型的精度相對(duì)除TD-GAT以外的模型約有2%的提升,但相較TD-GAT 有所下降,在反復(fù)驗(yàn)證分析錯(cuò)誤的標(biāo)簽數(shù)據(jù)后得出,本文模型處理包含隱形關(guān)系數(shù)據(jù)的能力不高;在Restaurant數(shù)據(jù)集上,本文模型取得了最高的準(zhǔn)確率(83.3%),驗(yàn)證了該模型在情感分析任務(wù)中的較高性能。
圖6 基于圖卷積網(wǎng)絡(luò)模型性能比較結(jié)果Fig.6 Performance comparison results of models based on graph convolutional network
為進(jìn)一步驗(yàn)證模型性能,在Restaurant 數(shù)據(jù)集上對(duì)所提模型進(jìn)行3 組消融實(shí)驗(yàn):實(shí)驗(yàn)1 在詞嵌入層改用維度同為300 的GloVe;實(shí)驗(yàn)2 在編碼層改用多頭注意力機(jī)制進(jìn)行模型訓(xùn)練;實(shí)驗(yàn)3 在圖卷積層改用圖卷積網(wǎng)絡(luò)GCN。圖7 所示為消融實(shí)驗(yàn)結(jié)果,從圖7可以看出:實(shí)驗(yàn)1 中嵌入層采用相同維度的GloVe 模型進(jìn)行詞嵌入,其精度與采用預(yù)訓(xùn)練模型BERT 相差較大,相較于GloVe,微調(diào)后的BERT 更能有效抓取文本的上下文語(yǔ)義信息,即精準(zhǔn)的上下文語(yǔ)義信息提取對(duì)模型性能提升具有重要作用;實(shí)驗(yàn)2 中采用多頭注意力機(jī)制后效果并未得到提升,原因是句子包含多個(gè)方面目標(biāo)時(shí),注意力機(jī)制可能會(huì)將上下文關(guān)注到錯(cuò)誤的方面目標(biāo)上,進(jìn)一步說(shuō)明了語(yǔ)法信息在文本情感分析任務(wù)中的重要性;實(shí)驗(yàn)3 中采用圖卷積網(wǎng)絡(luò)GCN 替代圖注意力網(wǎng)絡(luò)GAT,但前者效果不如后者,原因是GCN 以全圖計(jì)算的方式進(jìn)行更新,所學(xué)參數(shù)與圖結(jié)構(gòu)復(fù)雜程度相關(guān),而GAT 采用注意力系數(shù)逐點(diǎn)計(jì)算的方式,不依賴于拉普拉斯矩陣,具有更強(qiáng)的適應(yīng)性,其能在語(yǔ)法依賴的基礎(chǔ)上更好地利用注意力機(jī)制來(lái)提升模型性能。
圖7 消融實(shí)驗(yàn)結(jié)果Fig.7 Results of ablation experiment
針對(duì)現(xiàn)有多數(shù)文本情感分析模型未能充分利用句法信息的問題,本文提出一種改進(jìn)的圖注意力網(wǎng)絡(luò)模型。該模型通過雙向GRU 編碼上下文,確保上下文語(yǔ)義信息不丟失。利用句法信息構(gòu)建圖注意力網(wǎng)絡(luò)以加強(qiáng)不同節(jié)點(diǎn)之間的交互,從而在文本情感分析任務(wù)中實(shí)現(xiàn)較高的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,該模型在Restaurant數(shù)據(jù)集中的準(zhǔn)確率高達(dá)83.3%,優(yōu)于AS-GCN、GCAE 等模型。通過研究發(fā)現(xiàn),文本中可能出現(xiàn)上位詞、近義詞等關(guān)系詞,通過依存句法分析所得的句法信息圖沒有相對(duì)應(yīng)的連線來(lái)展現(xiàn)詞語(yǔ)之間的關(guān)系,因此,后續(xù)將借助情感詞典等工具來(lái)引入常識(shí)信息,從而提高模型對(duì)文本語(yǔ)法信息的提取能力。