賈 音,武偉寧,楊長(zhǎng)春,顧曉清,嚴(yán)鑫杰,馬甜甜
(常州大學(xué) 計(jì)算機(jī)與人工智能學(xué)院 阿里云大數(shù)據(jù)學(xué)院 軟件學(xué)院,江蘇 常州 213164)
方面級(jí)情感分析作為情感分析領(lǐng)域的子任務(wù),旨在根據(jù)上下文識(shí)別句子中的方面項(xiàng)以及特定方面的情感極性(如積極、消極或中性)[1]。舉例來說,對(duì)于一個(gè)句子“a group of friendly staff,the pizza is not bad,but the beef cubes are not worth the money!”,包含3個(gè)方面詞分別是staff,pizza和beef cubes,對(duì)應(yīng)的意見詞分別為friendly,not bad,not worth,其情感極性分別為積極、中立和消極。特定方面的反饋,能夠給人們提供有針對(duì)性的見解,幫助人們更準(zhǔn)確地了解某個(gè)事物的具體信息。相比較于粗粒度的情感分析,方面級(jí)情感分析更具有研究意義和應(yīng)用價(jià)值。
目前主要利用深度學(xué)習(xí)的方法進(jìn)行方面級(jí)情感分析研究,但仍存在著提取語義句法信息不全面的問題:基于注意力機(jī)制的方法,大多只關(guān)注方面詞與上下文詞之間的語義關(guān)聯(lián),忽略了句法交互對(duì)情感分類結(jié)果的影響;而基于圖卷積網(wǎng)絡(luò)的方法僅提取句法信息而忽略了深層語義信息,且未能考慮句法相對(duì)距離,使得距離方面詞較遠(yuǎn)的關(guān)鍵信息的權(quán)重被削弱。
針對(duì)上述問題,本文提出了一種基于圖卷積網(wǎng)絡(luò)的多交互注意(multi-interactive attention based on graph convolution network,MIA-GCN)模型。利用圖卷積網(wǎng)絡(luò)能夠更有效提取深層特征信息的優(yōu)點(diǎn)[2],基于注意力機(jī)制和句法相對(duì)距離重構(gòu)語義和句法圖鄰接矩陣,更全面地提取語義和句法信息。除此之外,設(shè)計(jì)語義交互和句法交互,同時(shí)關(guān)注方面詞與上下文詞之間的語義關(guān)聯(lián)和句法關(guān)聯(lián),最終進(jìn)行特征融合。
以神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)具有良好的自動(dòng)提取特征的能力[3],因此在方面級(jí)情感分析領(lǐng)域受到廣大學(xué)者的歡迎。由于句子本身可以看作一個(gè)前后有關(guān)聯(lián)的序列,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)及其變體長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long-short term memory,LSTM)作為最基本的神經(jīng)網(wǎng)絡(luò)方法,得到了廣泛的應(yīng)用[4]?;谧⒁饬Φ姆椒ㄍㄟ^進(jìn)行方面詞與上下文詞的向量運(yùn)算,以計(jì)算結(jié)果來反映單詞之間的關(guān)聯(lián)程度,從而給予與方面詞語義相關(guān)性強(qiáng)的單詞更高的權(quán)重來判斷情感極性。因此,大多研究者將神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制結(jié)合來提取語義信息,并挖掘與方面詞語義上最相關(guān)的意見詞。Tay等[5]將方面向量與上下文向量相連接來模擬方面詞與上下文詞的相似性,并利用注意力機(jī)制自適應(yīng)地關(guān)注給定方面詞的關(guān)聯(lián)詞。Chen等[6]提出了一種基于目標(biāo)的注意力模型用于方面級(jí)情感分析。對(duì)上下文信息進(jìn)行位置編碼,在位置感知上下文矩陣之間以聯(lián)合的方式計(jì)算上下文與方面詞之間的注意力得分,并進(jìn)行向量化,使得模型更具魯棒性。Zhuang等[7]基于記憶旋轉(zhuǎn)單元提取長(zhǎng)期語義信息,并引入分層多頭注意機(jī)制在計(jì)算注意權(quán)重時(shí)保留方面語義信息,最終實(shí)現(xiàn)方面詞與關(guān)鍵詞之間的交互。雖然這些基于注意力機(jī)制的方法取得了一定的成果,但是基本上是建立在語義關(guān)聯(lián)上,注意力機(jī)制可能會(huì)關(guān)注到與方面詞句法上不相關(guān)的意見詞,造成情感極性判斷錯(cuò)誤。近年來,圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)由于其良好的處理非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn),被應(yīng)用于方面級(jí)情感分析中提取句法信息。Liang等[8]構(gòu)建方向圖卷積網(wǎng)絡(luò)將單詞間的依賴關(guān)系整合到模型中,學(xué)習(xí)關(guān)鍵方面詞的依賴特征和不同方面之間的情感關(guān)系。Pang等[9]提出一種動(dòng)態(tài)多通道圖卷積網(wǎng)絡(luò)模型。分別利用依賴樹和多頭注意生成句法圖和語義圖來提取句法信息和語義信息,并將提取到的信息進(jìn)行組合、優(yōu)化和融合,使得性能得到了進(jìn)一步提升。
本文提出的MIA-GCN模型從句法相對(duì)距離和語義關(guān)聯(lián)強(qiáng)弱角度,結(jié)合圖卷積網(wǎng)絡(luò),能夠更加充分地學(xué)習(xí)語義及句法特征信息。并且可以增加交互注意層處理方面詞與上下文詞的語義和句法依存信息,進(jìn)行特征融合??蚣苋鐖D1所示,分別是嵌入層、Bi-LSTM層、圖卷積網(wǎng)絡(luò)層、方面掩碼層、交互注意層以及輸出層。
為了能夠充分獲取語義和句法特征信息,在處理文本時(shí),首先需要進(jìn)行文本向量化。文本向量化最常用的一種方式是詞嵌入,即將每個(gè)單詞通過嵌入矩陣的形式映射到向量空間中,使得句子中的每個(gè)單詞轉(zhuǎn)化為固定維度的詞向量表示。本文利用預(yù)先訓(xùn)練好的詞嵌入矩陣Glove來初始化單詞向量。對(duì)于長(zhǎng)度為n的句子,經(jīng)過詞嵌入后表示為:W∈Rdw×n, 其中dw表示詞嵌入向量的維數(shù)。除此之外,由于同一個(gè)詞因?yàn)槠湓~性的不同在不同語境中有多種多樣的表示,因此,考慮不同詞性對(duì)方面級(jí)情感分析的影響是有必要的。受到Zhao等[10]工作的啟發(fā),將詞性種類N設(shè)為4類,分別為形容詞、動(dòng)詞、副詞、其它,最終得到詞性嵌入矩陣為P∈Rdp×|N|, 其中,dp為詞性嵌入的維度。將詞嵌入與詞性嵌入連接起來,得到嵌入層的最終詞向量表示為X={x1,x2,…,xn}, 其中xi∈Rdw+dp。
(1)
本文提出的MIA-GCN模型中的圖卷積網(wǎng)絡(luò)層包括語義圖卷積模塊和句法圖卷積模塊兩個(gè)對(duì)稱的網(wǎng)絡(luò),分別用來提取語義特征和句法特征,也是整個(gè)MIA-GCN模型的核心。對(duì)于語義圖卷積模塊,利用注意力機(jī)制構(gòu)造注意得分矩陣;對(duì)于句法圖卷積模塊,根據(jù)句法相對(duì)距離構(gòu)造句法權(quán)重矩陣以存儲(chǔ)更多的句法信息。最后,將兩個(gè)矩陣分別送入圖卷積中進(jìn)行語義和句法信息的學(xué)習(xí)。
2.3.1 語義圖卷積模塊
對(duì)于句法信息不敏感的句子,其語義信息對(duì)情感極性的判斷影響比較大。因此,獲取語義信息是有必要的。MIA-GCN模型考慮基于語義關(guān)聯(lián)提取深層次語義信息。由注意力機(jī)制得到的注意得分矩陣能夠反映句子中兩個(gè)單詞之間的語義相關(guān)性信息,對(duì)于提取語義信息有重要的作用。注意得分矩陣可表示為式(2)
(2)
式中:矩陣Q和K為前一層的圖向量表示,WQ和WK為可學(xué)習(xí)的權(quán)重矩陣,d為輸入節(jié)點(diǎn)特征的維數(shù)。其構(gòu)造過程如圖2所示。
圖2 注意得分矩陣構(gòu)造過程
2.3.2 句法圖卷積模塊
以往基于句法的方面級(jí)情感分類模型中,通過依存句法分析樹分析句子中單詞之間的句法依賴關(guān)系,結(jié)合圖卷積網(wǎng)絡(luò)聚合相鄰節(jié)點(diǎn)信息的優(yōu)點(diǎn),使得模型能夠提取句法特征信息。本文延續(xù)使用這種方法,利用依存句法分析器SpaCy構(gòu)造句法依賴樹,并將句法依賴樹以圖結(jié)構(gòu)的形式表示。以節(jié)點(diǎn)代表句子中的單詞,邊代表單詞之間的依賴關(guān)系,得到鄰接矩陣形式的句法依賴圖,其中鄰接矩陣D∈Rn×n, 矩陣D中的元素表示為式(3)
(3)
如果將上述矩陣D作為圖卷積網(wǎng)絡(luò)的鄰接矩陣,則會(huì)忽略未直接相連的兩個(gè)單詞之間可能存在的聯(lián)系。若關(guān)鍵意見詞與方面詞距離較遠(yuǎn),就會(huì)導(dǎo)致其傳播到方面詞時(shí),相對(duì)于方面詞的權(quán)重被削弱了,從而導(dǎo)致情感極性判斷錯(cuò)誤。
因此,基于Phan等[13]提出的句法相對(duì)距離(syntactic relative distance,SRD),本文提出的MIA-GCN模型對(duì)句子中距離方面詞不同句法距離的單詞賦予不同的權(quán)重,來代表不同單詞相對(duì)于方面詞的重要性。在鄰接矩陣D的基礎(chǔ)上,首先計(jì)算除方面詞a外的所有單詞到a的SRD。SRD在句法依賴樹中表示兩個(gè)單詞對(duì)應(yīng)的節(jié)點(diǎn)之間的最短距離,在鄰接矩陣中只需計(jì)算兩個(gè)頂點(diǎn)之間的最短路徑。以圖3中(a)所構(gòu)造的依賴關(guān)系為例,方面詞為節(jié)點(diǎn)2和節(jié)點(diǎn)3,需要計(jì)算節(jié)點(diǎn)1,節(jié)點(diǎn)4,節(jié)點(diǎn)5分別到2,3之間的距離,并轉(zhuǎn)化為圖3中(b)的形式。
圖3 句法權(quán)重矩陣構(gòu)造過程
基于SRD,計(jì)算句法權(quán)重矩陣Asyn代替鄰接矩陣D,Asyn的計(jì)算為式(4)
(4)
式中:p為設(shè)定閾值,Asyn∈Rn×n, 圖3中(c)為n=5,p=2的句子構(gòu)建的句法權(quán)重矩陣。通過構(gòu)建句法權(quán)重矩陣來代替離散鄰接矩陣,使得與方面詞句法距離近的上下文詞有較大的權(quán)重且削弱句法距離遠(yuǎn)的上下文信息。
(5)
(6)
由此可以得到提取到的語義特征的方面掩碼向量hsemmask={0,…,ht+1sem,…,ht+msem,…,0} 和句法特征的方面掩碼向量hsynmask={0,…,ht+1syn,…,ht+msyn,…,0}。
為了同時(shí)關(guān)注方面詞與上下文單詞之間的語義關(guān)聯(lián)和句法關(guān)聯(lián),通過計(jì)算上下文的隱藏向量與方面向量之間的語義及句法相關(guān)性,為每個(gè)上下文詞分配相關(guān)的注意力權(quán)重,以完成方面與上下文的協(xié)調(diào)優(yōu)化,便于下一步進(jìn)行特征融合。
(7)
(8)
(9)
(10)
(11)
(12)
為了實(shí)現(xiàn)語義特征信息和句法特征信息的融合,將交互層得到的語義交互特征向量hsem與句法交互特征向量hsyn進(jìn)行拼接,得到融合語義與句法的特征向量hf=[hsyn;hsem]。 將獲得的最終表示hf輸入到全連接層,最后通過softmax進(jìn)行分類輸出,即式(13)
(13)
式中:c為情感標(biāo)簽的維數(shù)即分類數(shù),Wo和bo分別為權(quán)重參數(shù)和偏置項(xiàng)。模型的損失函數(shù)采用交叉熵?fù)p失函數(shù),利用標(biāo)準(zhǔn)梯度下降法進(jìn)行訓(xùn)練,如式(14)所示
(14)
實(shí)驗(yàn)在公開數(shù)據(jù)集SemEval 2014 task4的Restaurant數(shù)據(jù)集、Laptop數(shù)據(jù)集以及短文本數(shù)據(jù)集Twitter上進(jìn)行,評(píng)估MIA-GCN模型的性能。這些數(shù)據(jù)集都分為訓(xùn)練集和測(cè)試集,且都是3分類的(積極、中性、消極)。除此之外,采用以往方面級(jí)情感分析的數(shù)據(jù)預(yù)處理方法,去除情感極性沖突的樣本和沒有明確方面詞的樣本,使得每條數(shù)據(jù)都包含一個(gè)或多個(gè)方面。數(shù)據(jù)集統(tǒng)計(jì)情況見表1。
表1 數(shù)據(jù)集統(tǒng)計(jì)
本文的實(shí)驗(yàn)平臺(tái)見表2。
為了保證對(duì)比實(shí)驗(yàn)公平,模型使用300維的Glove詞向量初始化單詞嵌入,模型中的權(quán)重采用均勻分布進(jìn)行初始化。在對(duì)比實(shí)驗(yàn)中,計(jì)算句法權(quán)重矩陣時(shí)的閾值p設(shè)置為2,除此之外,模型利用dropout防止過擬合,同時(shí)采用early stop防止精度衰減。模型的超參數(shù)設(shè)置見表3。
MIA-GCN模型采用準(zhǔn)確率(Accuracy,Acc)與宏平均F1值(macro average F1,MF1)作為評(píng)價(jià)指標(biāo)。Acc是相關(guān)研究中最常用的評(píng)估指標(biāo),而MF1值是綜合考慮了模型準(zhǔn)確率和召回率的計(jì)算結(jié)果,為所有類別F1的平均值。在衡量模型性能時(shí),Acc與MF1的值越大,模型性能越好。Acc與MF1計(jì)算公式如式(15)~式(17)所示
表2 實(shí)驗(yàn)環(huán)境
表3 超參數(shù)設(shè)置
(15)
(16)
(17)
其中,TP(true positive)為預(yù)測(cè)為正的正樣本;FP(false positive)為預(yù)測(cè)為負(fù)的正樣本;TN(true negative)為預(yù)測(cè)為正的負(fù)樣本;FN(false negative)為預(yù)測(cè)為負(fù)的正樣本;precision為精確率;recall為召回率。
為了驗(yàn)證MIA-GCN模型的性能,本文使用以下模型作為對(duì)比模型:
(1)ATAE-LSTM[14]:基于注意力的LSTM的方面級(jí)情感分類方法。將方面向量嵌入到詞向量和隱藏向量中,使得方面信息參與注意權(quán)重的計(jì)算。
(2)MemNet[15]:一種結(jié)合注意力機(jī)制的深度記憶網(wǎng)絡(luò)模型。通過構(gòu)建多個(gè)計(jì)算層,通過每個(gè)計(jì)算中層中的注意層自適應(yīng)地選擇更深層次的信息并捕獲每個(gè)上下文詞與方面之間的相關(guān)性,最后一個(gè)注意層的輸出來進(jìn)行情感極性判斷。
(3)IAN[16]:將方面詞與語境分離出來,并利用兩個(gè)注意力網(wǎng)絡(luò)交互方面詞與上下文之間的關(guān)系,分別生成它們的表示。最后,連接兩個(gè)表示來預(yù)測(cè)方面詞在語境中的情感極性。
(4)AOA[17]:對(duì)方面和文本同時(shí)進(jìn)行建模,生成的方面表示和文本表示通過注意力模塊相互作用,學(xué)習(xí)其表示形式,自動(dòng)關(guān)注方面和文本中最重要的部分。
(5)MGAN[18]:利用粗粒度和細(xì)粒度的注意機(jī)制提取嵌入信息并進(jìn)行方面和句子之間的詞語級(jí)交互。
(6)ASGCN[19]:在句子的依賴樹上建立一個(gè)圖卷積網(wǎng)絡(luò)進(jìn)行句法信息的提取,將掩碼后的方面向量與語義信息進(jìn)行注意交互,提高了情感分類性能。
(7)Bi-GCN[20]:針對(duì)利用句法結(jié)構(gòu)的方法會(huì)忽略詞語共現(xiàn)信息和不同句法依賴類型對(duì)結(jié)果有重要影響的問題,分別構(gòu)造詞法圖和句法圖,并進(jìn)行交互和聚合。
(8)kumaGCN[21]:將句法依賴樹和自動(dòng)生成的特定類型圖聯(lián)系起來,動(dòng)態(tài)地組合詞依賴圖和自注意力網(wǎng)絡(luò)學(xué)習(xí)的潛在圖的信息。
(9)AGGCN[22]:提出了一種方面門控圖卷積網(wǎng)絡(luò)模型。設(shè)計(jì)方面門控LSTM以生成特定方面信息,并在此基礎(chǔ)上形成依賴樹構(gòu)建GCN,以充分利用句法信息和長(zhǎng)距離依賴。
(10)AFGCN[23]:構(gòu)建了一個(gè)句法依賴模塊以集成句法相對(duì)依賴位置圖,并結(jié)合注意力機(jī)制捕獲與方面語義相關(guān)的突出特征,最終形成融合語義和句法特征的向量表示。
表4 不同模型的實(shí)驗(yàn)結(jié)果
表4為基準(zhǔn)模型與本文模型的對(duì)比實(shí)驗(yàn)結(jié)果,表格內(nèi)結(jié)果均為重復(fù)3次的實(shí)驗(yàn)結(jié)果的平均值。其中,加粗?jǐn)?shù)據(jù)表示其對(duì)應(yīng)數(shù)據(jù)集中效果最好的模型的數(shù)值。對(duì)表中實(shí)驗(yàn)結(jié)果進(jìn)行分析,可以得到以下結(jié)論:
(1)基于注意力機(jī)制的模型(ATAE-LSTM、MemNet、IAN、AOA、MGAN):從表4中可以看出,利用交互注意力機(jī)制的IAN、AOA及MGAN模型整體上優(yōu)于傳統(tǒng)非交互注意的ATAE-LSTM、MemNet模型,且都實(shí)現(xiàn)了方面詞與上下文之間的信息交互,從而獲取語義信息。這表明在進(jìn)行方面級(jí)情感分析時(shí),方面詞與上下文詞之間的交互有利于提高分類性能。
(2)基于圖卷積網(wǎng)絡(luò)的模型(ASGCN、Bi-GCN、kumaGCN、AGGCN、AFGCN):與基于注意力機(jī)制的方法比較,基于圖卷積網(wǎng)絡(luò)的方法在數(shù)據(jù)集Rest14和Lap14上的性能均有明顯的提升。這表明利用句法知識(shí)建立單詞之間的句法依賴關(guān)系,確實(shí)有利于方面級(jí)的情感分析研究。但也存在一些問題:例如對(duì)于Twitter這種口語化評(píng)論數(shù)據(jù)集,基于圖卷積網(wǎng)絡(luò)的方法ASGCN、kumaGCN并沒有基于注意力機(jī)制的方法MGAN的效果好。這可能是由于基于圖卷積網(wǎng)絡(luò)的方法未能充分考慮語義信息,忽略了方面詞與上下文單詞的語義相關(guān)性,因此,在考慮結(jié)構(gòu)復(fù)雜或者非正式化的句子時(shí),只考慮句法信息進(jìn)行情感分析研究并沒有基于語義關(guān)聯(lián)的注意力機(jī)制的方法性能好。
(3)基于圖卷積網(wǎng)絡(luò)的多交互注意模型(MIA-GCN):相較于基于注意力機(jī)制的模型和基于圖卷積網(wǎng)絡(luò)的模型,本文提出的MIA-GCN模型的準(zhǔn)確率Acc和MF1值均得到了明顯的提升。在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別可以達(dá)到82.85%、77.78%和75.14%;MF1值可達(dá)到75.44%、73.85%、73.92%。MIA-GCN與基于注意力機(jī)制的模型相比,在3個(gè)數(shù)據(jù)集上的Acc值平均提高3.24%、5.85%、3.34%,MF1平均提升5.61%、6.55%、4.37%。由此可見,MIA-GCN模型在Lap14數(shù)據(jù)集上提升最好。這可能是因?yàn)長(zhǎng)ap14對(duì)于句法信息更敏感,而MIA-GCN相比較于基于注意力機(jī)制的模型多考慮了句法信息;與基于句法信息的圖神經(jīng)網(wǎng)絡(luò)的模型相比,在3個(gè)數(shù)據(jù)集上Acc值平均提升0.64%、1.97%、1.72%,MF1值平均提升2.11%、1.91%、1.93%。其中,MIA-GCN相對(duì)于模型AFGCN在Lap14數(shù)據(jù)集上效果相當(dāng)。在Rest14數(shù)據(jù)集上,MIA-GCN的準(zhǔn)確率略低于模型AGGCN,這可能是因?yàn)镽est14數(shù)據(jù)集對(duì)于特定方面信息比較敏感,而AFGCN從一開始就利用門控LSTM編碼特定方面信息。綜合而言,MIA-GCN模型在實(shí)驗(yàn)數(shù)據(jù)集上獲得了比較好的性能,對(duì)不同領(lǐng)域的文本也可以處理得很好。主要原因在于MIA-GCN模型同時(shí)考慮了深層語義和句法信息。利用GCN來提取和學(xué)習(xí)評(píng)論中的語義信息與句法信息,并且對(duì)方面進(jìn)行建模,利用交互注意力進(jìn)行方面詞與上下文詞的語義和句法交互,增強(qiáng)了提取與方面詞有緊密聯(lián)系的上下文情感信息的能力。因此,模型MIA-GCN能夠?qū)崿F(xiàn)情感分類任務(wù)性能的提升。
為了驗(yàn)證模型的有效性以及各個(gè)部分對(duì)情感分類結(jié)果的影響,設(shè)計(jì)消融實(shí)驗(yàn)在3個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比分析,結(jié)果見表5。其中,SynGCN表示只構(gòu)造句法圖卷積網(wǎng)絡(luò)及句法交互;SemGCN表示只利用語義圖卷積網(wǎng)絡(luò)及語義交互;SynGCN_dep代表僅利用依賴解析器的0-1輸出作為圖卷積網(wǎng)絡(luò)的矩陣而不利用句法相對(duì)距離進(jìn)行計(jì)算權(quán)重;MIA-GCN w/o inatt表示去除交互注意層,同樣的,MIA-GCN w/o syn或者sem表示只去除句法交互或者只去除語義交互。
從表5對(duì)比結(jié)果可以看出,在Rest14和Lap14數(shù)據(jù)集上,SynGCN的性能明顯優(yōu)于SynGCN_dep,因此,利用句法權(quán)重矩陣代替離散矩陣,可以獲取更多的句法信息,有效提升情感分類的性能。SemGCN模型在Twitter數(shù)據(jù)集上的性能優(yōu)于SynGCN,這是由于Twitter評(píng)論數(shù)據(jù)集大多是口語化和非正式的,對(duì)句法信息不敏感,因此對(duì)于這類語句,語義信息對(duì)性能的影響大于句法信息對(duì)性能的影響。除此之外,MIA-GCN w/o inatt相比MIA-GCN性能有所下降,原因是去除了交互注意層,方面詞與上下文詞之間不能進(jìn)行交互注意,從而表明利用交互注意可以建模方面詞與上下文詞的語義關(guān)系和句法關(guān)系。對(duì)比MIA-GCN w/o syn和MIA-GCN w/o sem,去掉任何一種交互方式,與MIA-GCN相比,Acc和MF1值均下降,驗(yàn)證了語義交互注意和句法交互注意兩者的重要性。
表5 消融實(shí)驗(yàn)
為了進(jìn)一步分析本文提出的模型對(duì)比其它模型的優(yōu)點(diǎn),通過幾個(gè)具體的樣例來分析。如表6所示,提取出一些典型樣例的分類結(jié)果進(jìn)行對(duì)比分析。其中數(shù)值negative、natu-ral、positive分別表示情感極性為消極、正常、積極。句子中陰影部分為所在句子的方面項(xiàng)。
表6 典型數(shù)據(jù)實(shí)驗(yàn)樣例
對(duì)于第一個(gè)例句,由于存在兩個(gè)方面詞即“food”和“service”,基于語義關(guān)聯(lián)的注意力機(jī)制模型ATAE-LSTM會(huì)關(guān)注到與方面詞“service”相關(guān)的意見詞“dreadful”,將其作為方面詞“food”的意見詞,導(dǎo)致方面詞與意見詞的錯(cuò)誤匹配,從而判斷情感極性為消極。第二個(gè)例句,“apple os”與其意見詞“happy”的句法距離相距太遠(yuǎn),基于句法信息的圖卷積網(wǎng)絡(luò)模型ASGCN未能捕獲兩者之間的關(guān)系,因此,ASGCN模型情感極性判斷錯(cuò)誤。第三個(gè)例句中,由于含有兩個(gè)方面項(xiàng),ATAE-LSTM未能準(zhǔn)確匹配方面項(xiàng)與意見詞,ASGCN模型未能捕獲否定詞“did not”的特征表示,而MIA-GCN可以結(jié)合語義關(guān)聯(lián)和句法關(guān)聯(lián)做出正確的判斷。
除此之外,選取句子進(jìn)行注意力可視化分析,如圖4所示。其中,顏色越深,表示注意權(quán)重越大。從圖中可以看出,對(duì)于方面詞“staff”,在交互注意層使用語義交互還是句法交互都能關(guān)注到情感詞“should be a bit”,因此,語義交互與句法交互都有助于情感極性的判斷,也驗(yàn)證了語義信息和句法信息對(duì)于方面級(jí)情感分析的有效性。
圖4 方面詞“staff”注意力可視化
本文提出了一種基于圖卷積網(wǎng)絡(luò)的多交互模型MIA-GCN來解決目前方面級(jí)情感分析研究中存在的提取語義和句法信息不全面導(dǎo)致的情感分類不準(zhǔn)確的問題。MIA-GCN的主要?jiǎng)?chuàng)新點(diǎn)在于分別重構(gòu)了語義圖和句法圖提取語義和句法特征信息,并利用交互注意建模方面詞與上下文之間的語義和句法關(guān)系,使得提取信息更加全面。在常用的3個(gè)方面級(jí)情感分類數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)、消融實(shí)驗(yàn)以及案例分析。實(shí)驗(yàn)結(jié)果表明,本文提出的MIA-GCN模型的性能具有一定的提升。驗(yàn)證了帶權(quán)重的鄰接矩陣可以存儲(chǔ)更具體的信息,而交互注意能夠建模方面詞與上下文詞的語義關(guān)系和句法關(guān)系,完成方面與上下文的協(xié)調(diào)優(yōu)化。下一步工作將與更先進(jìn)的預(yù)訓(xùn)練模型BERT進(jìn)行結(jié)合,探索更具有適應(yīng)性的融合語義和句法特征的方法。