孔博,韓虎,陳景景,白雪,鄧飛
(1.蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州 730070;2.蘭州交通大學(xué) 數(shù)理學(xué)院,蘭州 730070)
方面級(jí)情感分析(Aspect-Based Sentiment Analysis,ABSA)是自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的一個(gè)重要研究方向。ABSA 的目標(biāo)是識(shí)別評(píng)論文本中給定方面的情感極性(積極、消極或中性),如句子“I love Windows 7 which is a vast improvment over Vista!”,其中方面“Windows 7”是積極的,而方面“Vista”是消極的。
傳統(tǒng)基于機(jī)器學(xué)習(xí)的方法依賴于所構(gòu)建特征工程的質(zhì)量且成本較高[1]。TANG等[2]在方面和句子文本的詞嵌入上利用長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)來(lái)獲取句子級(jí)的特征信息,從而獲得情感極性。MA等[3]在LSTM 模型的基礎(chǔ)上,對(duì)方面詞與上下文的隱藏特征進(jìn)行注意力交互。在之后的研究中,使用注意力機(jī)制的混合神經(jīng)網(wǎng)絡(luò)模型在文本分類任務(wù)中得到了廣泛應(yīng)用。使用傳統(tǒng)的注意力機(jī)制在方面詞較多的句子中往往會(huì)忽略詞語(yǔ)的句法表示,導(dǎo)致權(quán)重分配錯(cuò)誤。例如句子“This French food tastes very well,but the restaurant has poor service.”,在判斷方面詞“restaurant”的情感極性時(shí),由于缺乏依賴關(guān)系的表示,否定副詞“but”很容易被注意力機(jī)制忽略而將權(quán)重分配給“well”。結(jié)合句法依賴樹(shù),引入單詞之間的依存關(guān)系進(jìn)行交互,能夠讓方面詞更準(zhǔn)確地關(guān)注到其對(duì)應(yīng)的情感意見(jiàn)詞。
近年來(lái),圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[4]由于對(duì)句子句法依賴樹(shù)等非結(jié)構(gòu)化數(shù)據(jù)的處理優(yōu)勢(shì)而被廣泛應(yīng)用于方面情感分析中。HUANG等[5]提出圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT),將注意力機(jī)制引入圖卷積網(wǎng)絡(luò)中,建立單詞之間的依賴關(guān)系。ZHANG等[6]通過(guò)句子依賴樹(shù)中的依存關(guān)系來(lái)構(gòu)建圖卷積網(wǎng)絡(luò)的鄰接矩陣,但是其沒(méi)有體現(xiàn)依賴樹(shù)中的語(yǔ)法距離特征。現(xiàn)有研究結(jié)果表明,語(yǔ)法距離特征有助于對(duì)方面情感進(jìn)行分析[7]。但是通過(guò)語(yǔ)法距離獲得固定的系數(shù)或漸進(jìn)的系數(shù)來(lái)增強(qiáng)不同單詞之間的依存關(guān)系[8-9]時(shí),都是在原始依存關(guān)系上進(jìn)行加權(quán),未考慮有依存關(guān)系的節(jié)點(diǎn)對(duì)特定方面的影響。依賴樹(shù)中包含豐富的語(yǔ)法信息,但是通常不以目標(biāo)方面作為依賴樹(shù)的中軸,而ABSA 的重點(diǎn)是目標(biāo)方面而不是樹(shù)根節(jié)點(diǎn)。例如句子“The battery gets so hot it is scary.”,通過(guò)句法解析器得到句法依賴樹(shù),句子中的各單詞之間存在不同的依存關(guān)系,在實(shí)際應(yīng)用中只需要考慮“gets”與“hot”對(duì)方面詞“battery”的影響,而無(wú)須過(guò)多考慮“gets”與 “hot”以及“hot”與“is” 等非目標(biāo)詞之間的關(guān)系。WANG等[10]提出一種面向方面的樹(shù)結(jié)構(gòu),通過(guò)重塑和修剪普通的依賴樹(shù)來(lái)關(guān)注目標(biāo)方面。如果一個(gè)方面詞包含多個(gè)單詞,以往是將其看作整體并作為根節(jié)點(diǎn)來(lái)重塑依賴樹(shù),然而這種做法忽略了方面詞內(nèi)部的依存關(guān)系和上下文詞對(duì)方面詞內(nèi)不同單詞的語(yǔ)法距離的差異,構(gòu)造的依存關(guān)系對(duì)模型判斷情感極性的重要程度不同。
雖然基于深層神經(jīng)網(wǎng)絡(luò)模型能夠很好地捕捉上下文詞和方面詞之間的語(yǔ)法和語(yǔ)義信息,但是這樣的語(yǔ)義信息不夠豐富,需要有效融合外部知識(shí)來(lái)增強(qiáng)評(píng)論文本的特征表示。因此,一些學(xué)者利用外部知識(shí)等先驗(yàn)知識(shí)為模型提供監(jiān)督信號(hào),增強(qiáng)文本的語(yǔ)義信息。外部情感知識(shí)通常被用作情感分析任務(wù)中增強(qiáng)情感特征表示的來(lái)源[11]。LIANG等[12]將情感知識(shí)融入到圖網(wǎng)絡(luò)中,為每個(gè)語(yǔ)句建立一個(gè)特定于方面的情感增強(qiáng)依存關(guān)系圖,以捕獲上下文詞與方面詞之間的情感依賴關(guān)系。CHEN等[13]通過(guò)引入知識(shí)圖譜來(lái)解決不同語(yǔ)境下的“一詞多義”問(wèn)題。BIAN等[14]使用多頭注意力機(jī)制并融合從外部知識(shí)庫(kù)中提取的概念知識(shí)來(lái)增強(qiáng)上下文詞和方面詞的特征表示。
本文提出一種基于虛擬依存關(guān)系與雙知識(shí)增強(qiáng)的多交互圖卷積網(wǎng)絡(luò)(Virtual Dependency and Two Knowledge Enhancement based Multi-Interaction Graph Convolutional Network,VKI-GCN)模型,并將其應(yīng)用于方面級(jí)情感分析任務(wù)。本文的主要工作如下:
1)提出一種面向方面的樹(shù)結(jié)構(gòu),并采用上下文到方面詞的虛擬依存關(guān)系來(lái)豐富依賴樹(shù),通過(guò)語(yǔ)法距離對(duì)虛擬依存關(guān)系賦予權(quán)重,構(gòu)建以方面為中心的鄰接矩陣。
2)提出引入外部情感知識(shí)與虛擬依存關(guān)系增強(qiáng)的圖卷積網(wǎng)絡(luò),采用雙通道融合的方式來(lái)獲取方面特征,設(shè)計(jì)語(yǔ)義交互和語(yǔ)法交互模塊,并結(jié)合概念知識(shí)增強(qiáng)的方面特征表示,充分融合語(yǔ)義語(yǔ)法、情感知識(shí)與概念知識(shí)。
3)在5 個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),測(cè)試本文模型在不同數(shù)據(jù)集上的準(zhǔn)確率(Accuracy)和宏F1(Macro F1)值,以驗(yàn)證該模型的有效性。
方面級(jí)情感分析是情感分析中的一項(xiàng)細(xì)粒度分類任務(wù),其目標(biāo)是識(shí)別句子中一個(gè)特定方面的情感極性。如今大多數(shù)方面級(jí)情感分析的研究都是基于神經(jīng)網(wǎng)絡(luò)而展開(kāi)的。KIM[15]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)用于情感分類任務(wù),將預(yù)訓(xùn)練的詞嵌入作為輸入,使用CNN 網(wǎng)絡(luò)層來(lái)獲得文本的情感特征,其結(jié)果驗(yàn)證了CNN 對(duì)文本具有良好的語(yǔ)義解析能力。MA等[3]提出交互式注意神經(jīng)網(wǎng)絡(luò)(Interactive Attention Network,IAN)模型,首次在句子和方面詞之間使用交互式學(xué)習(xí)機(jī)制,即分別對(duì)方面詞和句子進(jìn)行注意力操作。FAN等[16]提出一種細(xì)粒度的注意力機(jī)制,用于表征方面和上下文詞之間的詞級(jí)交互,緩解了粗粒度注意力機(jī)制中的信息損失問(wèn)題,但是其忽略了句法信息。KIPF等[4]將GCN 應(yīng)用到文本分類任務(wù)中,對(duì)依存圖信息進(jìn)行處理,從而起到語(yǔ)法融合的作用。ZHANG等[6]使用句法依賴樹(shù)獲取句子中的語(yǔ)法信息,并利用圖卷積網(wǎng)絡(luò)對(duì)文本語(yǔ)義語(yǔ)法信息進(jìn)行處理,從而判斷方面詞所對(duì)應(yīng)的情感極性。
在最近的研究中,部分學(xué)者對(duì)語(yǔ)義信息和語(yǔ)法信息進(jìn)行融合,進(jìn)一步提高了模型的性能。ZHANG等[17]融合層次句法信息和局部詞匯語(yǔ)義信息,通過(guò)層級(jí)融合模塊和門控機(jī)制分別處理圖中功能不同的關(guān)系類型。王汝言等[8]提出一種多交互圖卷積網(wǎng)絡(luò)模型,利用語(yǔ)法距離特征對(duì)圖卷積網(wǎng)絡(luò)的鄰接矩陣進(jìn)行加權(quán)以及語(yǔ)義語(yǔ)法交互。在已有研究中,通常使用0、1 來(lái)表示節(jié)點(diǎn)之間的關(guān)系,或者以固定的系數(shù)來(lái)表示與方面詞之間存在依存關(guān)系的節(jié)點(diǎn)權(quán)重,但是不同單詞之間的依存關(guān)系往往對(duì)模型判斷情感極性的貢獻(xiàn)度存在差異。齊嵩喆等[9]提出一種基于漸進(jìn)增強(qiáng)與協(xié)同融合的圖卷積神經(jīng)網(wǎng)絡(luò)模型,利用基于單詞位置關(guān)系的漸進(jìn)增強(qiáng)算法對(duì)依存圖中的邊進(jìn)行加權(quán),彌補(bǔ)了圖卷積在整合長(zhǎng)距離語(yǔ)義信息方面的不足。
雖然上述模型在情感分析任務(wù)中有較好的表現(xiàn),但是大多只用單一的句子信息而未考慮外部情感知識(shí)的影響,同時(shí)也未考慮單詞在多種語(yǔ)境下存在的“一詞多義”問(wèn)題,極大地影響了情感分析任務(wù)的預(yù)測(cè)效果。
1.2.1 情感知識(shí)
在方面級(jí)情感分析任務(wù)中,情感知識(shí)常用來(lái)增強(qiáng)評(píng)論語(yǔ)句的情感特征[11]。SenticNet 是一個(gè)公開(kāi)的情感分析資源,其利用情感值描述知識(shí)庫(kù)中的每個(gè)概念[18]。在SenticNet中,情感值分布在-1~1 之間,分別代表強(qiáng)消極到強(qiáng)積極的概念,如表1 所示。本文從SenticNet 6[19]中提取出39 891 個(gè)單詞及情感值作為情感知識(shí)庫(kù)來(lái)補(bǔ)充依賴圖,從而增強(qiáng)句子的情感表示。
表1 SenticNet 中的部分情感詞匯Table 1 Some emotional vocabulary in SenticNet
1.2.2 概念知識(shí)
知識(shí)圖譜的本質(zhì)是語(yǔ)義網(wǎng)絡(luò)的知識(shí)庫(kù),它可以為句子提供豐富的背景信息,提高模型的語(yǔ)義解析能力[20]。CAO等[21]借助領(lǐng)域知識(shí)同時(shí)采取實(shí)體詞替換機(jī)制,在提升模型分類性能的同時(shí)也明顯提升了模型的訓(xùn)練速度。HU等[22]提出一種基于知識(shí)庫(kù)構(gòu)造的異質(zhì)圖神經(jīng)網(wǎng)絡(luò),利用知識(shí)庫(kù)中的知識(shí)增強(qiáng)文本語(yǔ)義表示,提高短文本分類效果。
微軟亞洲研究院發(fā)布的大型概念知識(shí)圖譜系統(tǒng)Microsoft Concept Graph,利用海量的搜索日志和網(wǎng)頁(yè)數(shù)據(jù)學(xué)習(xí)構(gòu)建常識(shí)知識(shí)[20],借助其大量的實(shí)體信息和關(guān)系信息將文本詞條映射到不同的語(yǔ)義概念,并通過(guò)(實(shí)例,概念,關(guān)系)的三元組來(lái)表示,在實(shí)際應(yīng)用中為計(jì)算機(jī)提供有助于文本理解的先驗(yàn)知識(shí)。相對(duì)于傳統(tǒng)的詞向量,這種概念化是機(jī)器和人都可以理解的,已被廣泛應(yīng)用于現(xiàn)實(shí)任務(wù)中。本文利用該知識(shí)圖譜系統(tǒng)進(jìn)行方面詞語(yǔ)義消歧,以解決“一詞多義”的問(wèn)題。
給定一個(gè)長(zhǎng)度為n的句子s={w1,w2,…,wa+1,wa+2,…,wa+m,…,wn-1,wn},其中包括長(zhǎng)度為m的方面a={wa+1,wa+2,…,wa+m},即方面詞a是句子s的一個(gè)子序列。本文模型框架如圖1 所示,由6 個(gè)部分構(gòu)成,分別是嵌入層和BiLSTM 層、圖卷積網(wǎng)絡(luò)層、特征融合層、特定遮蔽層、多交互層以及輸出層。
圖1 VKI-GCN 模型框架Fig.1 VKI-GCN model framework
本文采用GloVe 嵌入模型,首先將每個(gè)單詞映射到低維實(shí)值向量空間中得到低維的實(shí)數(shù)向量,即詞向量wi∈?|V|;然后將初始化的向量輸入到Bi-LSTM中,通過(guò)Bi-LSTM 學(xué)習(xí)句子中單詞的隱藏信息,得到句子的隱藏狀態(tài)H={h1,h2,…,hn}。
2.2.1 基于虛擬依存關(guān)系增強(qiáng)的圖卷積網(wǎng)絡(luò)
本文提出一種VGCN(Virtual Dependency Graph Convolutional Network)模型,構(gòu)建面向方面的樹(shù)結(jié)構(gòu),通過(guò)重塑原始依賴樹(shù)使其只聚焦于目標(biāo)方面而丟棄與目標(biāo)方面沒(méi)有直接關(guān)聯(lián)的依存句法關(guān)系。首先,以方面詞內(nèi)部的每一個(gè)單詞作為根節(jié)點(diǎn)構(gòu)造依賴樹(shù),并使用一個(gè)虛擬關(guān)系n:con(n:connected)表示方面詞到每個(gè)節(jié)點(diǎn)的路徑,其中,n表示2 個(gè)節(jié)點(diǎn)之間的語(yǔ)法距離,根據(jù)n來(lái)賦予不同的權(quán)重;其次,對(duì)由不同根節(jié)點(diǎn)詞構(gòu)造的依賴樹(shù)進(jìn)行融合。
圖2(a)為原始依賴樹(shù),圖2(b)、圖2(c)是以方面詞中的每個(gè)單詞作為根節(jié)點(diǎn)所構(gòu)造的依賴樹(shù),圖2(d)為融合后的依賴樹(shù)。最后,對(duì)融合后的依賴樹(shù)構(gòu)造鄰接矩陣Ai,j,v,根據(jù)以往研究,nmax一般取值為3。研究結(jié)果表明,與目標(biāo)方面距離越近的詞,其與目標(biāo)方面間存在關(guān)聯(lián)的可能性就越大,引入基于相對(duì)距離的路徑可以使樹(shù)結(jié)構(gòu)更加健壯[23]。本文設(shè)計(jì)權(quán)重的思想是均分最大依賴距離,距離越遠(yuǎn),權(quán)重越小,逐級(jí)遞減。Ai,j,v計(jì)算公式如下:
圖2 普通依賴樹(shù)以及面向方面的具有虛擬依存關(guān)系的依賴樹(shù)Fig.2 Ordinary dependency trees and aspect-oriented dependency trees with virtual dependency
將該鄰接矩陣輸入到GCN層,根據(jù)其鄰域節(jié)點(diǎn)的隱藏狀態(tài)來(lái)更新第l層中每個(gè)節(jié)點(diǎn)的表示,如式(2)、式(3)所示,A~i,v是標(biāo)準(zhǔn)化后的鄰接矩陣,如式(4)所示。
2.2.2 基于情感知識(shí)增強(qiáng)的圖卷積網(wǎng)絡(luò)
情感知識(shí)的引入可以使模型學(xué)習(xí)到方面詞與上下文詞之間的情感先驗(yàn)知識(shí)。圖1 中的SGCN 模塊為融入情感知識(shí)SenticNet 的圖卷積網(wǎng)絡(luò)。
為了利用句子中單詞的依賴性,首先在依賴樹(shù)上為每個(gè)輸入句子構(gòu)建鄰接矩陣D∈?n×n,其推導(dǎo)公式如式(6)所示:
將2 個(gè)節(jié)點(diǎn)的SenticNet 情感分?jǐn)?shù)進(jìn)行疊加以增強(qiáng)鄰接矩陣的表示,充分利用上下文和方面詞之間的情感信息,如式(7)所示:
其中:SenticNet(wi)表示SenticNet 中單詞的情感得分,分布范圍為[-1,1],值取0 表示單詞是中性詞或在SenticNet 中不存在,取-1 表示消極,取1表示積極。
此外,在構(gòu)建情感知識(shí)的鄰接矩陣時(shí),還應(yīng)該對(duì)特定方面給予重要關(guān)注,如式(8)所示:
由此得到情感知識(shí)增強(qiáng)后的鄰接矩陣,如式(9)所示:
將該鄰接矩陣輸入到GCN層,根據(jù)其鄰域節(jié)點(diǎn)的隱藏狀態(tài)來(lái)更新第l層中每個(gè)節(jié)點(diǎn)的表示,如式(10)、式(11)所示:
最后,L層情感知識(shí)增強(qiáng)的圖卷積網(wǎng)絡(luò)的最終輸出如式(13)所示:
2.3.1 雙通道圖卷積特征融合
本文采用雙通道的形式,利用圖卷積網(wǎng)絡(luò)學(xué)習(xí)句法信息和情感知識(shí)?;谔摂M依存關(guān)系增強(qiáng)的圖卷積網(wǎng)絡(luò)與基于情感知識(shí)增強(qiáng)的圖卷積網(wǎng)絡(luò)在經(jīng)過(guò)L層圖卷積網(wǎng)絡(luò)輸出后進(jìn)行拼接,得到更豐富的特征表示,如式(14)所示:
2.3.2 方面詞概念知識(shí)融合
本文借助Concept Graph 對(duì)方面詞進(jìn)行概念化,得到其概念集K={k1,k2,…,km},將方面向量a={wa+1,wa+2,…,wa+m} 與其對(duì)應(yīng)的概念向量K={k1,k2,…,km}進(jìn)行拼接,得到方面的概念化向量aK=[a;K]。
對(duì)融合層雙通道圖卷積拼接后的輸出進(jìn)行遮掩,能夠屏蔽非方面詞的隱藏狀態(tài)向量,保留方面詞向量。將方面詞所對(duì)應(yīng)的位置設(shè)置為1,非方面詞所對(duì)應(yīng)的位置設(shè)置為0,經(jīng)過(guò)方面特定掩蔽層后的輸出如式(15)所示:
其中:是包含句子語(yǔ)法消息和語(yǔ)義信息的方面詞隱藏特征。
考慮到上下文詞與融合概念知識(shí)后的方面詞之間的關(guān)系,本文設(shè)計(jì)知識(shí)注意力交互機(jī)制,以提取融合概念知識(shí)后的特征消息。
1)知識(shí)交互。經(jīng)過(guò)Bi-LSTM 之后獲取文本中隱含語(yǔ)義特征的上下文表示H,將其與融合概念知識(shí)后的方面詞aK進(jìn)行交互,如式(16)~式(18)所示:
為了同時(shí)關(guān)注方面詞與上下文詞之間的語(yǔ)義關(guān)系和語(yǔ)法關(guān)系,設(shè)計(jì)語(yǔ)義和語(yǔ)法2 個(gè)分支的多交互注意力機(jī)制,同時(shí)提取語(yǔ)義特征信息和語(yǔ)法特征信息。
2)語(yǔ)義交互。經(jīng)過(guò)Bi-LSTM 之后獲取文本中隱含語(yǔ)義特征的上下文表示H,將其與方面特征遮掩之后的方面詞進(jìn)行交互。為了實(shí)現(xiàn)上下文與方面項(xiàng)的維度統(tǒng)一,將句子的隱藏狀態(tài)進(jìn)行復(fù)制拼接得到Hc=[H;H]。語(yǔ)義交互如式(19)~式(21)所示:
3)語(yǔ)法交互。將雙通道融合后隱含語(yǔ)法特征的上下文表示與方面特征遮掩之后的方面詞進(jìn)行交互,如式(22)~式(24)所示:
將多交互層得到的知識(shí)交互特征向量hk、語(yǔ)義交互特征向量hse和語(yǔ)法交互特征向量hsy相拼接,得到hf=[hk;hse;hsy]。
將多交互注意層的輸出作為全連接層的輸入,通過(guò)Softmax 函數(shù)輸出最終的情感極性,如式(25)所示:
其中:hf為多交互注意層的輸出;Wo為全連接層的權(quán)重項(xiàng);bo為全連接層的偏置項(xiàng)。本文通過(guò)梯度下降算法訓(xùn)練模型來(lái)完成分類任務(wù):
其中:S是訓(xùn)練樣本數(shù);C是類別數(shù)和分別是訓(xùn)練集的真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽;Θ代表所有的可訓(xùn)練參數(shù);λ是L2 正則化系數(shù)。
本文在5 個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),其中,Twitter 數(shù)據(jù)集來(lái)自于TWITTER[24],Lap14、Rest14 數(shù)據(jù)集來(lái)自于SemEval-2014[25],Rest15 數(shù)據(jù)集來(lái)自于SemEval-2015[26],Rest16 數(shù)據(jù)集來(lái)自于SemEval-2016[27]。各數(shù)據(jù)集的統(tǒng)計(jì)信息如表2 所示。
表2 數(shù)據(jù)集的統(tǒng)計(jì)信息Table 2 Statistical information of datasets
模型性能采用準(zhǔn)確率(簡(jiǎn)稱Acc)和宏F1(簡(jiǎn)稱F1)值作為評(píng)價(jià)指標(biāo),2 個(gè)指標(biāo)的計(jì)算公式分別如下:
其中:T表示正確預(yù)測(cè)的樣本數(shù)量;N表示樣本總數(shù)。F1 值是分類問(wèn)題的衡量指標(biāo),是精確率與召回率的調(diào)和平均數(shù);P表示預(yù)測(cè)為正例的樣本中預(yù)測(cè)為真正例的概率;R表示真實(shí)正例樣本中預(yù)測(cè)為真正例的概率。
在實(shí)驗(yàn)過(guò)程中,本文利用預(yù)訓(xùn)練GloVe 作為初始化詞的嵌入向量,超參數(shù)設(shè)置如表3 所示。
表3 實(shí)驗(yàn)參數(shù)設(shè)置Table 3 Experimental parameters setting
將本文提出的VKI-GCN 模型與以下方面級(jí)情感分析模型進(jìn)行比較:
1)LSTM。文獻(xiàn)[2]利用 LSTM 編碼上下文信息,將最后一層的輸出作為文本特征表示輸入到分類器中,從而預(yù)測(cè)情感極性。
2)IAN。文獻(xiàn)[3]提出的IAN 模型利用注意力機(jī)制對(duì)上下文和目標(biāo)進(jìn)行交互學(xué)習(xí),得到最終的表示。
3)ASGCN。文獻(xiàn)[6]提出一種基于圖卷積的網(wǎng)絡(luò)模型ASGCN,利用句法依存樹(shù)獲取句法信息圖,使用注意力機(jī)制對(duì)方面詞與上下文語(yǔ)義信息進(jìn)行交互。
4)KumaGCN。文獻(xiàn)[28]提出一種門控機(jī)制來(lái)動(dòng)態(tài)地結(jié)合單詞依賴圖和自我注意網(wǎng)絡(luò)學(xué)習(xí)的潛在圖中的信息,用潛在的語(yǔ)義依賴來(lái)補(bǔ)充受監(jiān)督的句法特征。
5)DGCN。文獻(xiàn)[29]結(jié)合詞語(yǔ)的句法結(jié)構(gòu)和語(yǔ)法距離,提出一種根據(jù)句法依賴樹(shù)獲得的語(yǔ)法距離權(quán)重,結(jié)合句子的上下文語(yǔ)義信息、語(yǔ)法距離權(quán)重向量和鄰接矩陣,通過(guò)圖卷積網(wǎng)絡(luò)提取方面詞的情感特征。
6)SK-GCN。文獻(xiàn)[30]提出一種對(duì)句法依存樹(shù)和常識(shí)知識(shí)進(jìn)行編碼的圖卷積模型,以豐富句子對(duì)特定方面的表示。
7)AEGCN。文獻(xiàn)[31]以雙通道的形式分別利用多頭注意力和基于依賴樹(shù)注意力改進(jìn)的GCN 來(lái)對(duì)文本表示進(jìn)行編碼,并利用通道間的交互注意力進(jìn)一步增強(qiáng)表示。
8)MIGCN。文獻(xiàn)[8]提出一種多交互模型,設(shè)計(jì)語(yǔ)義交互和語(yǔ)法交互過(guò)程,分別對(duì)單詞之間的語(yǔ)義信息和語(yǔ)法信息進(jìn)行學(xué)習(xí)。
本文在Twitter、Lap14、Rest14、Rest15、Rest16 數(shù)據(jù)集上進(jìn)行8 組模型對(duì)比實(shí)驗(yàn),結(jié)果如表4 所示,最優(yōu)結(jié)果加粗標(biāo)注。從表4 可以看出:本文VKI-GCN模型與最新模型MIGCN 相比,在5 個(gè)數(shù)據(jù)集上Acc值分別提升1.55、0.68、0.72、1.29 和0.76 個(gè)百 分點(diǎn),F(xiàn)1 值分別提升0.83、0.81、0.03、2.39 和4.08 個(gè)百分點(diǎn),驗(yàn)證了本文所提模型的優(yōu)越性;相比使用基礎(chǔ)GCN 的模型,本文VKI-GCN 模型性能均有所提升,這是因?yàn)樵u(píng)論語(yǔ)句較短,缺乏足夠的語(yǔ)義信息,而VKI-GCN 模型可以有效融合方面詞的概念知識(shí)和意見(jiàn)詞的情感知識(shí)等先驗(yàn)知識(shí)來(lái)豐富語(yǔ)義表示,尤其 在Twitter 數(shù)據(jù)集上,VKI-GCN 較ASGCN 的 Acc值提升2.71 個(gè)百分點(diǎn),F(xiàn)1 值提升2.55 個(gè)百分點(diǎn),在Rest15 和Rest16 數(shù)據(jù)集上VKI-GCN 較ASGCN 的F1 值分別提升4.71 和8.57 個(gè)百分點(diǎn)。由實(shí)驗(yàn)結(jié)果可看出,外部知識(shí)對(duì)精確表示文本語(yǔ)義信息具有重要性,本文模型可以通過(guò)外部知識(shí)同時(shí)增強(qiáng)方面詞的語(yǔ)義信息和意見(jiàn)詞的情感信息,加強(qiáng)評(píng)論文本表示,提高模型分類能力。
表4 對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Results of comparative experiments %
本文VKI-GCN 模型雖然在5 個(gè)數(shù)據(jù)集上相較以往模型分類性能均有提升,但在不同數(shù)據(jù)集上的提升效果存在一定差異,在Rest14 數(shù)據(jù)集上提升較小,觀察該數(shù)據(jù)集可以發(fā)現(xiàn),其包含大量相對(duì)較長(zhǎng)的評(píng)論語(yǔ)句,而本文VKI-GCN 模型是將方面詞作為根節(jié)點(diǎn)構(gòu)建依賴樹(shù),并忽略語(yǔ)法距離大于等于4 的虛擬依存關(guān)系,使得本文模型在處理較長(zhǎng)評(píng)論語(yǔ)句時(shí)容易將過(guò)遠(yuǎn)的意見(jiàn)詞忽略掉,因此,在Rest14 等數(shù)據(jù)集上無(wú)法發(fā)揮出模型的優(yōu)勢(shì)。
為了明確VKI-GCN 中各部分對(duì)模型性能的影響,本文設(shè)計(jì)消融實(shí)驗(yàn),對(duì)VGCN 與ASGCN、VGCN 上是否融合情感知識(shí)和概念知識(shí)以及VKI-GCN 上是否進(jìn)行語(yǔ)義交互和語(yǔ)法交互這3組對(duì)比實(shí)驗(yàn)進(jìn)行可視化分析。
如表5所示,W/O SGCN+CK+Sy表示僅保留VGCN模塊并進(jìn)行語(yǔ)義交互,W/O SGCN 表示僅去掉融入情感知識(shí)SenticNet 的圖卷積網(wǎng)絡(luò)分支,W/O CK 表示僅去掉引入概念知識(shí)的分支,W/O Sy 表示僅去掉語(yǔ)法交互,W/O Se 表示僅去掉語(yǔ)義交互。從表5 可以看出,各組件均對(duì)本文模型的性能有提升效果。
表5 消融實(shí)驗(yàn)結(jié)果Table 5 Results of ablation experiment %
3.6.1 VGCN 與ASGCN 的對(duì)比實(shí)驗(yàn)
為了驗(yàn)證面向方面構(gòu)建虛擬關(guān)系來(lái)增強(qiáng)依賴樹(shù)的語(yǔ)法信息對(duì)于模型性能的提升效果,本文設(shè)置對(duì)比實(shí)驗(yàn),對(duì)比模型包括基礎(chǔ)模型ASGCN 和本文所提VGCN 模型,即將ASGCN 的0、1 矩陣替換為由新構(gòu)建的依賴樹(shù)所獲得的鄰接矩陣,其余參數(shù)條件和數(shù)據(jù)集保持不變,實(shí)驗(yàn)結(jié)果如圖3、圖4 所示。
圖3 VGCN 與 ASGCN 的Acc 值對(duì)比Fig.3 Comparison of Acc values between VGCN and ASGCN
圖4 VGCN 與 ASGCN 的F1 值對(duì)比Fig.4 Comparison of F1 values between VGCN and ASGCN
3.6.2 VGCN 與雙知識(shí)融合的對(duì)比實(shí)驗(yàn)
觀察SenticNet情感知識(shí)和Concept概念知識(shí)可知,SenticNet 是對(duì)情感詞賦予情感得分,而評(píng)論語(yǔ)句中情感詞多為意見(jiàn)詞,Concept概念知識(shí)是針對(duì)方面詞進(jìn)行概念化。為了驗(yàn)證2 種外部知識(shí)對(duì)模型性能的影響,本文設(shè)計(jì)對(duì)比實(shí)驗(yàn),分別采用融合SenticNet情感知識(shí)、融合Concept概念知識(shí)以及雙知識(shí)融合的方式,實(shí)驗(yàn)結(jié)果如圖5、圖6 所示。
圖5 VGCN 融合外部知識(shí)時(shí)的Acc值Fig.5 Acc values when VGCN integrates external knowledge
圖6 VGCN 融合外部知識(shí)時(shí)的F1值Fig.6 F1 values when VGCN integrates external knowledge
3.6.3 單交互與雙交互的對(duì)比實(shí)驗(yàn)
為了驗(yàn)證語(yǔ)義交互與語(yǔ)法交互對(duì)本文模型的影響,針對(duì)VKI-GCN 模型的多交互層分別設(shè)計(jì)語(yǔ)義交互、語(yǔ)法交互和雙交互的對(duì)比實(shí)驗(yàn),其他實(shí)驗(yàn)條件與模型架構(gòu)保持不變,實(shí)驗(yàn)結(jié)果如圖7、圖8 所示。
圖7 單交互與雙交互的Acc值Fig.7 Acc values for single and double interactions
圖8 單交互與雙交互的F1值Fig.8 F1 values for single and double interactions
通過(guò)表5 及上述3 組對(duì)比實(shí)驗(yàn)可以發(fā)現(xiàn):面向方面構(gòu)建虛擬依存關(guān)系的依賴樹(shù),對(duì)虛擬依存關(guān)系賦權(quán)后所得的鄰接矩陣能夠更好地融合句法信息,在多組數(shù)據(jù)集上均能獲得大于1 個(gè)百分點(diǎn)的性能提升;引入外部知識(shí)能夠有效增強(qiáng)評(píng)論語(yǔ)句的特征表示,SenticNet 情感知識(shí)和Concept 概念知識(shí)對(duì)評(píng)論語(yǔ)句增強(qiáng)的著力點(diǎn)不同,在5 個(gè)數(shù)據(jù)集上性能提升各不相同,但是整體而言在ABSA 任務(wù)上結(jié)合使用外部知識(shí)的效果優(yōu)于單獨(dú)使用外部知識(shí);同時(shí)進(jìn)行語(yǔ)義交互和語(yǔ)法交互能夠有效提升模型性能。
本次實(shí)驗(yàn)將GCN 層數(shù)分別設(shè)置為L(zhǎng)={1,2,3,…,8},在5 個(gè)公開(kāi)數(shù) 據(jù)集上進(jìn)行 實(shí)驗(yàn)的Acc 值和F1 值分別如圖9、圖10 所示。從中可以看出:由于Rest15 數(shù)據(jù)集的語(yǔ)句簡(jiǎn)單且數(shù)量少,即在第1 層取得了最優(yōu)值;從5 個(gè)數(shù)據(jù)集總體效果來(lái)看,VKI-GCN 在GCN 層數(shù)為2 時(shí)達(dá)到了最優(yōu)性能,隨著網(wǎng)絡(luò)深度的增加,模型性能發(fā)生波動(dòng),但整體性能呈現(xiàn)下降趨勢(shì),當(dāng)層數(shù)為8時(shí),相較于最佳性能,準(zhǔn)確率平均下降2.03%,F(xiàn)1 值平均下降3.42%,由于網(wǎng)絡(luò)層數(shù)增加,模型引入了過(guò)多參數(shù),產(chǎn)生了過(guò)擬合現(xiàn)象。
圖9 GCN 網(wǎng)絡(luò)深度與準(zhǔn)確率的關(guān)系Fig.9 Relationship between GCN network depth and accuracy
圖10 GCN 網(wǎng)絡(luò)深度與F1 值的關(guān)系Fig.10 Relationship between GCN network depth and F1 values
為了直觀理解基于方面構(gòu)建虛擬依存關(guān)系依賴樹(shù)所生成的鄰接矩陣,本文針對(duì)上述鄰接矩陣進(jìn)行可視化對(duì)比。
從Rest16 數(shù)據(jù)集中選取一條評(píng)論語(yǔ)句“my friend got the mushroom pizza which tasted better.”進(jìn)行句法依存分析,其鄰接關(guān)系如圖11 所示,其中,下劃線為方面詞,區(qū)域顏色越深代表單詞之間的關(guān)系權(quán)重越大。因?yàn)槠胀ǖ木浞ㄒ来鎴D的鄰接矩陣被定義為二進(jìn)制,2 個(gè)節(jié)點(diǎn)詞之間存在句法依存關(guān)系時(shí)用1 表示,否則用 0 表示,所以圖中有鄰接關(guān)系的區(qū)域顏色相同。
圖11 句法依存鄰接關(guān)系Fig.11 Syntactic dependency adjacency
基于方面重構(gòu)依賴樹(shù),對(duì)不同的虛擬依存關(guān)系分配不同的權(quán)重,虛擬關(guān)系n:con的n值越小,句法依存關(guān)系越緊密,權(quán)重值越大。虛擬關(guān)系如圖12 所示,其中,下劃線為方面詞,區(qū)域顏色越深代表虛擬關(guān)系權(quán)重越大。
圖12 虛擬依存鄰接關(guān)系Fig.12 Virtual dependency adjacency
就評(píng)論句“my friend got the mushroom pizza which tasted better.”而言,通過(guò)本文設(shè)計(jì)的VGCN 模型對(duì)注意力分?jǐn)?shù)進(jìn)行可視化分析,如圖13 所示。
圖13 VGCN 模型的可視化結(jié)果Fig.13 Visual results of VGCN model
在圖13中,第1 行是方面詞中第1 個(gè)單詞的交互注意力分?jǐn)?shù),第2 行是第2 個(gè)單詞的交互注意力分?jǐn)?shù),區(qū)域顏色越深,注意力權(quán)重越大。方面詞“mushroom pizza”中每一個(gè)單詞都可以對(duì)情感詞“better”正確分配出較高的權(quán)重,同時(shí)“pizza”相較于“mushroom”在情感詞“better”上又能獲得較高的權(quán)重,體現(xiàn)了方面詞內(nèi)部之間的關(guān)聯(lián),同時(shí)方面詞中的每個(gè)單詞對(duì)目標(biāo)任務(wù)的重要程度得以區(qū)分。從圖13可看出,注意力分?jǐn)?shù)整體呈現(xiàn)以方面為中心向周圍擴(kuò)散并著重趨于情感詞的分布,這正體現(xiàn)出本文模型構(gòu)建以方面詞為中心的鄰接矩陣,能夠針對(duì)特定方面進(jìn)行重點(diǎn)關(guān)注,從而突出目標(biāo)任務(wù)。
針對(duì)方面級(jí)情感分析任務(wù),本文提出一種VKI-GCN 模型。將方面詞的每個(gè)單詞分別作為根節(jié)點(diǎn)構(gòu)建依賴樹(shù),為方面詞與節(jié)點(diǎn)詞創(chuàng)建虛擬關(guān)系并賦予漸進(jìn)權(quán)重,增強(qiáng)依存樹(shù)的特征表示,獲得針對(duì)方面詞的更豐富的語(yǔ)法信息。同時(shí),考慮到外部知識(shí)對(duì)方面級(jí)情感分析任務(wù)的影響,VKI-GCN 模型同時(shí)融合情感知識(shí)和概念知識(shí),豐富評(píng)論語(yǔ)句的語(yǔ)義信息。實(shí)驗(yàn)結(jié)果表明,本文模型設(shè)計(jì)的虛擬依存關(guān)系與雙知識(shí)增強(qiáng)方式在方面級(jí)情感分析問(wèn)題中能夠發(fā)揮積極作用。由于本文模型融合了雙外部知識(shí),帶來(lái)了過(guò)大噪聲,因此下一步將解決由外部知識(shí)帶來(lái)的噪聲問(wèn)題,學(xué)習(xí)更有利的外部知識(shí)同時(shí)設(shè)計(jì)更協(xié)調(diào)的融合方式,以提高本文模型的情感分析效果。