楊春霞 徐奔 桂強(qiáng) 韓煜
摘要針對方面級情感分析任務(wù)不能充分兼顧句法全面性與語義關(guān)聯(lián)性,且大多數(shù)研究中使用的圖卷積僅考慮信息自上而下的傳播,忽略了信息自下而上的聚合等問題,本文提出了基于注意力與雙通道網(wǎng)絡(luò)的情感分析模型.該模型在擴(kuò)展依存表示的同時使用自注意力獲取具有語義關(guān)聯(lián)的信息矩陣,使用雙通道網(wǎng)絡(luò)結(jié)合全局句法與語義關(guān)聯(lián)信息,雙通道網(wǎng)絡(luò)分別側(cè)重于自上而下傳播的語義特征與自下而上聚合的結(jié)構(gòu)特征.通道內(nèi)的圖卷積輸出會與信息矩陣進(jìn)行交互注意力起到殘差互補的作用,然后通過平均池化完成通道內(nèi)的任務(wù).最后將基于語義與基于結(jié)構(gòu)的決策融合得到最終的情感分類特征.實驗結(jié)果表明該模型在三個公開數(shù)據(jù)集上的準(zhǔn)確率與F1值均有提升.
關(guān)鍵詞注意力機(jī)制;雙通道網(wǎng)絡(luò);決策融合;圖卷積
中圖分類號
TP391
文獻(xiàn)標(biāo)志碼
A
收稿日期
2021-11-05
資助項目
國家自然科學(xué)基金(61273229,51705260);2016年度江蘇高?!扒嗨{(lán)工程”科技創(chuàng)新團(tuán)隊培養(yǎng)對象
作者簡介楊春霞,女,博士,教授,研究方向為大數(shù)據(jù)分析、自然語言處理.y.cx@163.com
0 引言
自然語言處理(Natural Language Processing,NLP)旨在對文本數(shù)據(jù)進(jìn)行分析處理.情感分析作為NLP中的一項任務(wù),可以通過對文本分析得到用戶想要表達(dá)的情感[1].方面級情感分析(Aspect-Based Sentiment Analysis,ABSA)作為情感分析中的細(xì)粒度任務(wù),可以針對語料中的特定方面分析出每句話的情感極性.隨著數(shù)據(jù)量的激增,對文本進(jìn)行情感分析可以反映出大眾對互聯(lián)網(wǎng)服務(wù)、產(chǎn)品分析、企業(yè)改進(jìn)等方面的一些重要意見.
當(dāng)前大多數(shù)ABSA任務(wù)通過句法的改進(jìn)或語義信息的獲取,研究其對于情感分析任務(wù)的影響.其中句法信息大多通過依存樹獲取文本中的結(jié)構(gòu).一般地,研究者會基于依存樹進(jìn)行修剪,通過改進(jìn)句法結(jié)構(gòu)用以提高情感分類的結(jié)果.此外,文本之間存在語義關(guān)聯(lián),通過挖掘深層次的語義信息也能取得不錯效果.以往的研究表明無論從句法結(jié)構(gòu)的角度或是語義信息的角度都能夠很好地完成情感分類任務(wù).但是大多數(shù)研究沒有考慮到語義信息之間的關(guān)聯(lián)性,并將其同時與句法結(jié)構(gòu)結(jié)合,因此本文在擴(kuò)展句法結(jié)構(gòu)的同時獲取到語義間的關(guān)聯(lián)信息,可以完成兩者的結(jié)合.
使用圖卷積網(wǎng)絡(luò)(Graph Convolution Network,GCN)可以將句法結(jié)構(gòu)與語義關(guān)聯(lián)信息相結(jié)合,用以完成情感分類任務(wù).圖卷積對于特征提取具有一定的優(yōu)勢,但是大多數(shù)研究僅自上而下傳播考慮信息的語義特征,缺少自下而上傳播聚集信息的結(jié)構(gòu)特征.文獻(xiàn)[2]在社交媒體謠言檢測中結(jié)合兩種傳播方式,同時考慮因果與結(jié)構(gòu)特征得到很好的結(jié)果,所以如何將因果特征與結(jié)構(gòu)特征同時提取的方式融入ABSA任務(wù)之中是亟待解決的一個問題.有研究者使用多個網(wǎng)絡(luò)通道處理不同的信息,通過融合多個通道的特征用以完成各自任務(wù),如文獻(xiàn)[3]在情感分析任務(wù)中使用兩種不同輸入信息的卷積網(wǎng)絡(luò)以獲取不同的特征信息,然后通過信息間的交互得出最終表示.于是本文考慮將自上而下傳播的語義信息與自下而上聚合的結(jié)構(gòu)信息分別作為兩種網(wǎng)絡(luò),提出基于注意力與雙通道網(wǎng)絡(luò)的方面級情感分析模型,即雙通道卷積模型(Two Channel Convolution Model,簡稱TCCM模型).實驗結(jié)果表明,TCCM模型在Laptop、Restaurant與Twitter三個公開數(shù)據(jù)集上的準(zhǔn)確率與F1值均有一定提升.
本文主要貢獻(xiàn)如下:
1)考慮到依存樹生成的節(jié)點表示需要包含更全面的句法,本文擴(kuò)展了依存表示,使依存信息中可以包含更全面的句法信息.同時將編碼后的信息通過自注意力完成語義信息的關(guān)聯(lián),經(jīng)過自注意力機(jī)制處理的信息可以看作有邊的加權(quán)有向圖,用以表示語義信息相關(guān)性,以達(dá)到兼顧句法全面性與語義關(guān)聯(lián)性的目的.
2)雙通道網(wǎng)絡(luò)分別為自上而下傳播的語義特征網(wǎng)絡(luò)與自下而上聚合的結(jié)構(gòu)特征網(wǎng)絡(luò),每個通道內(nèi)都含有圖卷積、交互注意力與平均池化.雙通道網(wǎng)絡(luò)會得到基于語義特征與結(jié)構(gòu)特征的兩種決策,將兩種決策融合即為最終的情感特征.
1 相關(guān)工作
句法依存樹可以提取句子結(jié)構(gòu)中的語法信息,許多研究對于依存樹的修剪或句法結(jié)構(gòu)的改善提出了各自的見解,例如:文獻(xiàn)[4]通過多種解析,生成不同句法結(jié)構(gòu)的依存樹,并將其組合成一張有向圖網(wǎng)絡(luò)進(jìn)行訓(xùn)練;文獻(xiàn)[5]構(gòu)建一種以方面詞為根節(jié)點的依存樹,與關(guān)系圖注意力網(wǎng)絡(luò)結(jié)合實現(xiàn)了情感預(yù)測;文獻(xiàn)[6]賦予依存樹位置信息,以此構(gòu)建帶有位置與權(quán)重信息的矩陣,結(jié)合圖卷積得到帶有位置信息的表示;文獻(xiàn)[7]使用軟剪策略修剪依存樹,通過實驗驗證了軟剪依存樹有助于效果提升.這些方法雖然通過改善句法結(jié)構(gòu)或修剪依存樹取得了不錯的效果,但是難免會丟失部分有用的句法信息,從而造成句法信息的缺失.本文同時考慮句法信息的全面性與語義信息的關(guān)聯(lián)性,在句法結(jié)構(gòu)方面進(jìn)行了簡單擴(kuò)展,使之成為包含更全面句法信息的依存表示.
注意力機(jī)制(簡稱注意力)可以賦予句子中每一個單詞不同的權(quán)重,用以代表單詞的重要性.它可以專注于特定的輸入,改善情感分析任務(wù)中的性能,例如:文獻(xiàn)[8]提取上下文中表示長距離情感特征的實驗,采用的是多重注意力機(jī)制;文獻(xiàn)[9]采用多層注意力機(jī)制將上下文單詞信息分配不同的權(quán)重,最后一層注意力的結(jié)果即為輸出的分類特征;文獻(xiàn)[10]使用交互注意力機(jī)制判斷單詞的不同影響力,說明注意力對于關(guān)鍵信息的篩選提取存在著正向增益.本文則使用自注意力進(jìn)行語義信息關(guān)聯(lián),通過權(quán)重分配出關(guān)聯(lián)性較大的語義信息,并與全面句法相結(jié)合,最終達(dá)到同時兼顧句法結(jié)構(gòu)改進(jìn)與語義信息關(guān)聯(lián)的目的.
圖卷積網(wǎng)絡(luò)可以進(jìn)行特征的提取,將句子中的句法與語義融入情感分析中.文獻(xiàn)[11]將雙向圖卷積應(yīng)用在關(guān)系抽取任務(wù)上,證明了正反兩個方向的卷積可以更好地捕獲鄰居節(jié)點間的信息;文獻(xiàn)[2]將雙向圖卷積應(yīng)用在社交媒體檢測中,使用從父節(jié)點向子節(jié)點散布的自上而下的傳播方式表示因果特征的提取,從子節(jié)點向父節(jié)點聚合的自下而上的聚合方式表示結(jié)構(gòu)信息的提取,最后通過合并得到出色的效果.本文考慮將這兩種傳播方式運用在ABSA任務(wù)中,用以分別獲取豐富的語義或結(jié)構(gòu)特征.
近年來有研究者嘗試通過多個通道網(wǎng)絡(luò)的特征融合取得進(jìn)一步的效果提升.文獻(xiàn)[2]在社交媒體檢測中使用兩種網(wǎng)絡(luò)分別代表兩種不一樣的傳播,最終以融合的方式得出分類表示;文獻(xiàn)[3]在情感分析任務(wù)中使用兩種不同輸入圖卷積網(wǎng)絡(luò),以差分正則化等方式的融合也取得了不錯的效果.因此,多網(wǎng)絡(luò)融合也是一個值得考慮的點.將多網(wǎng)絡(luò)通道與兩種傳播方式相結(jié)合得出基于語義特征的決策與基于結(jié)構(gòu)特征的決策,經(jīng)過融合即為本文基于注意力的雙通道模型.
2 模型概述
本文的TCCM模型框架主要包含詞嵌入、雙向長短期記憶 (Bi-Directional Long Short-Term Memory,BiLSTM) 層、語義關(guān)聯(lián)層、雙通道網(wǎng)絡(luò)模塊、融合層、分類層,其中每個通道網(wǎng)絡(luò)中又包含圖卷積層、交互注意力層、平均池化層.具體結(jié)構(gòu)如圖1所示.
2.1 詞嵌入與擴(kuò)展的依存表示
本文使用文獻(xiàn)[12]的方法對初始語料進(jìn)行詞嵌入.指定一句話由k個單詞組成,可以表示為{w 1,w 2,…,wn x,…,wn+L x,…,w k-1,w k}.其中{wn x,…,wn+L x}表示含有L個方面詞.句中的{w 1,w 2,…,w k-1,w k}表示基于方面詞的上下文單詞.對初始語料進(jìn)行映射后得到詞嵌入矩陣,其形式為A∈RH×d h,其中H代表詞匯表大小,d h代表詞嵌入的維度.
利用自然語言處理工具包將初始語料處理生成句法依存樹,以此構(gòu)建句法依存樹的鄰接矩陣W作為句法結(jié)構(gòu).在依存表示中的節(jié)點添加自循環(huán)如W aa=1.若節(jié)點之間存在依存關(guān)系則W ab=1,若節(jié)點之間不存在依存關(guān)系則W ab=0.為了獲得全面句法信息從而構(gòu)建擴(kuò)展的依存表示Q ab.其中與原始句法結(jié)構(gòu)不同的點在于使用的初始矩陣為全1矩陣,而非全0矩陣.本文認(rèn)為句子中所有單詞之間本存在相應(yīng)聯(lián)系,單從置0與置1的角度出發(fā)會割舍一些句法信息.在全1的初始矩陣上進(jìn)一步更新節(jié)點關(guān)系,可以使得每個詞之間存在關(guān)聯(lián)的同時也能很好獲取相應(yīng)的節(jié)點關(guān)系,從而結(jié)構(gòu)方面包含更全面的句法信息.將依存信息進(jìn)行擴(kuò)展是為與語義關(guān)聯(lián)信息結(jié)合,兼顧句法信息全面性與語義信息關(guān)聯(lián)性才是本文的目的.
2.2 BiLSTM
本文使用BiLSTM進(jìn)行編碼.傳統(tǒng)的LSTM僅能單向處理信息,而BiLSTM可從正反兩個方向?qū)υ~向量進(jìn)行處理,將正向LSTM與反向LSTM的輸出合并得到含有上下文信息的隱層表示.LSTM的計算公式如下:
d t=σ(W d·[h t-1,v t]+b d),? (1)
e t=σ(W e·[h t-1,v t]+b e),? (2)
o t=σ(W o·[h t-1,v t]+b o),? (3)
=tanh(W c·[h t-1,v t]+b c),? (4)
c t=d t*c t-1+e t*,? (5)
h t=o t*tanh(c t),? (6)
式中:d t,e t,o t分別代表遺忘門、輸入門、輸出門;W d,W e,W o,W c表示權(quán)重矩陣;b d,b e,b o,b c為偏置值;σ,tanh分別表示sigmoid激活函數(shù)與雙曲正切函數(shù);c t-1,c t分別表示t-1,t時刻記憶細(xì)胞狀態(tài).本文使用兩層BiLSTM,計算方法如下:
h t=LSTM(h2 t-1,s t),? (7)
h t=LSTM(h2 t-1,s t),? (8)
h t=[h t,h t],? (9)
其中:h t表示拼接兩層正反向LSTM后的輸出;s t表示t時刻輸入.記BiLSTM對上下文編碼后得到的隱層表示為HS,如式(10)所示:
HS=H 1,…,Hn x,…,Hn+L x,…,H k,? (10)
式中HS為經(jīng)過BiLSTM編碼后的隱層表示,其中Hn x,…,Hn+L x 為方面詞,H 1,…,H k為基于方面詞的上下文單詞.
2.3 語義關(guān)聯(lián)
對于編碼后的信息一般沒有分配信息間的權(quán)重,無法根據(jù)權(quán)重判斷語義信息間的關(guān)聯(lián)程度,所以本文使用自注意力機(jī)制完成語義信息的關(guān)聯(lián).自注意力機(jī)制處理后的信息可以看作有邊的加權(quán)有向圖,可用以表示語義信息的關(guān)聯(lián)性.具體計算方式如下:
Q 1=HS·(HS)T,? (11)
v1 t=exp(Q 1)∑ni=1exp(Q 1), (12)
μ 1=∑nt=1v1 tHS,? (13)
其中Q 1表示上下文中單詞對方面詞的相關(guān)性,v1 t 表示方面詞對上下文的注意力權(quán)重,μ 1表示經(jīng)過自注意力后的權(quán)重信息表示.
2.4 雙通道網(wǎng)絡(luò)
2.4.1 圖卷積
圖卷積網(wǎng)絡(luò)可以從圖的層面完成鄰域信息提?。蠖鄶?shù)情感分析任務(wù)的研究中自上而下傳播考慮了信息的語義特征,缺少自下而上聚合信息的結(jié)構(gòu)特征,于是本文使用雙通道圖卷積網(wǎng)絡(luò)融合兩種信息傳遞的方式,分別得到基于語義特征與結(jié)構(gòu)特征的信息表示.通道1與通道2中同時包含了圖卷積層、交互注意力層、平均池化層.不同點在于通道1中使用如圖2左圖所示卷積方式,從父節(jié)點向子節(jié)點散布的自上而下的傳播方式表示著語義特征的提取,通道2中使用如圖2右圖所示卷積方式,從子節(jié)點向父節(jié)點聚合的自下而上的聚合方式表示著結(jié)構(gòu)信息的提取,這樣雙通道可以分別得到基于語義特征的情感決策與基于結(jié)構(gòu)特征的情感決策,使之可以在求和平均層中融合兩種決策的情感選擇.
通道1和通道2的圖卷積具體計算方式分別如式(14)和式(15)所示:
μ i=ρ∑nj=1Q abWiμ 1+bi,? (14)
μ i=ρ∑nj=1QT abWiμ 1+bi,? (15)
式中μ 1為權(quán)重信息,Wi代表權(quán)重矩陣,bi代表偏置值,ρ代表ReLu激活函數(shù),Q ab為依存表示,QT ab 為轉(zhuǎn)置的依存表示,μ i為基于語義特征的圖卷積輸出,μ i為基于結(jié)構(gòu)特征的圖卷積輸出.
2.4.2 交互注意力
雙通道圖卷積網(wǎng)絡(luò)中為了避免圖卷積后產(chǎn)生的信息缺失,本文使用交互注意力機(jī)制進(jìn)行互補.使用圖卷積的輸出與語義信息進(jìn)行交互注意力,可以緩解經(jīng)過圖卷積神經(jīng)網(wǎng)絡(luò)后產(chǎn)生的梯度消失問題,起到類似于殘差網(wǎng)絡(luò)的作用.具體計算方法如下:
Q 2=Hs·(μ i)T, (16)
Q 3=Hs·(μ i)T,? (17)
v2 t=exp(Q 2)∑ni=1exp(Q 2), (18)
v3 t=exp(Q 3)∑ni=1exp(Q 3), (19)
μ 2=∑nt=1v2 t μ 1,? (20)
μ 3=∑nt=1v3 t μ 1,? (21)
其中:Q 2,Q 3分別表示通道1與通道2中圖卷積與經(jīng)過自注意力后信息表示的相關(guān)性;v2 t,v3 t 分別表示結(jié)合了隱層輸出的雙通道圖卷積的注意力權(quán)重;μ 2,μ 3分別表示通道1與通道2中圖卷積經(jīng)過交互注意力后的信息表示.
2.4.3 平均池化
雙通道分別在經(jīng)過圖卷積與注意力的處理后方面詞中包含了上下文信息的句法特征與語義關(guān)聯(lián)信息,于是本文采取置0的方法,分別選取μ 2,μ 3中的方面詞作為輸入,將非方面詞置為0,方面詞即為原有表示.具體方法如下:
μ 2=0,μ 3=0,1≤i 其中:μ 2=0,μ 3=0為被置為0的非方面詞;n與n+1為方面詞的索引.接著將μ 2,μ 3中的方面詞分別平均池化,用以提取方面詞表示中的特征,具體方法如下: μs 2=f({μ Hn,μ Hn+1,…,μ Hn+L}),? (23) μs 3=f({μ Hn,μ Hn+1,…,μ Hn+L}),? (24) 其中:f(·)表示將方面詞經(jīng)過平均池化函數(shù);{μ Hn,μ Hn+1,…,μ Hn+L}為只含有方面詞的表示;μs 2,μs 3 分別表示帶有通道1中語義特征信息的方面詞表示與帶有通道2中結(jié)構(gòu)特征信息的方面詞表示. 2.5 融合層 將雙通道中帶有各自特征信息的方面詞表示進(jìn)行求和平均,得到同時包含語義特征信息與結(jié)構(gòu)特征信息的決策: μs=(μs 2+μs 3)/2,? (25) 式中μs為融合兩種決策的最終表示. 2.6 分類層 將融合兩種決策的方面詞表示μs送入Softmax函數(shù)中,得到用以情感分類的概率,通過損失函數(shù)(L)不斷優(yōu)化模型參數(shù): L=-∑Ci∑Zjyj i logy″, (26) 式中i為數(shù)據(jù)樣本的索引,j為情感類別索引,C為樣本總數(shù),Z為情感類別數(shù),yj i 為情感極性,y″為預(yù)測的情感極性. 3 實驗 3.1 實驗環(huán)境 本文的實驗平臺如表1所示. 3.2 數(shù)據(jù)集 本文選取了Laptop、Restaurant 與Twitter評論三個公開的數(shù)據(jù)集.Laptop、Restaurant選自國際語義評測大會SemEval-2014 Task(https:∥aclanthology.org/S14-2004/)中的任務(wù)4.Twitter選自ACL-2014(https:∥aclanthology.org/P14-2009/).三個數(shù)據(jù)集中包含消極、中性和積極三種不同情感極性,具體數(shù)據(jù)分布個數(shù)如表2所示. 3.3 實驗參數(shù)與評價指標(biāo) 3.3.1 參數(shù)設(shè)置 本文使用300維的詞向量進(jìn)行初始化,使用兩層BiLSTM、一層GCN,在Laptop與Restaurant數(shù)據(jù)集上使用Adam優(yōu)化器進(jìn)行優(yōu)化,在Twitter數(shù)據(jù)集上采用Adamax優(yōu)化器進(jìn)行優(yōu)化.為了防止過擬合采用了dropout.具體參數(shù)設(shè)置如表3所示. 3.3.2 評價指標(biāo) 本文采用準(zhǔn)確率(Accuracy,A)和MacroF1值為評價指標(biāo),具體公式如下: P=TPTP+FP, (27) R=TPTP+FN, (28) MacroP=1n∑ni=1 P i,? (29) MacroR=1n∑ni=1 R i, (30) MacroF1=2×MacroP×MacroRMacroP+MacroR, (31) A=TN,? (32) 其中P表示精確率,R表示召回率,n表示類別數(shù),TP表示正樣本預(yù)測為正,F(xiàn)P表示正樣本預(yù)測為負(fù),F(xiàn)N表示負(fù)樣本預(yù)測為負(fù),TN表示負(fù)樣本預(yù)測為正,MacroF1(簡稱F1)表示各個類別F1的平均值,T為正樣本數(shù),N為總樣本數(shù). 3.4 對比實驗 本文選用以下模型作為對比,且在相同實驗環(huán)境下運行,結(jié)果具體如表4所示. 1)IAN[13]:同時建模方面詞與上下文信息,可以使得方面詞與上下文信息用注意力交互融合. 2)AOA[14]:使用長短期記憶神經(jīng)網(wǎng)絡(luò)同時對方面詞和文本建模,以此關(guān)注句中重要內(nèi)容. 3)AEN-Glove[15]:使用含有注意力機(jī)制的編碼器對目標(biāo)和上下文信息建模,可以挖掘出詞嵌入中的交互式語義信息. 4)R-GAT(Stanford)[5]:通過修剪依存樹,重塑了一個以方面為基礎(chǔ)的依存樹,使用關(guān)系圖注意力編碼樹結(jié)構(gòu). 5)ASGCN[16]:使用圖卷積網(wǎng)絡(luò)處理依存關(guān)系,利用句間句法依存結(jié)構(gòu)來解決長期依存問題. 6)Repwalk[17]:提出一種新型神經(jīng)網(wǎng)絡(luò),使用多路徑語法圖,并在圖上進(jìn)行隨機(jī)游走策略. 7)CDT[18]:提出卷積依賴模型,識別句中特定方面的詞語情感,將依存樹與圖卷積融合進(jìn)行表征學(xué)習(xí). 本文選取的對比模型可以分為含有注意力機(jī)制與圖神經(jīng)網(wǎng)絡(luò)兩類,其中IAN、AOA、AEN-Glove主要利用注意力機(jī)制完成分類任務(wù),R-GAT、ASGCN、Repwalk、CDT均使用依存樹獲取語法信息并利用圖神經(jīng)網(wǎng)絡(luò)完成分類任務(wù),但是這些模型中僅包含單一通道.所有模型均不使用預(yù)訓(xùn)練語言模型. 3.5 對比實驗分析 由表4可知,使用注意力機(jī)制或圖神經(jīng)網(wǎng)絡(luò)的模型都有著不錯的效果,但本文同時結(jié)合注意力與雙通道網(wǎng)絡(luò)的TCCM模型效果更好.相比于使用單通道的模型,雙通道網(wǎng)絡(luò)通過兩種不同的信息傳遞方式更好地獲取到側(cè)重于語義特征或結(jié)構(gòu)特征兩種信息,對情感分析任務(wù)的提升有著一定的幫助.相比于使用注意力的模型,使用自注意力可以獲取語義信息的關(guān)聯(lián)性并與擴(kuò)展的句法結(jié)構(gòu)搭配作為圖卷積的輸入,兼顧了兩種信息的TCCM模型自然可以取得更好的分類效果. 3.6 模型分析實驗 3.6.1 擴(kuò)展依存表示的有效性 為了說明擴(kuò)展依存表示的有效性,本文建立了WEDR(Without Extended Dependency Representation)模型代表消融擴(kuò)展依存表示的模型,并在三個數(shù)據(jù)集上進(jìn)行了對比實驗,實驗結(jié)果如表5所示,實驗中保留了注意力與雙通道圖卷積網(wǎng)絡(luò). 從表5可以看出WEDR和TCCM準(zhǔn)確率和F1值相差較多,主要原因是本文模型將擴(kuò)展依存表示與注意力相結(jié)合,以兼顧全面句法信息與語義信息間的關(guān)聯(lián)性為目的,而消融了依存表示后的WEDR模型在無法包含更全面句法信息的前提下使用自注意力會導(dǎo)致信息的丟失以及梯度的彌散.實驗結(jié)果表明本文模型可以包含更全面的句法信息,并與注意力機(jī)制的結(jié)合能夠更好地完成任務(wù). 3.6.2 雙通道網(wǎng)絡(luò)的有效性 為了證明使用雙通道網(wǎng)絡(luò)的有效性,本文構(gòu)建了SFCN(Semantic Feature Channel Network)模型代表語義特征通道網(wǎng)絡(luò),即只考慮語義特征的信息決策,SCCN(Structural Feature Channel Network)模型代表結(jié)構(gòu)特征通道網(wǎng)絡(luò),即只考慮結(jié)構(gòu)特征的信息決策,兩種模型都保留了擴(kuò)展的依存表示與注意力機(jī)制. 由表6可知,無論是消融了結(jié)構(gòu)特征的SFCN模型還是消融了語義特征的SCCN模型效果都略低于雙通道的TCCM模型,說明雙通道圖卷積網(wǎng)絡(luò)可以通過語義特征以及結(jié)構(gòu)特征兩個方面更好地進(jìn)行信息獲?。驗楦腹?jié)點向子節(jié)點散布的傳播偏向于語義特征的提取,子節(jié)點向父節(jié)點聚合的方式偏向于結(jié)構(gòu)信息的提取,通過兩個角度的決策融合可以更好地完成情感分類任務(wù),證明了本文融合雙通道網(wǎng)絡(luò)決策的可行性,雙通道的融合可以使得分類結(jié)果有著一定提升. 3.6.3 注意力的有效性 為了驗證注意力機(jī)制的有效性,建立了NAM(No Attention Mechanism)、NSAM(No Self Attention Mechanism)、NIAM(No Interactive Attention Mechanism)模型分別代表消融注意力、消融自注意力、消融交互注意力的模型.注意力消融如表7所示.實驗結(jié)果表明注意力的存在是有一定效果的,兩種注意力機(jī)制的結(jié)合可以很好完成語義信息的關(guān)聯(lián),以及彌補信息的丟失.其次在實驗中分別對自注意力與交互注意力進(jìn)行消融,以準(zhǔn)確率為指標(biāo)研究單個注意力在三個數(shù)據(jù)集上對于模型的影響,結(jié)果如圖3所示.實驗結(jié)果表明結(jié)合兩種注意力的TCCM模型的準(zhǔn)確率高于只保留交互注意力的NSAM模型和只保留了自注意力的NIAM模型.所以自注意力和交互注意力均有存在的必要性.自注意力可以更好選擇關(guān)注對情感分類任務(wù)重要的信息,獲取語義信息間的關(guān)聯(lián)性;經(jīng)過圖卷積處理的數(shù)據(jù)存在一定程度的信息丟失,而交互注意力在雙通道網(wǎng)絡(luò)中起到殘差互補的作用,將圖卷積的輸出與權(quán)重信息進(jìn)行二次交互,用以解決經(jīng)過圖卷積層后造成的信息缺失. 綜上所述,采用單一注意力機(jī)制的模型效果低于同時結(jié)合兩種注意力的模型,從而證明本文中使用了兩種注意力機(jī)制的TCCM模型比單一注意力模型更優(yōu)越. 4 結(jié)束語 為了解決兼顧句法信息全面性與語義信息關(guān)聯(lián)性的問題,同時為了將兩種信息傳遞方式融合至情感分析任務(wù)中,本文提出了TCCM模型,使之可以在考慮全面句法結(jié)構(gòu)信息時得到語義信息的關(guān)聯(lián)程度.其中擴(kuò)展的依存表示包含更全面的句法信息,自注意力可以獲取語義關(guān)聯(lián)性,雙通道圖卷積網(wǎng)絡(luò)通過兩個通道實現(xiàn)兩種不同的信息決策,通道中的交互注意力避免經(jīng)過圖卷積層后產(chǎn)生信息缺失問題.最后融合雙通道的決策并用Softmax完成情感分類.通過三個公開數(shù)據(jù)集上的實驗結(jié)果,證明該模型的有效性和可行性.此外,對于每部分的消融實驗也能證明各個模塊安排的合理性.下一步的工作可以考慮如何將語義分析與句法結(jié)構(gòu)分析分開進(jìn)行,從而實現(xiàn)更精準(zhǔn)的語義與句法交互,也可以考慮在任務(wù)中使用預(yù)訓(xùn)練語言模型以提高分類效果. 數(shù)據(jù)申明 本文使用Glove詞向量模型對初試語料進(jìn)行詞嵌入,可在DOI:10.3115/v1/D14-1162,URL:https:∥aclanthology.org/D14-1162進(jìn)行查閱.Laptop、Restaurant數(shù)據(jù)集選自國際語義評測大會SemEval-2014 Task中的任務(wù)4,可在DOI:10.3115/v1/S14-2004,URL:https:∥aclanthology.org/S14-2004進(jìn)行查閱.Twitter數(shù)據(jù)集選自ACL-2014,可在DOI:10.3115/v1/P14-2009,URL:https:∥aclanthology.org/P14-2009進(jìn)行查閱.其余實驗數(shù)據(jù)均在本文實驗環(huán)境下運行得出. 參考文獻(xiàn) References [1] 羅嘉,王樂豪,涂姍姍,等.基于LSTM-BLS的突發(fā)氣象災(zāi)害事件中公眾情感傾向分析[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2021,13(4):477-483 LUO JIA,WANG Lehao,TU Shanshan,et al.Analysis of public sentiment tendency in sudden meteorological disasters based on LSTM-BLS[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2021,13(4):477-483 [2] Bian T,Xiao X,Xu T Y,et al.Rumor detection on social media with bi-directional graph convolutional networks[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(1):549-556 [3] Li R F,Chen H,F(xiàn)eng F X,et al.Dual graph convolutional networks for aspect-based sentiment analysis[C]∥Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1:Long Papers),2021.DOI:10.18653/v1/2021.acl-long.494 [4] Hou X C,Qi P,Wang G T,et al.Graph ensemble learning over multiple dependency trees for aspect-level sentiment classification[J].arXiv e-print,2021,arXiv:2103.11794 [5] Wang K,Shen W Z,Yang Y Y,et al.Relational graph attention network for aspect-based sentiment analysis[C]∥Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics,2020.DOI:10.18653/v1/2020.acl-main.295 [6] Chen G M,Tian Y H,Song Y.Joint aspect extraction and sentiment analysis with directional graph convolutional networks[C]∥Proceedings of the 28th International Conference on Computational Linguistics,2020.DOI:10.18653/v1/2020.coling-main.24 [7] 王曉霞,錢雪忠,宋威.基于注意力與圖卷積網(wǎng)絡(luò)的關(guān)系抽取模型[J].計算機(jī)應(yīng)用,2021,41(2):350-356 WANG Xiaoxia,QIAN Xuezhong,SONG Wei.Relation extraction model via attention-based graph convolutional network[J].Journal of Computer Applications,2021,41(2):350-356 [8] Chen P,Sun Z Q,Bing L D,et al.Recurrent attention network on memory for aspect sentiment analysis[C]∥Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing,2017.DOI:10.18653/v1/D17-1047 [9] Tang D Y,Qin B,Liu T.Aspect level sentiment classification with deep memory network[C]∥Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing,2016.DOI:10.18653/v1/D16-1021 [10] 馬遠(yuǎn),程春玲.融合左右雙邊注意力機(jī)制的方面級別文本情感分析[J].計算機(jī)應(yīng)用研究,2021,38(6):1753-1758 MA Yuan,CHENG Chunling.Joint left and right attention mechanism for aspect-level text sentiment analysis[J].Application Research of Computers,2021,38(6):1753-1758 [11] Fu T J,Li P H,Ma W Y.GraphRel:modeling text as relational graphs for joint entity and relation extraction[C]∥Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics,2019:1409-1418 [12] Pennington J,Socher R,Manning C.Glove:global vectors for word representation[C]∥Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP),2014.DOI:10.3115/v1/D14-1162 [13] Ma D H,Li S J,Zhang X D,et al.Interactive attention networks for aspect-level sentiment classification[J].arXiv e-print,2017,arXiv:1709.00893 [14] Huang B X,Ou Y L,Carley K M.Aspect level sentiment classification with attention-over-attention neural networks[C]∥International Conference on Social Computing,Behavioral-Cultural Modeling and Prediction and Behavior Representation in Modeling and Simulation.Springer,Cham,2018:197-206 [15] Song Y W,Wang J H,Jiang T,et al.Attentional encoder network for targeted sentiment classification[J].arXiv e-print,2019,arXiv:1902.09314 [16] Zhang C,Li Q C,Song D W.Aspect-based sentiment classification with aspect-specific graph convolutional networks[C]∥Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP),2019:4560-4570 [17] Zheng Y W,Zhang R C,Mensah S,et al.Replicate,walk,and stop on syntax:an effective neural network model for aspect-level sentiment classification[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(5):9685-9692 [18] Sun K,Zhang R C,Mensah S,et al.Aspect-level sentiment analysis via convolution over dependency tree[C]∥Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP),2019:5683-5692 Aspect level sentiment analysis based on attention and dual channel network YANG Chunxia1 XU Ben1 GUI Qiang1 HAN Yu1 1School of Automation/Jiangsu Key Laboratory of Big Data Analysis Technology (B-DAT)/ Collaborative Innovation Center of Atmospheric Environment and Equipment Technology(CICAEET), Nanjing University of Information Science & Technology,Nanjing 210044 Abstract In view of the problems that aspect level sentiment analysis tasks cannot give full consideration to syntactic comprehensiveness and semantic relevance,and the graph volume used in most studies only considers the top-down dissemination of information and ignores the bottom-up aggregation of information,this paper proposes a sentiment analysis model based on attention and dual channel network.While expanding the dependency representation,the model uses self attention to obtain the information matrix with semantic relevance,and uses a dual channel network to combine comprehensive syntactic and semantic relevance information.The dual channel network focuses on the semantic features of top-down propagation and the structural features of bottom-up aggregation respectively.The graph convolution output in the channel will interact with the information matrix,pay attention to complement the residual,and then complete the tasks in the channel through average pooling.Finally,the final sentiment classification features are obtained by the fusion of semantic based and structure based decision-makings.The experimental results show that the accuracy and F1 value of the model are improved on three public data sets. Key words attention mechanism;dual channel network;decision fusion;graph convolution