曹衛(wèi)東,李嘉琪,王懷超
(中國民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津300300)
目標(biāo)情感分析[1-3]是對給定文本中每個(gè)目標(biāo)實(shí)體提及的情感極性進(jìn)行分類,是目前的研究熱點(diǎn)。該目標(biāo)實(shí)體存在于給定的文本中,一個(gè)文本可以有多個(gè)目標(biāo)實(shí)體。目標(biāo)情感分析是一種細(xì)粒度的情感分類任務(wù),當(dāng)文本中的多個(gè)實(shí)體有不同的情感極性時(shí),它能夠針對文本中的某一實(shí)體進(jìn)行情感極性的分類。例如,“我買了一個(gè)手機(jī),外觀漂亮,但電池壽命較短”。這里有兩個(gè)目標(biāo)實(shí)體,外觀和電池。目標(biāo)實(shí)體“外觀”對應(yīng)的情感極性是積極的,而“電池”是消極的。如果不考慮特定實(shí)體,則難以得出文本對應(yīng)的正確語義。
目標(biāo)情感分析通常采用基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型,即長短期記憶網(wǎng)絡(luò)和注意力機(jī)制相結(jié)合的模型。這類模型分類效果較好,受廣大學(xué)者歡迎。文獻(xiàn)[4]中提出的循環(huán)注意力網(wǎng)絡(luò)(RAM)模型將多跳注意力的結(jié)果與雙向長短期記憶網(wǎng)絡(luò)非線性組合,增強(qiáng)了模型的表示性,以此更好地捕捉情感特征。文獻(xiàn)[5]中提出的深度記憶網(wǎng)絡(luò)(MemNet)模型引入了深度存儲(chǔ)器網(wǎng)絡(luò),捕獲關(guān)于給定目標(biāo)詞的每個(gè)上下文單詞,建立了更高的語義信息。這類循環(huán)神經(jīng)網(wǎng)絡(luò)模型將復(fù)雜的循環(huán)神經(jīng)網(wǎng)絡(luò)作為序列編碼來計(jì)算文本的隱藏語義,具有很強(qiáng)的表示性。但是循環(huán)神經(jīng)網(wǎng)絡(luò)模型難以并行化,導(dǎo)致模型收斂時(shí)間長。
除了循環(huán)神經(jīng)網(wǎng)絡(luò)模型可用于解決情感分析外,還存在很多優(yōu)異的可替代循環(huán)神經(jīng)網(wǎng)絡(luò)模型的方法[6-8]。這類方法大多可并行計(jì)算,縮短收斂時(shí)間。文獻(xiàn)[9]中提出的帶有方面詞嵌入的門控卷積網(wǎng)絡(luò)(GCAE)模型采用卷積神經(jīng)網(wǎng)絡(luò)和門控機(jī)制,有效地選擇給定目標(biāo)詞的文本特征,且該模型可并行計(jì)算,提升了訓(xùn)練速度,同時(shí)也獲得了比較好的分類效果。文獻(xiàn)[10]中將目標(biāo)詞通過雙向循環(huán)神經(jīng)網(wǎng)絡(luò)后,利用卷積神經(jīng)網(wǎng)絡(luò)提取顯著的特征。然而,這些模型通常未考慮上下文和目標(biāo)詞之間的交互,無法充分利用目標(biāo)詞和上下文詞之間的關(guān)系。因此,該類模型未能很好地提取目標(biāo)詞關(guān)于上下文詞的情感特征。
基于此,筆者提出了一種既能提高準(zhǔn)確率,又能縮短收斂時(shí)間的注意力門控卷積網(wǎng)絡(luò)(Attention Gated Convolutional Network,AGCN)模型。該模型將上下文和目標(biāo)詞通過多頭注意力交互,以充分提取特征,利用門控卷積機(jī)制進(jìn)一步捕獲與目標(biāo)詞有關(guān)的情感特征,在一定程度上提升了準(zhǔn)確率,降低了收斂時(shí)間。
圖1 注意力門控卷積網(wǎng)絡(luò)模型框架圖
對于長度為n的句子s={x1,x2,…,xn},xi為句子的第i個(gè)詞向量。給定的上下文詞序列Xc={xc1,xc2,…,xcn},目標(biāo)詞序列Xt={xt1,xt2,…,xtm}。基于目標(biāo)的情感分析任務(wù)是根據(jù)給定的目標(biāo)詞,得出上下文對應(yīng)的情感極性。
為了更好地提取關(guān)于目標(biāo)的情感特征,實(shí)現(xiàn)細(xì)粒度的情感分類,筆者提出了一種用于目標(biāo)情感分析的注意力門控卷積網(wǎng)絡(luò)模型。該模型由5層構(gòu)成,分別為輸入層、注意力層、門控卷積層、最大池化層和輸出層。模型框架如圖1所示。
文中的輸入為上下文詞向量和對應(yīng)的目標(biāo)詞向量。將兩者分別作為輸入,提取上下文詞關(guān)于目標(biāo)詞的情感特征。
GloVe是一個(gè)基于全局詞頻統(tǒng)計(jì)的詞表示模型[11],將單詞轉(zhuǎn)化為詞向量。利用預(yù)訓(xùn)練好的GloVe,得出詞向量矩陣MRd×|V|。其中,d是詞向量維度,|V|是詞典大小。
筆者將交互式的上下文和目標(biāo)詞通過多頭注意力機(jī)制[12],充分提取情感特征和基于目標(biāo)的情感特征。
將鍵序列k={k1,k2,…,kn}映射到查詢序列q={q1,q2,…,qm},得到一次輸出,通過多次計(jì)算,將多次結(jié)果拼接得到最終輸出。
各個(gè)單詞加權(quán)平均后得到的一次注意力函數(shù)如下:
fatt=S(s)·k,
(1)
其中,S表示softmax函數(shù),s表示ki和qj的語義相似度。s的公式如下:
s=tanh([ki;qj]·Ws) ,
(2)
其中,WsR2d,Ws是模型的訓(xùn)練參數(shù)。
將h次的注意力表示進(jìn)行拼接,輸出為
fmha=[fatt1;fatt2;…;fatth]·Wmha,
(3)
其中,WmhaRd×d。
上下文間感知詞嵌入建模(Intra-MHA)是將相同的上下文詞序列作為輸入,即k=q。由上下文詞向量xc可得出上下文間感知詞嵌入建模表示c=[c1,c2,…,cn]:
c=fmha(xc,xc)。
(4)
上下文交互目標(biāo)詞建模(Inter-MHA)是將上下文詞序列和目標(biāo)詞序列分別作為輸入,即k≠q。由上下文詞向量xc和對應(yīng)的目標(biāo)詞向量xt可得出上下文交互目標(biāo)詞建模表示t=[t1,t2,…,tm]:
t=fmha(xc,xt) 。
(5)
卷積神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于圖像[13]和情感分析領(lǐng)域[14]。將卷積神經(jīng)網(wǎng)絡(luò)和門控機(jī)制用于情感分類,可以并行計(jì)算且選擇性地輸出情感特征,獲得良好的分類效果。該層的輸入為c和t,輸入的最大長度為n。將nk個(gè)尺寸不同的卷積核k與詞向量進(jìn)行卷積,經(jīng)過門控機(jī)制得出情感特征oi,以實(shí)現(xiàn)對文本的局部感知,從而更好地提取局部特征。
卷積過程包含兩部分,帶有目標(biāo)詞的上下文詞表示ai和上下文詞表示ui。公式如下:
ai=frelu(ci:i+k*Wa+vaVa+ba) ,
(6)
其中,frelu是relu激活函數(shù),WaRd×k,ba是偏置。ai用于生成帶有目標(biāo)詞的情感特征,控制情感特征的傳播。
vj=frelu(tj:j+k*Wv+bv) ,
(7)
其中,WvRd×k,bv是偏置。vj通過最大池化得到va。
ui=ftanh(ci:i+k*Wu+bu) ,
(8)
其中,ftanh是tanh激活函數(shù),WuRd×k,bu是偏置。ui用于生成情感特征。
在t位置處,計(jì)算的情感特征oi為
oi=ui*ai。
(9)
筆者利用反向傳播算法,通過最小化交叉熵?fù)p失函數(shù)來訓(xùn)練和更新注意力門控卷積網(wǎng)絡(luò)模型,以此選擇最優(yōu)的模型參數(shù),得出關(guān)于目標(biāo)的情感分類。采用的交叉熵?fù)p失函數(shù)為
(10)
文中實(shí)驗(yàn)環(huán)境如下:操作系統(tǒng)為Windows 10,處理器為i7-6700,內(nèi)存大小為16 GB,顯存為GTX1060 6 GB,開發(fā)語言是Python 3.6,采用的深度學(xué)習(xí)框架為Pytorch。
文中的數(shù)據(jù)來源于SemEval 2014任務(wù)四的餐廳和筆記本電腦評論。每條數(shù)據(jù)包括評論、目標(biāo)詞和目標(biāo)詞對應(yīng)的情感極性。其中,情感極性有積極、中性和消極3種標(biāo)簽。數(shù)據(jù)集和數(shù)據(jù)信息統(tǒng)計(jì)如表1所示。
表1 數(shù)據(jù)集統(tǒng)計(jì)
在本實(shí)驗(yàn)中,為了保證兩個(gè)數(shù)據(jù)集能得出好的實(shí)驗(yàn)效果,分別對其采用不同的參數(shù)設(shè)置。為了得到相對穩(wěn)定的實(shí)驗(yàn)結(jié)果,本組實(shí)驗(yàn)分別重復(fù)進(jìn)行了50次。具體參數(shù)設(shè)置如表2所示。
表2 參數(shù)設(shè)置
為了驗(yàn)證文中提出的注意力門控卷積網(wǎng)絡(luò)模型對目標(biāo)情感分析的有效性,在SemEval 2014任務(wù)四的餐廳和筆記本電腦數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與循環(huán)神經(jīng)網(wǎng)絡(luò)模型和非循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比。其中,循環(huán)神經(jīng)網(wǎng)絡(luò)模型有目標(biāo)依賴的長短期記憶網(wǎng)絡(luò)(TD-LSTM)、基于注意力的長短期記憶網(wǎng)絡(luò)(ATAE-LSTM)、交互注意力網(wǎng)絡(luò)(IAN)和循環(huán)注意力網(wǎng)絡(luò)模型,非循環(huán)神經(jīng)網(wǎng)絡(luò)模型有深度記憶網(wǎng)絡(luò)、帶有方面詞嵌入的門控卷積網(wǎng)絡(luò)和注意力編碼網(wǎng)絡(luò)(AEN-GloVe)模型。
2.4.1 與基準(zhǔn)方法的準(zhǔn)確率對比實(shí)驗(yàn)
本組實(shí)驗(yàn)是為了驗(yàn)證注意力門控卷積網(wǎng)絡(luò)模型在提高準(zhǔn)確率方面的有效性。為了保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,在本組實(shí)驗(yàn)中,帶有方面詞嵌入的門控卷積網(wǎng)絡(luò)模型和注意力門控卷積網(wǎng)絡(luò)模型的準(zhǔn)確率值由文中的實(shí)驗(yàn)環(huán)境運(yùn)行得出,其他的實(shí)驗(yàn)結(jié)果均來自于對應(yīng)的論文。各模型準(zhǔn)確率的實(shí)驗(yàn)結(jié)果如表3所示。
表3 準(zhǔn)確率結(jié)果對比
從實(shí)驗(yàn)結(jié)果可以看出,相比于其他基線模型,筆者提出的注意力門控卷積網(wǎng)絡(luò)模型在兩個(gè)數(shù)據(jù)集上均得到了最高的準(zhǔn)確率。其中,在餐廳評論數(shù)據(jù)集上,注意力門控卷積網(wǎng)絡(luò)模型的準(zhǔn)確率有明顯的提高,準(zhǔn)確率約高達(dá)81.52%;在筆記本電腦評論數(shù)據(jù)集上的準(zhǔn)確率也有一定的提升,準(zhǔn)確率約達(dá)到了74.61%。
在循環(huán)神經(jīng)網(wǎng)絡(luò)模型中,TD-LSTM模型表現(xiàn)最差,因?yàn)樵撋窠?jīng)網(wǎng)絡(luò)模型只對目標(biāo)詞進(jìn)行粗略處理,未能實(shí)現(xiàn)良好的情感分類,因此準(zhǔn)確率較低。ATAE-LSTM、IAN和RAM模型分別都在長短期記憶網(wǎng)絡(luò)后增加了注意力機(jī)制,在餐廳評論數(shù)據(jù)集上的準(zhǔn)確率分別約比TD-LSTM模型高了1.57%、2.97%和4.60%。加入了注意力機(jī)制的模型可以更好地提取重要的特征,從而驗(yàn)證了注意力機(jī)制的有效性。IAN模型表現(xiàn)一般,因?yàn)樗皇菍⑽谋竞湍繕?biāo)詞交互學(xué)習(xí)注意力。而文中的注意力門控卷積網(wǎng)絡(luò)模型在交互注意力后,通過了門控卷積機(jī)制,進(jìn)一步提取有效的情感特征,比IAN模型在餐廳數(shù)據(jù)上的準(zhǔn)確率約提高了2.92%,從而驗(yàn)證了門控卷積機(jī)制的有效性。RAM模型比其他循環(huán)神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)優(yōu)異,它利用長短期記憶網(wǎng)絡(luò)和多跳注意力機(jī)制捕捉情感特征,增強(qiáng)了模型的表示能力,文中的注意力門控卷積網(wǎng)絡(luò)模型的準(zhǔn)確率在餐廳數(shù)據(jù)上比RAM模型約高了1.29%,驗(yàn)證了文中模型的有效性。
在非循環(huán)神經(jīng)網(wǎng)絡(luò)模型中,MemNet模型表現(xiàn)一般,因?yàn)樗鼪]有模擬嵌入的隱藏語義,最后一次關(guān)注的結(jié)果本質(zhì)上是單詞嵌入的線性組合,弱化了模型的表示能力。而文中的注意力門控卷積網(wǎng)絡(luò)模型中的門控卷積機(jī)制將多頭注意力的結(jié)果非線性地結(jié)合起來,能夠進(jìn)一步加強(qiáng)模型的表示能力,同時(shí)還可以生成和選擇性地輸出情感特征,從而獲得更好的分類效果,進(jìn)一步驗(yàn)證了門控卷積機(jī)制的有效性。AEN-GloVe模型在餐廳數(shù)據(jù)上表現(xiàn)優(yōu)異,準(zhǔn)確率約達(dá)到了80.98%,但是在筆記本電腦數(shù)據(jù)上表現(xiàn)一般,準(zhǔn)確率約為73.51%。相較于文中模型,GCAE模型沒有交互式的上下文和目標(biāo)詞,未能獲得較好的情感特征。文中的注意力門控卷積網(wǎng)絡(luò)模型比GCAE模型在餐廳評論數(shù)據(jù)集上的準(zhǔn)確率約提高了2.06%,由此驗(yàn)證了筆者將上下文詞向量和對應(yīng)的目標(biāo)詞向量作為輸入進(jìn)行多頭注意力交互的有效性。
2.4.2 與基準(zhǔn)方法的收斂時(shí)間對比實(shí)驗(yàn)
本組實(shí)驗(yàn)是為了驗(yàn)證注意力門控卷積網(wǎng)絡(luò)模型在縮短收斂時(shí)間方面的有效性。為了保證收斂時(shí)間的一致性,本組的實(shí)驗(yàn)數(shù)據(jù)均由文中實(shí)驗(yàn)環(huán)境運(yùn)行得出。本組實(shí)驗(yàn)在餐廳評論數(shù)據(jù)集上進(jìn)行,通過實(shí)驗(yàn),記錄各自模型的收斂時(shí)間。其中,收斂時(shí)間是各模型的測試集在準(zhǔn)確率得到最高時(shí)的迭代次數(shù)所消耗的時(shí)間。各模型收斂時(shí)間的實(shí)驗(yàn)結(jié)果如表4所示。
表4 收斂時(shí)間結(jié)果對比
從表4中容易看出,文中的注意力門控卷積網(wǎng)絡(luò)模型與循環(huán)神經(jīng)網(wǎng)絡(luò)模型相比,在很大程度上縮短了收斂時(shí)間;與非循環(huán)神經(jīng)網(wǎng)絡(luò)模型相比,比AEN-GloVe模型的收斂時(shí)間短,但是比MemNet和GCAE模型的收斂時(shí)間長。
在循環(huán)神經(jīng)網(wǎng)絡(luò)模型中,TD-LSTM模型的收斂時(shí)間最短,該模型雖然收斂時(shí)間短,但準(zhǔn)確率相對較低。其他基于長短期記憶網(wǎng)絡(luò)和注意力機(jī)制模型的收斂時(shí)間較長,因?yàn)殚L短期記憶網(wǎng)絡(luò)不能并行化,且注意力機(jī)制中計(jì)算權(quán)重時(shí)消耗較多時(shí)間。與其他循環(huán)神經(jīng)網(wǎng)絡(luò)模型收斂時(shí)間相比,文中的注意力門控卷積網(wǎng)絡(luò)模型收斂速度最快,分別比ATAE-LSTM、IAN和RAM模型的收斂時(shí)間降低了29.17 s、105.26 s和54.32 s。在注意力門控卷積網(wǎng)絡(luò)模型中,卷積門控機(jī)制可以并行計(jì)算,大大縮短了收斂時(shí)間,從而驗(yàn)證了門控卷積機(jī)制的有效性。
在非循環(huán)神經(jīng)網(wǎng)絡(luò)模型中,AEN-GloVe模型的收斂時(shí)間最長,該模型利用了兩層注意力機(jī)制,而注意力機(jī)制在計(jì)算權(quán)重時(shí)需要消耗大量時(shí)間,因此收斂時(shí)間長。注意力門控卷積網(wǎng)絡(luò)模型比MemNet和GCAE模型的收斂時(shí)間長,GCAE模型的收斂時(shí)間最短。MemNet和注意力門控卷積網(wǎng)絡(luò)模型的收斂時(shí)間相差不大。與GCAE模型相比,注意力門控卷積網(wǎng)絡(luò)模型比GCAE模型多增加了交互式的注意力機(jī)制層,該層延長了模型的收斂時(shí)間,雖然收斂時(shí)間增加了,但是交互注意力機(jī)制使得注意力門控卷積網(wǎng)絡(luò)模型的準(zhǔn)確率得到了提升,總體效果表現(xiàn)良好。
2.4.3 網(wǎng)絡(luò)參數(shù)對情感分類的影響
圖2 不同優(yōu)化器對比實(shí)驗(yàn)結(jié)果
網(wǎng)絡(luò)參數(shù)對模型的分類效果有很大的影響,因此對不同的數(shù)據(jù)集采用合適的網(wǎng)絡(luò)參數(shù)是非常必要的。為了驗(yàn)證網(wǎng)絡(luò)參數(shù)對實(shí)驗(yàn)的影響,本組進(jìn)行了一組實(shí)驗(yàn),針對餐廳和筆記本電腦數(shù)據(jù),在優(yōu)化函數(shù)上進(jìn)行對比實(shí)驗(yàn),觀察優(yōu)化函數(shù)對注意力門控卷積網(wǎng)絡(luò)模型的影響。本組實(shí)驗(yàn)各重復(fù)了20次,每次實(shí)驗(yàn)迭代20次。不同的數(shù)據(jù)集適用的優(yōu)化函數(shù)不同,本組實(shí)驗(yàn)采用的優(yōu)化函數(shù)分別為自適應(yīng)矩估計(jì)(Adam)、自適應(yīng)梯度下降(AdaGrad)和隨機(jī)梯度下降(SGD)。實(shí)驗(yàn)結(jié)果如圖2所示。
由圖2可知,當(dāng)自適應(yīng)梯度下降為優(yōu)化器時(shí),文中的注意力門控卷積網(wǎng)絡(luò)模型在餐廳數(shù)據(jù)上可以實(shí)現(xiàn)最高的準(zhǔn)確率;當(dāng)自適應(yīng)矩估計(jì)為優(yōu)化器時(shí),在筆記本電腦數(shù)據(jù)上有最好的分類效果;隨機(jī)梯度下降優(yōu)化器在兩個(gè)數(shù)據(jù)集上沒有表現(xiàn)出良好的效果。自適應(yīng)梯度下降和自適應(yīng)矩估計(jì)優(yōu)化器可以自適應(yīng)學(xué)習(xí),都較適用于稀疏數(shù)據(jù)。兩者相比,自適應(yīng)矩估計(jì)優(yōu)化器更適合較為稀疏的數(shù)據(jù)。筆記本電腦數(shù)據(jù)集比餐廳數(shù)據(jù)集稀疏,因此在筆記本電腦數(shù)據(jù)集上,自適應(yīng)矩估計(jì)優(yōu)化器有優(yōu)異的表現(xiàn),而在餐廳數(shù)據(jù)集上,自適應(yīng)梯度下降優(yōu)化器表現(xiàn)良好。隨機(jī)梯度下降優(yōu)化器不能自適應(yīng)學(xué)習(xí),在稀疏數(shù)據(jù)中的表現(xiàn)不如自適應(yīng)梯度下降和自適應(yīng)矩估計(jì)優(yōu)化器。
筆者提出了一種注意力門控卷積網(wǎng)絡(luò)模型,用于解決目標(biāo)情感分析。該模型將上下文和目標(biāo)詞嵌入作為輸入進(jìn)行多頭注意力交互,利用上下文和目標(biāo)詞之間的交互來充分提取關(guān)于目標(biāo)詞的情感特征,提升了模型的準(zhǔn)確率。并采用門控卷積機(jī)制提取與目標(biāo)詞有關(guān)的情感特征,不僅進(jìn)一步提高了準(zhǔn)確率,還解決了循環(huán)神經(jīng)網(wǎng)絡(luò)模型收斂時(shí)間長的問題。采用SemEval 2014任務(wù)四數(shù)據(jù)的實(shí)驗(yàn)結(jié)果驗(yàn)證了該模型在目標(biāo)情感分析領(lǐng)域不僅能夠提高目標(biāo)情感分類的準(zhǔn)確率,而且還能縮短收斂時(shí)間,在目標(biāo)情感分析領(lǐng)域方面有重要的應(yīng)用價(jià)值。值得注意的是,在收斂時(shí)間上,筆者提出的模型比非循環(huán)神經(jīng)網(wǎng)絡(luò)模型中的深度記憶網(wǎng)絡(luò)模型和帶有方面詞嵌入的門控卷積網(wǎng)絡(luò)模型的收斂時(shí)間長。因此,未來的研究方向?qū)⒅铝τ诮⒁粋€(gè)準(zhǔn)確率高且收斂時(shí)間快的模型。