国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙通道語義差網(wǎng)絡(luò)的方面級(jí)別情感分類

2022-02-03 13:12:50曾碧卿徐馬一楊健豪裴楓華甘子邦丁美榮程良倫
中文信息學(xué)報(bào) 2022年12期
關(guān)鍵詞:雙通道極性注意力

曾碧卿,徐馬一,楊健豪,裴楓華,甘子邦,丁美榮,程良倫

(1. 華南師范大學(xué) 軟件學(xué)院,廣東 佛山 528225;2. 廣東省信息物理融合系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510006)

0 引言

對(duì)文本數(shù)據(jù)進(jìn)行情感信息提取的技術(shù)稱為情感分析,其定義為: 情感分析是對(duì)文本中關(guān)于某個(gè)實(shí)體的觀點(diǎn)、情感、情緒以及態(tài)度的計(jì)算研究[1],情感分析任務(wù)主要可分為3類[2]: 文檔級(jí)、句子級(jí)和方面級(jí)[3-4]。方面級(jí)別情感分類(Aspect-level Sentiment Classifition,ASC)目的是分析句子中不同方面詞的情感極性[5],例如,句子“The price of the computer is too expensive, but I'm quite satisfied with its performance and appearance”,這個(gè)句子中有三個(gè)方面詞“price”“performance”,“appearance”,其對(duì)應(yīng)的情感極性分別是消極、積極和積極。方面級(jí)別情感分類屬于細(xì)粒度的情感分類,針對(duì)不同的方面詞挖掘更加細(xì)膩的情感信息,近年來已成為自然語言處理(Natural Language Processing,NLP)領(lǐng)域的重點(diǎn)研究問題之一。

近年來,深度學(xué)習(xí)技術(shù)在學(xué)術(shù)界持續(xù)升溫,在不同的領(lǐng)域取得了巨大的成功[6],以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[7]、門控循環(huán)單元(Gated Recurrent Unit,GRU)[8]以及長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory Network,LSTM)[9]為代表的深度神經(jīng)網(wǎng)絡(luò)模型以及注意力機(jī)制[10]在自然語言處理領(lǐng)域得到廣泛應(yīng)用。在方面級(jí)別情感分類任務(wù)中,結(jié)合深度神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制的模型長久以來占據(jù)了主流地位,大量學(xué)者對(duì)其展開了研究。Ma等人[11]利用兩個(gè)LSTM分別對(duì)上下文文本和方面詞進(jìn)行建模,并采用交互式注意力學(xué)習(xí)上下文文本和方面詞的特征。Fan等人[12]采用LSTM捕獲上下文信息,并設(shè)計(jì)了細(xì)粒度注意力以及粗粒度注意力來捕獲上下文和方面詞的特征信息。Huang等人[13]設(shè)計(jì)了AOA(Attention-over-Attention)網(wǎng)絡(luò),通過雙向LSTM分別獲取上下文和方面詞的隱狀態(tài)信息,進(jìn)而計(jì)算兩者的交互矩陣,通過交互矩陣計(jì)算方面詞到上下文的注意力、上下文到方面詞的注意力以及方面詞層面的注意力和上下文層面的注意力,使模型能夠有效關(guān)注文本中的重點(diǎn)信息,并取得了超過當(dāng)時(shí)所有以LSTM為基礎(chǔ)的模型的效果。Yang等人[14]提出了一種聯(lián)合注意力機(jī)制,通過同時(shí)對(duì)方面詞級(jí)別和上下文級(jí)別注意力進(jìn)行建模來提取有效情感特征。Song等人[15]構(gòu)建了一種注意力編碼網(wǎng)絡(luò),設(shè)計(jì)了內(nèi)部注意力以及外部注意力,有效捕捉了上下文內(nèi)部以及上下文與方面詞之間的特征,并取得了當(dāng)時(shí)的最佳效果。杜成正等人[16]設(shè)計(jì)了一種螺旋注意力,通過方面詞與上下文之間的螺旋式交互與加權(quán),有效提取了情感信息,并取得了優(yōu)異的性能。

上述結(jié)合深度神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制的方法均取得了優(yōu)秀的效果,但仍存在部分缺陷及不足之處:

(1) 在文本表示上,上述方法在建模過程中均采用分別對(duì)整體上下文和方面詞進(jìn)行詞嵌入,再進(jìn)行交互的架構(gòu),這種交互架構(gòu)能夠捕捉方面詞與上下文的特征信息及方面詞與上下文之間的交互信息,但卻難以獲取依賴于特定方面詞的上下文表示,如對(duì)文本“Great food but the price was unacceptable”,在對(duì)兩個(gè)不同的方面詞“food”和“price”進(jìn)行情感極性分析時(shí),上述方法只能獲取完全相同的上下文詞向量。在TOWE(Target-orient Opinion Words Extraction)任務(wù)中,F(xiàn)an等人[17]認(rèn)為在提取意見詞時(shí),在同一文本中,針對(duì)不同的意見目標(biāo),應(yīng)當(dāng)構(gòu)建依賴于特定意見目標(biāo)的上下文文本表示。受此啟發(fā),本文認(rèn)為在ASC任務(wù)中,由于同一文本往往存在多個(gè)不同的方面詞,所以在對(duì)同一文本中不同方面詞進(jìn)行情感極性分析時(shí),為捕獲不同的上下文特征,同樣應(yīng)當(dāng)構(gòu)建依賴于特定方面詞的上下文文本表示。

(2) 在語義特征上,上述方法中的注意力機(jī)制及其變體從不同層面和角度捕捉了上下文內(nèi)部、方面詞內(nèi)部、上下文與方面詞之間的特征信息,但忽略了上下文中方面詞雙側(cè)文本在整體語義上與方面詞情感極性具備不同程度的關(guān)聯(lián)度這一特征。如文本“Great food but the service was terrible”,針對(duì)方面詞“food”,其左側(cè)文本“Great”和右側(cè)文本“but the service was terrible”與其情感極性具備不同程度的關(guān)聯(lián),其左側(cè)的文本在整體語義上對(duì)其情感極性分析的重要性遠(yuǎn)高于右側(cè)的文本,同樣,針對(duì)方面詞“service”,其左側(cè)文本“Great food but the”和右側(cè)文本“was terrible”與其情感極性也具備不同程度的關(guān)聯(lián),其右側(cè)的文本在整體語義上對(duì)其情感極性分析的重要性遠(yuǎn)高于左側(cè)的文本。因此,本文提出語義差這一概念,語義差是指在一個(gè)句子中,針對(duì)某一方面詞,其雙側(cè)文本在整體語義上對(duì)該方面詞的情感極性分析具有不同程度的重要性,通常某一側(cè)文本所包含的促進(jìn)分析的語義信息遠(yuǎn)高于另一側(cè)。

針對(duì)上述問題,本文構(gòu)建了雙通道語義差網(wǎng)絡(luò)(Double Channel Semantic Difference Network, DCSDN)。針對(duì)問題(1),本文設(shè)計(jì)了一種雙通道架構(gòu),利用預(yù)訓(xùn)練語言模型從方面詞雙側(cè)對(duì)文本展開建模,以此構(gòu)建依賴于特定方面詞的上下文表示,同時(shí)以Sentence-pair的形式構(gòu)建上下文與方面詞之間的交互;針對(duì)問題(2),本文設(shè)計(jì)了語義提取網(wǎng)絡(luò)與語義差注意力機(jī)制,首先通過語義提取網(wǎng)絡(luò)對(duì)雙通道中的文本進(jìn)行語義提取,進(jìn)而利用語義差注意力機(jī)制來增強(qiáng)模型對(duì)促進(jìn)方面詞情感極性分析成分的關(guān)注。

本文主要貢獻(xiàn)總結(jié)如下:

(1) 設(shè)計(jì)了雙通道架構(gòu),對(duì)相同文本中不同的方面詞建模時(shí),能夠獲取依賴于特定方面詞的上下文表示。

(2) 提出了語義差這一概念,并據(jù)此設(shè)計(jì)了語義差注意力機(jī)制,增強(qiáng)了模型對(duì)促進(jìn)方面詞情感極性分析成分的關(guān)注。

(3) 構(gòu)建了雙通道語義差網(wǎng)絡(luò),在SemEval2014的Laptop和Restaurant數(shù)據(jù)集以及ACL的Twitter數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該模型的整體性能超過所對(duì)比的基線模型。

1 相關(guān)工作

在過去的工作中,方面級(jí)情感分類方法主要分為基于情感詞典、基于傳統(tǒng)機(jī)器學(xué)習(xí)以及基于深度學(xué)習(xí)三種類別。

1.1 基于情感詞典的方法

基于情感詞典的方法通常會(huì)引入一個(gè)外部常用的情感詞典,如General Inqurer Lexicon、Subjective Lexicon、BosonNLP情感詞典、Hownet 情感詞典等[18],情感詞典里面保存著大量的詞、短語及對(duì)應(yīng)的情感極性,該方法通常根據(jù)文本中出現(xiàn)的詞和短語在情感詞典中對(duì)應(yīng)的情感極性來判斷方面詞的情感極性。基于情感詞典的方法十分依賴情感詞典的構(gòu)建,情感詞典的質(zhì)量對(duì)方面詞的情感極性分析起決定性作用。同時(shí),如何在文本中確定描述方面詞情感信息的成分也缺少完善的規(guī)則,所以基于情感詞典的方法會(huì)因?yàn)檎Z義表達(dá)的多樣性(如倒裝句等)出現(xiàn)較大誤差,現(xiàn)在已經(jīng)很少單獨(dú)使用。

1.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法

與基于情感詞典的方法相比,基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法通常有著更好的效果,傳統(tǒng)機(jī)器學(xué)習(xí)方法包括支持向量機(jī)(Support Vector Machines,SVM)、樸素貝葉斯(Naive Bayes,NB)和最大熵(Maximum Entropy,ME)等[19]。傳統(tǒng)機(jī)器學(xué)習(xí)方法需要選擇帶有語義信息的特征進(jìn)行訓(xùn)練,有效改善了基于情感詞典的方法在匹配過程中由于語義表達(dá)多樣性所產(chǎn)生的誤差。但傳統(tǒng)機(jī)器學(xué)習(xí)方法同樣存在局限之處,其需要人工特征工程(Feature Engineering),在文本處理中常用的特征有N-Gram,TF-IDF等,人工特征不僅需要耗費(fèi)大量人力,且泛化能力較差。

1.3 基于深度學(xué)習(xí)的方法

深度學(xué)習(xí)這一機(jī)制最早由文獻(xiàn)[20]提出,與基于情感詞典和傳統(tǒng)機(jī)器學(xué)習(xí)的方法相比,深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,特征擬合能力更強(qiáng),并且無須人工特征工程,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)雖然計(jì)算量巨大,同時(shí)也需要大量樣本數(shù)據(jù),但是近年來硬件算力飛速發(fā)展,并且互聯(lián)網(wǎng)的普及也為搜集大量數(shù)據(jù)奠定了基礎(chǔ),所以深度學(xué)習(xí)一躍成為自然語言處理領(lǐng)域最常用的技術(shù),在機(jī)器翻譯(Machine Translation)、對(duì)話系統(tǒng)(Dialogue System)、文本摘要(Text Summarization)等任務(wù)中均被廣泛應(yīng)用。

在方面級(jí)別情感分類任務(wù)中,深度學(xué)習(xí)同樣是最常用的技術(shù)。近年來大量學(xué)者運(yùn)用深度學(xué)習(xí)技術(shù)對(duì)方面級(jí)別情感分類問題展開了研究。Dong等人[21]提出了自適應(yīng)遞歸神經(jīng)網(wǎng)絡(luò),利用上下文和語法結(jié)構(gòu)一起作用于方面詞,學(xué)習(xí)語境詞對(duì)方面詞的情感極性影響。Ruder等人[22]提出了一種分層模型H-LSTM來處理方面級(jí)別情感分類任務(wù),通過Sentence-level雙向LSTM以及Review-level雙向LSTM來同時(shí)提取句子內(nèi)部以及句子之間的聯(lián)系。Tang等人[23]采用深度記憶網(wǎng)絡(luò)來解決方面級(jí)別情感分類問題,通過多個(gè)外部記憶網(wǎng)絡(luò)上的神經(jīng)注意力模型進(jìn)行計(jì)算,進(jìn)而捕捉每個(gè)上下文單詞的重要程度。Ma等人[24]使用方面詞級(jí)的注意力和句子級(jí)別的注意力組成的分層注意力機(jī)制來擴(kuò)充LSTM網(wǎng)絡(luò),同時(shí)在網(wǎng)絡(luò)端到端的訓(xùn)練中融入與情感相關(guān)的常識(shí)。Li等人[25]提出一種CNN變體來取代注意力機(jī)制,用于提取上下文中的重要信息,并設(shè)計(jì)了一種上下文特征保存機(jī)制使模型更好地捕獲上下文特征。Chen等人[26]提出一種遷移膠囊網(wǎng)絡(luò),通過膠囊網(wǎng)絡(luò)將文檔級(jí)知識(shí)遷移到方面級(jí)情感分類任務(wù)中,用于解決方面級(jí)分類任務(wù)數(shù)據(jù)不足的問題。Du等人[27]利用膠囊網(wǎng)絡(luò)構(gòu)建基于向量的特征表示,并提出一種EM路徑算法提取特征,同時(shí)利用交互注意力來對(duì)方面詞和上下文的語義關(guān)系進(jìn)行建模。Jiang等人[28]構(gòu)建了一個(gè)大型多方面多情感的數(shù)據(jù)集用于ASC任務(wù),并設(shè)計(jì)了一種膠囊網(wǎng)絡(luò)對(duì)該數(shù)據(jù)集進(jìn)行情感極性分析。Wang等人[29]設(shè)計(jì)了一種強(qiáng)化雙向注意力網(wǎng)絡(luò)來解決面向問答領(lǐng)域的方面級(jí)別情感分類中的情感匹配以及數(shù)據(jù)噪聲問題。針對(duì)文本中的相關(guān)句法限制以及遠(yuǎn)程單詞依賴關(guān)系,Chen等人[30]在依存句法樹的基礎(chǔ)上構(gòu)建了一個(gè)圖卷積神經(jīng)網(wǎng)絡(luò)來挖掘句法信息以及單詞之間的依賴。He等人[31]設(shè)計(jì)了交互多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)同時(shí)作用于方面級(jí)情感分類以及方面詞抽取任務(wù),與傳統(tǒng)多任務(wù)學(xué)習(xí)方法通常為不同任務(wù)學(xué)習(xí)通用特征的做法不同,交互多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)利用一種消息傳遞架構(gòu)使信息通過一組共享的潛在變量迭代地傳遞到不同子任務(wù)。Liu等人[32]提出了門控交替神經(jīng)網(wǎng)絡(luò),利用門控截?cái)郣NN來學(xué)習(xí)依賴于方面詞的情感線索表示。Gan等人[33]提出一種基于稀疏注意力的稀疏膨脹卷積神經(jīng)網(wǎng)絡(luò)來解決方面級(jí)別情感分類中LSTM難以并行化訓(xùn)練以及傳統(tǒng)的CNN難以捕獲全局特征的問題。Jiang等人[34]提出了一種交互增強(qiáng)轉(zhuǎn)換網(wǎng)絡(luò),通過方面詞增強(qiáng)模塊和雙層結(jié)構(gòu)來增強(qiáng)方面詞對(duì)上下文語義特征的學(xué)習(xí),并迭代地增強(qiáng)方面詞和上下文的表示。

2 雙通道語義差網(wǎng)絡(luò)

雙通道語義差網(wǎng)絡(luò)(DCSDN)模型如圖1所示,共包含5部分:

圖1 DCSDN模型

(1)嵌入層(Embedding Layer): 嵌入層將語言文本轉(zhuǎn)換為包含語義的詞向量矩陣。

(2)語義提取網(wǎng)絡(luò)(Semantic Extraction Network): 語義提取網(wǎng)絡(luò)用于對(duì)不同通道中的文本信息進(jìn)行整體語義提取,進(jìn)而生成語義值。

(3)語義差注意力(Semantic Difference Attention)機(jī)制: 用于對(duì)不同通道中的信息施加不同的關(guān)注,包括動(dòng)態(tài)語義差注意力(Dynamic Semantic Difference Attention, DSDA)和靜態(tài)語義差注意力(Static Semantic Difference Attention,SSDA)兩種模式。在本文中,采用DSDA的DCSDN模型本文稱為雙通道動(dòng)態(tài)語義差網(wǎng)絡(luò)(Double Channel Dynamic Semantic Difference Network, DCDSDN),采用SSDA的DCSDN本文稱為雙通道靜態(tài)語義差網(wǎng)絡(luò)(Double Channel Static Semantic Difference Network,DCSSDN)。

(4)雙通道信息融合層(Double Channel Information Fusion Layer): 將雙通道中的信息進(jìn)行融合。

(5)情感分類層(Sentiment Classification Layer): 用于生成方面詞情感極性分類結(jié)果。

2.1 嵌入層

為構(gòu)建依賴于特定方面詞的文本表示,在嵌入層中,受 Tang等人[35]提出的TD-LSTM啟發(fā),本文設(shè)計(jì)了雙通道架構(gòu),從方面詞雙側(cè)對(duì)上下文文本展開建模。與TD-LSTM不同的是,本文在嵌入層采用了預(yù)訓(xùn)練語言模型BERT(Bidirectional Encoder Representations from Transformers)[36](1)本文中所用的BERT為bert-base-uncased版本。,BERT采用了多層雙向Transformer[37]的編碼器結(jié)構(gòu),這種結(jié)構(gòu)能夠?qū)斎胛谋具M(jìn)行整體感知,在處理不同文本中的相同單詞時(shí),能夠生成不同的詞向量。由于每個(gè)方面詞在文本中的位置不同,即具備不同的上文和下文,本文將這一特征與BERT結(jié)合,構(gòu)建了雙通道架構(gòu),在左通道和右通道中運(yùn)用BERT對(duì)方面詞的上文與下文分別進(jìn)行詞嵌入,通過這一方法,在對(duì)同一文本中不同方面詞進(jìn)行情感分類時(shí),由于不同通道每次會(huì)因?yàn)榉矫嬖~所處位置的不同而接收到不同的上文文本和下文文本,又由于BERT在生成詞向量時(shí)會(huì)計(jì)算全局輸入信息,因此DCSDN模型能夠根據(jù)方面詞在文本中所處位置的不同來獲取到依賴于特定方面詞的文本表示。

同時(shí),為了捕捉方面詞與上下文的交互特征,本文采用Sentence-pair的形式對(duì)上下文文本與方面詞建模。在處理句子對(duì)任務(wù)時(shí),傳統(tǒng)的方法通常先對(duì)句子對(duì)進(jìn)行獨(dú)立編碼,再進(jìn)行雙向交互,在BERT中,Devlin等人[36]利用自注意力機(jī)制將這兩步進(jìn)行了整合,通過自注意力對(duì)拼接的句子對(duì)同時(shí)進(jìn)行編碼與交互。如圖2所示, BERT中采用了兩種方式來標(biāo)示句子對(duì)中的不同句子,第一種是在兩個(gè)句子間添加特殊標(biāo)記“[SEP]”,第二種是添加段嵌入。

圖2 句子對(duì)標(biāo)示

2.2 語義提取網(wǎng)絡(luò)

語義提取網(wǎng)絡(luò)由多頭自注意力(Multi-Head Self-Attention,MHSA)機(jī)制、Pool層和Compress層組成。

2.2.1 多頭自注意力機(jī)制

與傳統(tǒng)注意力機(jī)制相比,多頭自注意力機(jī)制能夠?qū)W習(xí)句子內(nèi)部的詞依賴關(guān)系,捕獲句子不同層面的內(nèi)部結(jié)構(gòu)信息,多頭自注意力計(jì)算過程如式(5)~式(7)(2)本文公式中的不同的W和b均代表線性變換中的映射矩陣以及偏置。所示。

其中,O∈dh×m是不同通道中的詞向量矩陣,m為輸入到通道的文本長度,其中dq×m,WMH∈hdv×dh,bMH∈dh×m,dq=dk=dv=dh/h,dh是嵌入層生成的詞向量的隱藏維度,本文中設(shè)置為768,hi代表多頭自注意力的第i個(gè)head,本文設(shè)置了12個(gè)head,“;”代表將每一個(gè)head進(jìn)行拼接。經(jīng)過多頭自注意力機(jī)制處理得到輸出S={s1,s2,…,sm}。

2.2.2 Pool層

Pool層的作用是對(duì)文本整體信息進(jìn)行提取,根據(jù)多頭自注意力機(jī)制的特征,經(jīng)過多頭自注意力計(jì)算得到的向量矩陣的每一維度的向量均包含整體文本的語義信息,本文選取S∈dh×m中的s1∈dh×1,即輸入文本中“[CLS]”所對(duì)應(yīng)的特征向量進(jìn)行全連接和激活操作,以此來進(jìn)行整體信息提?。?jì)算過程如式(8)、式(9)所示。

其中,P∈dh×1是經(jīng)過Pool層提出得到的包含該通道整體語義信息的特征向量,WP∈dh×dh,bP∈dh×1。

2.2.3 Compress層

Compress層的作用是對(duì)Pool層提取出來的包含整體語義信息的特征向量P進(jìn)行壓縮,將其維度轉(zhuǎn)換到1×1,得到整體文本語義值G,計(jì)算過程如式(10)、式(11)所示。本文認(rèn)為整體文本包含有比單個(gè)單詞更加復(fù)雜的特征信息,所以為使特征信息在向量空間得到更加充分的表達(dá),在對(duì)特征向量P進(jìn)行壓縮前,本文通過線性變換將P映射到更高維度空間得到H∈2dh×1。同時(shí)為了控制語義值的范圍以及在雙通道中產(chǎn)生有效特征差異的語義值,本文以sigmoid函數(shù)為基礎(chǔ),構(gòu)建了一個(gè)語義值函數(shù)semantic(x),如式(12)所示。α為語義域值,用于控制語義值的范圍。

其中,WH∈dh×2dh,bH、WG∈2dh×1,bG∈1×1,“||”代表取行列式值。

2.3 語義差注意力機(jī)制

語義差注意力根據(jù)雙通道中的語義提取網(wǎng)絡(luò)提取到的語義值G來對(duì)不同通道中的信息施加不同的關(guān)注,包括動(dòng)態(tài)語義差注意力(DSDA)和靜態(tài)語義差注意力(SSDA)兩種模式。同時(shí),為緩解特定條件下的語義冗余問題,本節(jié)提出語義掩蓋機(jī)制(Semantic Mask Mechanism,SMM)。

2.3.1 語義掩蓋機(jī)制

語義掩蓋機(jī)制是指當(dāng)某一通道中僅包含方面詞時(shí),對(duì)這一通道中的詞向量矩陣O進(jìn)行掩蓋。當(dāng)某一通道中僅包含方面詞,不包含其余上下文文本時(shí),由于另一通道中已包含方面詞語義信息,本文認(rèn)為這一通道中的信息會(huì)造成語義冗余問題,對(duì)其進(jìn)行掩蓋,能有效減少其對(duì)后續(xù)分類任務(wù)的干擾。

本文以方面詞左側(cè)文本是否為空來判斷左通道中是否含有除方面詞以外的語義信息,以方面詞右側(cè)是否僅含有結(jié)束符來判斷右通道中是否含有除方面詞以外的語義信息,本文取最常用的三種結(jié)束符“.”“!” “?”作為句末結(jié)束判斷條件。ML為左通道語義掩蓋值,MR為右通道語義掩蓋值,textleft代表方面詞左側(cè)文本,textright代表方面詞右側(cè)文本。計(jì)算過程如式(13)~式(15)所示。

2.3.2 動(dòng)態(tài)語義差注意力

DSDA動(dòng)態(tài)地為雙通道信息進(jìn)行加權(quán),根據(jù)語義提取網(wǎng)絡(luò)提取的左通道語義值GL和右通道語義值GR以及由語義掩蓋機(jī)制生成的左通道語義掩蓋值ML、右通道語義掩蓋值MR來計(jì)算最終的左通道動(dòng)態(tài)注意力值DL和右通道動(dòng)態(tài)注意力值DR,最后對(duì)左通道中的詞嵌入OLeftchannel∈dh×m以及右通道中的詞嵌入ORihgtchannel∈dh×m進(jìn)行加權(quán),得到左通道輸出OL∈dh×m和右通道輸出OR∈dh×m。計(jì)算過程如式(16)~式(19)所示。

2.3.3 靜態(tài)語義差注意力

在SSDA中,本文首先設(shè)置一個(gè)靜態(tài)高權(quán)值Whigh和靜態(tài)低權(quán)值Wlow,本文中設(shè)置的默認(rèn)Whigh為0.8,默認(rèn)Wlow為0.6,然后根據(jù)GL、GR、ML、MR來計(jì)算最終的左通道靜態(tài)注意力值SL和右通道靜態(tài)注意力值SR。具體計(jì)算方法如下: 當(dāng)ML、MR均為1,即雙通道中均包含除方面詞以外的語義信息時(shí),語義值高的通道被賦予Whigh,語義值低的通道被賦予Wlow;當(dāng)ML⊕MR=1,即雙通道中有且僅有一個(gè)通道包含除方面詞外的語義信息時(shí),賦予包含其他語義的通道的注意力值為Whigh,不包含的為Wlow;當(dāng)雙通道中均不包含除方面詞外的語義信息或雙通道中均包含除方面詞外的語義信息但雙通道中的語義值相同時(shí),雙通道中的注意力值均被賦予1。最后,同樣對(duì)雙通道中的信息進(jìn)行加權(quán)并得到雙通道的輸出,計(jì)算過程如式(20)~式(23)所示。

2.4 雙通道信息融合層

雙通道信息融合層首先對(duì)經(jīng)過語義差注意力機(jī)制加權(quán)的雙通道輸出OL、OR進(jìn)行拼接,然后對(duì)拼接后的向量進(jìn)行降維,計(jì)算如式(24)、式(25)所示。

其中,OLR∈2dh×m代表將雙通道輸出拼接后的結(jié)果,WF∈2dh×dh,bF∈dh×m,其中,F(xiàn)unsion∈dh×m代表降維后的雙通道信息融合層的輸出的融合特征向量。

2.5 情感分類層

情感分類層的作用是對(duì)整體信息進(jìn)行提取并分類得到最終結(jié)果,計(jì)算過程如式(26)~式(28)所示。

其中,K∈dh×1是由pool層提取得到的雙通道信息融合后的整體語義特征向量,此處pool層的原理同2.2.2節(jié)。Out∈3×1是將提取出來的整體信息進(jìn)行降維得到的結(jié)果,其中每一個(gè)元素代表對(duì)應(yīng)的情感極性的值。WK∈dh×3,bK∈3×1。最后本文通過argmax函數(shù)選取Out中最大值所對(duì)應(yīng)的情感極性sentiment為方面詞的情感極性。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

為了驗(yàn)證模型的性能,本文采用SemEval2014的Laptop和Restaurant數(shù)據(jù)集(3)http://alt.qcri.org/semeval2014/task4/以及ACL的Twitter數(shù)據(jù)集(4)http://goo.gl/5Enpu7進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集中的數(shù)據(jù)統(tǒng)計(jì)如表1所示。

表1 數(shù)據(jù)集統(tǒng)計(jì)

3.2 模型訓(xùn)練

本文采用交叉熵函數(shù)作為目標(biāo)函數(shù),如式(29)所示。

(29)

本文采用Adam[38]算法來對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,并同時(shí)采用了dropout和L2正則化來防止模型過擬合,本文實(shí)驗(yàn)所采用的超參數(shù)如表2所示。

表2 超參數(shù)設(shè)置

3.3 評(píng)價(jià)指標(biāo)

本文的實(shí)驗(yàn)采用準(zhǔn)確率(Accuracy)和宏平均F1值(Macro averageF1, MF1)作為評(píng)價(jià)指標(biāo),計(jì)算方法如式(30)~式(34)所示。

(30)

(31)

(32)

(33)

(34)

對(duì)某一個(gè)情感極性類別i,TPi是正確預(yù)測(cè)的樣本數(shù)量,F(xiàn)Pi是其他類別的樣本被預(yù)測(cè)為當(dāng)前類別樣本的數(shù)量,F(xiàn)Ni是當(dāng)前類別的樣本被錯(cuò)誤地預(yù)測(cè)為其他類別的樣本的數(shù)量。Pi是指情感極性類別i上的精確率(Precision),Ri是指情感極性類別i上的召回率(Recall),MF1是所有類別F1的平均值。

3.4 對(duì)比模型

(1)AE-LSTM[39]: 利用LSTM對(duì)上下文進(jìn)行建模,并利用注意力機(jī)制計(jì)算不同單詞的權(quán)重值。

(2)ATAE-LSTM[39]: 在AT-LSTM的基礎(chǔ)上進(jìn)一步利用方面詞信息,將方面詞嵌入和上下文嵌入拼接。

(3)IAN[11]: 利用兩個(gè)LSTM分別對(duì)上下文文本和方面詞進(jìn)行建模,并采用交互式注意力學(xué)習(xí)上下文文本和方面詞的特征。

(4)RAM[40]: 提出了一種基于多重注意力的框架,利用多重注意力對(duì)雙向LSTM和其位置加權(quán)結(jié)果進(jìn)行建模。

(5)BMAM[41]: 設(shè)計(jì)了陳述性記憶注意力機(jī)制和程序性記憶注意力機(jī)制用于捕獲與方面詞相關(guān)的詞級(jí)別和短語級(jí)別信息,并設(shè)計(jì)了一個(gè)分段解碼器來提取相關(guān)情感語義信息。

(6)MGAN[12]: 采用LSTM捕獲上下文信息,并設(shè)計(jì)了細(xì)粒度注意力以及粗粒度注意力來學(xué)習(xí)上下文和方面詞的特征。

(7)AOA[13]: 通過計(jì)算方面詞內(nèi)部、上下文內(nèi)部和方面詞與上下文之間的注意力來捕捉不同層面的特征信息。

(8)BERT_PT[42]: 提出了一種后訓(xùn)練的方法對(duì)BERT進(jìn)行調(diào)整,讓其包含更多的領(lǐng)域知識(shí)和任務(wù)知識(shí),以更好地適應(yīng)當(dāng)前任務(wù)。

(9)AEN_BERT[15]: 提出了一種注意力編碼網(wǎng)絡(luò),設(shè)計(jì)了內(nèi)部注意力和外部注意力來捕捉上下文內(nèi)部及方面詞與上下文之間的語義特征。

(10)BHAH[16]: 提出一種螺旋式注意力來對(duì)方面詞與上下文進(jìn)行螺旋式加權(quán),以此來提升方面詞與上下文表示。

3.5 對(duì)比實(shí)驗(yàn)及分析

對(duì)比實(shí)驗(yàn)結(jié)果如表3所示,其中,BHAH模型效果“81.35(5)”中的“(5)”代表采用5層螺旋注意力層,DCDSDN模型效果“81.35(1.0)”中的“(1.0)”代表語義域值α為1.0,“-”代表在原文中未報(bào)道的結(jié)果。根據(jù)表中結(jié)果,本文分析如下所述。

表3 不同模型的實(shí)驗(yàn)結(jié)果 (單位: %)

(1) 在整體上,DCDSDN模型的準(zhǔn)確率要優(yōu)于其他模型,MF1值也要優(yōu)于其他已報(bào)道MF1值的模型,這說明了本文所設(shè)計(jì)的DCDSDN模型的有效性。與其他模型相比,DCSSDN模型能夠利用雙通道架構(gòu)獲取依賴于特定方面詞的上下文表示,針對(duì)相同文本中的不同方面詞,能夠捕獲特定的上下文特征。同時(shí),語義提取網(wǎng)絡(luò)以及動(dòng)態(tài)語義差注意力能夠使模型關(guān)注重點(diǎn)通道中的語義信息。

(2) DCSSDN模型的準(zhǔn)確率優(yōu)于BHAH以外的模型,MF1值同樣優(yōu)于已報(bào)道MF1值的模型,這同樣說明了DCSSDN模型的有效性,同時(shí),其整體效果差于DCDSDN模型,本文分析主要原因是動(dòng)態(tài)語義差注意力能夠根據(jù)雙通道中的語義差異動(dòng)態(tài)地調(diào)整注意力值以更好地?cái)M合語義特征。但本文認(rèn)為當(dāng)處理語義差現(xiàn)象不明顯的文本時(shí),靜態(tài)語義差注意力更有優(yōu)勢(shì)。

3.6 消融實(shí)驗(yàn)

為了探究模型中不同部分對(duì)模型準(zhǔn)確率的影響,本文設(shè)計(jì)了如下幾種模型進(jìn)行消融實(shí)驗(yàn):

(1)DCDSDN_V1: 在DCDSDN的基礎(chǔ)上去掉語義差掩蓋機(jī)制。

(2)DCDSDN_V2: 在DCDSDN的基礎(chǔ)上去掉以句子對(duì)的形式輸入上下文和方面詞,直接將它們作為單個(gè)句子拼接輸入。

(3)DCSSDN_V1: 在DCSSDN的基礎(chǔ)上去掉語義差掩蓋機(jī)制。

(4)DCSSDN_V2: 在DCSSDN的基礎(chǔ)上去掉以句子對(duì)的形式輸入上下文和方面詞,直接將它們作為單個(gè)句子拼接輸入。

(5)DCSDN_V1: 在DCSDN的基礎(chǔ)上去掉語義差注意力機(jī)制。

(6)DCSDN_V2: 在DCSDN_V1的基礎(chǔ)上去掉以句子對(duì)的形式輸入上下文和方面詞,直接將它們作為單個(gè)句子拼接輸入。

(7)DCSDN_V3: 在DCSDN_V1的基礎(chǔ)上去掉雙通道架構(gòu)

其中,DCDSDN模型及其變體模型的語義域值本文統(tǒng)一設(shè)定為1.0,DCSSDN模型及其變體模型的靜態(tài)高權(quán)值本文統(tǒng)一設(shè)定為0.8, 靜態(tài)低權(quán)值本文統(tǒng)一設(shè)定為0.6。實(shí)驗(yàn)結(jié)果如表4所示,本文分析如下:

(1) 僅在去掉語義差注意力后,DCDSDN和DCSSDN在三個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別下降了2.20%、0.9%、2.03%和1.1%、0.9%、1.31%。這充分說明了語義差注意力機(jī)制的有效性,同時(shí)印證了語義差這一概念的合理性,去除語義差注意力之后的模型由于無法捕捉雙通道信息的差異,進(jìn)而導(dǎo)致模型準(zhǔn)確率下降。

(2) 僅在去掉語義掩蓋機(jī)制后,DCDSDN和DCSSDN在三個(gè)數(shù)據(jù)集上的整體準(zhǔn)確率也有一定下降。在去除語義掩蓋機(jī)制之后,當(dāng)方面詞在句首或句尾時(shí),雙通道架構(gòu)在捕捉信息時(shí)可能產(chǎn)生語義信息冗余問題,進(jìn)而干擾模型分類效果。

(3) 所有去掉以句子對(duì)的形式對(duì)上下文和方面詞建模的模型與其基礎(chǔ)模型相比效果均有所下降。在去掉句子對(duì)的建模方式后,導(dǎo)致模型在通道內(nèi)部難以捕捉方面詞與上下文的交互信息,進(jìn)而造成模型準(zhǔn)確率下降。

(4) DCSDN_V2在去掉其雙通道架構(gòu)后,模型準(zhǔn)確率分別下降了0.47%、1.25%、0.29%。在去掉雙通道架構(gòu)后,針對(duì)同一文本中的不同方面詞,模型只能獲取相同的上下文表示,無法捕捉不同方面詞的特定上下文特征。同時(shí),本文發(fā)現(xiàn)在Twitter上準(zhǔn)確率下降較低,本文分析其原因是 Twitter數(shù)據(jù)集中僅收錄單方面詞文本,在對(duì)單方面詞文本進(jìn)行分析處理時(shí),雙通道架構(gòu)的優(yōu)勢(shì)難以得到充分發(fā)揮。

表4 消融實(shí)驗(yàn)結(jié)果 (單位: %)

3.7 語義域值實(shí)驗(yàn)及分析

為探究不同語義域值α對(duì)模型準(zhǔn)確率的影響,本文在DCDSDN模型上選取[0.1,2.0]之間的20組不同的語義域值進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示。根據(jù)實(shí)驗(yàn)結(jié)果,本文分析如下:

圖3 不同語義域值下的模型準(zhǔn)確率

(1) 語義域值較低時(shí),模型準(zhǔn)確率通常較低,本文分析其主要原因是過低語義域值會(huì)導(dǎo)致后續(xù)動(dòng)態(tài)語義差注意力數(shù)值過低,從而使詞向量被過度壓縮,難以充分表達(dá)語義。

(2) 在Twitter數(shù)據(jù)集上,不同語義域值下的模型準(zhǔn)確率波動(dòng)較大,本文分析其主要原因是Twitter數(shù)據(jù)集中的數(shù)據(jù)包含大量語法不規(guī)則文本以及特殊符號(hào)。

3.8 靜態(tài)語義差注意力分析

為分析不同靜態(tài)權(quán)值組合對(duì)模型準(zhǔn)確率的影響,本文在DCSSDN模型上選取了[0.0,1.0]區(qū)間中不同靜態(tài)權(quán)值組合進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4~圖6所示,同時(shí),本文計(jì)算了在三個(gè)數(shù)據(jù)集上不同差值靜態(tài)權(quán)值組合的平均準(zhǔn)確率(Average Accuracy),如圖7所示。根據(jù)實(shí)驗(yàn)結(jié)果,分析如下:

圖4 Laptop數(shù)據(jù)集上不同靜態(tài)權(quán)值組合的準(zhǔn)確率

圖5 Restaurant數(shù)據(jù)集上不同靜態(tài)權(quán)值組合的準(zhǔn)確率

圖6 Twitter數(shù)據(jù)集上不同靜態(tài)權(quán)值組合的準(zhǔn)確率

圖7 不同差值的靜態(tài)權(quán)值組合的平均準(zhǔn)確率

(1) 當(dāng)靜態(tài)高權(quán)值相同時(shí),靜態(tài)低權(quán)值為0.0時(shí)模型效果最差,這說明語義值低的一側(cè)不僅包含干擾信息,同時(shí)也包含一定的有效語義信息,若完全丟棄掉語義值低的一側(cè)所包含的信息,則會(huì)在整體上給模型準(zhǔn)確率帶來負(fù)面影響。

(2) 當(dāng)靜態(tài)高權(quán)值遠(yuǎn)高于靜態(tài)低權(quán)值時(shí),模型的平均準(zhǔn)確率整體上較低,當(dāng)靜態(tài)高權(quán)值與靜態(tài)低權(quán)值的差值在[0.1,0.4]區(qū)間中時(shí),模型平均準(zhǔn)確率通常較高,這說明較大差值會(huì)導(dǎo)致大量語義信息流失。

3.9 實(shí)例分析

為了進(jìn)一步分析DCSDN模型的效果,本文抽取了幾組測(cè)試數(shù)據(jù)集中的語義差注意力權(quán)值,可視化結(jié)果如圖8所示,其中圖8(a)、圖8(b)是根據(jù)動(dòng)態(tài)語義差注意力抽取得到的,圖8(c)、圖8(d)是根據(jù)靜態(tài)語義差注意力抽取得到的。如在圖8(a)中,針對(duì)文本“It is the perfect size and speed for me.”中的方面詞“size”,在分析其情感極性時(shí),其左側(cè)文本的重要程度明顯遠(yuǎn)高于右側(cè),在動(dòng)態(tài)語義差注意力的作用下,模型能夠?qū)@一部分施加更多關(guān)注。在圖8(c)中,針對(duì)文本“It’s so quick and responsive that it makes working / surfing on a Computer so much pleasurable !”中的方面詞“working”, 其右側(cè)文本的重要程度明顯遠(yuǎn)高于左側(cè),在靜態(tài)語義差注意力的作用下,模型能夠?qū)@一部分施加更多關(guān)注。這表明語義差注意力能夠?qū)ξ谋局邪匾畔⒁粋?cè)的文本施加更多的關(guān)注,從而增強(qiáng)模型分類效果。

圖8 數(shù)據(jù)可視化

4 總結(jié)

為了構(gòu)建依賴于特定方面詞的上下文表示,本文設(shè)計(jì)了一種雙通道架構(gòu),針對(duì)同一文本中的不同方面詞,利用預(yù)訓(xùn)練語言模型的全局感知特性以及方面詞的位置特性在雙通道中捕獲不同的上下文信息。為了擬合語義差特征,本文構(gòu)建了語義提取網(wǎng)絡(luò)及語義差注意力機(jī)制,通過對(duì)不同通道進(jìn)行語義特征信息提取,并根據(jù)雙通道文本在整體語義上的差異,利用語義差注意力對(duì)重要通道中的信息施加更多關(guān)注。實(shí)驗(yàn)結(jié)果表明,本文提出的雙通道語義差網(wǎng)絡(luò)模型取得了優(yōu)異的性能,有效證明了本文所提出的理論的合理性以及設(shè)計(jì)的模型的有效性。

未來工作中: ①將針對(duì)雙通道架構(gòu)中的跨通道信息交互問題進(jìn)行進(jìn)一步研究; ②將結(jié)合依存句法分析對(duì)語義差進(jìn)行進(jìn)一步拓展性研究。

猜你喜歡
雙通道極性注意力
讓注意力“飛”回來
近端胃切除雙通道重建及全胃切除術(shù)用于胃上部癌根治術(shù)的療效
跟蹤導(dǎo)練(四)
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
表用無極性RS485應(yīng)用技術(shù)探討
一種新型的雙極性脈沖電流源
采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
分類高考能否打通“雙通道”
河北石家莊至太原將有高速雙通道
左权县| 乐都县| 乡宁县| 乌拉特前旗| 江阴市| 大荔县| 元朗区| 应用必备| 泰宁县| 重庆市| 兰考县| 长沙县| 郧西县| 黔江区| 聂拉木县| 柏乡县| 山丹县| 锦屏县| 古丈县| 固安县| 巴青县| 隆昌县| 石城县| 东宁县| 黄龙县| 铜鼓县| 平安县| 来安县| 通海县| 塔河县| 岑巩县| 东丽区| 灵宝市| 黄平县| 柏乡县| 镇赉县| 永修县| 闽侯县| 广平县| 汽车| 南郑县|