国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力交互機制的層次網(wǎng)絡(luò)情感分類

2021-05-14 06:28楊春霞李欣栩吳佳君劉天宇
計算機工程與應(yīng)用 2021年9期
關(guān)鍵詞:注意力向量分類

楊春霞,李欣栩,吳佳君,劉天宇

1.南京信息工程大學 自動化學院,南京210044

2.江蘇省大數(shù)據(jù)分析技術(shù)重點實驗室,南京210044

3.江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,南京210044

4.佳木斯市湯原縣氣象局,黑龍江 佳木斯154000

近年來隨著互聯(lián)網(wǎng)的不斷發(fā)展,各大平臺充斥著大量用戶對商品的評論,通過閱讀和分析這些評論可以發(fā)現(xiàn)用戶對產(chǎn)品的情感傾向。對評論中的情感傾向進行挖掘有助于用戶獲得個性化服務(wù),也有助于商家及時調(diào)整銷售策略。

情感分類是推薦系統(tǒng)、數(shù)據(jù)挖掘等領(lǐng)域的一項重要任務(wù)[1-2]。本文研究內(nèi)容是針對評論的文檔級情感分類,即假定每個文本均表達了用戶對單一產(chǎn)品的情感,預(yù)期目標是確定評論的情感傾向。

目前許多學者[3-5]基于深度學習的方法搭建了分類模型并針對不同場景得到了不錯的效果,但是針對評論的文檔級情感分類任務(wù)為了提高分類效果,需要在通用的情感分類模型的基礎(chǔ)上考慮用戶數(shù)據(jù)和產(chǎn)品數(shù)據(jù)。Tang等[6]結(jié)合用戶信息和產(chǎn)品信息建模,證實相關(guān)數(shù)據(jù)的添加有助于提高模型效果。但是評論中包含詞粒度、句粒度和篇章粒度的文本信息,直接使用整條評論進行建模不可避免地會丟失部分信息。文獻[7-8]將用戶和產(chǎn)品信息融入注意力層并使用多個特征提取層,通過獲取不同粒度的信息來提高模型效果,實驗證明層次網(wǎng)絡(luò)具有更強大的特征提取能力,在建模過程中添加用戶數(shù)據(jù)和產(chǎn)品數(shù)據(jù)幫助分類也是很有必要的。然而現(xiàn)有的大多數(shù)模型將用戶信息和產(chǎn)品信息二者歸為一類進行建模,但是在一條評論中,不同詞與用戶信息和產(chǎn)品信息的相關(guān)程度有所差異。例如,在評論“The bar is definitely good‘people watching’and i love the modern contemporary decor”中,“good”“modern”和“contemporary”主要描述產(chǎn)品特征,“l(fā)ove”主要描述用戶情感。情感分類的結(jié)果與相關(guān)描述詞高度相關(guān),所以在建模過程中添加用戶和產(chǎn)品信息來幫助提取描述詞是很有必要的。除此之外可以看出這些描述詞與用戶和產(chǎn)品的相關(guān)度有所區(qū)別,所以將用戶信息和產(chǎn)品信息二者歸為一類進行建模是過于粗糙的。此外為了更好地利用用戶和產(chǎn)品信息,考慮到目前基于深度學習的分類模型在分類過程中通過逐步抽取較為重要的文本特征來提高分類效果,相似地,本文在抽取描述詞中較為重要特征的同時,嘗試抽取產(chǎn)品和用戶對分類貢獻度大的特征來幫助分類。

綜上本文提出一種基于注意力交互機制的層次網(wǎng)絡(luò)(Hierarchical Network-based Attention Interaction Mechanism,HNAIM)模型。

(1)為了從詞級、句級提取語義特征并生成篇章級文本表示。模型的第一部分層次網(wǎng)絡(luò)首先由BiLSTM生成句級的語義特征,得到的特征作為下一個BiLSTM的輸入最終得到篇章級的文本特征??紤]到文本中描述詞與用戶和產(chǎn)品的相關(guān)度不同,層次網(wǎng)絡(luò)將用戶和產(chǎn)品信息分開建模。

(2)經(jīng)典的注意力機制只能抽取重要的描述詞特征,本文采用注意力交互機制,在抽取重要的描述詞特征的同時,抽取產(chǎn)品和用戶對分類貢獻度大的特征來幫助分類。模型的第二部分利用注意力交互機制分別在句級和篇章級上幫助原始層次模型獲取更有價值的語義信息。

1 相關(guān)工作

基于深度學習的文檔級情感分類旨在通過深度學習來預(yù)測文本的整體情感極性,其關(guān)鍵在于提取文本特征。Bengio等[9]最早利用神經(jīng)網(wǎng)絡(luò)將詞表示在向量空間中。Mikolov 等[10]和Pennington 等[11]分別提出Word2vec和Glove詞向量模型,這些詞嵌入模型在情感分類任務(wù)上均取得不錯的效果。為了進一步挖掘文本的特征,一些學者將詞嵌入和其他深度學習模型進行結(jié)合,LSTM因其可以解決文本語義上的長期依賴問題受到學者的青睞。然而語義的聯(lián)系是雙向的,BiLSTM模型在保留LSTM優(yōu)點的基礎(chǔ)上能夠保留文本的上下文信息,在情感分類任務(wù)上可以取得更好的效果。

注意力機制在NLP中表現(xiàn)為信息加權(quán),它的引入提高了網(wǎng)絡(luò)對文本特征的提取能力。Bahdanau 等[12]首次將注意力機制應(yīng)用到機器翻譯任務(wù)中,取得較好的效果。Luong 等[13]將注意力分為局部和全局兩種形式,促進了注意力機制在NLP 的推廣。Yang等[14]在情感分類任務(wù)中通過注意力機制和神經(jīng)網(wǎng)絡(luò)的結(jié)合提取文本特征并取得了不錯的效果。胡榮磊等[15]利用LSTM 和前饋注意力構(gòu)建情感分類模型。Huang等[16]通過改進的注意力機制將句子和方面詞聯(lián)合建模,較傳統(tǒng)的情感分類模型取得了更好的效果。

Tang等[17]利用層次網(wǎng)絡(luò)的概念構(gòu)建情感分類模型,即基于詞粒度的文本表示使用CNN/LSTM來構(gòu)建句粒度的文本表示,然后基于句子和它們的內(nèi)在關(guān)系構(gòu)建篇章級的文本表示。在針對評論的情感分析任務(wù)中,文獻[7-8]結(jié)合用戶和產(chǎn)品信息構(gòu)建層次網(wǎng)絡(luò)模型并取得了很好的效果。

本文針對評論文本的特性在相關(guān)工作的基礎(chǔ)上進行一定的改進。本文利用BiLSTM 構(gòu)建層次網(wǎng)絡(luò)來提取文本特征,但用戶和產(chǎn)品分開建模;本文使用注意力交互機制,在挖掘文本特征的同時也挖掘用戶和產(chǎn)品中的重要特征來輔助分類。

2 HNAIM模型

2.1 任務(wù)定義

本文主要針對評論文本的特性,結(jié)合用戶和產(chǎn)品信息構(gòu)建分類模型。為了便于后續(xù)對比分析,本文使用Tang等[6]數(shù)據(jù)預(yù)處理后的評論數(shù)據(jù)集(詳見3.1節(jié))。數(shù)據(jù)集中每條文本僅有一個用戶和一個產(chǎn)品。文本t(t ∈T)結(jié)構(gòu)為{u,p,d} ,含義為文本t(t ∈T)中用戶u(u ∈U)發(fā)表了關(guān)于產(chǎn)品p(p ∈P)的評論d(d ∈D),其中T 是文本集,U 和P 表示用戶集和產(chǎn)品集,D 為評論集,t、u、p、d 為單一樣本。最終目標是確定評論的情感傾向。

2.2 算法模型

本文利用BiLSTM 構(gòu)建層次網(wǎng)絡(luò)來提取不同粒度的語義信息,由于文本中描述詞與用戶和產(chǎn)品的相關(guān)度不同,將用戶和產(chǎn)品信息分開建模。在層次網(wǎng)絡(luò)中通過注意力交互機制逐步提取文本、用戶、產(chǎn)品中的重要特征。HNAIM模型圖(主要模塊見2.2.1~2.2.5小節(jié))如圖1所示,分類流程如下:

(1)通過詞嵌入模塊將文本t(t ∈T)中{u,p,d }轉(zhuǎn)化成詞向量{u,p,d}。

(2)將d 中作為層次網(wǎng)絡(luò)的輸入,首先使用BiLSTM來學習詞向量的句級表示,然后通過BiLSTM處理句級表示,最終生成篇章級文本特征。

(3)通過注意力交互機制分別計算文本特征與用戶和產(chǎn)品的相關(guān)度,將文本中重要的句子進行加權(quán)突出。在詞粒度生成含用戶觀點的句子表示su和含產(chǎn)品觀點的句子表示sp,在句粒度得到含用戶觀點的篇章級文本表示du和含產(chǎn)品觀點的篇章級文本表示dp。

(4)將du和dp簡單連接得到文本向量dt,通過softmax 層得到dt、du、dp在不同類別上的概率sxt、sxu、sxp,最終根據(jù)sxt的概率來進行情感分類。

(5)通過損失函數(shù)模塊優(yōu)化模型。針對評論文本特點,損失函數(shù)加入sxu、sxp作為輔助分類信息。

圖1 HNAIM算法模型結(jié)構(gòu)

2.2.1 詞嵌入

情感分類的基礎(chǔ)是將文本中的單詞轉(zhuǎn)換成詞向量。文本t(t ∈T) 呈{u,p,d} 的結(jié)構(gòu),將u(u ∈U) 和p(p ∈P)轉(zhuǎn)化為詞向量u 和p。如公式(1)所示:

將評論d(d ∈D)按符號分成m 個句子,即d={s1,s2,…,sm},每個句子含n 個詞,即si={w1,w2,…,wn},將si的長度用零補成定長l ,l(n ≤l) 是D 中最長句子單詞數(shù)。將wi轉(zhuǎn)化為詞向量wi,最后將si表示成l×v 的詞向量矩陣si的形式,其中v 是詞向量的維數(shù)。文本t(t ∈T)呈{u,p,d}結(jié)構(gòu)的向量形式。

2.2.2 BiLSTM層

LSTM 每個單元如公式(2)至(7)所示。公式中σ代表sigmoid 函數(shù),ft、it、ot分別對應(yīng)遺忘門、輸入門以及輸出門,wt是t 時刻的輸入,ct是t 時刻單元的狀態(tài),ht表示t 時刻LSTM 的輸出,ht-1是t-1 時刻LSTM 的輸出。然而LSTM 只能捕捉一個方向上的信息流動,但文本信息的語義關(guān)聯(lián)是雙向的。BiLSTM可以從兩個方向來獲取信息,這樣不但可以從網(wǎng)絡(luò)上獲取更多的文本信息,而且更加符合文本的語義特性。BiLSTM 由一個前向LSTM 和一個后向LSTM 組成,最后合并兩個方向上LSTM 的結(jié)果得到所需的文本特征。如公式(8)至(10)所示,其中LSTM1和LSTM2表示兩個方向上的LSTM,ht1和ht2表示t 時刻兩個方向上LSTM 的輸出,ht表示t 時刻BiLSTM 的輸出,ht-1是t-1 時刻BiLSTM的輸出。[…;…]是簡單的連接操作符。

2.2.3 注意力交互機制

本文在抽取文本中較為重要的特征的同時,嘗試抽取產(chǎn)品和用戶對分類貢獻度大的特征來幫助分類。由于引入用戶信息和引入產(chǎn)品信息的處理流程相似,故以引入用戶信息u 為例來介紹注意力交互機制的構(gòu)造。原始的注意力機制如公式(11)、公式(12)所示:其中I是用戶信息u 和文本向量ht的信息交互矩陣,αij是句子對用戶的注意力,最后通過計算αij和ht的乘積來篩選文本中的重要特征。注意力交互機制在原始注意力機制的基礎(chǔ)上,逐步提取用戶u 中的重要特征來幫助分類。如公式(13)至公式(15)所示,其中βij是用戶對句子的注意力,-βj是用戶級注意力,即篩選出的用戶的重要特征,最終注意力權(quán)重γ 由每個用戶級注意力和文本注意的加權(quán)和得到。如公式(16)所示,最后的文本表示是原始文本特征和注意力權(quán)重的乘積。

2.2.4 softmax層

層次網(wǎng)絡(luò)最終輸出含用戶信息的篇章級文本向量du和含產(chǎn)品信息的篇章級文本向量dp。如公式(17)所示,將二者簡單連接生成文本向量dt,[…;…]是連接操作符。如公式(18)所示,使用softmax 計算dt、du、dp在不同類別上的概率sxt、sxu、sxp。本文根據(jù)sxt的分布情況來預(yù)測文本的情感傾向。

2.2.5 損失函數(shù)

3 實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)與實驗環(huán)境

Yelp2013、Yelp2014 是點評網(wǎng)站2013 年、2014 年的餐廳數(shù)據(jù),IMDB 是影評數(shù)據(jù),類別反映情感極性,數(shù)值越大表示評價越正面。訓練集、驗證集、測試集比例為8∶1∶1,數(shù)據(jù)集相關(guān)信息如表1所示。

表1 Yelp2013、Yelp2014、IMDB數(shù)據(jù)集信息

本文實驗環(huán)境如表2所示。

表2 實驗環(huán)境

3.2 實驗參數(shù)與評價指標

為了便于后續(xù)研究分析,本文采用固定參數(shù)法。相關(guān)超參數(shù)如表3所示,本文選用Glove[11]預(yù)訓練的詞向量來初始化文本向量,向量維數(shù)為300,BiLSTM每層單元數(shù)為200,用戶和產(chǎn)品數(shù)據(jù)維數(shù)為200,訓練過程采用Adam 來更新參數(shù),使用隨機失活和早期停止來預(yù)防過擬合,使用梯度裁剪來預(yù)防梯度爆炸。

表3 實驗參數(shù)設(shè)置

本文采用2個評價指標作為判定標準。如公式(23)所示,Accuracy(精確率)中N是數(shù)據(jù)集總文本數(shù),T是模型分類正確的文本數(shù)。如公式(24)所示,RMSE(均方誤差)中N是數(shù)據(jù)集總文本數(shù),gdi是實際文本類別,pri是預(yù)測文本類別。

3.3 對比實驗與結(jié)果分析

本文采用相同數(shù)據(jù)集下現(xiàn)有模型的實驗結(jié)果與HNAIN進行對比,對比結(jié)果如表4所示。

表4 不同分類模型比較

(1)Majority:將統(tǒng)計到的訓練集中概率最大的分類類別當做測試集的分類類別。

(2)SSWE[1]:特殊訓練詞向量作為SVM 分類器的輸入特性進行情感分類。

(3)PV:利用PVDM算法進行情感分類。

(4)UPNN[6]:通過CNN 提取詞向量中的信息,在建模過程中融入用戶信息和產(chǎn)品信息來進行情感分類。

(5)UPDMN[18]:通過注意力機制考慮用戶或產(chǎn)品相關(guān)的其他文本類別并利用LSTM對當前情感分類。

(6)NSC[7]:利用層次網(wǎng)絡(luò)對文本特征進行編碼,在建模過程中利用注意力機制來提取文本中的重要特征,最后通過softmax進行情感分類。

(7)DUPMN[19]:利用雙記憶網(wǎng)絡(luò)提取用戶和產(chǎn)品的重要特征,利用雙層LSTM結(jié)合提取到的用戶和產(chǎn)品特征對文本進行分類。

(8)PMA[20]:與NSC 類似,但利用如用戶排名偏好法等外部方法來提高分類效果。

由表4 可以看出,在三個數(shù)據(jù)集上Majority 效果最差,這是由于該模型無法獲得任何文本信息。SSWE和PV的效果優(yōu)于Majority,但是模型效果仍低于其他深度學習分類模型,這反映了深度學習模型在情感分類方面的良好性能。UPNN 和UPDMN 則是分別利用CNN 和LSTM進行分類,并在過程中引入用戶和產(chǎn)品信息后模型效果得到提升,證實了該信息的添加對情感分類任務(wù)有正面影響。NSC模型使用層次結(jié)構(gòu)進行情感分類,在UPNN 和UPDMN 基礎(chǔ)上進一步提高了分類性能,初步驗證了考慮文本不同粒度的層次網(wǎng)絡(luò)具有更強大的特征提取能力,PMA 在NSC 的基礎(chǔ)上利用用戶偏好排名法提高了分類性能。DUPMN 結(jié)合用戶和產(chǎn)品信息利用層次網(wǎng)絡(luò)進行分類,取得了當前對比模型中的最好效果。本文HNAIM模型最終分類準確率優(yōu)于所有相關(guān)模型,均方誤差與對比模型最好效果基本持平,這說明本文的HNAIM模型在針對評論文本的情感分類任務(wù)上有一定的可行性。

3.4 模型分析

3.4.1 注意力交互機制對模型性能的影響

為了驗證注意力交互機制的作用,保持HNAIM 模型其他部分不變,將注意力交互機制替換成如公式(11)和公式(12)所示的經(jīng)典注意力機制計算的注意力權(quán)重,即模型HNAM。在三個數(shù)據(jù)集上的實驗結(jié)果如表5 所示,通過三個數(shù)據(jù)集的結(jié)果可以看出,本文HNAIM模型在兩個評價指標下的效果均優(yōu)于對比模型HNAM。由此可以證明注意力交互機制在本模型中可以起到提高模型效果的作用。

表5 注意力交互機制對模型的影響

3.4.2 語義提取層對模型性能的影響

HNAIM模型利用BiLSTM構(gòu)建層次網(wǎng)絡(luò)來提取文本中重要的語義信息。為了驗證BiLSTM 提取到的上下文信息對模型性能的影響,保持模型其他部分不變,將BiLSTM 替換成LSTM,LSTM 僅從一個方向上處理文本信息。在三個數(shù)據(jù)集上的結(jié)果如表6 所示,由BiLSTM 構(gòu)成的層次網(wǎng)絡(luò)性能在兩個評價指標上均優(yōu)于LSTM 構(gòu)成的層次網(wǎng)絡(luò)。由此可見雙向網(wǎng)絡(luò)結(jié)構(gòu)效果優(yōu)于單向網(wǎng)絡(luò)。本文利用雙向網(wǎng)絡(luò)在不同粒度提取到的語義信息更有利于情感分類。

表6 語義提取層對模型的影響

3.4.3 基于用戶和產(chǎn)品的損失值對模型性能的影響

本文通過試湊法進行權(quán)重配置,將用戶視角下的損失值lossu和產(chǎn)品視角下的損失值lossp作為輔助分類信息來幫助分類。為了對比lossu和lossp在最終損失函數(shù)中的占比程度對實驗結(jié)果的影響,選取具有代表性的四組權(quán)重,如表7 所示,λ1、λ2、λ3(λ1+λ2+λ3=1)是lossu、lossp、losst的權(quán)重系數(shù),權(quán)重1 用于考察不含輔助分類信息對分類的影響,權(quán)重2 和權(quán)重3 用于考察只含單一輔助信息對分類的影響,權(quán)重4 是本文選用的權(quán)重配置。實驗結(jié)果如圖2所示。

表7 不同損失權(quán)重配置

圖2 不同權(quán)重值對實驗的影響

由圖2(a)和圖2(b)可以看出,對三個數(shù)據(jù)集來講,本文模型選用的權(quán)重4 在兩個評價指標下的效果均優(yōu)于其他權(quán)重配比,這說明本文的參數(shù)設(shè)置是合理的。不含lossu和lossp作為輔助分類信息的權(quán)重1在兩個評價指標下均表現(xiàn)出最差的效果,這說明lossu和lossp可以起到幫助分類的效果。權(quán)重2和權(quán)重3在兩個評價指標下的效果各有千秋,這反映出lossu和lossp對最終分類結(jié)果的影響力相仿。綜上可知,lossu和lossp作為輔助分類信息能有效幫助分類,也證實本文的HNAIM 模型有一定的合理性。

4 結(jié)束語

針對評論文本提出HNAIM模型。由于文本中存在詞級、句級和篇章級等不同粒度的語義信息,因此該模型選擇層次網(wǎng)絡(luò)結(jié)構(gòu)。層次網(wǎng)絡(luò)首先利用BiLSTM 處理文本的詞級語義,得到的句級特征經(jīng)過BiLSTM進行處理,最終生成篇章級特征用作最后的分類。由于文本中描述詞與用戶和產(chǎn)品的相關(guān)度不同,層次網(wǎng)絡(luò)將用戶和產(chǎn)品信息分開建模。本模型在句級和篇章級利用注意力交互機制,在抽取文本中較為重要特征的同時,也嘗試抽取產(chǎn)品和用戶對分類貢獻度大的特征來幫助分類。三個公開數(shù)據(jù)集上的實驗結(jié)果表明本模型可以提高分類效果,具有一定的可行性。下一步將深入研究用戶和產(chǎn)品信息對分類效果的影響。

猜你喜歡
注意力向量分類
向量的分解
讓注意力“飛”回來
分類算一算
聚焦“向量與三角”創(chuàng)新題
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
“揚眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
向量垂直在解析幾何中的應(yīng)用