国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于并行雙向門控循環(huán)單元與自注意力機制的中文文本情感分類

2020-06-22 03:59:20崔昕陽邵玉斌杜慶治
關鍵詞:語料注意力向量

崔昕陽 龍 華 熊 新 邵玉斌 杜慶治

(昆明理工大學 信息工程與自動化學院, 昆明 650000)

引 言

隨著近年來網(wǎng)絡信息技術的不斷發(fā)展,大量的電子文檔通過如網(wǎng)頁、社交網(wǎng)絡、電子郵件和數(shù)字圖書館等新興應用展示在人們面前。在處理如此大量信息的過程中,文本分類已經(jīng)成為挖掘和分類文本文檔的關鍵技術。文本分類目前已經(jīng)在許多領域得到了成功的應用與發(fā)展,其中最重要的一個領域便是文本情感分類[1]。文本情感分類是情感分析的重要分支之一,也稱為意見或觀點挖掘,具有巨大的社會和商業(yè)價值,可應用于輿情分析[2],使政府了解人們對某一社會事件的情感趨勢,也可用于電商的產(chǎn)品評論[3],分析顧客對某一產(chǎn)品的情感態(tài)度(如積極或消極),使廠商獲得即時的反饋以便進行產(chǎn)品改良和生產(chǎn)量的調整。

早期的文本情感分類方法主要通過構建情感詞典,依據(jù)詞語的情感程度給予不同的分值,最終得到某一文本或句子的情感傾向即為所包含情感詞的分值的加權求和。但這種方法不僅需要人工構建大型的情感詞典庫,也沒有考慮到文本中的語義信息。之后的基于機器學習的文本情感分類方法也取得了一定的效果,如樸素貝葉斯和支持向量機等算法[4]。但傳統(tǒng)的機器學習方法通常采用詞袋模型進行文本表示,忽視了詞語的位置信息和詞之間的關聯(lián)信息,且存在文本向量稀疏、維度過高和需要進行特征選擇等問題。近年來,許多學者采用深度學習方法進行情感分類研究,并取得了較好的效果[5]。神經(jīng)網(wǎng)絡模型主要包括卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNN)和循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network, RNN)兩大類,其中RNN主要是指長短時記憶(long short-term memory,LSTM)網(wǎng)絡和門控循環(huán)單元(gated recurrent unit, GRU)網(wǎng)絡。對于基于深度學習的文本情感分類研究,對詞語進行低維、非稀疏的向量學習表示是極為關鍵的步驟[6],這個過程也稱詞嵌入。詞向量是指詞語經(jīng)過詞嵌入過程得到的低維稠密的向量,其可以有效表征詞語的語義信息[7],在自然語言處理領域中被廣泛應用,而當前使用最為廣泛的詞向量生成工具是Word2vec。

目前通常使用預訓練的詞向量表示文本,從而作為神經(jīng)網(wǎng)絡的輸入來對文本進行情感分類。預訓練的詞向量一般采用Word2vec工具依據(jù)原語料或通用語料訓練生成,其中原語料為所要研究的情感分類數(shù)據(jù)集,而通用語料則是由人工整理所得的大型文本數(shù)據(jù)集,如維基百科、新浪新聞等數(shù)據(jù)集。由于原語料與通用語料相比數(shù)據(jù)量較小[8],網(wǎng)絡往往不能得到充足訓練,而導致生成的詞向量語義表征能力較差以及模型泛化能力較差[9]。而由通用語料預訓練生成的詞向量語義表征能力較強,但是存在未登錄詞問題,即原語料中的某些詞語不存在與之對應的詞向量。關于未登錄詞的解決方法,目前主要采用詞向量隨機初始化或補零來對未登錄詞進行表示[9-10]。然而上述解決方法在對文本表示過程中都存在信息量丟失的問題,即不能完全表示文本原有語義信息,從而影響最終的分類效果。因此,本文提出一種并行雙向GRU模型,充分利用兩種詞向量進行文本表示以解決原文本信息丟失問題,通過上下兩個通道來學習文本中詞語的上下文信息并結合自注意力機制進行情感分類,并通過實驗驗證了該模型的分類性能。

1 文本情感分類與Word2vec

1.1 文本情感分類

文本情感分類是指通過計算機技術挖掘文本所表達的情感傾向[11]。當前采用深度學習與神經(jīng)網(wǎng)絡進行文本情感分類研究已經(jīng)成為主流,其優(yōu)勢在于無需人工特征選擇,機器可自動進行特征提取[12]。深度學習技術早期主要應用于圖像和音頻處理,而隨著詞向量的普遍使用,深度學習開始被廣泛應用于自然語言處理領域。在基于深度學習的文本情感分類方法中,CNN的優(yōu)勢在于可以有效提取局部特征。而相較于CNN,RNN具有記憶單元,由于當前時刻輸出不僅與當前輸入有關,更與過去時刻有關,所以其更適用于處理時序數(shù)據(jù)。學者們針對如何將這兩種模型更好地應用于文本分類進行了大量的研究。Kim[13]使用預訓練的詞向量對文本進行表示,并嘗試通過不同尺寸卷積核的CNN來解決文本分類任務,在不同數(shù)據(jù)集上取得了良好的分類效果。Parwez等[14]提出一種利用兩種不同領域預訓練的詞向量的雙通道CNN模型進行文本情感分類,并探究了通道結合方式。Socher等[15]使用RNN進行了電影評論情感分類研究。Nabil等[16]使用GRU進行情感分類,在英文推文數(shù)據(jù)集上取得了一定效果。Jabreel等[17]使用雙向GRU來識別給定推文中特定目標的情感極性。楊玉娟等[18]提出一種加權詞向量的LSTM模型,從而突出文本情感分類中關鍵詞的作用。Lai等[19]結合兩者優(yōu)點,首先采用雙向RNN學習詞語的上下信息,并通過最大池化層來捕捉全文最重要的信息,再進行文本分類。注意力機制由于具有可以發(fā)現(xiàn)重要特征的特點,將該機制與神經(jīng)網(wǎng)絡模型相結合可更有效地進行特征提取。Yin等[20]將注意力機制與CNN結合來對句子進行建模,效果優(yōu)于傳統(tǒng)神經(jīng)網(wǎng)絡模型。Padi等[21]使用GRU并結合注意力機制用于文本語言的識別,取得一定效果。Zhou等[22]提出基于雙向LSTM和注意力機制的網(wǎng)絡模型來進行關系分類。韓虎等[23]通過注意力機制來計算不同詞和句子的權重,獲取詞級和句子級的文本語義信息進行文本情感分類,分類準確率較其他模型有所提升。江偉等[9]采用注意力機制來學習文本中由不同詞構成的短語權重,使得文本的語義表示學習更加準確,在多個英文數(shù)據(jù)集上取得了當前最好的文本分類效果。吳小華等[24]提出基于自注意力和雙向LSTM的文本情感分析模型,由于自注意力機制(self-attention)參數(shù)依賴較少,最終分類效果優(yōu)于其與注意力機制結合的方法。

當下大部分研究均注重于通過調整模型結構來更深層次挖掘文本語義信息,而忽視了不同詞向量對文本語義表達的影響。本文借鑒Parwez等[14]的研究思路,通過兩種詞向量對文本進行表示。原語料生成的詞向量可解決未登陸詞問題,而通用語料生成的詞向量具有較強的表征和泛化能力,結合兩者優(yōu)點,使用雙向GRU來對兩者表示的文本進行詞語上下文信息的學習,并結合自注意力機制學習詞語權重;隨后通過并行向量融合來充分保留原文信息,從而進行情感分類。

1.2 Word2vec

Word2vec是目前最為廣泛使用的詞嵌入工具,它使用跳詞模型(skip-gram model)或連續(xù)詞袋模型(continuous bag-of-words model)來生成詞向量[7]。對于一個中心詞,跳詞模型的目的是預測其上下文詞語。在數(shù)學上,對于一個詞語序列{w1,…,wt,…,wT},跳詞模型的目標函數(shù)是優(yōu)化平均對數(shù)概率,如式(1)所示。

(1)

式中c代表固定的上下文窗口尺寸。

2 基于并行雙向GRU網(wǎng)絡與自注意力機制的網(wǎng)絡模型

本文所提出的網(wǎng)絡模型具體結構如圖1所示。

首先利用原語料和通用語料訓練生成兩種詞向量,分別經(jīng)過不同通道對同一文本進行表示,然后通過并行的雙向GRU學習不同詞向量表示的文本的詞語上下文信息,再采用自注意力機制學習詞語權重也即找出關鍵詞進行關鍵詞加權,然后通過向量融合對不同通道得到的文本加權向量表示進行融合,最后經(jīng)過全連接層使用Softmax激活函數(shù)進行情感判定。

2.1 詞嵌入層

通過詞嵌入層,即使用不同的詞嵌入模型將文本中的詞轉換成對應的向量,捕捉文本的語義信息,形成文本的向量表示。設輸入的文本序列為T={wi,…,w|T|},其中每個詞語w都來自于詞匯表V={w1,…,w|v|}。在詞嵌入矩陣W∈R|v|×d查找文本中每個詞對應的向量表示x∈R1×d,其中d表示詞向量的維度,則此時文本序列T的向量表示為{xi,…,x|T|}∈R|T|×d。

與傳統(tǒng)模型不同,本文模型采用并行結構,在詞嵌入層通過兩個獨立詞嵌入矩陣Wo、Wp分別表示同一文本序列T,如式(2)和(3)所示。

(2)

(3)

2.2 雙向門控循環(huán)單元層

Cho等[25]提出的GRU網(wǎng)絡是LSTM網(wǎng)絡的一種簡化變體。GRU僅由重置門和更新門組成,從而調控信息的流動,并沒有單獨的記憶單元。GRU和LSTM的性能相近,且GRU網(wǎng)絡參數(shù)更少,可在一定程度上降低過擬合的風險[26],因此本文選用GRU網(wǎng)絡。GRU的基本結構如圖2所示。

圖2所示的標準GRU網(wǎng)絡結構由式(4)~(7)定義。

(4)

zt=σ(Wzxt+Uzht-1+bz)

(5)

rt=σ(Wrxt+Urht-1+br)

(6)

(7)

ht=[ht1,ht2]

(8)

2.3 注意力層

注意力機制在開始被應用于自然語言處理領域,最早在機器翻譯任務中取得了不俗的效果。注意力機制的主要目的是找出隱藏狀態(tài)中較為重要的特征,即對RNN每一時刻的輸出的重要程度進行判定,從而對每一時刻的輸出加權。本文采用自注意力機制對BiGRU中每一刻的隱藏狀態(tài)的權重進行學習。自注意力的具體計算方法如式(9)、(10)所示。

(9)

(10)

(11)

2.4 向量融合層

不同于傳統(tǒng)的序列型網(wǎng)絡結構,本文采用并行的雙通道結構,對于同一輸入在上下兩通道使用兩種不同的詞向量表示。通過上下兩個通道的BiGRU和注意力層后可得到同等維度的加權輸出向量co和cg,在向量融合層對兩個向量并行融合,其中co和cg分別為對上下兩個通道的文本表示To和Tp進行上下文信息學習和隱狀態(tài)權值計算后的最終加權向量表示。對于兩個通道的加權輸出向量,本文采用拼接(concatenate)和平均(average)兩種不同的運算操作進行向量融合,提出了兩種模型結構,并就其情感分類效果進行比較。

2.4.1SAT-BiGRU-CON結構

模型SAT- BiGRU- CON采用concatenate運算操作進行向量融合,如式(12)所示。

v=co⊕cg

(12)

式中符號⊕表示向量的拼接操作即向量和,v為經(jīng)過向量融合層的最終文本向量表示,并作為全連接層的輸入向量。

2.4.2SAT-BiGRU-AVA結構

模型SAT- BiGRU- AVA結構與模型SAT- BiGRU- CON類似,其融合向量co和cg采用對應元素相加取平均的計算方法,如式(13)所示。

(13)

同樣,此時的最終文本向量表示v將作為全連接層的輸入向量。

2.5 全連接層

模型最后一層為全連接層,輸入為特征融合層的輸出,該層的輸出為類別的概率分布。類別的概率分布通過Softmax激活函數(shù)計算得出,具體算法如式(14)所示。

(14)

式中wk和bk分別為權重和偏置向量,K為類別數(shù),對于二分類問題,K=2。

3 實驗分析

3.1 實驗數(shù)據(jù)與環(huán)境

為驗證模型有效性,選用兩個公共數(shù)據(jù)集進行實驗。數(shù)據(jù)集1是公共中文數(shù)據(jù)集[6],該數(shù)據(jù)集由酒店評論文本構成,共包含6 000條數(shù)據(jù),分為正向和負向兩類各3 000條評論文本。數(shù)據(jù)集2為NLPCC2014任務2中文情感分類數(shù)據(jù)集[27],由正、負向各5 000條網(wǎng)絡商品評論文本組成。兩個數(shù)據(jù)集的部分文本內容如表1所示。本文在兩個數(shù)據(jù)集上均采用5折交叉驗證進行實驗。

表1 數(shù)據(jù)集1和數(shù)據(jù)集2部分示例

全部實驗均在Google Colaboratory上完成,其為谷歌開發(fā)的一款云計算平臺,主要用于機器學習的開發(fā)與研究。平臺操作系統(tǒng)為Ubuntu 18.04.2,內存12 GB,GPU為Tesla K80。采用Python語言以及Keras框架實現(xiàn)本文所提模型,Python版本為3.6.8,Keras版本為2.2.4。

3.2 評價指標

本文采用傳統(tǒng)的文本分類評價標準,包括查準率P(precision)、查全率R(recall)、準確率A(accuracy)和F1值[28]。

(15)

(16)

(17)

F1值為查準率和查全率的調和均值,用于對查準率和查全率進行整體評價。

(18)

式中,TP為被正確判定為正向的文本個數(shù),F(xiàn)P為被錯誤判定為正向的文本個數(shù),F(xiàn)N為被錯誤判定為負向的文本個數(shù),TN為被正確判定為負向的文本個數(shù)。

3.3 超參數(shù)設定

固定輸入文本的長度,對于數(shù)據(jù)集1最大長度設置為60,數(shù)據(jù)集2最大長度為50。若文本長度大于該值則進行截斷,小于該值則進行補零。每個BiGRU的隱藏層節(jié)點數(shù)為128。為防止過擬合,Dropout設置為0.5。采用Adam優(yōu)化器進行參數(shù)更新,初始學習率(learning rate)為0.001,批處理數(shù)量(batch size)為32。

3.4 實驗預處理

3.4.1數(shù)據(jù)預處理

采用Jieba分詞工具分別對數(shù)據(jù)集1酒店評論文本和數(shù)據(jù)集2網(wǎng)絡評論文本進行分詞,詞與詞之間用空格隔開,完成分詞的文本數(shù)據(jù)集作為詞向量的訓練語料。

3.4.2原語料詞向量構建

完成數(shù)據(jù)預處理后,分別對兩個數(shù)據(jù)集生成的訓練語料使用Word2vec工具生成原語料的詞向量,從而構建詞嵌入矩陣。本文選擇Word2vec中的skip- gram模型來預訓練原語料生成詞向量,上下文窗口尺寸設置為5,采用負采樣算法進行模型訓練,剩余參數(shù)的設置為默認值。Word2vec的具體參數(shù)值設置如表2所示。

表2 Word2vec具體參數(shù)設置

3.4.3通用語料詞向量

通用語料詞向量選擇則使用Chinese Word Vector中的中文維基百科預訓練詞向量[8],該預訓練詞向量同樣采用skip- gram模型生成。

3.5 實驗設計

將所提模型與多個模型進行對比,參數(shù)設置與本文相同,均采用通用語料的預訓練詞向量。對比模型主要包括以下幾種模型。

(1)GRU 采用標準的GRU網(wǎng)絡對文本進行情感分類[16]。

(2)BiGRU 采用BiGRU網(wǎng)絡,同時從正向和逆向兩個方向對詞語進行上下文學習,然后預測情感類別[17]。

(3)雙向長短時記憶網(wǎng)絡(bidirectional long short-term memory, BiLSTM)模型 采用BiLSTM網(wǎng)絡進行情感類別判定,與BiGRU結構類似。

(4)基于預訓練詞向量的雙向門控循環(huán)單元與自注意力機制結合的網(wǎng)絡模型(SAT- BiGRU) 通過通用語料的預訓練詞向量來表示文本,并采用BiGRU網(wǎng)絡進行詞語上下文學習,結合自注意力機制對每一時刻狀態(tài)進行學習,給予不同權重,最終得到文本的加權向量表示來進行類別判定。

(5)基于原語料預訓練詞向量的雙向門控循環(huán)單元與自注意力機制結合的網(wǎng)絡模型(SAT- BiGRU- ORG) 結構與SAT- BiGRU相同,不同點在于使用原語料構建的詞向量對文本進行表示,作為BiGRU的輸入。

(6)SAT- BiGRU- CON與SAT- BiGRU- AVA 即本文所提出的兩種模型,基于BiGRU網(wǎng)絡,通過雙通道對兩種不同詞向量表示的文本進行語義學習,并結合自注意力機制學習隱藏狀態(tài)的權重分布。對于兩個通道的加權輸出向量,分別采用concatenate和average兩種方法進行向量融合。

3.6 結果分析

從表3和表4的結果可以看出,本文所提出的兩種模型SAT- BiGRU- CON和SAT- BiGRU- AVA均達到了最好的分類效果,即使用兩種詞向量對文本進行表示作為神經(jīng)網(wǎng)絡的輸入,獲得的分類效果要優(yōu)于傳統(tǒng)序列模型。同時采用自注意力機制可進行每一時刻的隱狀態(tài)進行加權,獲得更加精準的文本向量表示。與采用單一語料的SAT- BiGRU和SAT- BiGRU- ORG模型相比,在兩個數(shù)據(jù)集上分類效果均提升明顯,其中在數(shù)據(jù)集1上準確率分別提高1.5%和1.75%,同時F1值也有明顯提升;數(shù)據(jù)集2上則最多分別提高了1.80%和1.85%。這說明通過上下兩個通道采用通用語料和原語料兩種詞向量對文本進行表示,然后進行詞語上下文信息學習和特征加權,可有效彌補采用單一語料對文本進行表示存在的不足,既充分利用預訓練詞向量的泛化能力,也使原語料訓練詞向量不存未登錄詞的優(yōu)點得以發(fā)揮,從而使準確率和F1值均有所提升。

而通過表3和表4中SAT- BiGRU與SAT- BiGRU- ORG的實驗結果對比也可以看出,采用通用語料預訓練詞向量的模型分類結果要略微好于原語料訓練詞向量,主要原因是通用語料文本數(shù)量較多,學習到的詞向量用于網(wǎng)絡學習,得到的模型泛化能力較強。但由于中文語料存在分詞等問題,通用語料會存在未登錄詞,所以相對原語料來說,不能較好地對文本進行表示。從而在兩個數(shù)據(jù)集上的實驗效果來看,兩者差異較小,只是采用通用語料預訓練詞向量分類效果較優(yōu)。

表3 酒店評論數(shù)據(jù)集下不同模型的實驗結果

表4 商品評論數(shù)據(jù)集下不同模型的實驗結果

同時,SAT- BiGRU- CON比SAT- BiGRU- AVA在兩個數(shù)據(jù)集上的分類準確率分別高出0.4%和0.5%,說明采用concatenate操作來進行向量融合相對來說要較優(yōu)于average操作。原因主要為concatenate操作完全保留了上下兩個通道輸出的特征加權向量所蘊含的信息,而average操作在運算過程中使某一通道輸出向量所含的原始信息產(chǎn)生了損失,所以兩者在最終分類效果上產(chǎn)生了微小的差異。

4 結束語

為解決神經(jīng)網(wǎng)絡采用單一預訓練的詞向量存在未登錄詞和詞語語義學習不充分的問題,本文提出了一種基于并行雙向GRU與自注意力機制的情感分類模型,使用原語料和通用語料預訓練的兩種不同詞向量對文本進行表示,作為雙向GRU網(wǎng)絡的輸入;通過上下兩個通道分別對文本進行詞語上下文信息的捕捉,得到表征向量,再依靠自注意力機制學習每一時刻隱狀態(tài)權重,最后對雙通道的加權輸出向量進行向量融合,作為輸入進入全連接層來判別情感傾向。在中文酒店評論和網(wǎng)絡商品評論兩個數(shù)據(jù)集上進行的相關實驗表明,本文所提模型可更好地對文本進行表示并提取特征,相比于其他模型,本文模型具有更好的分類效果。

然而,目前分詞技術未能達到100%的準確率,且網(wǎng)絡文本的表述并不規(guī)范,導致文本在分詞后語義發(fā)生轉變,從而對分類效果產(chǎn)生消極影響。所以在下一步的工作中,將會關注字向量對文本情感分類的影響。

猜你喜歡
語料注意力向量
向量的分解
讓注意力“飛”回來
聚焦“向量與三角”創(chuàng)新題
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
A Beautiful Way Of Looking At Things
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉圓錐曲線
華語電影作為真實語料在翻譯教學中的應用
《苗防備覽》中的湘西語料
和田县| 洪湖市| 抚宁县| 武乡县| 和平县| 襄垣县| 上高县| 林口县| 新营市| 永新县| 娱乐| 甘孜县| 曲麻莱县| 洛宁县| 万宁市| 保山市| 松桃| 同江市| 大庆市| 芜湖市| 肥东县| 嵊州市| 万荣县| 会宁县| 宜良县| 荆门市| 台安县| 文山县| 诸暨市| 长白| 嘉定区| 赫章县| 靖江市| 清镇市| 伊金霍洛旗| 万安县| 新巴尔虎右旗| 邓州市| 卢氏县| 瑞昌市| 定远县|