李 鑫 李曉戈
(西安郵電大學(xué)計(jì)算機(jī)學(xué)院 西安 710121)
隨著網(wǎng)絡(luò)社交平臺的發(fā)展,越來越多的人開始在網(wǎng)在上發(fā)表自己的觀點(diǎn)意見。例如,用戶在APP Store 中下載了應(yīng)用軟件之后,使用后就可能對軟件性能做出使用評價(jià)。對這些評論進(jìn)行文本信息挖掘,分析情感傾向,不僅可以幫助軟件開發(fā)者了解用戶反饋意見,而且還可以為用戶提供更好的決策。目前為止情感分析最主要方法是通過構(gòu)建情感詞典(特征提?。楦性~典主要包括幾種特定的情感詞典和采用不同方法構(gòu)建特定領(lǐng)域的情感詞典,再使用傳統(tǒng)機(jī)器學(xué)習(xí)方法如樸素貝葉斯,支持向量機(jī)等進(jìn)行分類。Pang 和Lee 根據(jù)傳統(tǒng)的機(jī)器學(xué)習(xí)方法在電影數(shù)據(jù)評論上取得了很好的效果[1],常用的幾種中文情感詞典是知網(wǎng)整理的情感詞典How-net 和臺灣大學(xué)發(fā)布的NTUSD,構(gòu)建特定領(lǐng)域的情感詞典主要方法有基于點(diǎn)互信息(PMI)[2~3]、基于依存關(guān)聯(lián)分析[4]和基于模式的Bootstrapping[5]、基于詞向量的方法構(gòu)建情感詞典[6]等。隨著深度學(xué)習(xí)在圖像,語音領(lǐng)域的快速發(fā)展,近些年來在自然語言處理領(lǐng)域也有了一定的應(yīng)用,Mikolov 等人提出了word2vec 模型,實(shí)現(xiàn)此模型有兩種形式分別是CBOW 和SKIP-GRAM,從而降低了詞向量維度,通過詞向量之間的距離來計(jì)算詞之間的相似度,張志華等所做的基于深度學(xué)習(xí)的情感詞向量及文本情感分析的研究使用了卷積神經(jīng)網(wǎng)絡(luò),將其應(yīng)用在情感分析領(lǐng)域得到了較好的效果[7];杜昌順,黃磊等所做的分段卷積神經(jīng)網(wǎng)絡(luò)在文本情感分析中的應(yīng)用,給卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分析提供了一種分段卷積方法的新思路可以減少過擬合情況發(fā)生[8];AVaswani等的使深度學(xué)習(xí)與用注意力模型相結(jié)合在英語到德語的機(jī)器翻譯中取得了較好的結(jié)果[9]。
通常情感分析是針對于具體領(lǐng)域的,例如分析視頻軟件領(lǐng)域的評論情感傾向,在這種情況下直接使用既定好的情感詞典,會使得情感詞覆蓋率比較低,從而導(dǎo)致情感傾向分類的查全率比較低。而特定領(lǐng)域情感詞典構(gòu)建需要人工挑選領(lǐng)域內(nèi)專有詞匯,對于篩選者的專業(yè)素養(yǎng)要求較高,而且人工篩選只能根據(jù)已有經(jīng)驗(yàn)篩選特征,一些難以預(yù)見的特征被忽略,從而在特征提取的過程中添加了主觀因素,影響后續(xù)的分類工作。由于深度學(xué)習(xí)本身具有諸多優(yōu)點(diǎn),端對端的模式可以使神經(jīng)網(wǎng)絡(luò)自動提取特征,實(shí)際在多領(lǐng)域已經(jīng)取得較好的效果,所以將其應(yīng)用于文本分類。本文采取基于深度學(xué)習(xí)理論的情感分析方法,循環(huán)神經(jīng)網(wǎng)絡(luò)相較于全連接神經(jīng)網(wǎng)絡(luò),其每個(gè)時(shí)間序列共享參數(shù),由于這種特殊的結(jié)構(gòu)使得它不僅可以選擇性地記憶上下文,而且還能極大地減少訓(xùn)練參數(shù),從而有效地降低計(jì)算成本和減少過擬合情況的發(fā)生,研究使用循環(huán)神經(jīng)網(wǎng)絡(luò)中的長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)[10~11],采用平均池化和最后時(shí)刻池化的方法,和使用注意力機(jī)制方法相對比,此外研究了使用字向量和詞向量不同輸入對于模型的影響,通過實(shí)驗(yàn)測試結(jié)果證明使用此方法對文本進(jìn)行情感分析有效可行。
本文神經(jīng)網(wǎng)絡(luò)運(yùn)用長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM),以及雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Bi LSTM)這兩種基礎(chǔ)網(wǎng)絡(luò),進(jìn)行情感分析總框圖如圖1 所示,主要步驟:運(yùn)用中文自然語言處理方法對于語句進(jìn)行分詞處理,使用word embedding 生成詞向量或字向量,利用訓(xùn)練數(shù)據(jù)對搭建的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,最后用測試數(shù)據(jù)進(jìn)行模型文本情感分析測試。圖1 中的Model 采用三種不同的方法進(jìn)行對比。
圖1 系統(tǒng)總架構(gòu)圖
將生成的字向量或詞向量依次輸入LSTM 中,再將結(jié)果經(jīng)過邏輯回歸層進(jìn)行輸出。使用注意力機(jī)制模型圖如圖2 所示,首先將文本進(jìn)行分詞生成向量形式,再將句子中每個(gè)詞的向量根據(jù)在語句中先后順序輸入雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)中,將每一時(shí)刻神經(jīng)元的輸出輸入到設(shè)定好的注意力層中,在注意力層中利用注意力機(jī)制通過反向傳播給每個(gè)輸入一個(gè)相關(guān)系數(shù),再將相關(guān)系數(shù)通過soft max 得到最終歸一化的相關(guān)度系數(shù),將此最終系數(shù)分別與神經(jīng)網(wǎng)絡(luò)層輸出相乘后相加,再將結(jié)果進(jìn)行線性變換得到最終輸出結(jié)果,具體見2.2 開始詳細(xì)講述每一層。
圖2 Model 1
在自然語言處理領(lǐng)域文本一般被用作詞向量表示,從最早期的one-hot 熱詞表示方法到word-embedding 詞嵌入,詞向量的表示已經(jīng)從最原始的稀疏無關(guān)聯(lián)變成稠密有聯(lián)系。一般采用word-embedding 將預(yù)處理過后的詞語轉(zhuǎn)化為向量的形式,例如Google 的word2vec 工具[12~14]。具體方法是將語句S 用詞語表示為(x0……xt)的序列,此方法通過一個(gè)規(guī)定大小的滑動窗口將序列作為一個(gè)三層的全連接的神經(jīng)網(wǎng)絡(luò)模型輸入,與自然語言處理中的n-gram 模型類似[15],目的是利用神經(jīng)網(wǎng)絡(luò)捕捉到上下文語義,并生成一個(gè)共享矩陣(詞向量矩陣),此詞向量不僅稠密而且捕捉到上下文語義,使詞與詞之間不孤立有聯(lián)系,將這種形式的詞向量作為神經(jīng)網(wǎng)絡(luò)的輸入。
2.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)如圖3 所示是一種相較于常規(guī)神經(jīng)網(wǎng)絡(luò)具有循環(huán)結(jié)構(gòu)的網(wǎng)絡(luò),通過等號右邊的展開圖可以看出對于每個(gè)輸入其共享神經(jīng)網(wǎng)絡(luò)內(nèi)部的參數(shù),循環(huán)神經(jīng)網(wǎng)絡(luò)理論上可以接受任意長度的序列(x0……xt)在處理文本信息時(shí)每個(gè)x 對應(yīng)一句文本的一個(gè)詞語,給網(wǎng)絡(luò)中每輸入一個(gè)詞語序列x 其對應(yīng)一個(gè)輸出h,此時(shí)的h 是通過這種循環(huán)的網(wǎng)絡(luò)結(jié)構(gòu)的輸出,其記憶了之前的輸入與此刻輸入的最終結(jié)果,但是由于實(shí)際應(yīng)用中循環(huán)過多會出現(xiàn)梯度消失的現(xiàn)象,使得最基本的循環(huán)神經(jīng)網(wǎng)絡(luò)無法滿足實(shí)際需求。
圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.3.2 長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)模型由于梯度消失導(dǎo)致其無法捕捉長時(shí)間依賴(Long-term Dependencies),而最單的的做法是更換循環(huán)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù),例如更換為Relu(rectified linear units)等激活函數(shù),但是更好的辦法是使用長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM),最早是由Hochreiter 和Schmidhuber 提出的一種特殊形式的RNN[16],如圖4 所示,其可以通過三種門結(jié)構(gòu)選擇細(xì)胞內(nèi)部應(yīng)該記住或者忘記的信息。
圖4 長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)圖
循環(huán)神經(jīng)網(wǎng)絡(luò)相較于全連接神經(jīng)網(wǎng)絡(luò)而言,其每個(gè)時(shí)刻的輸入共享同一組參數(shù),不僅解決了全連接神經(jīng)網(wǎng)絡(luò)的參數(shù)爆炸問題,而且由于其特殊的結(jié)構(gòu)可以通過門控單元選擇性地記憶與忘記,這種結(jié)構(gòu)適合文本這類具有上下文結(jié)構(gòu)形式的數(shù)據(jù)。長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)基于循環(huán)神經(jīng)網(wǎng)絡(luò),三個(gè)門控單元分別被稱為遺忘門、輸入門、輸出門[17],如圖5 所示。正是因?yàn)檫@種門結(jié)構(gòu),使得基礎(chǔ)循環(huán)神經(jīng)網(wǎng)絡(luò)梯度衰減的情況得以緩解。卷積神經(jīng)網(wǎng)絡(luò)在構(gòu)建的時(shí)候需要設(shè)置卷積核,卷積核的尺寸是固定的,其尺寸大小設(shè)置直接影響到最終結(jié)果,而長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)解決了上述問題,在下文中主要以這三個(gè)門控單元結(jié)構(gòu)展開詳細(xì)論述。
圖5 長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)細(xì)胞內(nèi)部結(jié)構(gòu)圖
遺忘門:通過遺忘門決定要丟棄的信息,規(guī)定ht-1為上一個(gè)時(shí)刻輸出,xt為當(dāng)前時(shí)刻輸入,wf為神經(jīng)網(wǎng)絡(luò)權(quán)重系數(shù),bf為偏置,讀取ht-1和xt加偏置通過激活函數(shù)sig mod 輸出一個(gè)0 到1 之間的數(shù)字記為ft。
輸入門:通過輸入門決定怎樣的新信息寄存在細(xì)胞狀態(tài)中,Wi表示神經(jīng)網(wǎng)絡(luò)的權(quán)重系數(shù),bi為偏置,第一個(gè)部分輸出是it,稱為輸入門層決定什么值將要更新;第二部分輸出為~Ct,此為經(jīng)過tanh 激活函數(shù)后創(chuàng)建的一個(gè)新的候選值向量。這時(shí)將上面得到的狀態(tài)進(jìn)行更新,把舊狀態(tài)Ct-1和ft相點(diǎn)乘,丟棄掉無用的信息,加上候選值向量與需要更新的it相點(diǎn)乘,這時(shí)需要更新的信息就加入到新的細(xì)胞狀態(tài)Ct中。
輸出門:決定輸出什么樣的信息,輸出結(jié)果是基于此刻的細(xì)胞狀態(tài),此刻輸入和上一時(shí)刻輸出。此刻的輸入和上一時(shí)刻的輸出經(jīng)過一個(gè)激活函數(shù)來確定細(xì)胞的哪個(gè)狀態(tài)被輸出稱為ot,將細(xì)胞的狀態(tài)Ct經(jīng)過tanh 激活函數(shù)與ot相點(diǎn)乘作為此刻細(xì)胞的輸出結(jié)果ht。
雙向LSTM:由于基本的LSTM 是根據(jù)前面信息推出后面的信息,這樣具有一定的局限性,從而出現(xiàn)了雙向LSTM,雙向神經(jīng)網(wǎng)絡(luò)中的隱藏層需要保存兩個(gè)值,一個(gè)參與正向計(jì)算一個(gè)參與反向計(jì)算,最終的輸出結(jié)果由這兩個(gè)輸出值決定,本文在實(shí)驗(yàn)中也使用了此雙向LSTM,稱為BILSTM。
為了進(jìn)行對比,在這里設(shè)計(jì)池化方式與注意力機(jī)制進(jìn)行對比稱為池化層。由于長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)每一個(gè)時(shí)間點(diǎn)對應(yīng)一個(gè)輸出ht,所以需要對于每個(gè)時(shí)刻的輸出進(jìn)行處理,本文采用平均池化的方法和使用最后一時(shí)刻輸出作為結(jié)果兩種方法如圖6 所示,平均池化方法如下式(7)所示,采用最終時(shí)刻的方法如式(8)所示。
圖6 Model 2
對于經(jīng)過池化層處理后的輸出進(jìn)行處理,將結(jié)果經(jīng)過soft max 函數(shù)進(jìn)行輸出就得到了最終輸出結(jié)果,在這里的soft max 函數(shù)的作用就相當(dāng)于邏輯回歸,Wy和by是神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練的參數(shù),y 是一個(gè)二維的向量,向量的第一維度表示條件概率在輸入語句為(x0……xt)時(shí),結(jié)果為正面的概率,即P(positive|x0……,xt),第二維度表示結(jié)果為負(fù)面的概率即P(negative|x0……,xt)。
注意力機(jī)制(Attention)在文本情感分析中實(shí)際是輸入句子中每個(gè)詞語與最終文本語義結(jié)果之間的相關(guān)度,表示輸入句子中每個(gè)詞與整個(gè)句子相對應(yīng)類別之間的緊密度。如下公式所示用s 表示Attention方法得到的句子語義特征,其中αi表示第i 個(gè)輸入詞語的重要度,其中β 為計(jì)算詞的重要度,在這里用雙正切函數(shù)來表示,VT是參數(shù)向量V 的轉(zhuǎn)置,最終輸出結(jié)果y 由加權(quán)關(guān)系程度之后的結(jié)果經(jīng)過soft max 函數(shù)得到。
本文模型訓(xùn)練通過最小化交叉熵作為訓(xùn)練目標(biāo),yi代表經(jīng)過soft max 處理過后的第i 個(gè)結(jié)果的概率大小,yi′表示實(shí)際第i 個(gè)值的情況,模型使用實(shí)現(xiàn)了Adam(adaptive moment estimation)優(yōu)化算法的AdamOptimizer 優(yōu)化器進(jìn)行優(yōu)化[18],目的是最小化交叉熵L 。
本文所使用的語料為360 手機(jī)助手中關(guān)于視頻類軟件評論共10000 條。其中9000 條作為訓(xùn)練數(shù)據(jù),1000 條作為測試數(shù)據(jù)。其中正面與負(fù)面評論各占一半。表1為數(shù)據(jù)集樣例。
表1 數(shù)據(jù)樣例
對于實(shí)驗(yàn)結(jié)果我們分為宏平均準(zhǔn)確率(MacroP)、宏平均召回率(MacroR)以及宏平均F1值(MacroF1)作為度量標(biāo)準(zhǔn)。N表示分類類別的總數(shù),true(ck) 表示在ck類別下分類正確的文本個(gè)數(shù),doc(ck) 表示在ck類別下所有的文本個(gè)數(shù),response(ck)表示在ck類別下應(yīng)有的文本數(shù)目,增加一組驗(yàn)證數(shù)據(jù)集,此數(shù)據(jù)集占總樣本的10%用來觀察神經(jīng)網(wǎng)絡(luò)參數(shù)調(diào)整的過程中驗(yàn)證數(shù)據(jù)集在模型上的表現(xiàn),能快速的對于模型進(jìn)行調(diào)整。如下所示:
在實(shí)驗(yàn)中將詞向量維度(word dimension)設(shè)置為200,LSTM 或者BiLSTM 規(guī)模維度設(shè)置為300,注意力規(guī)模維度設(shè)置為150,為了防止過擬合設(shè)置dropout probability為0.5[19]。
本文采用字向量和詞向量兩種不同形式的向量作為模型的輸入,研究了模型接受不同輸入形式對其影響。例如輸入語句:豐富多彩的東西,很好用的播放器。經(jīng)過分詞產(chǎn)生兩種不同形式例如:
字向量形式:豐富多彩的東西很好用的播放器;
詞向量的形式:豐富多彩的東西很好用的播放器。
表2 字向量與詞向量結(jié)果
通對以上實(shí)驗(yàn)結(jié)果分析發(fā)現(xiàn)針對同一模型使用不同的向量形式輸入會取得不同結(jié)果,利用詞向量結(jié)果明顯高于字向量約1%,分析原因在于因?yàn)樵~由字組成,構(gòu)成的形式多樣,從而能組成的空間較大,描述能力較強(qiáng),而由于字向量構(gòu)成相較少,組成空間小,描述能力沒有詞向量強(qiáng),由此證明了中文自然語言處理的重要性。
本文使用了LSTM,BiLSTM,平均池化,和最后時(shí)刻池化兩種方式,以及加入Attention機(jī)制對比實(shí)驗(yàn)。
1)LSTM+Mean:使用LSTM以及平均池化。
2)LSTM+Last:使用LSTM以及最后時(shí)刻池化。
3)LSTM+Attention:使用LSTM以及Attention。
4)Bi LSTM+Attention:使用雙向LSTM 以Attention。
表3 不同模型實(shí)驗(yàn)結(jié)果
通過實(shí)驗(yàn)1)、2)可以看出采用最后時(shí)刻池化效果要好于平均池化,原因是在情感分析中平均池化相當(dāng)于給模型輸入每個(gè)詞語一樣的權(quán)重,例如情感詞對于最終結(jié)果影響肯定是高于非情感詞如“播放器”和“好用的”相比較而言“好用的”是情感詞對于最終結(jié)果的貢獻(xiàn)度就大一些,從而如果使用平均池化這種方法給了情感詞和非情感詞一樣的權(quán)重就會造成這樣的結(jié)果;而使用最后一時(shí)刻作為池化,從結(jié)果看來明顯高出平均池化1%,分析原因是LSTM 具有記憶功能,它會記憶句子中較為重要的情感詞語,忘記影響不大的詞語,而最后一時(shí)刻的隱藏層包含了整個(gè)句子的語義,所以最后一時(shí)刻的輸出就可以近似代表整個(gè)句子的語義。
通過實(shí)驗(yàn)2)、3)可以看出帶Attention機(jī)制的模型效果明顯較好,這更加證明了Attention機(jī)制的有效性,分析原因在于加入Attention機(jī)制后模型會給句子中每個(gè)詞語加入一個(gè)與最終結(jié)果的相關(guān)程度,模型分配給情感類詞語的相關(guān)度明顯會高于非情感類詞語,這樣就能取的較高的實(shí)驗(yàn)結(jié)果。
通過實(shí)驗(yàn)3)、4)可以看出BiLSTM 結(jié)果優(yōu)于LSTM 模型,雙向LSTM 從上文和下文兩個(gè)方向出發(fā),模型考慮到了上下文,所以帶來的結(jié)果也是明顯優(yōu)于LSTM,證明了使用Bi LSTM的有效性。
為測試不同方法對于情感分類結(jié)果的影響,本文研究了運(yùn)用深度學(xué)習(xí)技術(shù)進(jìn)行情感分析,詞向量方法構(gòu)建的情感詞典、臺灣大學(xué)整理發(fā)布的NTUSD 情感詞典[20]和采用PMI 方法構(gòu)建的情感詞典進(jìn)行短文本情感分類的結(jié)果其中臺灣大學(xué)情感詞典,一共包括2810 個(gè)正面詞匯和8276 個(gè)負(fù)面詞匯,采用PMI 方法構(gòu)建的情感詞典包括2888 個(gè)正面詞匯和319 個(gè)負(fù)面詞匯,采用詞向量方法構(gòu)建的情感詞典包括正面情感詞匯268 個(gè)和負(fù)面情感詞匯307 個(gè)。采用深度學(xué)習(xí)方法不需要構(gòu)建情感詞典,如圖7 所示。采用詞向量方法構(gòu)建情感詞典是指利用詞嵌入方法生成詞向量,人工挑選出正負(fù)面種子詞若干個(gè),用計(jì)算向量距離方法找出與正負(fù)面情感詞距離相近的20 個(gè)詞語加入種子詞中,不斷循環(huán)擴(kuò)展種子詞集合直到種子詞數(shù)量不再增加為止,這時(shí)情感詞典建立完成,用種子詞集合中的每個(gè)詞語在正負(fù)面評論中出現(xiàn)的次數(shù)判斷擴(kuò)充后種子詞集合中詞語的正負(fù)極性,最后使用訓(xùn)練數(shù)據(jù)對貝葉斯分類器進(jìn)行訓(xùn)練,將得到的分類器應(yīng)用于測試數(shù)據(jù)結(jié)果。
1)NTUSD+NBC:采用臺灣大學(xué)情感詞典和樸素貝葉斯分類器。
2)PMI+NBC:采用PMI方法構(gòu)建情感詞典和樸素貝葉斯分類器。
3)Word embedding+NBC:采用詞向量方法構(gòu)建情感詞典和樸素貝葉斯分類器。
4)Bi LSTM+Attention:本文所提出的模型。
圖7 不同模型比較圖
實(shí)驗(yàn)結(jié)果如圖7所示,分析實(shí)驗(yàn)1)由于使用臺灣大學(xué)詞典是靜態(tài)詞典而評論中許多情感詞在其中沒有出現(xiàn)過,所以導(dǎo)致召回率較低,分析實(shí)驗(yàn)2),3)由于PMI方法構(gòu)建詞典和詞向量方法構(gòu)建領(lǐng)域內(nèi)詞典,使用該領(lǐng)域的情感詞相比較而言具有較高的召回率,從結(jié)果看來這兩種構(gòu)建特定領(lǐng)域內(nèi)的情感詞典都需要人工挑選種子詞,有一定的局限性,從比較結(jié)果可以看出實(shí)驗(yàn)4)使用深度學(xué)習(xí)方法在情感分類上可以得到較好的結(jié)果,比傳統(tǒng)的機(jī)器學(xué)習(xí)方法在三種評判標(biāo)準(zhǔn)上表現(xiàn)都要有效。
本文主要研究了基于深度學(xué)習(xí)的短文本情感分析,以神經(jīng)網(wǎng)絡(luò)中長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)為理論依據(jù),通過比較幾種不同的結(jié)構(gòu),結(jié)果顯示使用BiLSTM深度學(xué)習(xí)的方法進(jìn)行情感分析是有效的,這樣不僅提高了準(zhǔn)確率,而且更是讓整個(gè)過程自動化,不需要各個(gè)領(lǐng)域?qū)I(yè)知識背景,就可以進(jìn)行領(lǐng)域內(nèi)的情感分析,達(dá)到了實(shí)用性。由于互聯(lián)網(wǎng)信息巨大,人工標(biāo)注效率低,在以后工作中,我們更傾向于使用遷移學(xué)習(xí)[21]進(jìn)行處理,其優(yōu)點(diǎn)在于利用已有標(biāo)記的信息生成模型,從而去處理未標(biāo)記的信息。